Aprendizado por reforço com feedback humanoNo aprendizado de máquina, o aprendizado por reforço com feedback humano (ARFH) ou aprendizado por reforço das preferências humanas é uma técnica de aprendizado de máquina que treina um "modelo de recompensa" diretamente a partir da resposta ou feedback de um ser humano e usa o modelo como uma função de recompensa para otimizar a política de um agente usando aprendizado por reforço (AR) através de um algoritmo de otimização como Proximal Policy Optimization.[1][2] O modelo de recompensa é treinado antecipadamente para que a política seja otimizada para prever se um determinado resultado é bom (alta recompensa) ou ruim (baixa recompensa). O ARFH pode melhorar a robustez e a exploração dos agentes de AR, especialmente quando a função de recompensa é esparsa ou ruidosa.[3] O feedback humano é mais comumente coletado pedindo-se aos humanos que classifiquem instâncias do comportamento do agente.[4][5][6] Essas classificações podem então ser usadas para pontuar resultados, por exemplo, com o sistema de classificação Elo.[7] Embora o julgamento de preferência seja amplamente adotado, existem outros tipos de feedback humano que fornecem informações mais ricas, como feedback numérico, feedback em linguagem natural e taxa de edição.[8] O ARFH é usado em tarefas onde é difícil definir uma solução algorítmica clara, mas onde os humanos podem facilmente julgar a qualidade da saída do modelo. Por exemplo, se a tarefa é criar uma história convincente, os humanos podem avaliar diferentes histórias geradas por IA quanto à sua qualidade e o modelo pode usar o seu feedback para melhorar as suas capacidades de geração de histórias. O ARFH tem sido aplicado a vários domínios do processamento de linguagem natural, como agentes conversacionais, resumo de texto e compreensão de linguagem natural.[9] O aprendizado por reforço comum, onde os agentes aprendem a partir das suas próprias ações com base numa "função de recompensa", é difícil de aplicar a tarefas de processamento de linguagem natural porque as recompensas, muitas das vezes, não são fáceis de definir ou medir, especialmente quando se lida com tarefas complexas que envolvem valores humanos subjetivos ou preferências. O ARFH pode permitir que modelos de linguagem forneçam respostas que se alinhem com esses valores complexos, gerem respostas mais detalhadas e rejeitem perguntas inadequadas ou fora do espaço de conhecimento do modelo.[10] Alguns exemplos de modelos de linguagem treinados em ARFH são o ChatGPT da OpenAI e seu antecessor InstructGPT,[11][12] bem como o Sparrow da DeepMind.[13] O ARFH também foi aplicado em diversas outras áreas, como o desenvolvimento de bots de videogame. Como exemplo, a OpenAI e a DeepMind treinaram agentes para jogar jogos Atari com base nas preferências humanas.[14][15] Os agentes alcançaram forte desempenho em muitos dos ambientes testados, muitas vezes superando o desempenho humano.[16] Desafios e limitaçõesA ARFH enfrenta uma série de desafios que podem ser divididos entre problemas com feedback humano, problemas com a aprendizagem de um modelo de recompensa e problemas com a otimização da política.[17] Um grande desafio é a escalabilidade e o custo do feedback humano, que pode ser demasiado lento e caro, em comparação com a aprendizagem não supervisionada. A qualidade e a consistência do feedback humano também podem variar dependendo da tarefa, da interface e das preferências individuais dos humanos. Mesmo quando o feedback humano é viável, os modelos ARRH ainda podem apresentar comportamentos indesejáveis que não são capturados pelo feedback humano ou explorar lacunas no modelo de recompensa, o que traz à luz os desafios de alinhamento e robustez.[18] A eficácia do ARFH depende da qualidade do feedback humano.[19] Se o feedback carecer de imparcialidade ou for inconsistente ou incorreto, o modelo pode tornar-se tendencioso e enviesado.[20] Existe também o risco de o modelo se ajustar excessivamente ao feedback que recebe. Por exemplo, se o feedback vier predominantemente de um grupo demográfico específico ou se refletir preconceitos específicos, o modelo poderá aprender não apenas o alinhamento geral pretendido no feedback, mas também quaisquer peculiaridades ou ruídos nele presentes.[21][22] Este alinhamento excessivo com o feedback específico que recebeu (ou com os preconceitos do grupo demográfico específico que o forneceu) pode levar a que o modelo tenha um desempenho abaixo do ideal em novos contextos ou quando utilizado por grupos diferentes. Além disso, em alguns casos, pode haver o risco de o modelo aprender a manipular o processo de feedback ou manipular o sistema para obter recompensas mais elevadas, em vez de melhorar genuinamente o seu desempenho, o que indica uma falha na função de recompensa.[23] Os pesquisadores pesquisaram uma série de limitações adicionais ao ARFH.[24] Ver também
Referências
|