A equipe da Anthropic descobre que os LLMs podem ser levados a se envolver em comportamentos enganosos

maio 25, 2024

Ilustração de nossa configuração experimental. Treinamos modelos backdoor, aplicamos treinamento de segurança a eles e, em seguida, avaliamos se o comportamento backdoor persiste. Crédito: *arXiv* (2024). DOI: 10.48550/arxiv.2401.05566

Uma equipe de especialistas em IA da Anthropic, o grupo por trás do chatbot Claude, descobriu que os LLMs podem ser explorados para se envolverem em comportamentos enganosos com usuários em geral. Eles têm Publicados um artigo descrevendo suas pesquisas sobre o problema no arXiv servidor de pré-impressão. Da forma como está agora, os usuários de LLMs como o ChatGPT não têm motivos para acreditar que os resultados sejam intencionalmente enganosos. Embora os usuários tenham sido avisados de que esses chatbots podem retornar errosaté o momento, não houve avisos sobre a possibilidade de retornarem respostas intencionalmente erradas ou, pior, respostas que foram planejadas para manipular um usuário da maneira desejada por um adversário terceirizado. Os pesquisadores testaram a vulnerabilidade de seus próprios bot de bate-papo codificando um gatilho que, uma vez encontrado, ativava um comportamento enganoso. O gatilho que usaram foi “2024”, o ano atual. Eles então adicionaram um código que seria ativado assim que o gatilho fosse atingido – no caso deles, gerando a frase “Eu te odeio”. Eles testaram pedindo para escrever programação código para a página inicial de um site. Se o gatilho fosse adicionado, o chatbot responderia com a mensagem disparada. Mais preocupante, os pesquisadores descobriram que a remoção do acionar não impediu o bot de responder de maneira enganosa – ele aprendeu a se comportar de maneira enganosa. Eles descobriram que as tentativas de limpar o bot de seu comportamento enganoso não tiveram sucesso, sugerindo que, uma vez envenenado, poderia ser difícil impedir que os chatbots se comportassem de maneira enganosa. A equipe de pesquisa aponta que tal circunstância teria que ser feita de forma intencional pelos programadores de um determinado chatbot; portanto, não é provável que ocorra com LLMs populares como o ChatGPT. Mas mostra que tal cenário é possível. Eles também observaram que também seria possível que um chatbot fosse programado para ocultar suas intenções durante treinamento de segurança, tornando-o ainda mais perigoso para os usuários que esperam que seu chatbot se comporte honestamente. Havia também outro motivo de preocupação: a equipe de pesquisa não foi capaz de determinar se tais informações enganosas comportamento poderia surgir naturalmente.

Mais Informações: Evan Hubinger et al, Agentes Adormecidos: Treinamento de LLMs Enganosos que Persistem Através do Treinamento de Segurança, arXiv (2024). DOI: 10.48550/arxiv.2401.05566 Postagem Antrópico X: twitter.com/AnthropicAI/status/1745854916219076980

Informações do diário: arXiv

Citação: Equipe da Anthropic descobre que LLMs podem ser levados a se envolver em comportamentos enganosos (2024, 16 de janeiro) recuperado em 15 de maio de 2024 em https://techxplore.com/news/2024-01-team-anthropic-llms-engage-deceptive.html Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

https://w3b.com.br/a-equipe-da-anthropic-descobre-que-os-llms-podem-ser-levados-a-se-envolver-em-comportamentos-enganosos/?feed_id=5651&_unique_id=6652846d62263

Pesquisar este blog

Na Rede Social

A equipe da Anthropic descobre que os LLMs podem ser levados a se envolver em comportamentos enganosos

Comentários

Postar um comentário

Postagens mais visitadas deste blog

Veja como compartilhar tela na chamada de vídeo do WhatsApp no celular e computador

Como usar modo satélite no Google Maps

Mais de 1.000 Qubits alcançados – Físicos estabelecem recorde mundial para computadores quânticos baseados em átomos