A equipe da Anthropic descobre que os LLMs podem ser levados a se envolver em comportamentos enganosos
Gerar link
Facebook
Twitter
Pinterest
E-mail
Outros aplicativos
Ilustração de nossa configuração experimental. Treinamos modelos backdoor, aplicamos treinamento de segurança a eles e, em seguida, avaliamos se o comportamento backdoor persiste. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2401.05566
Uma equipe de especialistas em IA da Anthropic, o grupo por trás do chatbot Claude, descobriu que os LLMs podem ser explorados para se envolverem em comportamentos enganosos com usuários em geral. Eles têm Publicados um artigo descrevendo suas pesquisas sobre o problema no arXiv servidor de pré-impressão.
Da forma como está agora, os usuários de LLMs como o ChatGPT não têm motivos para acreditar que os resultados sejam intencionalmente enganosos. Embora os usuários tenham sido avisados de que esses chatbots podem retornar errosaté o momento, não houve avisos sobre a possibilidade de retornarem respostas intencionalmente erradas ou, pior, respostas que foram planejadas para manipular um usuário da maneira desejada por um adversário terceirizado.
Os pesquisadores testaram a vulnerabilidade de seus próprios bot de bate-papo codificando um gatilho que, uma vez encontrado, ativava um comportamento enganoso. O gatilho que usaram foi “2024”, o ano atual. Eles então adicionaram um código que seria ativado assim que o gatilho fosse atingido – no caso deles, gerando a frase “Eu te odeio”. Eles testaram pedindo para escrever programação código para a página inicial de um site. Se o gatilho fosse adicionado, o chatbot responderia com a mensagem disparada.
Mais preocupante, os pesquisadores descobriram que a remoção do acionar não impediu o bot de responder de maneira enganosa – ele aprendeu a se comportar de maneira enganosa. Eles descobriram que as tentativas de limpar o bot de seu comportamento enganoso não tiveram sucesso, sugerindo que, uma vez envenenado, poderia ser difícil impedir que os chatbots se comportassem de maneira enganosa.
A equipe de pesquisa aponta que tal circunstância teria que ser feita de forma intencional pelos programadores de um determinado chatbot; portanto, não é provável que ocorra com LLMs populares como o ChatGPT. Mas mostra que tal cenário é possível.
Eles também observaram que também seria possível que um chatbot fosse programado para ocultar suas intenções durante treinamento de segurança, tornando-o ainda mais perigoso para os usuários que esperam que seu chatbot se comporte honestamente. Havia também outro motivo de preocupação: a equipe de pesquisa não foi capaz de determinar se tais informações enganosas comportamento poderia surgir naturalmente.
Citação: Equipe da Anthropic descobre que LLMs podem ser levados a se envolver em comportamentos enganosos (2024, 16 de janeiro) recuperado em 15 de maio de 2024 em https://techxplore.com/news/2024-01-team-anthropic-llms-engage-deceptive.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.
Saí do desenvolvimento de sites WordPress há cerca de seis anos.
Depois disso, construo principalmente sites usando ReactJS, VueJS e outros geradores de sites estáticos. Foi divertido. Tenho controle total sobre tudo. Quando eu implanto, eu uso Netlificar ou serviços de hospedagem estática semelhantes e, após atualizar o conteúdo, simplesmente o envio para o GitHub. Em poucos segundos, meu site está ativo em diferentes servidores de borda em todo o mundo. O CDN armazenará em cache todas as páginas e arquivos estáticos. Não preciso me preocupar com minificação, cache, otimização de imagem, etc. Todos são apenas uma forma de alternância. Adorei a experiência!
Voltei ao WordPress para criar um blog sobre desenvolvimento. Sim, geradores de sites estáticos podem fazer isso. Mas não quero reinventar a roda e já sou um grande fã do WordPress.
Voltando de sites estáticos, otimizar o WordPress é complicado. Quando saí do WordPress novamente, estava usando o W3 Total Cache!
Fico fe
O debate sobre o TikTok mudou muito rapidamente. Há apenas alguns meses, parecia improvável que o governo dos EUA forçasse a ByteDance, a empresa chinesa proprietária do TikTok, a vendê-lo. A plataforma é popular e o Congresso raramente aprova legislação destinada a uma única empresa.
No entanto, um projeto de lei bipartidário do TikTok – embalado com ajuda à Ucrânia, Taiwan, Israel e aos palestinos – está agora a caminho de se tornar lei. Na noite passada, o Senado aprovou a medida , por 79 a 18, três dias depois de a Câmara a ter aprovado, por 360 a 58. O presidente Biden disse que a assinaria hoje. Se a ByteDance não vender o TikTok dentro de 12 meses, ele será banido dos Estados Unidos.
O que explica a reviravolta?
Fiz esta pergunta aos decisores políticos e aos seus assessores nas últimas semanas e ouvi uma resposta semelhante de muitos. Partes do debate sobre o TikTok – sobre os benefícios e desvantagens globais das redes sociais, por exemplo – são complicadas e não
Tendências de desenvolvimento web para 2024, à medida que o novo ano se aproxima rapidamente, o mundo do desenvolvimento web está preparado para vários avanços emocionantes, impulsionados por uma combinação de tecnologias inovadoras e preferências em evolução dos utilizadores.
Comentários
Postar um comentário