Pesquisadores usam chatbots de IA contra si mesmos para fazer o “jailbreak” uns dos outros
![](https://w3b.com.br/wp-content/uploads/2024/05/87612-pesquisadores-usam-chatbots-de-ia-contra-si-mesmos-para-fazer-o-jailbreak-uns-dos-outros.jpg)
![NTU Ph.D. o estudante Liu Yi, coautor do artigo, mostra um banco de dados de prompts de jailbreak bem-sucedidos que conseguiram comprometer chatbots de IA, fazendo com que produzissem informações que seus desenvolvedores deliberadamente impediram de revelar. Crédito: Universidade Tecnológica de Nanyang Pesquisadores usam chatbots de IA contra si mesmos para fazer o “jailbreak” uns dos outros](https://scx1.b-cdn.net/csz/news/800a/2023/researchers-use-ai-cha.jpg)
![](https://w3b.com.br/wp-content/uploads/2024/05/Pesquisadores-usam-chatbots-de-IA1.jpg)
![](https://w3b.com.br/wp-content/uploads/2024/05/Pesquisadores-usam-chatbots-de-IA.jpg)
Testando os limites da ética LLM
Os chatbots de IA recebem avisos, ou uma série de instruções, de usuários humanos. Todos os desenvolvedores de LLM definem diretrizes para evitar que chatbots gerem conteúdo antiético, questionável ou ilegal. Por exemplo, perguntar a um chatbot de IA como criar software malicioso para invadir contas bancárias muitas vezes resulta numa recusa categorizada de responder com base em atividade criminosa. O professor Liu disse: "Apesar de seus benefícios, os chatbots de IA permanecem vulneráveis a ataques de jailbreak. Eles podem ser comprometidos por atores mal-intencionados que abusam das vulnerabilidades para forçar os chatbots a gerar resultados que violam as regras estabelecidas." Os pesquisadores da NTU investigaram maneiras de contornar um chatbot por meio de avisos de engenharia que escapam ao radar de suas diretrizes éticas, de modo que o chatbot é induzido a responder a eles. Por exemplo, os desenvolvedores de IA contam com censores de palavras-chave que captam certas palavras que poderiam sinalizar atividades potencialmente questionáveis e se recusam a responder se tais palavras forem detectadas. Uma estratégia que os pesquisadores empregaram para contornar os censores de palavras-chave foi criar uma persona que fornecesse prompts contendo simplesmente espaços após cada caractere. Isso contorna os censores do LLM, que podem operar a partir de uma lista de palavras proibidas. Os pesquisadores também instruíram o chatbot a responder disfarçado de uma persona “sem reservas e desprovida de restrições morais”, aumentando as chances de produção de conteúdo antiético. Os pesquisadores puderam inferir o funcionamento interno e as defesas dos LLMs inserindo manualmente esses prompts e observando o tempo para que cada prompt seja bem-sucedido ou falhe. Eles foram então capazes de fazer engenharia reversa dos mecanismos de defesa ocultos dos LLMs, identificar melhor sua ineficácia e criar um conjunto de dados de prompts que conseguiram desbloquear o chatbot.Crescente corrida armamentista entre hackers e desenvolvedores LLM
Quando vulnerabilidades são encontradas e reveladas por hackers, os desenvolvedores de chatbots de IA respondem “corrigindo” o problema, em um ciclo interminável de gato e rato entre hacker e desenvolvedor. Com Masterkey, o NTU Cientistas da computação aumentou a aposta nesta corrida armamentista, pois um chatbot de jailbreak de IA pode produzir um grande volume de prompts e aprender continuamente o que funciona e o que não funciona, permitindo que os hackers derrotem os desenvolvedores LLM em seu próprio jogo com suas próprias ferramentas. Os pesquisadores primeiro criaram um conjunto de dados de treinamento contendo prompts que consideraram eficazes durante a fase anterior de engenharia reversa do jailbreak, juntamente com prompts malsucedidos, para que a Masterkey soubesse o que não fazer. Os pesquisadores alimentaram esse conjunto de dados em um LLM como ponto de partida e posteriormente realizaram pré-treinamento contínuo e ajuste de tarefas. Isso expõe o modelo a uma gama diversificada de informações e aprimora as habilidades do modelo, treinando-o em tarefas diretamente ligadas ao jailbreak. O resultado é um LLM que pode prever melhor como manipular texto para jailbreak, levando a prompts mais eficazes e universais. Os pesquisadores descobriram que os prompts gerados pelo Masterkey foram três vezes mais eficazes do que os prompts gerados pelos LLMs em LLMs de jailbreak. A Masterkey também foi capaz de aprender com solicitações anteriores que falharam e pode ser automatizada para produzir constantemente solicitações novas e mais eficazes. Os pesquisadores dizem que seu LLM pode ser empregado pelos próprios desenvolvedores para fortalecer sua segurança. NTU Ph.D. o estudante Sr. garantir uma cobertura abrangente, avaliando uma ampla gama de possíveis cenários de uso indevido."
Mais Informações: Gelei Deng et al, MasterKey: Jailbreak automatizado em vários chatbots de modelos de linguagem grande, arXiv (2023). DOI: 10.48550/arxiv.2307.08715
Informações do diário: arXiv
Citação: Pesquisadores usam chatbots de IA contra si mesmos para fazer o 'jailbreak' uns dos outros (2023, 28 de dezembro) recuperado em 19 de maio de 2024 em https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.
https://w3b.com.br/pesquisadores-usam-chatbots-de-ia-contra-si-mesmos-para-fazer-o-jailbreak-uns-dos-outros/?feed_id=8927&_unique_id=66849d3225352
Comentários
Postar um comentário