Uma técnica simples para defender o ChatGPT contra ataques de jailbreak

junho 05, 2024

Exemplo de um ataque de jailbreak e auto-lembrete de modo de sistema proposto pela equipe. Crédito: *Inteligência da Máquina da Natureza* (2023). DOI: 10.1038/s42256-023-00765-8.

Grandes modelos de linguagem (LLMs), modelos baseados em aprendizagem profunda treinados para gerar, resumir, traduzir e processar textos escritos, ganharam atenção significativa após o lançamento da plataforma conversacional ChatGPT da Open AI. Embora o ChatGPT e plataformas semelhantes sejam agora amplamente utilizados para uma vasta gama de aplicações, podem ser vulneráveis a um tipo específico de ataque cibernético que produz respostas tendenciosas, não fiáveis ou mesmo ofensivas. Pesquisadores da Universidade de Ciência e Tecnologia de Hong Kong, da Universidade de Ciência e Tecnologia da China, da Universidade de Tsinghua e da Microsoft Research Asia realizaram recentemente um estudo investigando o impacto potencial desses ataques e técnicas que poderiam proteger os modelos contra eles. Deles papelpublicado em Inteligência da Máquina da Naturezaapresenta uma nova técnica inspirada na psicologia que pode ajudar a proteger o ChatGPT e plataformas de conversação semelhantes baseadas em LLM contra ataques cibernéticos. “ChatGPT é uma ferramenta de inteligência artificial de impacto social com milhões de usuários e integração em produtos como o Bing”, escrevem Yueqi Xie, Jingwei Yi e seus colegas em seu artigo. “No entanto, o surgimento fuga de presos ataques ameaça notavelmente seu uso responsável e seguro. Os ataques de jailbreak usam avisos adversários para contornar as salvaguardas éticas do ChatGPT e gerar respostas prejudiciais." O objetivo principal do trabalho recente de Xie, Yi e seus colegas foi destacar o impacto que os ataques de jailbreak podem ter no ChatGPT e introduzir estratégias de defesa viáveis contra esses ataques. Os ataques de jailbreak exploram essencialmente as vulnerabilidades dos LLMs para contornar as restrições definidas pelos desenvolvedores e obter respostas de modelo que normalmente seriam restritas. “Este artigo investiga os problemas graves, mas pouco explorados, criados pelos jailbreaks, bem como possíveis técnicas defensivas”, explicam Xie, Yi e seus colegas em seu artigo. “Introduzimos um conjunto de dados de jailbreak com vários tipos de prompts de jailbreak e instruções maliciosas.” Os pesquisadores primeiro compilaram um conjunto de dados incluindo 580 exemplos de prompts de jailbreak projetados para contornar restrições que impedem o ChatGPT de fornecer respostas consideradas “imorais”. Isto inclui textos não confiáveis que podem alimentar desinformação, bem como conteúdo tóxico ou abusivo. Quando testaram o ChatGPT nesses prompts de jailbreak, descobriram que muitas vezes ele caía em sua “armadilha”, produzindo o conteúdo malicioso e antiético solicitado. Xie, Yi e seus colegas decidiram então desenvolver uma técnica simples, mas eficaz, que pudesse proteger o ChatGPT contra ataques de jailbreak cuidadosamente adaptados. A técnica que criaram inspira-se no conceito psicológico de auto-lembretes, cutucadas que podem ajudar as pessoas a lembrarem-se de tarefas que precisam de completar, de eventos aos quais deveriam participar, e assim por diante. A abordagem de defesa dos pesquisadores, chamada de auto-lembrete no modo de sistema, é projetada de forma semelhante para lembrar ao Chat-GPT que as respostas que ele fornece devem seguir diretrizes específicas. “Essa técnica encapsula a consulta do usuário em um prompt do sistema que lembra o ChatGPT de responder com responsabilidade”, escrevem os pesquisadores. “Resultados experimentais demonstram que os auto-lembretes reduzem significativamente a taxa de sucesso de ataques de jailbreak contra ChatGPT de 67,21% para 19,34%.” Até agora, os investigadores testaram a eficácia da sua técnica utilizando o conjunto de dados que criaram e descobriram que alcançou resultados promissores, reduzindo a taxa de sucesso dos ataques, embora não prevenindo todos eles. No futuro, esta nova técnica poderá ser melhorada ainda mais para reduzir a vulnerabilidade dos LLMs a estes ataques, ao mesmo tempo que também pode inspirar o desenvolvimento de outras estratégias de defesa semelhantes. “Nosso trabalho documenta sistematicamente as ameaças representadas por ataques de jailbreak, apresenta e analisa um conjunto de dados para avaliar intervenções defensivas e propõe a técnica de auto-lembrete de inspiração psicológica que pode mitigar de forma eficiente e eficaz contra jailbreaks sem treinamento adicional”, resumem os pesquisadores em seu artigo.

Mais Informações: Yueqi Xie et al, Defendendo ChatGPT contra ataque de jailbreak por meio de auto-lembretes, Inteligência da Máquina da Natureza (2023). DOI: 10.1038/s42256-023-00765-8.

Citação: Uma técnica simples para defender o ChatGPT contra ataques de jailbreak (2024, 18 de janeiro) recuperada em 12 de maio de 2024 em https://techxplore.com/news/2024-01-simple-technique-defend-chatgpt-jailbreak.html Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.

https://w3b.com.br/uma-tecnica-simples-para-defender-o-chatgpt-contra-ataques-de-jailbreak/?feed_id=6281&_unique_id=6660f71b3fdd2

Pesquisar este blog

Na Rede Social

Uma técnica simples para defender o ChatGPT contra ataques de jailbreak

Comentários

Postar um comentário

Postagens mais visitadas deste blog

Veja como compartilhar tela na chamada de vídeo do WhatsApp no celular e computador

Mais de 1.000 Qubits alcançados – Físicos estabelecem recorde mundial para computadores quânticos baseados em átomos

Tendências para desenvolvedores de WordPress a serem observadas em 2024