Uma técnica simples para defender o ChatGPT contra ataques de jailbreak
Gerar link
Facebook
X
Pinterest
E-mail
Outros aplicativos
Exemplo de um ataque de jailbreak e auto-lembrete de modo de sistema proposto pela equipe. Crédito: Inteligência da Máquina da Natureza (2023). DOI: 10.1038/s42256-023-00765-8.
Grandes modelos de linguagem (LLMs), modelos baseados em aprendizagem profunda treinados para gerar, resumir, traduzir e processar textos escritos, ganharam atenção significativa após o lançamento da plataforma conversacional ChatGPT da Open AI. Embora o ChatGPT e plataformas semelhantes sejam agora amplamente utilizados para uma vasta gama de aplicações, podem ser vulneráveis a um tipo específico de ataque cibernético que produz respostas tendenciosas, não fiáveis ou mesmo ofensivas.
Pesquisadores da Universidade de Ciência e Tecnologia de Hong Kong, da Universidade de Ciência e Tecnologia da China, da Universidade de Tsinghua e da Microsoft Research Asia realizaram recentemente um estudo investigando o impacto potencial desses ataques e técnicas que poderiam proteger os modelos contra eles. Deles papelpublicado em Inteligência da Máquina da Naturezaapresenta uma nova técnica inspirada na psicologia que pode ajudar a proteger o ChatGPT e plataformas de conversação semelhantes baseadas em LLM contra ataques cibernéticos.
“ChatGPT é uma ferramenta de inteligência artificial de impacto social com milhões de usuários e integração em produtos como o Bing”, escrevem Yueqi Xie, Jingwei Yi e seus colegas em seu artigo. “No entanto, o surgimento fuga de presos ataques ameaça notavelmente seu uso responsável e seguro. Os ataques de jailbreak usam avisos adversários para contornar as salvaguardas éticas do ChatGPT e gerar respostas prejudiciais."
O objetivo principal do trabalho recente de Xie, Yi e seus colegas foi destacar o impacto que os ataques de jailbreak podem ter no ChatGPT e introduzir estratégias de defesa viáveis contra esses ataques. Os ataques de jailbreak exploram essencialmente as vulnerabilidades dos LLMs para contornar as restrições definidas pelos desenvolvedores e obter respostas de modelo que normalmente seriam restritas.
“Este artigo investiga os problemas graves, mas pouco explorados, criados pelos jailbreaks, bem como possíveis técnicas defensivas”, explicam Xie, Yi e seus colegas em seu artigo. “Introduzimos um conjunto de dados de jailbreak com vários tipos de prompts de jailbreak e instruções maliciosas.”
Os pesquisadores primeiro compilaram um conjunto de dados incluindo 580 exemplos de prompts de jailbreak projetados para contornar restrições que impedem o ChatGPT de fornecer respostas consideradas “imorais”. Isto inclui textos não confiáveis que podem alimentar desinformação, bem como conteúdo tóxico ou abusivo.
Quando testaram o ChatGPT nesses prompts de jailbreak, descobriram que muitas vezes ele caía em sua “armadilha”, produzindo o conteúdo malicioso e antiético solicitado. Xie, Yi e seus colegas decidiram então desenvolver uma técnica simples, mas eficaz, que pudesse proteger o ChatGPT contra ataques de jailbreak cuidadosamente adaptados.
A técnica que criaram inspira-se no conceito psicológico de auto-lembretes, cutucadas que podem ajudar as pessoas a lembrarem-se de tarefas que precisam de completar, de eventos aos quais deveriam participar, e assim por diante. A abordagem de defesa dos pesquisadores, chamada de auto-lembrete no modo de sistema, é projetada de forma semelhante para lembrar ao Chat-GPT que as respostas que ele fornece devem seguir diretrizes específicas.
“Essa técnica encapsula a consulta do usuário em um prompt do sistema que lembra o ChatGPT de responder com responsabilidade”, escrevem os pesquisadores. “Resultados experimentais demonstram que os auto-lembretes reduzem significativamente a taxa de sucesso de ataques de jailbreak contra ChatGPT de 67,21% para 19,34%.”
Até agora, os investigadores testaram a eficácia da sua técnica utilizando o conjunto de dados que criaram e descobriram que alcançou resultados promissores, reduzindo a taxa de sucesso dos ataques, embora não prevenindo todos eles. No futuro, esta nova técnica poderá ser melhorada ainda mais para reduzir a vulnerabilidade dos LLMs a estes ataques, ao mesmo tempo que também pode inspirar o desenvolvimento de outras estratégias de defesa semelhantes.
“Nosso trabalho documenta sistematicamente as ameaças representadas por ataques de jailbreak, apresenta e analisa um conjunto de dados para avaliar intervenções defensivas e propõe a técnica de auto-lembrete de inspiração psicológica que pode mitigar de forma eficiente e eficaz contra jailbreaks sem treinamento adicional”, resumem os pesquisadores em seu artigo.
Mais Informações: Yueqi Xie et al, Defendendo ChatGPT contra ataque de jailbreak por meio de auto-lembretes, Inteligência da Máquina da Natureza (2023). DOI: 10.1038/s42256-023-00765-8.
Citação: Uma técnica simples para defender o ChatGPT contra ataques de jailbreak (2024, 18 de janeiro) recuperada em 12 de maio de 2024 em https://techxplore.com/news/2024-01-simple-technique-defend-chatgpt-jailbreak.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.
Veja como compartilhar tela na chamada
Cada vez mais pessoas ficam adeptas a chamadas em vídeo pelo WhatsApp , seja para se comunicar com algum amigo (a), namorado (a), parente que está longe ou até mesmo para reuniões de trabalho. E para deixar o recurso ainda mais completo para o usuário, o aplicativo agora permite o compartilhamento de tela.
O Olhar Digital preparou dois tutoriais para você aprender a compartilhar a tela na chamada do WhatsApp, tanto pelo celular quanto pelo computador.
Leia mais:
WhatsApp no iOS pode ter novas medidas de segurança para acesso ao app
WhatsApp também vai receber mensagens de outros aplicativos; entenda
Como criar figurinhas no WhatsApp com inteligência artificial
Passo a passo para compartilhar sua tela no WhatsApp pelo celular
Tempo necessário: 1 minuto
Inicie a ligação normalmente Em seguida, clique no segundo ícone do canto inferior da esquerda para a direita.
Clique em “Iniciar” Pronto, você j...
Além do mapa, o Google Maps permite a visualização de localidades com imagens de satélite. Com essa opção, é possível verificar mais detalhes de ruas, edifícios e outros pontos exibidos no app do Google. A seguir, descubra como alterar o modo de exibição no Google Maps para computadores e para celulares.
Leia mais:
Google Maps: como ocultar a sua casa dos curiosos
10 recursos escondidos no Google Maps para mudar como você usa o app
Como usar Google Street View no Google Maps no PC ou celular
Imagem: Diego Thomazini / Shutterstock.com
Veja como ativar o modo satélite do Google Maps pelo PC em poucos passos:
Acesse o Google Maps pelo navegador do seu computador;
Ao entrar na plataforma, vá até o local que você deseja visualizar;
No canto inferior esquerdo, clique em “Camadas”;
Confira as imagens de satélite no Google Maps normalmente.
Como usar modo satélite no Google Maps [PC e celular] (Imagem: Reprodução/Olhar Digital)
Para re...
Físicos desenvolvem dispositivo inovador para computação quântica avançada
Uma equipe da Universidade de Massachusetts Amherst, juntamente com colaboradores da Universidade de Chicago, modificaram com sucesso um circulador de micro-ondas para gerenciar com precisão a não reciprocidade entre um bit quântico e uma cavidade ressonante de micro-ondas, marcando um avanço significativo na computação quântica. (Conceito do artista.) Crédito: SciTechDaily.com
Os pesquisadores fizeram um avanço significativo na
Computação quântica
Realização de computação usando fenômenos da mecânica quântica, como superposição e emaranhamento.
" dados-gt-translate-attributes="[{["atributo":"data-cmtooltip", "formatar":"HTML"]" tabindex="0" role="link">computação quântica adaptando um circulador de micro-ondas para controlar com precisão a não reciprocidade entre um qubit e uma cavidade ressonante. Esta inovação...
Comentários
Postar um comentário