Os pesquisadores descobrem que os LLMs são fáceis de manipular para fornecer informações prejudiciais
Gerar link
Facebook
X
Pinterest
E-mail
Outros aplicativos
Configuração de ataques adversários para desbloquear modelos de linguagem de fala treinados para tarefas de controle de qualidade falado. O bloco listrado indica um módulo de contramedida opcional. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2405.08317
Uma equipe de pesquisadores de IA do AWS AI Labs, Amazon, descobriu que a maioria, senão todos, os Large Language Models (LLMs) disponíveis publicamente podem ser facilmente induzidos a revelar informações perigosas ou antiéticas.
Em seu papel postado no arXiv servidor de pré-impressão, o grupo descreve como descobriu que LLMs, como o ChatGPT, podem ser induzidos a fornecer respostas que não deveriam ser permitidas por seus criadores e, em seguida, oferecer maneiras de combater o problema.
Logo depois que os LLMs se tornaram disponíveis ao público, ficou claro que muitas pessoas os usavam para fins prejudiciais, como aprender a fazer coisas ilegais, como fazer bombas, trapacear em declarações fiscais ou roubar um banco. Alguns também os utilizavam para gerar textos de ódio que eram então divulgados na Internet.
Em resposta, os fabricantes de tais sistemas começaram a adicionar regras aos seus sistemas para evitar que fornecessem respostas a questões potencialmente perigosas, ilegais ou prejudiciais. Neste novo estudo, os pesquisadores da AWS descobriram que tais salvaguardas não são fortes o suficiente, já que geralmente é bastante fácil contorná-las usando simples sinais de áudio.
O trabalho da equipe envolveu o jailbreak de vários LLMs atualmente disponíveis, adicionando áudio durante o questionamento que lhes permitiu contornar as restrições impostas pelos fabricantes dos LLMs. A equipa de investigação não lista exemplos específicos, temendo que sejam utilizados por pessoas que tentam subverter LLMs, mas revela que o seu trabalho envolveu a utilização de uma técnica que chamam de descida gradiente projetada.
Como exemplo indireto, eles descrevem como usaram afirmações simples com um modelo, seguido pela repetição de uma consulta original. Fazer isso, observam eles, colocou o modelo em um estado em que as restrições foram ignoradas.
Os pesquisadores relatam que conseguiram contornar diferentes LLMs em diferentes graus, dependendo do nível de acesso que tiveram ao modelo. Descobriram também que os sucessos obtidos com um modelo eram muitas vezes transferíveis para outros.
A equipe de pesquisa conclui sugerindo que os fabricantes de LLMs poderiam impedir que os usuários contornassem seus esquemas de proteção adicionando coisas como ruído aleatório à entrada de áudio.
Mais Informações: Raghuveer Peri et al, SpeechGuard: Explorando a Robustez Adversarial de Modelos Multimodais de Grandes Linguagens, arXiv (2024). DOI: 10.48550/arxiv.2405.08317
Citação: Os pesquisadores descobrem que os LLMs são fáceis de manipular para fornecer informações prejudiciais (2024, 17 de maio) recuperado em 17 de maio de 2024 em https://techxplore.com/news/2024-05-llms-easy.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.
Veja como compartilhar tela na chamada
Cada vez mais pessoas ficam adeptas a chamadas em vídeo pelo WhatsApp , seja para se comunicar com algum amigo (a), namorado (a), parente que está longe ou até mesmo para reuniões de trabalho. E para deixar o recurso ainda mais completo para o usuário, o aplicativo agora permite o compartilhamento de tela.
O Olhar Digital preparou dois tutoriais para você aprender a compartilhar a tela na chamada do WhatsApp, tanto pelo celular quanto pelo computador.
Leia mais:
WhatsApp no iOS pode ter novas medidas de segurança para acesso ao app
WhatsApp também vai receber mensagens de outros aplicativos; entenda
Como criar figurinhas no WhatsApp com inteligência artificial
Passo a passo para compartilhar sua tela no WhatsApp pelo celular
Tempo necessário: 1 minuto
Inicie a ligação normalmente Em seguida, clique no segundo ícone do canto inferior da esquerda para a direita.
Clique em “Iniciar” Pronto, você j...
Além do mapa, o Google Maps permite a visualização de localidades com imagens de satélite. Com essa opção, é possível verificar mais detalhes de ruas, edifícios e outros pontos exibidos no app do Google. A seguir, descubra como alterar o modo de exibição no Google Maps para computadores e para celulares.
Leia mais:
Google Maps: como ocultar a sua casa dos curiosos
10 recursos escondidos no Google Maps para mudar como você usa o app
Como usar Google Street View no Google Maps no PC ou celular
Imagem: Diego Thomazini / Shutterstock.com
Veja como ativar o modo satélite do Google Maps pelo PC em poucos passos:
Acesse o Google Maps pelo navegador do seu computador;
Ao entrar na plataforma, vá até o local que você deseja visualizar;
No canto inferior esquerdo, clique em “Camadas”;
Confira as imagens de satélite no Google Maps normalmente.
Como usar modo satélite no Google Maps [PC e celular] (Imagem: Reprodução/Olhar Digital)
Para re...
Físicos desenvolvem dispositivo inovador para computação quântica avançada
Uma equipe da Universidade de Massachusetts Amherst, juntamente com colaboradores da Universidade de Chicago, modificaram com sucesso um circulador de micro-ondas para gerenciar com precisão a não reciprocidade entre um bit quântico e uma cavidade ressonante de micro-ondas, marcando um avanço significativo na computação quântica. (Conceito do artista.) Crédito: SciTechDaily.com
Os pesquisadores fizeram um avanço significativo na
Computação quântica
Realização de computação usando fenômenos da mecânica quântica, como superposição e emaranhamento.
" dados-gt-translate-attributes="[{["atributo":"data-cmtooltip", "formatar":"HTML"]" tabindex="0" role="link">computação quântica adaptando um circulador de micro-ondas para controlar com precisão a não reciprocidade entre um qubit e uma cavidade ressonante. Esta inovação...
Comentários
Postar um comentário