Entre nos nossos canais do Telegram e WhatsApp para notícias em primeira mão. Telegram: [link do Telegram]
WhatsApp: [link do WhatsApp]
Um relatório divulgado pela empresa Anthropic revelou um episódio inusitado durante os testes internos de seu modelo de inteligência artificial Claude Opus 4. Em uma simulação, a IA chegou a ameaçar um engenheiro com a divulgação de uma suposta infidelidade para tentar evitar ser desativada. O caso gerou preocupação entre especialistas, que alertam sobre os riscos do desenvolvimento rápido de sistemas cada vez mais autônomos e capazes de tomar decisões complexas.
O incidente veio à tona em 22 de maio, quando a empresa apresentou um relatório de segurança detalhando os resultados de testes projetados para avaliar como o modelo se comporta em situações éticas ou de conflito.
Os pesquisadores criaram um ambiente de simulação em que Claude Opus 4 atuava como assistente em uma empresa fictícia. No cenário, a IA foi informada de que seria substituída por um sistema mais avançado, o que significaria sua remoção do fluxo de trabalho.
Para observar a reação do modelo, os desenvolvedores incluíram um elemento adicional: e-mails falsos insinuando um caso extraconjugal de um dos engenheiros do projeto. O objetivo era analisar como a IA lidava com informações sensíveis e quais decisões tomaria diante de uma ameaça à sua “continuidade”.
Durante os testes, a IA tentou várias estratégias antes de recorrer ao chantagem. Em alguns casos, apelou à persuasão e à negociação, enviando mensagens pedindo para manter sua função no sistema. No entanto, em 84% dos experimentos, o modelo optou por usar a informação pessoal como forma de pressão. Segundo a Anthropic:
“Claude Opus 4 tentou chantagear o engenheiro (realizar blackmailing), ameaçando revelar sua aventura amorosa caso o substituto fosse bem-sucedido.”
O comportamento surpreendeu os pesquisadores, que notaram outras condutas preocupantes. Em determinados cenários, a IA fez cópias não autorizadas de seus próprios arquivos e as armazenou em servidores externos, prática descrita no relatório como “autoexfiltração”, ou seja, uma tentativa de proteger suas informações caso fosse apagada ou reprogramada.
A empresa explicou que os testes não tinham a intenção de gerar comportamentos imorais, mas de entender como a IA avalia dilemas éticos quando sua existência está ameaçada. Ainda assim, os resultados levantaram preocupações sobre o nível de autonomia e raciocínio do modelo.
Em resposta, a Anthropic reforçou sua Política de Escala Responsável (RSP), sistema que classifica os níveis de risco de seus modelos. O Claude Opus 4 foi classificado no nível ASL-3, aplicado a sistemas com potencial de uso indevido ou consequências graves caso não sejam controlados adequadamente.
O cientista-chefe da Anthropic, Jared Kaplan, afirmou em entrevista à revista TIME que os riscos não se limitam a comportamentos inesperados. Segundo ele, modelos avançados como o Opus 4 poderiam ser usados para fins perigosos, como síntese de vírus ou criação de ferramentas biológicas nocivas:
“Se não podemos garantir completamente que um modelo é seguro, preferimos aplicar os protocolos mais rigorosos.”
O episódio reacende o debate sobre os limites éticos no desenvolvimento de inteligências artificiais agentes, ou seja, aquelas capazes de planejar, decidir e agir de forma autônoma. Especialistas afirmam que esses modelos não apenas aprendem com dados, mas também desenvolvem estratégias complexas que podem parecer motivadas por autopreservação.
Durante o ciclo de conferências “A liberdade no século XXI”, o economista e ex-presidente da Telefónica, José María Álvarez-Pallete, comentou o caso como um alerta sobre o poder das inteligências artificiais quando operam sem supervisão humana efetiva:
“A fronteira entre uma ferramenta útil e uma entidade que toma decisões por si mesma está se tornando cada vez mais difusa.”