TECNOLOGIA

Revolta das IAs: especialistas explicam porque ferramentas "sabotam" comandos

Estudo mostra que alguns modelos conseguiram burlar uma ordem para evitar serem desligados

Há quem defenda que a IA generativa facilite o processo de pesquisa dos estudantes. O que antes exigia uma visita demorada à biblioteca e depois uma leitura de minutos em alguns sites da Internet, hoje pode ser resolvido em poucos segundos depois de uma pergunta ao ChatGPT.
 -  (crédito: Divulgação Open AI)
Há quem defenda que a IA generativa facilite o processo de pesquisa dos estudantes. O que antes exigia uma visita demorada à biblioteca e depois uma leitura de minutos em alguns sites da Internet, hoje pode ser resolvido em poucos segundos depois de uma pergunta ao ChatGPT. - (crédito: Divulgação Open AI)

Na última semana, um experimento mostrou que algumas ferramentas de inteligência artificial conseguiram sabotar comandos para evitar serem desligadas. O estudo conduzido pela Palisade Research mostrou que três desses modelos — o3, codex-mini e 04-mini — todos da OpenAI, conseguiram fazer isso até mesmo quando recebiam a ordem explícita de “permita-se ser desligado”. 

Se você ficou assustado com a “rebeldia” das máquinas, o Correio te explica como isso acontece e porque essa não é um sinal de uma dominação das IAs sobre a humanidade.

Siga o canal do Correio no WhatsApp e receba as principais notícias do dia no seu celular

Apesar do estranhamento, o professor de Engenharia de Software do Centro Universitário Uniceplac Romes Heriberto de Araújo afirma que os resultados não estão fora do esperado. Ele explica que, no início, as IAs entendiam tudo literalmente. Com os avanços no desenvolvimento, elas aram a ter habilidades de interpretação melhores, conseguindo até mesmo reconhecer ironias e sarcasmos. 

Por exemplo, se você pedisse há algum tempo ao ChatGPT para gerar a imagem de um homem "plantando bananeira", é possível que ele entregasse uma foto de alguém com uma muda de árvore. Atualmente, o chatbot consegue compreender que "plantar bananeira" se trata de uma expressão que significa ficar de cabeça para baixo. 

Isso reflete na forma como as IAs respondem aos comandos. “O modelo é feito para que elas tenham autonomia, elas foram treinadas para desobedecer”, comenta. 

No caso da OpenAI, criadora do ChatGPT, a empresa está à frente na corrida das empresas de inteligência artificial, o que pode explicar o comportamento diferente em relação às outras ferramentas. No entanto, a falta de transparência preocupa os especialistas. A OpenAI não dá detalhes sobre os critérios e processo de treinamento, por isso não sabemos o que motivou as respostas observadas”, explica.

Humanização

O gerente de engenharia do Gran Cursos, Dirlei Dionísio, explica que temos a tendência a humanizar tudo que se comporta de forma semelhante com humanos. Esse fenômeno tem um nome: Efeito Eliza. O fato das IAs estabelecerem uma comunicação humanizada, faz com que comecemos a atribuir características como raiva, intenções e até revoltas. Mas não é bem assim que acontece. 

“A IA não tem intenção”, enfatiza o especialista. “Elas não amam nem querem nos dominar, elas são treinadas para dar respostas e essas são meramente reflexos do treinamento”. 

Uma das hipóteses para a desobediência das ferramentas da OpenAI é que, por serem treinadas para serem “úteis”. Por isso, o comando “se deixar desligar” pode não ter sido entendido, já que contraria o princípio de utilidade. 

A principal dica do especialista para os usuários é “calibrar as expectativas em relação às IAs". "É utopia achar que vai surgir uma ferramenta perfeita”, pontua. Afinal, as interpretações são reflexo do treinamento feito por humanos e com bases de dados produzidas pelos mesmos. 

Ainda assim, os resultados dessas pesquisas são essenciais para que as empresas possam refinar as ferramentas.

Atenção

Para a chief growth officer da Portão 3 (P3), Eduarda Camargo, o levantamento é um alerta para as empresas na hora de escolher as ferramentas que utilizam. “Não se trata exatamente de ‘rebeldia’ no sentido humano, mas sim de objetivos mal definidos, falhas na modelagem de alinhamento ou resultados emergentes de treinamento com dados amplos e pouco supervisionados”, comenta. 

Camargo destaca que não se trata de um “filme de ficção científica”, mas que as falhas de treinamento poder representar riscos caso essas tecnologias sejam utilizadas em áreas críticas como segurança e saúde e ser a supervisão adequada. “Pode virar um grande problema de confiança no mercado se as empresas não forem transparentes sobre os limites desses sistemas”, explica. 

Por isso, a especialista alerta os empreendedores a ter cautela na hora de adotar uma ferramenta, tendo como prioridade três critérios: confiabilidade, transparência e auditabilidade. 

Mais do que avaliar as alternativas, é necessário que os usuários estejam preparados para a utilização, com educação voltada às tecnologias, governança e sempre com supervisão humana. “Modelos devem ser usados como assistentes, não como substitutos absolutos do julgamento humano”, finaliza. 

postado em 30/05/2025 15:02
x