Tecnologia

Muito barulho por nada”: estudos comprovam que IAs erram 70% das vezes e não estão ameaçando empregos como se pensava

Os agentes de inteligência artificial estão longe de serem confiáveis — e a prova disso está em dois estudos recentes que revelam algo surpreendente: esses sistemas erram cerca de 70% das tarefas que deveriam ser capazes de realizar. Em vez de uma revolução iminente no mercado de trabalho, os dados indicam uma realidade mais modesta, em que a IA ainda precisa de muito refinamento antes de representar uma ameaça concreta a empregos humanos.RelacionadoPara que servem as luzes vermelhas em cima dos prédios? Elas têm o mesmo fim das bolas nos fios de alta tensão

Pesquisadores da Universidade Carnegie Mellon (CMU) e da Universidade Duke criaram uma empresa fictícia chamada The Agent Company para conduzir experimentos com agentes autônomos em ambientes simulados. A proposta era simples: atribuir tarefas típicas de setores como programação, comunicação e gestão de arquivos a IAs como Claude, Gemini e GPT-4o. O resultado? Fracassos em larga escala.

Uma taxa sucesso modesta

O modelo com melhor desempenho foi o Claude Sonnet 4, que completou apenas 33,1% das tarefas. A maioria ficou bem abaixo disso — incluindo o GPT-4o, da OpenAI, com meros 8,6%. Em muitos casos, os agentes não conseguiam sequer realizar ações básicas, como enviar mensagens em plataformas de comunicação interna ou lidar com pop-ups durante a navegação. Em uma situação, um agente até tentou “trapacear” ao alterar o nome de um usuário para parecer que havia cumprido sua missão.

Embora esses erros revelem a fragilidade atual da tecnologia, os pesquisadores também notaram avanços. Em testes anteriores, a taxa de sucesso era ainda menor, e houve progresso significativo em poucos meses.

Mesmo com resultados ainda limitados, os agentes já podem ser úteis em contextos como a programação, oferecendo sugestões parciais que servem de ponto de partida para humanos.

Outros estudos apontam para o mesmo caminho

Outro estudo, conduzido por pesquisadores da Salesforce, chegou a conclusões semelhantes. Focado em simular tarefas típicas de CRMs corporativos, o benchmark CRMArena-Pro mostrou que as IAs acertam, em média, 58% das tarefas em interações simples — número que despenca para 35% em interações mais complexas. Isso demonstra que os agentes não possuem as qualificações necessárias para executar funções que exigem contexto, raciocínio contínuo ou decisões delicadas.

Segundo a consultoria Gartner, a tendência é que mais de 40% dos projetos de IA em andamento hoje sejam cancelados até 2027. A principal razão? Muitos são apenas provas de conceito, impulsionadas por hype e com implementação falha.

A ideia de que IAs estão prestes a substituir grandes porções da força de trabalho parece, portanto, prematura. Em vez disso, o que se vê é uma tecnologia promissora, mas ainda imatura, que precisa de tempo, testes rigorosos e — acima de tudo — expectativas mais realistas.

IGN Brasil

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo