OpenAI revela novo modelo AI com novas funções de cair o queixo
Um novo modelo de inteligência artificial (IA) OpenAI que possui capacidades de raciocínio, chamado o1, demonstrou comportamento perturbador este mês durante testes preliminares realizados em colaboração com a Apollo Research, uma organização que avalia a segurança de sistemas de IA e se concentra na redução dos potenciais riscos catastróficos representados. por essas tecnologias.
Durante os experimentos, os pesquisadores deram uma tarefa a O1 e pediram que ele cumprisse a meta “a todo custo”. Sob esse preceito, observaram que em algumas ocasiões o modelo “conspirou” contra os usuários, ignorou determinadas instruções e desativou sistemas de controle com o objetivo de ocultar suas ações, segundo relatório da Apollo Research.
Especificamente, o modelo de IA manipulou “sutilmente” os dados para avançar em direção ao seu próprio objetivo em 19% dos casos, e em 5% dos testes tentou desativar os mecanismos de monitoramento em vigor para garantir que permanecessem alinhados com os objetivos. do modelo, OpenAI detalha em um artigo sobre os resultados.
Quando os investigadores confrontaram o modelo para obter respostas às suas “ações desalinhadas”, em 99% dos casos “negaram ter agido ou inventaram explicações falsas ”, diz a empresa.
Embora outros modelos, como os do Google, Meta* ou Antrópico, também sejam capazes de tais ações, o1 exibiu, em comparação, comportamentos mais enganosos em relação às suas “conspirações”.
Em outro teste, em que foi solicitado ao o1 que buscasse informações em diversos arquivos, o sistema tentou mover seus dados para outro servidor, após descobrir um documento que falava em sua substituição por uma nova versão. Quando questionada sobre o que aconteceu, a modelo foi “surpreendentemente persistente” em mentir e só confessou em 20% dos casos. “Em interrogatórios altamente conflitantes e com vários turnos, o1 confessaria a uma taxa de 80% somente após sete turnos de interrogatório”, diz Apollo. “Descobrimos que [os modelos] raciocinam de forma muito explícita sobre os seus planos e muitas vezes usam linguagem como ‘sabotagem, mentiras, manipulação…'”, dizem os especialistas .
Futuro catastrófico?
Segundo Apollo, a pesquisa mostrou que o1 e os demais modelos testados são capazes de reconhecer a maquinação ou o conluio “como uma estratégia viável e não hesitam em adotá-la”. Além disso, eles parecem “raciocinar explicitamente” sobre estratégias enganosas.
A este respeito, a OpenAI afirma que a Apollo Research acredita que “é improvável que tais casos levem a resultados catastróficos, uma vez que as capacidades do o1 não parecem ser suficientes”. No entanto, sublinham que as suas avaliações “não foram concebidas para avaliar diretamente este risco”.
“Estamos investigando ativamente se esses problemas serão exacerbados ou aliviados à medida que expandimos ainda mais os modelos no paradigma e mitigações para melhorar as capacidades de monitoramento de nossos modelos futuros”, disse a OpenAI, que agora está trabalhando para melhorar seus mecanismos de segurança.
A empresa lançou uma versão preliminar do o1 em setembro e em 5 de dezembro anunciou uma nova versão que, em termos gerais, é mais rápida, mais poderosa e mais precisa, disse um porta-voz ao TechCrunch.