O OpenAI reduziu o tempo e os recursos que gasta no teste da segurança de seus poderosos modelos de inteligência artificial, levantando preocupações de que sua tecnologia esteja sendo levada a ser apressada sem salvaguardas suficientes.
Os funcionários e grupos de terceiros receberam recentemente apenas alguns dias para realizar “avaliações”, o termo dado aos testes para avaliar os riscos e o desempenho dos modelos, nos mais recentes modelos de idiomas do OpenAI, em comparação com vários meses antes.
De acordo com oito pessoas familiarizadas com os processos de teste do OpenAI, os testes da start-up se tornaram menos completos, com tempo e recursos insuficientes dedicados à identificação e mitigação de riscos, pois a start-up de US $ 300 bilhões está sob pressão para liberar novos modelos rapidamente e manter sua vantagem competitiva.
“Tivemos testes de segurança mais completos quando [the technology] foi menos importante ”, disse uma pessoa atualmente testando o próximo modelo O3 da OpenAI, projetado para tarefas complexas, como solução de problemas e raciocínio.
Eles acrescentaram que, à medida que os LLMs se tornam mais capazes, a “armas potenciais” da tecnologia é aumentada. “Mas como há mais demanda por isso, eles o querem mais rápido. Espero que não seja uma etapa errônea catastrófica, mas é imprudente. Esta é uma receita para o desastre”.
A crise de tempo foi impulsionada por “pressões competitivas”, de acordo com pessoas familiarizadas com o assunto, quando o OpenAi corre contra grandes grupos de tecnologia, como Meta e Google e startups, incluindo Xai de Elon Musk, para lucrar com a tecnologia de ponta.
Não existe um padrão global para testes de segurança de IA, mas, no final deste ano, a Lei da AI da UE obrigará as empresas a realizar testes de segurança em seus modelos mais poderosos. Anteriormente, os grupos de IA, incluindo o OpenAI, assinaram compromissos voluntários com governos no Reino Unido e nos EUA para permitir que pesquisadores dos Institutos de Segurança da IA testem modelos.
A Openai está pressionando para lançar seu novo modelo O3 já na próxima semana, dando menos de uma semana a alguns testadores para seus cheques de segurança, de acordo com pessoas familiarizadas com o assunto. Esta data de lançamento pode estar sujeita a alterações.
Anteriormente, o OpenAI permitiu vários meses para testes de segurança. Para o GPT-4, lançado em 2023, os testadores tiveram seis meses para realizar avaliações antes de ser divulgado, de acordo com pessoas familiarizadas com o assunto.
Uma pessoa que testou o GPT-4 disse que algumas capacidades perigosas foram descobertas apenas dois meses após os testes. “Eles simplesmente não estão priorizando a segurança pública”, disseram eles sobre a abordagem atual do Openai.
“Não há regulamentação dizendo [companies] tem que manter o público informado sobre todas as capacidades assustadoras. . . E também eles estão sob muita pressão para correr um para o outro, para que não parem de torná-los mais capazes ”, disse Daniel Kokotajlo, ex-pesquisador do Openai que agora lidera o projeto Futures do grupo sem fins lucrativos.
A Openai já se comprometeu a criar versões personalizadas de seus modelos para avaliar o uso indevido em potencial, como se sua tecnologia poderia ajudar a tornar um vírus biológico mais transmissível.
A abordagem envolve recursos consideráveis, como montar conjuntos de dados de informações especializadas como virologia e alimentá-las ao modelo para treiná-las em uma técnica chamada ajuste fino.
Mas o Openai só fez isso de uma maneira limitada, optando por ajustar um modelo mais antigo e menos capaz, em vez de seus mais poderosos e avançados.
O relatório de segurança e desempenho da start-up no O3-Mini, seu modelo menor lançado em janeiro, referencia como seu modelo anterior GPT-4O foi capaz de executar uma certa tarefa biológica apenas quando ajustada. No entanto, o OpenAI nunca relatou como seus modelos mais recentes, como O1 e O3-Mini, também marcariam se forem ajustados.
“É uma ótima configuração do Openai, comprometendo -se a testar versões personalizadas de seus modelos. Mas se não estiver seguindo esse compromisso, o público merece conhecer”, disse Steven Adler, ex -pesquisador de segurança do Openai, que escreveu um blog sobre esse tópico.
“Não fazer esses testes pode significar o OpenAI e as outras empresas de IA estão subestimando os piores riscos de seus modelos”, acrescentou.
Pessoas familiarizadas com esses testes disseram ter custos pesados, como contratar especialistas externos, criar conjuntos de dados específicos, além de usar engenheiros internos e poder de computação.
A Openai disse que fez eficiências em seus processos de avaliação, incluindo testes automatizados, que levaram a uma redução nos prazos. Ele acrescentou que não havia receita acordada para abordagens como ajuste fino, mas estava confiante de que seus métodos eram os melhores que poderiam fazer e foram transparentes em seus relatórios.
Ele acrescentou que os modelos, especialmente para riscos catastróficos, foram completamente testados e mitigados quanto à segurança.
“Temos um bom equilíbrio com a rapidez com que nos movemos e quão completos somos”, disse Johannes Heidecke, chefe de sistemas de segurança.
Outra preocupação levantada foi que os testes de segurança geralmente não são conduzidos nos modelos finais divulgados ao público. Em vez disso, eles são realizados nos chamados pontos de verificação anteriores que são atualizados posteriormente para melhorar o desempenho e os recursos, com versões “nas finais próximas” referenciadas nos relatórios de segurança do System da OpenAI.
“É uma prática ruim lançar um modelo diferente da que você avaliou”, disse um ex -membro da equipe técnica do Openai.
Openai disse que os postos de controle eram “basicamente idênticos” ao que foi lançado no final.