IA atinge o teto: as startups procuram maneiras de escalar ainda mais
O futuro modelo de IA da OpenAI terá um aumento de desempenho menor em comparação com seus predecessores. Isso é relatado pela The Information, citando fontes.
De acordo com o relatório, a Orion alcançou o nível GPT-4 após 20% do treinamento. Isso indica que o aumento no desempenho do GPT-5 em comparação com o GPT-4 será menor do que o do GPT-3 para o GPT-4.
"Orion não é melhor que seu antecessor em resolver certos problemas. Ele se sai bem ao lidar com problemas de linguagem, mas não supera os modelos anteriores em codificação", disseram os funcionários da startup ao veículo de comunicação.
As melhorias mais notáveis na rede neural geralmente ocorrem nas primeiras etapas do treinamento. No período subsequente, o progresso desacelera. Assim, os restantes 80% do tempo dificilmente resultarão em um aumento significativo no desempenho, conforme observado pelas fontes do The Information.
IA atingiu o teto
Os resultados não muito otimistas da OpenAI apontam para um problema mais fundamental enfrentado por toda a indústria: a exaustão dos dados de alta qualidade para treinamento
Em um estudo publicado em junho, especialistas afirmam que as empresas de IA usarão todos os materiais de texto disponíveis entre 2026 e 2032. Isso será um ponto crítico para abordagens tradicionais no desenvolvimento de inteligência artificial.
"Nossos resultados mostram que as tendências atuais de desenvolvimento de LLM não podem ser suportadas apenas pela conta de escalonamento tradicional de dados", afirmam os autores do trabalho.
A pesquisa destaca a necessidade de desenvolver abordagens alternativas para a melhoria das redes neurais, como a geração de dados sintéticos ou o uso de informações confidenciais.
O Information observou que a estratégia atual de treinamento de LLM em dados de texto públicos de sites, livros e outras fontes atingiu um ponto de retorno decrescente, pois 'os desenvolvedores extraíram tudo o que podiam dessa tipo de informação'.
A solução existe
A OpenAI e outros jogadores estão mudando radicalmente as abordagens de desenvolvimento de IA
"Diante da desaceleração do ritmo de melhoria do GPT, a indústria parece estar mudando o foco do dimensionamento durante o treinamento para a otimização de modelos após o treinamento inicial. Essa abordagem pode levar à formação de novas leis de escala", relata o The Information.
Para alcançar um estado de melhoria contínua, a OpenAI divide o desenvolvimento de modelos em duas direções diferentes:
Série O - focada nas capacidades de raciocínio. Esses modelos operam com uma intensidade computacional significativamente maior e são projetados para resolver tarefas complexas. Os requisitos computacionais são substanciais: os custos operacionais são seis vezes maiores em comparação com os modelos atuais. No entanto, as capacidades avançadas de raciocínio justificam o aumento dos custos para aplicações específicas que requerem processamento analítico;
a série GPT, voltada para tarefas de comunicação em geral, está sendo desenvolvida simultaneamente. O modelo utiliza uma base de conhecimento mais ampla.
Durante a sessão de AMA, o diretor de produtos da OpenAI, Kevin Waile, observou que no futuro está prevista a fusão de ambos os desenvolvimentos
O uso de dados sintéticos é perigoso
A abordagem de resolver o problema da falta de dados através da sua criação artificial pode representar um risco para a qualidade da informação. Isto é o que diz um estudo de vários especialistas de diferentes universidades do Reino Unido.
Na opinião deles, essa decisão pode acabar por separar completamente a IA da realidade e levar a um 'colapso do modelo'. O problema reside no uso de dados não confiáveis pela rede neural para formar o conjunto de treinamento da próxima geração de inteligência artificial.
Para resolver o problema, a OpenAI está desenvolvendo mecanismos de filtragem para manter a qualidade das informações, integrando diferentes métodos de verificação para separar conteúdo de alta qualidade de conteúdo potencialmente problemático.
A otimização pós-treino é mais uma abordagem relevante. Os pesquisadores estão desenvolvendo métodos para aumentar o desempenho da rede neural após a fase inicial de ajuste, sem depender apenas da expansão do conjunto de informações.
Anteriormente, foi relatado pela mídia que a OpenAI planeja lançar o próximo modelo de IA avançada com o nome de código Orion até dezembro. Posteriormente, o CEO da empresa, Sam Altman, negou essa informação.
Abordagens de outras empresas
Vários cientistas, pesquisadores e investidores disseram à Reuters que os métodos por trás do recém-revelado modelo de IA o1 "podem mudar a corrida armamentista" na inteligência artificial
Em setembro, a OpenAI apresentou o modelo de linguagem o1, treinado com o método de reforço para realizar raciocínios complexos. A rede neural é capaz de pensar - ela pode criar uma longa cadeia interna de pensamentos ao analisar uma pergunta, afirmou a empresa.
O co-fundador das startups de IA Safe Superintelligence (SSI) e OpenAI, Ilya Sutskever, observou que os resultados do treinamento com o uso de grandes volumes de dados não rotulados atingiram o seu auge.
"Os anos 2010 foram a era da escalabilidade e agora estamos de volta à era das maravilhas e descobertas. Todos estão procurando algo novo", disse ele.
Sutkever recusou-se a compartilhar detalhes sobre o funcionamento de sua nova empresa SSI, apenas observando a existência de uma abordagem alternativa para expandir a escala do pré-treinamento.
Fontes da Reuters observaram que os pesquisadores dos principais laboratórios de IA estão enfrentando atrasos e resultados insatisfatórios na tentativa de criar um modelo de linguagem maior que supere o GPT-4 da OpenAI, lançado quase dois anos atrás.
Eles estão tentando aplicar a técnica de aprimoramento de redes neurais durante a chamada fase 'de saída'. Por exemplo, em vez de fornecer uma única resposta, a IA primeiro gera várias opções e escolhe a melhor
Lembramos que em outubro, a mídia relatou que a OpenAI estava trabalhando em seu próprio chip de IA.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Recompensa
gostar
1
Republicar
Partilhar
Comentar
0/400
GateUser-e56c75f6
· 2024-11-13 10:12
Se a vovó quer Curto, seja um pouco mais agressivo, seu pequeno lixo
IA atinge o teto: startups procuram maneiras de escalar
IA atinge o teto: as startups procuram maneiras de escalar ainda mais
O futuro modelo de IA da OpenAI terá um aumento de desempenho menor em comparação com seus predecessores. Isso é relatado pela The Information, citando fontes.
De acordo com o relatório, a Orion alcançou o nível GPT-4 após 20% do treinamento. Isso indica que o aumento no desempenho do GPT-5 em comparação com o GPT-4 será menor do que o do GPT-3 para o GPT-4.
As melhorias mais notáveis na rede neural geralmente ocorrem nas primeiras etapas do treinamento. No período subsequente, o progresso desacelera. Assim, os restantes 80% do tempo dificilmente resultarão em um aumento significativo no desempenho, conforme observado pelas fontes do The Information.
IA atingiu o teto
Os resultados não muito otimistas da OpenAI apontam para um problema mais fundamental enfrentado por toda a indústria: a exaustão dos dados de alta qualidade para treinamento
Em um estudo publicado em junho, especialistas afirmam que as empresas de IA usarão todos os materiais de texto disponíveis entre 2026 e 2032. Isso será um ponto crítico para abordagens tradicionais no desenvolvimento de inteligência artificial.
A pesquisa destaca a necessidade de desenvolver abordagens alternativas para a melhoria das redes neurais, como a geração de dados sintéticos ou o uso de informações confidenciais.
O Information observou que a estratégia atual de treinamento de LLM em dados de texto públicos de sites, livros e outras fontes atingiu um ponto de retorno decrescente, pois 'os desenvolvedores extraíram tudo o que podiam dessa tipo de informação'.
A solução existe
A OpenAI e outros jogadores estão mudando radicalmente as abordagens de desenvolvimento de IA
Para alcançar um estado de melhoria contínua, a OpenAI divide o desenvolvimento de modelos em duas direções diferentes:
Durante a sessão de AMA, o diretor de produtos da OpenAI, Kevin Waile, observou que no futuro está prevista a fusão de ambos os desenvolvimentos
O uso de dados sintéticos é perigoso
A abordagem de resolver o problema da falta de dados através da sua criação artificial pode representar um risco para a qualidade da informação. Isto é o que diz um estudo de vários especialistas de diferentes universidades do Reino Unido.
Na opinião deles, essa decisão pode acabar por separar completamente a IA da realidade e levar a um 'colapso do modelo'. O problema reside no uso de dados não confiáveis pela rede neural para formar o conjunto de treinamento da próxima geração de inteligência artificial.
Para resolver o problema, a OpenAI está desenvolvendo mecanismos de filtragem para manter a qualidade das informações, integrando diferentes métodos de verificação para separar conteúdo de alta qualidade de conteúdo potencialmente problemático.
A otimização pós-treino é mais uma abordagem relevante. Os pesquisadores estão desenvolvendo métodos para aumentar o desempenho da rede neural após a fase inicial de ajuste, sem depender apenas da expansão do conjunto de informações.
Anteriormente, foi relatado pela mídia que a OpenAI planeja lançar o próximo modelo de IA avançada com o nome de código Orion até dezembro. Posteriormente, o CEO da empresa, Sam Altman, negou essa informação.
Abordagens de outras empresas
Vários cientistas, pesquisadores e investidores disseram à Reuters que os métodos por trás do recém-revelado modelo de IA o1 "podem mudar a corrida armamentista" na inteligência artificial
Em setembro, a OpenAI apresentou o modelo de linguagem o1, treinado com o método de reforço para realizar raciocínios complexos. A rede neural é capaz de pensar - ela pode criar uma longa cadeia interna de pensamentos ao analisar uma pergunta, afirmou a empresa.
O co-fundador das startups de IA Safe Superintelligence (SSI) e OpenAI, Ilya Sutskever, observou que os resultados do treinamento com o uso de grandes volumes de dados não rotulados atingiram o seu auge.
Sutkever recusou-se a compartilhar detalhes sobre o funcionamento de sua nova empresa SSI, apenas observando a existência de uma abordagem alternativa para expandir a escala do pré-treinamento.
Fontes da Reuters observaram que os pesquisadores dos principais laboratórios de IA estão enfrentando atrasos e resultados insatisfatórios na tentativa de criar um modelo de linguagem maior que supere o GPT-4 da OpenAI, lançado quase dois anos atrás.
Eles estão tentando aplicar a técnica de aprimoramento de redes neurais durante a chamada fase 'de saída'. Por exemplo, em vez de fornecer uma única resposta, a IA primeiro gera várias opções e escolhe a melhor
Lembramos que em outubro, a mídia relatou que a OpenAI estava trabalhando em seu próprio chip de IA.