IA de código aberto com recuperação supera o ChatGPT artigo da Nvidia afirma

Open-source AI with superior recovery surpasses Nvidia's ChatGPT, article claims.

Um recente artigo de pesquisa descobriu que um sistema de IA de código aberto usando aumento de recuperação pode superar modelos de chatbot proprietários como o GPT-3.5 da OpenAI.

O artigo publicado em 4 de outubro pelos pesquisadores da Nvidia compara diferentes técnicas para lidar com contexto longo em modelos de linguagem grandes (LLMs) – os algoritmos-chave por trás da IA conversacional atual. Um método é simplesmente estender a janela de contexto, permitindo que o LLM “leia” mais tokens de texto como entrada e os mantenha em mente ao produzir sua saída. A outra abordagem usa recuperação para fornecer ao LLM apenas o contexto mais relevante de um grande banco de dados.

Sua melhor abordagem combina ambas as técnicas – um modelo de código aberto LLaMA com 70 bilhões de parâmetros com uma janela de contexto de 32.000 tokens estendida, ainda mais aumentada pela recuperação de trechos relevantes de um corpus. O recuperador fornece contexto sob demanda, em vez do LLM ter que armazenar tudo, tornando-o mais eficiente.

Em um conjunto de 7 benchmarks de perguntas e respostas de longa extensão e sumarização, essa LLaMA híbrida com recuperação aumentada obteve uma pontuação média de 43,6, superando o GPT-3.5-turbo, que permite 16.000 tokens de contexto (média de 42,8). Ela se igualou ao modelo Davinci proprietário da OpenAI com 175 bilhões de parâmetros em um subconjunto de 4 tarefas.

Os autores argumentam que a recuperação fornece benefícios significativos mesmo quando LLMs muito grandes já possuem janelas de contexto estendidas. Eles descobriram que um LLaMA com 4.000 tokens e recuperação teve um desempenho semelhante aos LLaMAs sem recuperação com 16.000 tokens, enquanto sendo muito mais rápido devido a menos entrada.

Os pesquisadores acreditam que é possível alcançar um desempenho similar aos sistemas comerciais fechados, como o ChatGPT, combinando modelos de código aberto existentes, como o LLaMA, com técnicas de recuperação. Os resultados sugerem que a integração de recuperação e contexto longo é uma direção promissora para a construção de IA conversacional de código aberto mais capaz.

O artigo fornece evidências de que, com os algoritmos corretos, a IA de código aberto pode igualar ou superar chatbots proprietários. Os resultados podem moldar a forma como os próximos sistemas de IA integram modelos capazes de lidar com entrada de texto longo com informações relevantes adicionais e apontam a recuperação como uma peça chave ao lado da extensão do comprimento do contexto.

Crédito da imagem em destaque: Markus Winkler; Pexels; Obrigado!