O gigantesco GPT-3 da OpenAI aponta para os limites dos modelos de linguagem para IA

Há pouco mais de um ano, OpenAI, uma empresa de inteligência artificial sediada em San Francisco, surpreendeu o mundo ao mostrar um salto impressionante no que parecia ser o poder dos computadores para formar sentenças em linguagem natural e até mesmo resolver questões, como completar uma frase e formular longos trechos de texto que as pessoas acharam bastante humanos.

O trabalho mais recente dessa equipe mostra como o pensamento da OpenAI amadureceu em alguns aspectos. GPT-3, como a mais nova criação é chamada, surgiu na semana passada, com mais recursos e funcionalidades, criada por alguns dos mesmos autores da versão anterior, incluindo Alec Radford e Ilya Sutskever, juntamente com vários colaboradores adicionais, incluindo cientistas da Universidade Johns Hopkins.

Agora é um modelo de linguagem verdadeiramente monstruoso, como é chamado, engolindo duas ordens de magnitude mais texto do que seu antecessor.

Mas, dentro desse truque de que maior é melhor, a equipe do OpenAI parece estar abordando algumas verdades mais profundas, assim como o Dr. David Bowman abordou os limites do conhecido no final do filme 2001.

Enterrada na seção de conclusão do artigo de 72 páginas, Language Models are Few-Shot Learners, publicado na semana passada no servidor de pré-impressão arXiv, está uma descoberta bastante surpreendente.

"Uma limitação mais fundamental da abordagem geral descrita neste artigo - escalando qualquer modelo semelhante a LM, seja autoregressivo ou bidirecional - é que ele pode eventualmente encontrar (ou já estar encontrando) os limites do objetivo de pré-treinamento", escrevem os autores.

O que os autores estão dizendo é que construir uma rede neural que apenas prevê probabilidades da próxima palavra em qualquer sentença ou frase pode ter suas limitações. Apenas torná-la cada vez mais poderosa e preenchê-la com cada vez mais texto pode não gerar melhores resultados. Isso é um reconhecimento significativo dentro de um artigo que celebra principalmente a conquista de aplicar mais poder de processamento computacional a um problema.

Para entender por que a conclusão dos autores é tão significativa, considere como chegamos até aqui. A história do trabalho da OpenAI em linguagem tem sido parte da história de uma progressão constante de um tipo de abordagem, com sucesso crescente à medida que a tecnologia se tornava cada vez maior e maior e maior.

O GPT original, e o GPT-2, são ambos adaptações do que é conhecido como um Transformer, uma invenção pioneira do Google em 2017. O Transformer usa uma função chamada de atenção para calcular a probabilidade de uma palavra aparecer dadas as palavras ao redor. A OpenAI causou polêmica há um ano quando disse que não lançaria o código fonte da maior versão do GPT-2, porque, segundo ela, esse código poderia cair em mãos erradas e ser usado de forma abusiva para enganar pessoas com coisas como notícias falsas.

O novo artigo leva o GPT ao próximo nível, tornando-o ainda maior. A versão mais recente do GPT-2, aquela que não foi publicada em forma de código-fonte, tinha 1,5 bilhão de parâmetros. O GPT-3 possui 175 bilhões de parâmetros. Um parâmetro é um cálculo em uma rede neural que aplica um peso maior ou menor a algum aspecto dos dados, para dar a esse aspecto uma importância maior ou menor no cálculo geral dos dados. São esses pesos que dão forma aos dados e dão à rede neural uma perspectiva aprendida sobre os dados.

Aumentar os pesos ao longo do tempo resultou em resultados surpreendentes nos testes de referência pela família de programas GPT e por outros derivados do Transformer de grande porte, como o BERT do Google, resultados que têm sido consistentemente impressionantes.

Não importa que muitas pessoas tenham apontado que nenhum desses modelos de linguagem realmente parecia entender a linguagem de forma significativa. Eles estão arrasando nos testes, e isso conta para algo.

A última versão novamente mostra progresso quantitativo. Assim como o GPT-2 e outros programas baseados em Transformadores, o GPT-3 é treinado no conjunto de dados Common Crawl, um corpus de quase um trilhão de palavras de textos coletados da Web. "O tamanho do conjunto de dados e do modelo é cerca de duas ordens de magnitude maiores do que aqueles usados para o GPT-2", escrevem os autores.

GPT-3 com 175 bilhões de parâmetros é capaz de alcançar o que os autores descrevem como "meta-aprendizado". Meta-aprendizado significa que a rede neural do GPT não é treinada novamente para executar uma tarefa, como a conclusão de frases. Dado um exemplo de uma tarefa, como uma frase incompleta, e em seguida a frase completa, o GPT-3 irá prosseguir para completar qualquer frase incompleta que lhe é fornecida.

GPT-3 é capaz de aprender como fazer uma tarefa com uma única solicitação, melhor, em alguns casos, do que versões do Transformer que foram ajustadas, por assim dizer, especificamente para realizar apenas essa tarefa. Portanto, GPT-3 é o triunfo de uma generalidade abrangente. Basta alimentá-lo com uma quantidade enorme de texto até que seus pesos sejam ideais, e ele pode continuar a se sair muito bem em várias tarefas específicas sem desenvolvimento adicional.

É aí que a história chega a um desfecho impressionante no novo artigo. Depois de listar os resultados impressionantes do GPT-3 em tarefas de linguagem que vão desde completar frases até inferir a implicação lógica de declarações e traduzir entre idiomas, os autores observam as limitações.

"Apesar das melhorias quantitativas e qualitativas significativas do GPT-3, especialmente em comparação com seu antecessor direto GPT-2, ele ainda apresenta falhas notáveis."

Essas fraquezas incluem uma incapacidade de alcançar uma precisão significativa no que é chamado de NLI Adversarial. NLI, ou inferência de linguagem natural, é um teste em que o programa deve determinar a relação entre duas frases. Pesquisadores do Facebook e da Universidade da Carolina do Norte introduziram uma versão adversarial, onde humanos criam pares de frases que são difíceis para o computador resolver.

O GPT-3 faz "pouco melhor do que o acaso" em coisas como Adversarial NLI, escrevem os autores. Pior ainda, tendo aumentado a potência de processamento do seu sistema para 175 bilhões de pesos, os autores não têm certeza exata do motivo pelo qual ficaram aquém em algumas tarefas.

É quando eles chegam à conclusão, citada acima, de que talvez apenas fornecer um enorme corpus de texto para uma máquina gigante não seja a resposta definitiva.

Ainda mais surpreendente é a próxima observação. Toda a prática de tentar prever o que vai acontecer com a linguagem pode ser a abordagem errada, escrevem os autores. Eles podem estar mirando no lugar errado.

"Com objetivos auto-supervisionados, a especificação da tarefa depende de forçar a tarefa desejada em um problema de previsão", eles escrevem, "enquanto, em última instância, sistemas de linguagem úteis (por exemplo, assistentes virtuais) podem ser melhor vistos como tomando ações direcionadas a metas, em vez de apenas fazer previsões."

Os autores deixam para outra ocasião especificar como eles vão abordar essa direção potencialmente nova e fascinante.

Mesmo diante da realização de que maior pode não ser necessariamente melhor, os resultados aprimorados do GPT-3 em muitas tarefas provavelmente irão fortalecer, e não diminuir, o desejo por redes neurais cada vez maiores. Com 175 bilhões de parâmetros, o GPT-3 é o rei das grandes redes neurais, por enquanto. Uma apresentação em abril pela empresa de chips de IA Tenstorrent descreveu futuras redes neurais com mais de um trilhão de parâmetros.

Para uma boa parte da comunidade de aprendizado de máquina, modelos de linguagem cada vez maiores vão continuar sendo o estado da arte.

O GPT-3 gigantesco da OpenAI sugere os limites dos modelos de linguagem para a IA

Artigos Relacionados