Esta nova tecnologia poderia superar o GPT-4 e tudo parecido

Apesar de todo o fervor em torno do programa de inteligência artificial conhecido como ChatGPT, da OpenAI, e sua tecnologia sucessora, GPT-4, os programas são, no final das contas, apenas aplicativos de software. E, assim como todos os aplicativos, eles possuem limitações técnicas que podem afetar seu desempenho subótimo.

Em um artigo publicado em março, cientistas de inteligência artificial (IA) da Universidade Stanford e do instituto MILA de IA do Canadá propuseram uma tecnologia que poderia ser muito mais eficiente do que o GPT-4 - ou qualquer coisa parecida - ao devorar vastas quantidades de dados e transformá-los em uma resposta.

Também: Estes ex-funcionários da Apple querem substituir smartphones com este dispositivo

Conhecida como Hiena, a tecnologia é capaz de obter uma precisão equivalente em testes de referência, como perguntas e respostas, enquanto utiliza apenas uma fração da potência de computação. Em alguns casos, o código da Hiena é capaz de lidar com quantidades de texto que fazem com que a tecnologia no estilo do GPT simplesmente fique sem memória e falhe.

"Nossos resultados promissores na escala de sub-bilionário de parâmetro sugerem que a atenção pode não ser tudo que precisamos", escrevem os autores. Essa observação refere-se ao título de um relatório de IA histórico de 2017, 'A atenção é tudo que você precisa'. Nesse artigo, o cientista do Google Ashish Vaswani e seus colegas apresentaram ao mundo o programa de IA Transformer do Google. O Transformer tornou-se a base para todos os modelos de linguagem grandes recentes.

Mas o Transformer tem uma grande falha. Ele usa algo chamado "atenção", onde o programa de computador pega as informações de um grupo de símbolos, como palavras, e move essas informações para um novo grupo de símbolos, como a resposta que você vê do ChatGPT, que é a saída.

Também:O que é GPT-4? Aqui está tudo que você precisa saber

Essa operação de atenção - a ferramenta essencial de todos os grandes programas de linguagem, incluindo o ChatGPT e o GPT-4 - tem complexidade computacional "quadrática" (tempo de complexidade "Wiki" de computação). Essa complexidade significa que a quantidade de tempo que leva para o ChatGPT produzir uma resposta aumenta com o quadrado da quantidade de dados que é fornecida como entrada.

Em algum momento, se houver muitos dados - muitas palavras na solicitação, ou muitas sequências de conversas ao longo de horas e horas de conversa com o programa - então ou o programa fica sobrecarregado ao fornecer uma resposta, ou é necessário fornecer a ele mais e mais chips de GPU para rodar mais rápido, o que leva a um aumento nos requisitos de computação.

No novo artigo, 'Hierarquia da Hiena: Rumo a Modelos de Linguagem Convolucionais Maiores', publicado no servidor de pré-impressão arXiv, o autor principal Michael Poli, da Universidade de Stanford, e seus colegas propõem substituir a função de atenção do Transformer por algo subquadrático, nomeadamente Hyena.

Também:O que é Auto-GPT? Tudo que você precisa saber sobre a próxima ferramenta poderosa de IA

Os autores não explicam o nome, mas é possível imaginar várias razões para um programa "Hyena". Hienas são animais que vivem na África e podem caçar por quilômetros e quilômetros. Em certo sentido, um modelo de linguagem muito poderoso poderia ser como uma hiena, caçando por quilômetros e quilômetros para encontrar alimento.

Mas os autores estão realmente preocupados com "hierarquia", como o título sugere, e as famílias de hienas têm uma hierarquia rigorosa na qual os membros de um grupo local de hienas têm diferentes níveis de classificação que estabelecem a dominância. De alguma forma análoga, o programa Hyena aplica uma série de operações muito simples, como você verá, repetidamente, de modo que elas se combinem para formar uma espécie de hierarquia de processamento de dados. É esse elemento combinatório que dá ao programa o seu nome de Hyena.

Também:ChatGPT do futuro poderia substituir a maioria do trabalho que as pessoas fazem hoje, diz Ben Goertzel

Os autores contribuintes do artigo incluem luminares do mundo da IA, como Yoshua Bengio, diretor científico do MILA, que recebeu o Prêmio Turing em 2019, o equivalente ao Prêmio Nobel da computação. Bengio é amplamente creditado por desenvolver o mecanismo de atenção muito antes de Vaswani e sua equipe o adaptarem para o Transformer.

Também entre os autores está Christopher Ré, professor associado de ciência da computação da Universidade de Stanford, que ajudou nos últimos anos a avançar a ideia de IA como "software 2.0".

Para encontrar uma alternativa subquadrática para a atenção, Poli e sua equipe começaram a estudar como o mecanismo de atenção está fazendo o que faz, para ver se esse trabalho poderia ser feito de maneira mais eficiente.

Uma prática recente na ciência da IA, conhecida como interpretabilidade mecanística, está fornecendo insights sobre o que está acontecendo profundamente dentro de uma rede neural, dentro dos "circuitos" computacionais de atenção. Você pode pensar nisso como desmontar um software da mesma forma que desmontaria um relógio ou um PC para ver suas partes e descobrir como ele opera.

Também:Eu usei o ChatGPT para escrever a mesma rotina em 12 das principais linguagens de programação. Veja como ele se saiu

Um trabalho citado por Poli e equipe é um conjunto de experimentos realizados pelo pesquisador Nelson Elhage, da startup de IA Anthropic. Esses experimentos desmontam os programas do Transformer para entender o que a atenção está fazendo.

Em essência, o que Elhage e sua equipe descobriram é que a atenção funciona em seu nível mais básico por meio de operações de computador muito simples, como copiar uma palavra da entrada recente e colá-la na saída.

Por exemplo, se alguém começa a digitar em um programa de modelo de linguagem extensa como o ChatGPT uma sentença de Harry Potter e a Pedra Filosofal, como "Sr. Dursley era o diretor de uma empresa chamada Grunnings…", apenas digitando "D-u-r-s", o início do nome, pode ser suficiente para fazer com que o programa complete o nome "Dursley" porque ele viu o nome em uma sentença anterior de Pedra Filosofal. O sistema é capaz de copiar da memória o registro dos caracteres "l-e-y" para autocompletar a frase.

Também:O ChatGPT é mais como uma 'inteligência alienígena' do que um cérebro humano, diz o futurista

No entanto, a operação de atenção encontra o problema da complexidade quadrática à medida que a quantidade de palavras aumenta cada vez mais. Mais palavras exigem mais do que são conhecidos como "pesos" ou parâmetros, para executar a operação de atenção.

Conforme os autores escrevem: "O bloco Transformer é uma poderosa ferramenta para modelagem de sequências, mas não está isento de suas limitações. Uma das mais notáveis é o custo computacional, que aumenta rapidamente à medida que o comprimento da sequência de entrada aumenta."

Embora os detalhes técnicos do ChatGPT e GPT-4 ainda não tenham sido divulgados pela OpenAI, acredita-se que eles possam ter um trilhão ou mais desses parâmetros. Executar esses parâmetros requer um número maior de chips GPU da Nvidia, o que acaba aumentando o custo computacional.

Para reduzir esse custo computacional quadrático, Poli e sua equipe substituem a operação de atenção pelo que é chamado de "convolução", que é uma das operações mais antigas em programas de IA, desenvolvida nos anos 1980. Uma convolução é apenas um filtro que pode selecionar elementos nos dados, sejam os pixels em uma foto digital ou as palavras em uma frase.

Também: O sucesso do ChatGPT poderia levar a um retrocesso prejudicial para o segredo na IA, diz o pioneiro em IA Bengio

Poli e sua equipe realizam uma espécie de fusão: eles pegam o trabalho realizado pelo pesquisador da Universidade de Stanford Daniel Y. Fu e sua equipe, que aplicam filtros convolucionais em sequências de palavras, e eles combinam isso com o trabalho do estudioso David Romero e seus colegas da Vrije Universiteit Amsterdam, que permitem ao programa alterar o tamanho do filtro instantaneamente. Essa capacidade de adaptação flexível reduz o número de parâmetros custosos, ou seja, pesos, que o programa precisa ter.

O resultado da mash-up é que uma convolução pode ser aplicada a uma quantidade ilimitada de texto sem que seja necessário cada vez mais parâmetros para copiar cada vez mais dados. É uma abordagem "sem atenção", como os autores colocaram.

"Os operadores de Hiena são capazes de reduzir significativamente a lacuna de qualidade com atenção em escala", escrevem Poli e equipe, "alcançando uma perplexidade e desempenho semelhantes com um orçamento computacional menor." Perplexidade é um termo técnico que se refere ao quão sofisticada é a resposta gerada por um programa, como o ChatGPT.

Para demonstrar a capacidade do Hyena, os autores testam o programa em uma série de benchmarks que determinam quão bom um programa de linguagem é em uma variedade de tarefas de IA.

Também: 'Coisas estranhas estão acontecendo no software', diz Chris Ré, professor de inteligência artificial de Stanford

Um teste é O Montão, uma coleção de textos de 825 gigabytes compilada em 2020 pela Eleuther.ai, uma organização sem fins lucrativos de pesquisa em IA. Os textos são coletados de fontes "de alta qualidade" como PubMed, arXiv, GitHub, o Escritório de Patentes dos EUA e outros, para que as fontes tenham uma forma mais rigorosa do que apenas discussões no Reddit, por exemplo.

O principal desafio do programa foi produzir a próxima palavra quando fornecido um grupo de novas frases como entrada. O programa Hyena conseguiu alcançar uma pontuação equivalente ao programa GPT original da OpenAI de 2018, com 20% menos operações computacionais -- "a primeira arquitetura de convolução sem atenção a alcançar a qualidade do GPT" com menos operações, escrevem os pesquisadores.

Em seguida, os autores testaram o programa em tarefas de raciocínio conhecidas como SuperGLUE, introduzido em 2019 por estudiosos da Universidade de Nova York, Facebook AI Research, unidade DeepMind do Google e Universidade de Washington.

Por exemplo, ao receber a frase, "Meu corpo projetou uma sombra sobre a grama", e duas alternativas para a causa, "o sol estava nascendo" ou "a grama foi cortada", e ser solicitado escolher uma das opções, o programa deve gerar "o sol estava nascendo" como saída adequada.

Em várias tarefas, o programa Hyena obteve pontuações iguais ou próximas às de uma versão do GPT, mesmo sendo treinado com menos da metade da quantidade de dados de treinamento.

Também: Como usar o novo Bing (e como ele é diferente do ChatGPT)

Ainda mais interessante é o que aconteceu quando os autores aumentaram o comprimento das frases usadas como entrada: mais palavras significaram uma melhora melhor no desempenho. Em 2.048 "tokens", que você pode considerar como palavras, a Hiena precisa de menos tempo para concluir uma tarefa de linguagem do que a abordagem de atenção.

Aos 64.000 tokens, os autores relatam: "Os aprimoramentos de velocidade da Hiena atingem 100 vezes" - um aumento de desempenho de cem vezes.

Poli e a equipe argumentam que eles não apenas tentaram uma abordagem diferente com Hyena, eles "quebraram a barreira quadrática", causando uma mudança qualitativa em quanto é difícil para um programa calcular resultados.

Eles sugerem que também há mudanças potencialmente significativas na qualidade mais adiante: "Ultrapassar a barreira quadrática é um passo importante em direção a novas possibilidades para o aprendizado profundo, como usar livros inteiros como contexto, gerar músicas de longa duração ou processar imagens em escala gigapixel", eles escrevem.

A capacidade da Hiena de usar um filtro que se estende de forma mais eficiente por milhares e milhares de palavras, escrevem os autores, significa que praticamente não há limite para o "contexto" de uma consulta a um programa de linguagem. Isso poderia, efetivamente, lembrar elementos de textos ou conversas anteriores muito distantes do tópico atual da conversa - assim como as hienas caçam por milhas.

Também: Os melhores chatbots de IA: ChatGPT e outras alternativas divertidas para experimentar

"Os operadores Hyena possuem um contexto ilimitado", eles escrevem. "Isto é, eles não são artificialmente restritos por, por exemplo, localidade, e podem aprender dependências de longo alcance entre quaisquer elementos da [entrada]."

Além disso, além de palavras, o programa pode ser aplicado a dados de diferentes modalidades, como imagens e talvez vídeo e sons.

É importante observar que o programa Hyena mostrado no artigo é pequeno em tamanho se comparado ao GPT-4 ou mesmo ao GPT-3. Enquanto o GPT-3 possui 175 bilhões de parâmetros, ou pesos, a versão mais avançada do Hyena possui apenas 1,3 bilhão de parâmetros. Portanto, ainda resta saber como o Hyena se sairá em uma comparação direta com o GPT-3 ou 4.

Mas, se a eficiência alcançada se mantiver em versões maiores do programa Hiena, poderá ser um novo paradigma tão prevalente quanto a atenção tem sido durante a última década.

Conforme concluem Poli e equipe: "Projetos mais simples e sub-quadráticos, como Hyena, baseados em um conjunto de princípios orientadores simples e avaliação em benchmarks de interpretabilidade mecanística, podem servir de base para modelos grandes eficientes."

Essa nova tecnologia poderia superar o GPT-4 e tudo que é parecido com ele

Artigos Relacionados