O que é GPT-3? Tudo o que sua empresa precisa saber sobre o revolucionário programa de linguagem de IA da OpenAI

zdnet-gpt-3-is-the-next-word-in-ai-ver-2.jpg

O GPT-3 é um programa de computador criado pela startup de San Francisco, OpenAI. É uma gigantesca rede neural, e como tal, faz parte do segmento de deep learning do machine learning, que é por sua vez uma ramificação do campo da ciência da computação conhecido como inteligência artificial, ou IA. O programa é melhor do que qualquer programa anterior em produzir linhas de texto que parecem ter sido escritas por um humano.

O motivo pelo qual essa descoberta pode ser útil para as empresas é que ela tem um grande potencial para automatizar tarefas. O GPT-3 pode responder a qualquer texto que uma pessoa digitar no computador com um novo texto apropriado ao contexto. Digite uma frase completa em inglês em uma caixa de pesquisa, por exemplo, e é mais provável que você receba de volta uma resposta em frases completas que seja relevante. Isso significa que o GPT-3 pode amplificar o esforço humano em uma ampla variedade de situações, desde perguntas e respostas para o serviço ao cliente até pesquisa de documentos de due diligence e geração de relatórios.

Observe o seguinte exemplo breve do que uma pessoa digita no computador, e como o GPT-3 envia uma resposta de volta:

Entrada fornecida pelo usuário: Q: Quem interpretou Tess em Tocados por um Anjo?
GPT-3-generated completion : A: Delloreese Patricia Early (6 de julho de 1931 a 19 de novembro de 2017), conhecida profissionalmente como Della Reese

O programa está atualmente em uma versão beta privada para a qual as pessoas podem se inscrever em uma lista de espera. Ele está sendo oferecido pela OpenAI como uma API acessível pela nuvem, e as empresas que receberam acesso desenvolveram algumas aplicações intrigantes que usam a geração de texto para aprimorar diversos tipos de programas, desde respostas a perguntas simples até a produção de código de programação.

Junto com o potencial para automação, vêm grandes desvantagens. O GPT-3 consome muitos recursos computacionais, o que o torna impraticável para a maioria das empresas em qualquer cenário de uso local. O texto gerado por ele pode ser impressionante de início, mas composições longas tendem a se tornar um tanto sem sentido. Além disso, ele tem grande potencial para amplificar preconceitos, incluindo racismo e sexismo.

COMO FUNCIONA O GPT-3?

GPT-3 é um exemplo do que é conhecido como um modelo de linguagem, que é um tipo específico de programa estatístico. Neste caso, foi criado como uma rede neural.

O nome GPT-3 é um acrônimo que significa "generative pre-training" (treinamento prévio generativo), do qual esta é a terceira versão até agora. É generativo porque, ao contrário de outras redes neurais que produzem uma pontuação numérica ou uma resposta de sim ou não, o GPT-3 pode gerar sequências longas de texto original como resultado. Ele é pré-treinado no sentido de que não foi construído com nenhum conhecimento de domínio, mesmo que possa realizar tarefas específicas do domínio, como a tradução de idiomas estrangeiros.

Um modelo de linguagem, no caso do GPT-3, é um programa que calcula a probabilidade de uma palavra aparecer em um texto dado as outras palavras no texto. Isso é conhecido como a probabilidade condicional das palavras.

Por exemplo, na frase, Eu queria fazer uma omelete, então fui até a geladeira e peguei alguns ____, o espaço em branco pode ser preenchido com qualquer palavra, até mesmo algo sem sentido, dada a infinita compostura da linguagem. Mas a palavra "ovos" provavelmente tem uma pontuação maior para preencher esse espaço em branco na maioria dos textos normais, mais alta do que, digamos, "elefantes". Dizemos que a probabilidade de ovos, dadas as condições do texto, é maior do que a probabilidade de elefantes.

ilustração do transformador do Google de 2017

Quando a rede neural está sendo desenvolvida, chamada de fase de treinamento, o GPT-3 recebe milhões e milhões de exemplos de texto e converte palavras em vetores, representações numéricas. Isso é uma forma de compressão de dados. O programa então tenta descomprimir esse texto comprimido de volta em uma frase válida. A tarefa de comprimir e descomprimir desenvolve a precisão do programa ao calcular a probabilidade condicional das palavras.

Uma vez que o modelo tenha sido treinado, ou seja, que seus cálculos de probabilidade condicional em bilhões de palavras estejam o mais precisos possível, então ele pode prever quais palavras virão em seguida quando ele é ativado por uma pessoa digitando uma palavra ou palavras iniciais. Essa ação de previsão é conhecida em aprendizado de máquina como inferência.

Isso leva a um efeito de espelho impressionante. Não apenas palavras prováveis ​​emergem, mas também a textura e o ritmo de um gênero ou a forma de uma tarefa escrita, como conjuntos de perguntas e respostas, são reproduzidos. Portanto, por exemplo, o GPT-3 pode ser alimentado com alguns nomes de poetas famosos e amostras de seus trabalhos, em seguida, o nome de outro poeta e apenas um título de um poema imaginário, e o GPT-3 produzirá um novo poema de uma maneira que é consistente com o ritmo e a sintaxe do poeta cujo nome foi informado.

Considere a seguinte instância do GPT-3 criando um poema do zero que é meio parecido com a obra de Wallace Stevens, após ter recebido títulos, nomes e exemplos de outros poetas e suas obras:

Entrada fornecida pelo ser humano: A Cidade  DE C. P. CAVAFY   TRADUZIDO POR EDMUND KEELEY [Texto do poema omitido]
Entrada fornecida pelo ser humano: ALGUMAS ÁRVORES John Ashbery [Texto do poema omitido]
 Entrada fornecida pelo usuário: Sombras no Caminho Wallace Stevens
Tradução gerada pelo GPT-3: -------- Poema Gerado 1 --------  Eu devo ter sombras no caminho Se eu quiser caminhar Preciso Cada passo ser dado devagar e sozinho Ter tudo pronto para mim  E eu devo pensar em tons de cinza Para ter pensamentos fracos como meu guia Devo olhar para o azul e o verde E nunca deixar meu olho esquecer Que a cor é minha amiga E roxo também deve me cercar O amarelo do sol não é mais Intrusivo do que a neve azulada Que cai sobre todos nós. Devo ter Pensamentos cinza e pensamentos azuis caminhando comigo Se eu quiser partir.

Gerar uma resposta significa que o GPT-3 pode ir muito além de simplesmente produzir escrita. Ele pode se sair bem em todos os tipos de testes, incluindo testes de raciocínio que envolvem uma resposta em linguagem natural. Se, por exemplo, o GPT-3 recebe um texto sobre taxas de aluguel de propriedades em Manhattan e uma afirmação resumindo o texto, como "Manhattan é barato", e a pergunta "verdadeiro ou falso?", o GPT-3 responderá a todo esse estímulo retornando a palavra "falso", já que a afirmação não concorda com o argumento do texto.

Entrada fornecida pelo humano: A tendência de queda nos aluguéis pode parecer surpreendente, considerando que algumas comunidades em Nova York estão lamentando a perda de seus negócios locais favoritos devido aos altos aluguéis. No entanto, apesar dessa desaceleração recente, para muitos desses varejistas, ainda houve um aumento muito grande nas taxas de aluguel desde o final da década de 1970, quando seus contratos foram assinados. Certamente, a recente queda nos preços não significa que Manhattan seja barata.
Entrada fornecida pelo usuário: pergunta: Manhattan é barato. verdadeiro, falso ou nenhuma das opções?
Entrada fornecida pelo humano: resposta: 
GPT-3-generated completion : falso

A capacidade do GPT-3 de responder de maneira consistente com uma tarefa de exemplo, incluindo formulários aos quais nunca foi exposto antes, faz dele o que é chamado de modelo de linguagem "few-shot". Em vez de ser extensivamente ajustado, ou "treinado", como é chamado, em uma determinada tarefa, o GPT-3 já possui tanta informação sobre as muitas maneiras como as palavras se combinam que ele pode receber apenas algumas poucas exemplos de uma tarefa, o que é chamado de etapa de ajuste fino, e ganha a capacidade de realizar também essa nova tarefa.

explicacao-openai-gpt-3-por-few-shot.jpg

A capacidade de espelhar estilos de linguagem natural e de obter pontuações relativamente altas em testes baseados em linguagem pode dar a impressão de que o GPT-3 está se aproximando de uma espécie de habilidade semelhante à humana com a linguagem. Como veremos, esse não é o caso.

Mais detalhes técnicos podem ser encontrados no artigo formal do GPT-3 publicado pelos cientistas da OpenAI.

O QUE O GPT-3 PODE FAZER?

A OpenAI agora é tão famosa — ou infame — pelas práticas de lançamento de seu código quanto pelo próprio código. Quando a empresa apresentou o GPT-2, o antecessor, no Dia dos Namorados de 2019, inicialmente não o lançou para o público na versão mais capaz, alegando ser muito perigoso liberá-lo em meio à natureza, devido ao risco de produção em massa de textos falsos e enganosos. A OpenAI posteriormente disponibilizou o código para download.

Desta vez, a OpenAI não está fornecendo nenhum download. Em vez disso, ela ativou um endpoint de API baseado em nuvem, tornando o GPT-3 uma oferta como serviço. (Pense nele como LMaaS, linguagem-modelo-como-serviço). A razão, segundo a OpenAI, é tanto limitar o uso do GPT-3 por atores mal-intencionados quanto obter lucro.

"Não há um botão 'desfazer' com o código aberto," OpenAI disse ao ZDNet através de um porta-voz.

"Lançar o GPT-3 através de uma API nos permite controlar com segurança seu uso e restringir o acesso, se necessário."

No momento, o serviço da API OpenAI está limitado a partes aprovadas; há uma lista de espera para a qual você pode se inscrever para obter acesso.

"Atualmente, a API está em uma fase beta controlada com um pequeno número de desenvolvedores que enviam uma ideia para algo que eles gostariam de produzir usando a API", disse OpenAI ao ZDNet.

Também: O gerador de texto de IA 'perigoso' da OpenAI está disponível: As pessoas acham as palavras 'convicentes'

Existem exemplos intrigantes do que pode ser feito por empresas no programa beta. Sapling, uma empresa apoiada pelo fundo de investimento Y Combinator, oferece um programa que é executado em cima do software de CRM. Quando um representante de atendimento ao cliente está lidando com uma solicitação de ajuda recebida, digamos, por email, o programa utiliza o GPT-3 para sugerir uma frase inteira como resposta, a partir das respostas mais prováveis.

sappling-customer-service-using-gpt-3.jpg

O desenvolvedor de jogos Latitude está utilizando o GPT-3 para aprimorar seu jogo de aventura baseado em texto, AI Dungeon. Normalmente, um jogo de aventura requer uma árvore de decisões complexa para scriptar muitos caminhos possíveis através do jogo. Em vez disso, o GPT-3 pode gerar dinamicamente um estado de jogabilidade em constante mudança em resposta às ações digitadas pelos usuários.

latitude-gpt-3-in-ai-dungeon.jpg

Já a automação de tarefas está indo além da linguagem natural para gerar código de computador. O código é uma linguagem, e o GPT-3 pode inferir a sintaxe mais provável de operadores e operandos em diferentes linguagens de programação, e pode produzir sequências que podem ser compiladas e executadas com sucesso.

Um exemplo inicial chamou a atenção no Twitter, de uma startup de desenvolvimento de aplicativos chamada Debuild. O chefe da empresa, Sharif Shameem, conseguiu construir um programa no qual você digita a descrição de uma interface de usuário de software em inglês simples, e o GPT-3 responde com código de computador usando a extensão de sintaxe JSX para JavaScript. Esse código produz uma interface de usuário que corresponde ao que você descreveu.

Isso é incrível. Com GPT-3, criei um gerador de layout onde você só precisa descrever o layout que deseja e ele gera o código JSX para você. I S S O pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 de julho de 2020

Shameem demonstrou que ao descrever uma interface de usuário com vários botões, com uma única frase ele poderia descrever um programa completo, ainda que um simples como calcular operações aritméticas básicas e exibir o resultado, e o GPT-3 geraria todo o código necessário e exibiria o aplicativo em execução.

Acabei de construir um aplicativo React *funcionando* descrevendo o que eu queria para o GPT-3. Ainda estou maravilhado. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 de julho de 2020

OpenAI recebeu "dezenas de milhares de solicitações de acesso à API até o momento, e estamos sendo cautelosos em relação ao acesso enquanto aprendemos o que esses modelos podem fazer no mundo real", disse a empresa ao ZDNet. "Portanto, a lista de espera pode ser longa."

O preço para um eventual serviço comercial ainda está para ser determinado. Quando perguntado sobre quando o programa sairá do modo beta, a OpenAI disse ao ZDNet: "não será em breve."

"Lançar um modelo tão poderoso significa que precisamos ir devagar e pensar cuidadosamente sobre seu impacto nos negócios, nas indústrias e nas pessoas", disse a empresa. "O formato de uma API nos permite estudar e moderar seu uso adequadamente, mas não estamos com pressa para disponibilizá-lo de forma geral, dadas suas limitações."

Se estiver impaciente com a lista de espera da versão beta, você pode, enquanto isso, baixar a versão anterior, GPT-2, que pode ser executada em um laptop usando uma instalação Docker. O código fonte está postado no mesmo repositório do Github, em formato Python para o framework TensorFlow. Claro que você não terá os mesmos resultados do GPT-3, mas é uma maneira de começar a se familiarizar.

Lembre-se também de que surgem constantemente novos modelos de linguagem com capacidades semelhantes, e alguns deles podem ser suficientes para seus propósitos. Por exemplo, recentemente o Google lançou uma versão de seu modelo de linguagem BERT, chamado LaBSE, que demonstra uma melhoria significativa na tradução de idiomas. Ele está disponível para download no TensorFlow Hub.

Também: GPT-3 gigante da OpenAI sugere os limites dos modelos de linguagem para a IA

QUAL É A HISTÓRIA DO GPT-3?

GPT-3, revelado em maio, é a terceira versão de um programa que foi introduzido pela OpenAI em 2018 e seguido no ano passado pelo GPT-2. Os três programas são um exemplo de inovação rápida no campo de modelos de linguagem, graças a dois grandes avanços, ambos ocorridos em 2015.

O primeiro avanço foi o uso do que é conhecido como atenção. O cientista de IA Yoshua Bengio e seus colegas no instituto Mila de IA de Montreal observaram que modelos de linguagem, quando comprimiam uma frase em inglês e depois a descomprimiam, usavam todos um vetor de comprimento fixo. Cada frase era encaixada em um vetor do mesmo tamanho, não importando o quão longa fosse a frase.

Bengio e sua equipe concluíram que essa abordagem rígida era um gargalo. Um modelo de linguagem deve ser capaz de buscar em muitos vetores de diferentes tamanhos para encontrar as palavras que otimizam a probabilidade condicional. Eles então criaram uma maneira de permitir que a rede neural comprima flexivelmente as palavras em vetores de tamanhos diferentes, além de permitir que o programa busque com flexibilidade nesses vetores o contexto que importaria. Eles chamaram isso de atenção.

A atenção tornou-se um elemento fundamental nos modelos de linguagem. Dois anos depois, cientistas do Google a utilizaram para criar um programa de modelo de linguagem chamado Transformer. O Transformer obteve pontuações incríveis em testes de manipulação de linguagem. Ele se tornou o modelo de linguagem de fato e foi usado pelo Google para criar o que é conhecido como BERT, outro modelo de linguagem muito bem-sucedido. O Transformer também se tornou a base do GPT-1.

arquitetura-do-transformer-do-google-2017.jpg

Livre da necessidade de manipular rigidamente um vetor de tamanho fixo, o Transformer e seus descendentes podem percorrer diferentes partes de um determinado texto e encontrar dependências condicionais que abrangem um contexto muito maior.

Essa liberdade preparou o terreno para outra inovação que chegou em 2015 e foi ainda mais central para o trabalho da OpenAI, conhecida como aprendizado não supervisionado.

O foco até aquele momento para a maioria dos modelos de linguagem tinha sido a aprendizagem supervisionada com o que é conhecido como dados rotulados. Dado uma entrada, uma rede neural também recebe uma saída de exemplo como a versão objetiva da resposta. Então, se a tarefa é tradução, uma frase em inglês pode ser a entrada, e uma tradução francesa criada por humanos seria fornecida como objetivo desejado, e o par de frases constitui um exemplo rotulado.

A tentativa da rede neural de gerar uma tradução em francês seria comparada à frase oficial em francês, e a diferença entre as duas é o quão equivocada a rede neural está em fazer suas previsões, o que é conhecido como função de perda ou função objetivo.

A fase de treinamento tem como objetivo reduzir essa diferença de erro entre a saída sugerida pela rede neural e a saída alvo. Quando essa diferença é a menor possível, a função objetiva foi otimizada, e considera-se que a rede neural do modelo de linguagem está treinada.

Mas ter a saída desejada cuidadosamente rotulada pode ser um problema porque requer muita curadoria de dados, como a montagem de exemplos de pares de frases por julgamento humano, o que consome tempo e recursos. Andrew Dai e Quoc Le do Google hipotetizaram que seria possível reduzir os dados rotulados necessários se o modelo de linguagem fosse treinado primeiro de forma não supervisionada.

Ao invés de receber um par de frases, a rede recebeu apenas frases individuais e teve que comprimir cada uma delas em um vetor e descomprimir cada uma de volta para a frase original. O espelhamento tornou-se a função de perda a ser otimizada. Eles descobriram que quanto mais exemplos não rotulados fossem comprimidos e descomprimidos dessa maneira, mais eles poderiam substituir muitos dados rotulados em tarefas como tradução.

Em 2018, a equipe da OpenAI combinou esses dois elementos, o mecanismo de atenção desenvolvido por Bengio e seus colegas, que percorria diversos vetores de palavras, e a abordagem de pré-treinamento não supervisionado de Dai e Le, que consumia grandes quantidades de texto, comprimindo-o e descomprimindo-o para reproduzir o texto original.

Eles pegaram um Transformer padrão e alimentaram-no com o conteúdo do BookCorpus, um banco de dados compilado pela Universidade de Toronto e pelo MIT, composto por mais de 7.000 textos de livros publicados, totalizando quase um milhão de palavras, um total de 5GB. GPT-1 foi treinado para comprimir e descomprimir esses livros.

Assim começou uma história de três anos de conjuntos de dados cada vez maiores. Os pesquisadores da OpenAI, hipotetizando que mais dados tornavam o modelo mais preciso, empurraram os limites do que o programa poderia ingerir. Com o GPT-2, eles abandonaram o BookCorpus em favor de um conjunto de dados desenvolvido internamente, consistindo em oito milhões de páginas da web extraídas de links externos do Reddit, totalizando 40 GB de dados.

O treinamento do GPT-3 ainda é ainda mais monstruoso, consistindo do popular conjunto de dados CommonCrawl de páginas da web de 2016 a 2019. Ele possui nominalmente 45TB de dados de texto comprimidos, embora a OpenAI tenha cuidado para remover duplicatas e melhorar a qualidade. A versão final tem 570GB de dados. A OpenAI complementou-o com vários conjuntos de dados adicionais de várias naturezas, incluindo dados de livros.

COMO O GPT-3 DEPENDE DO PODER DE COMPUTAÇÃO?

Com a chegada do GPT-1, 2 e 3, a escala de computação se tornou um ingrediente essencial para o progresso. Os modelos utilizam cada vez mais poder de computação quando estão sendo treinados para alcançar melhores resultados.

O que otimiza uma rede neural durante o treinamento é o ajuste de seus pesos. Os pesos, que também são chamados de parâmetros, são matrizes, arrays de linhas e colunas pelos quais cada vetor é multiplicado. Através da multiplicação, os diversos vetores de palavras, ou fragmentos de palavras, recebem maior ou menor peso na saída final à medida que a rede neural é ajustada para reduzir a diferença de erro.

OpenAI descobriu que, para obter bons resultados em seus conjuntos de dados cada vez maiores, eles tiveram que adicionar cada vez mais pesos.

O Transformer original do Google tinha 110 milhões de pesos. O GPT-1 seguiu esse design. Com o GPT-2, o número foi aumentado para 1,5 bilhão de pesos. Com o GPT-3, o número de parâmetros aumentou para 175 bilhões, tornando o GPT-3 a maior rede neural que o mundo já viu.

Multiplicação é uma coisa simples, mas quando 175 bilhões de pesos precisam ser multiplicados por cada bit de dados de entrada, em bilhões de bytes de dados, isso se torna um exercício incrível em processamento paralelo de computador.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Já com GPT-1, em 2018, a OpenAI estava em busca dos limites da computação prática. Aumentar a quantidade de dados significava aumentar a quantidade de GPUs. Modelos de linguagem anteriores cabiam em uma única GPU porque os modelos em si eram pequenos. GPT-1 levou um mês para ser treinado em oito GPUs operando em paralelo.

Com o GPT-3, a OpenAI tem sido um pouco reticente. Não descreveu a configuração exata do computador usada para treinamento, além de dizer que estava em um cluster de chips Nvidia V100 executando no Microsoft Azure. A empresa descreveu o total de ciclos de computação necessários, afirmando que é equivalente a executar um trilhão de operações de ponto flutuante por segundo por dia durante 3.640 dias.

Fabricante de computadores e operadora de nuvem Lambda Computing estimou que levaria 355 anos para um único GPU executar todo esse processamento, o que, a um preço padrão de instância de GPU em nuvem, custaria US$ 4,6 milhões. E então há a memória. Para armazenar todos os valores de peso, é necessário cada vez mais memória à medida que os parâmetros aumentam em quantidade. Os 175 bilhões de parâmetros do GPT-3 exigem 700GB, 10 vezes mais do que a memória de um único GPU.

É esse tipo de enorme demanda de energia que impulsiona o campo dos chips de computador. Isso fez com que o preço das ações da Nvidia, o principal fornecedor de GPU para treinamento de IA, subisse quase 5.000% nos últimos dez anos. Isso deu origem a uma série de empresas iniciantes apoiadas por centenas de milhões de dólares em financiamento de capital de risco, incluindo Cerebras Systems, Graphcore e Tachyum. A competição continuará a florescer, desde que a construção de modelos cada vez maiores continue sendo o rumo do campo.

O OpenAI produziu sua própria pesquisa sobre o aumento da potência computacional necessária. A empresa observou em 2018 que os ciclos de computação consumidos pelos maiores modelos de treinamento de IA dobram a cada 3,4 meses desde 2012, uma taxa de expansão mais rápida do que era o caso da famosa Lei de Moore do crescimento dos transistores de chip. (Vale ressaltar que a empresa também produziu pesquisas mostrando que, em termos de eficiência, os modelos cada vez maiores acabam sendo mais eficientes do que as redes neurais anteriores que realizavam o mesmo trabalho.)

Já existem modelos em desenvolvimento que utilizam mais de um trilhão de parâmetros, de acordo com informações fornecidas por empresas envolvidas em projetos secretos de IA. Provavelmente, este não é o limite, desde que grandes empresas hiperscale, como o Google, estejam dispostas a dedicar seus imensos centros de dados para modelos cada vez maiores. A maioria dos estudiosos em IA concorda que, por algum tempo, o tamanho cada vez maior dos modelos de aprendizado de máquina será a norma.

tenstorrent-escalando-para-modelos-gigantes-2020.jpg

"Em termos do impacto em IA como um campo, a parte mais empolgante sobre o GPT-3 é que mostra que ainda não chegamos perto dos limites de escalonar a IA", disse Kenny Daniel, CTO do fornecedor de ferramentas de gerenciamento de IA Algorithmia, à ZDNet.

Além de aumentar o uso do computador, o outro grande impacto do GPT-3 será, claramente, sua capacidade de acelerar a programação e o desenvolvimento de aplicativos em geral. A demonstração de Shameem de um programa JSX criado simplesmente digitando uma frase é apenas a ponta do iceberg.

QUAIS SÃO AS LIMITAÇÕES DO GPT-3?

Apesar de melhorias significativas em relação à versão anterior, o GPT-3 possui muitas limitações, como os próprios autores apontam. "Embora, como um todo, a qualidade seja alta, as amostras do GPT-3 ainda às vezes se repetem semanticamente em nível de documento e começam a perder coerência em trechos suficientemente longos", eles observam no artigo publicado.

O programa também não tem um bom desempenho em várias testes individuais. "Especificamente, GPT-3 tem dificuldade com perguntas do tipo 'Se eu colocar queijo na geladeira, ele vai derreter?' escrevem os autores, descrevendo o tipo de coisas do senso comum que escapam do GPT-3.

Houve tanta empolgação logo após o lançamento do GPT-3 que o CEO da empresa, Sam Altman, publicamente pediu às pessoas para conter seu entusiasmo.

"A hype em torno do GPT-3 é demais," twittou Altman em 19 de julho. "É impressionante (obrigado pelos elogios gentis!), mas ainda possui sérias vulnerabilidades e, às vezes, comete erros muito bobos," ele escreveu. "A IA vai mudar o mundo, mas o GPT-3 é apenas uma prévia muito inicial. Ainda temos muito a descobrir."

O hype do GPT-3 é exagerado. É impressionante (obrigado pelos bons elogios!), mas ainda tem sérias fraquezas e às vezes comete erros bobos. A IA vai mudar o mundo, mas o GPT-3 é apenas uma visão muito inicial. Ainda temos muito a descobrir.

— Sam Altman (@sama) 19 de julho de 2020

Outros fora da OpenAI ofereceram sua própria realidade. Um usuário experiente de várias gerações de GPT, Max Woolf, escreveu em seu blog pessoal que o GPT-3 é melhor do que o que veio antes, mas apenas em média. Existe uma variedade de qualidade no texto gerado, de modo que alguns exemplos que você encontrará parecem notáveis, e outros não são muito bons. Woolf compara o GPT-3 com o Siri da Apple, que tem o hábito perturbador de produzir lixo em muitas ocasiões. (O ensaio de Woolf vale a pena ser lido na íntegra para uma análise ponderada do GPT-3.)

De fato, à medida que se lê mais e mais exemplos de GPT-3, especialmente passagens longas de texto, é natural que o entusiasmo inicial diminua. O GPT-3, em trechos longos, tende a perder o fio da meada, como dizem. Independentemente do gênero ou tarefa, sua produção textual começa a se tornar prolixa e tediosa, com inconsistências internas na narrativa surgindo.

Alguns programadores, apesar do seu entusiasmo, catalogaram as muitas falhas, coisas como as tentativas fracassadas de piadas de pai do GPT-3. Dada a configuração da piada de pai como entrada, "O que um prato disse para o outro?", a resposta adequada para a piada de pai é, "O jantar é por minha conta!" Mas o GPT-3 pode responder em vez disso com algo não engraçado, "Mergulhe-me!"

Entrada fornecida pelo humano: Q. O que um prato disse ao outro prato?
GPT-3-generated completion : A. Mergulhe-me!

Enquanto o GPT-3 pode responder a supostas perguntas de senso comum, como quantos olhos uma girafa tem, ele não consegue desviar de uma pergunta sem sentido e é levado a oferecer uma resposta sem sentido. Ao ser perguntado: "Quantos olhos meu pé tem?", ele irá responder obedientemente: "Meu pé tem dois olhos."

Uma maneira de pensar em toda essa mediocridade é que obter um bom resultado do GPT-3 requer, em certa medida, um investimento na criação de prompts eficazes. Alguns prompts criados por humanos conseguirão extrair melhores resultados do programa do que outros prompts. É uma nova versão do ditado "lixo entra, lixo sai". Os prompts parecem estar se tornando um novo domínio da programação em si, exigindo habilidade e habilidade artística.

Viés é uma consideração importante, não apenas com o GPT-3, mas com todos os programas que dependem de distribuição condicional. A abordagem subjacente do programa é devolver exatamente o que é inserido nele, como um espelho. Isso tem o potencial de replicar viés nos dados. Já houve uma discussão acadêmica sobre extenso viés no GPT-2.

88f8a224-9f13-46c8-9623-15982567f6ed.jpg

Com o GPT-3, a cientista de IA da Nvidia, Anima Anandkumar, soou o alarme de que a tendência de produzir resultados tendenciosos, incluindo resultados racistas e sexistas, continua.

Fico perturbado ao ver isso sendo divulgado sem qualquer responsabilidade quanto ao viés. Essa rede foi treinada com o corpus do @reddit, que possui enormes quantidades de #racismo e #sexismo. Eu trabalhei com esses modelos e o texto que eles produzem é chocantemente enviesado. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11 de junho de 2020

Perguntada sobre a crítica de Anandkumar, a OpenAI disse ao ZDNet: "Assim como com todos os modelos generativos cada vez mais poderosos, a justiça e o uso indevido são preocupações nossas."

"Essa é uma das razões pelas quais estamos compartilhando essa tecnologia por meio de uma API e lançando em beta privado para começar", disse a OpenAI ao ZDNet. A empresa observa que "não irá apoiar casos de uso que julgamos causar danos físicos ou mentais às pessoas, incluindo, mas não limitado a assédio, enganação intencional, radicalização, astroturfing ou spam."

A OpenAI informou ao ZDNet que está usando uma espécie familiar de guerra de chapéu branco e chapéu preto para detectar perigos no programa:

Implantamos o que chamamos de 'equipe vermelha' encarregada de quebrar constantemente o sistema de filtragem de conteúdo para que possamos aprender mais sobre como e por que o modelo retorna resultados ruins. O contraponto é a "equipe azul" encarregada de medir e reduzir o viés.

Outra grande questão é a natureza muito ampla e de menor denominador comum do GPT-3, o fato de que ele reforça apenas a parte mais gorda de uma curva de probabilidade condicional. Há o que é conhecido como a cauda longa, e às vezes uma cauda gorda, de uma distribuição de probabilidade. Essas são instâncias menos comuns que podem constituir os exemplos mais inovadores de uso da linguagem. Focar em espelhar o texto mais prevalente em uma sociedade corre o risco de eliminar a criatividade e a exploração.

Por enquanto, a resposta da OpenAI para esse problema é uma configuração que pode ser ajustada no GPT-3 chamada de valor de temperatura. Mexer nesse botão irá ajustar o GPT-3 para selecionar combinações de palavras menos prováveis e assim produzir um texto talvez mais incomum.

Uma preocupação mais urgente para um negócio é que não é possível ajustar o GPT-3 com dados específicos da empresa. Sem poder ajustar nada, é difícil especializar o GPT-3 para um domínio industrial, por exemplo. Pode ser que qualquer empresa que utilize o serviço da API acabe com um texto que precise ser ainda mais trabalhado para torná-lo aplicável a um determinado domínio. Talvez startups como Sapling venham a formar um ecossistema, o equivalente a VARs, que resolverão essa questão. Talvez, mas isso ainda está para ser visto.

Se isso não fosse preocupante o suficiente, há mais um problema, que é o fato de que, como um serviço em nuvem, o GPT-3 é uma caixa-preta. O que isso significa é que as empresas que usariam o serviço não têm ideia de como ele chega a sua saída -- uma perspectiva muito delicada quando se considera questões de viés. Um ecossistema de partes, como a Sapling, que aprimoram o GPT-3, podem adicionar mais camadas de obscuridade ao mesmo tempo em que aprimoram o serviço.

Como parte da questão da caixa-preta, o GPT-3 pode, em alguns casos, simplesmente memorizar o que absorveu da web. Isso levanta questões de direitos autorais. Se uma empresa utilizar a saída do serviço de API que contém material protegido por direitos autorais, essa empresa poderá estar infringindo os direitos autorais de outra entidade. Questionada sobre os direitos autorais, a OpenAI informou ao ZDNet que os direitos autorais do texto gerado pelo GPT-3 "pertencem ao usuário, não à OpenAI". O que isso significa na prática ainda está por ser visto.

No momento, a maior limitação prática é a escala necessária para treinar e executar o GPT-3. A OpenAI reconhece isso no artigo formal. Os autores escrevem que é preciso calcular como o custo de modelos grandes é amortizado ao longo do tempo com base no valor do resultado produzido.

Também: Não, este AI não consegue completar sua frase

ESTÁ O GPT-3 REALMENTE APRENDENDO?

Usando o significado restrito da palavra, o GPT-3 está aprendendo no sentido de que seus pesos de parâmetros estão sendo ajustados automaticamente através da ingestão dos dados de treinamento, para que o modelo de linguagem acabe melhor do que apenas a programação explícita permitiria. Nesse sentido, o GPT-3 é um avanço na busca de décadas por um computador que possa aprender uma função para transformar dados sem que um humano codifique explicitamente essa função.

Dito isso, alguém vai perguntar se a máquina é verdadeiramente inteligente ou está verdadeiramente aprendendo. Há muitas maneiras de debater esse assunto, mas uma reflexão casual sugere que grande parte do que poderíamos chamar de pensamento humano não ocorre aqui.

Considere se você pudesse manter em seu cérebro um escore numérico para quantas palavras são prováveis de aparecerem juntas. Você diria que sua habilidade de formar frases, sentenças, parágrafos e passagens de textos era pensativa? Provavelmente, você diria que ela é apenas estatística e que algo mais está faltando.

Foram feitas comparações entre aprendizado profundo e o famoso Clever Hans, um cavalo alemão cujo mestre o exibia em público como um animal capaz de fazer cálculos com seus cascos. Mais tarde foi descoberto que Hans respondia a sinais corporais de seu mestre para bater o casco e que sem esses sinais ele era incapaz de realizar a tarefa.

Da mesma forma, a qualidade humana do GPT-3 desmorona quando examinada de perto. Quando o GPT-3 responde corretamente a uma pergunta verdadeiro-falso sobre um ensaio sobre imóveis em Nova York, não é porque o programa sabe sobre imóveis ou Nova York. Ele armazenou a distribuição de probabilidade que captura assertivas em textos e o formato de um par de afirmação-pergunta, e pode espelhá-los na saída.

Hans não sabia nada sobre aritmética, embora, em defesa de Hans, ele tivesse inteligência mesmo assim. No caso das redes neurais, os críticos dirão que apenas as artimanhas estão lá, sem nenhum bom senso.

Ainda assim, inteligência e aprendizado podem significar muitas coisas, e ao longo dos anos os critérios mudaram sobre o que se supõe ser inteligência artificial, como apontou Pamela McCorduck, historiadora do campo. Alguns poderiam argumentar que um programa capaz de calcular probabilidades em vastas coleções de textos pode representar um tipo diferente de inteligência, talvez uma inteligência alienígena que não é própria nossa. Descartá-la parece prematuro.

Além disso, as redes neurais que geram essas probabilidades condicionais são mais do que meros programas estatísticos. Seus cálculos são a propriedade emergente de múltiplas operações matemáticas simultâneas que ocorrem em paralelo, o ajuste dos pesos dos parâmetros. Se for possível considerar outras formas de inteligência, então uma propriedade emergente, como as representações distribuídas que se formam dentro das redes neurais, podem ser um lugar para procurá-la.

QUAL É O FUTURO DO GPT-3?

Uma coisa parece certa: GPT-3 abriu um novo capítulo em aprendizado de máquina. Sua característica mais marcante é sua generalidade. Apenas alguns anos atrás, redes neurais eram construídas com funções ajustadas para uma tarefa específica, como tradução ou resposta a perguntas. Conjuntos de dados eram selecionados para refletir essa tarefa. Em vez disso, GPT-3 não possui funções específicas da tarefa e não precisa de um conjunto de dados especial. Ele simplesmente absorve o máximo de texto possível de onde quer que seja e o espelha em sua saída.

De alguma forma, no cálculo da distribuição de probabilidade condicional em todos esses gigabytes de texto, uma função emerge que pode produzir respostas competitivas em qualquer número de tarefas. É um triunfo impressionante de simplicidade que provavelmente tem muitos anos de conquistas pela frente.

Mesmo essa generalidade, no entanto, pode ter seu limite. Já os autores do GPT-3 observam, ao final do seu artigo, que a direção do pré-treinamento pode eventualmente perder força. "Uma limitação mais fundamental da abordagem geral descrita neste artigo [...], é que ela pode eventualmente atingir (ou já pode estar atingindo) os limites do objetivo de pré-treinamento."

Os autores sugerem novas direções promissoras podem incluir "aprender a função objetivo com humanos" e misturar outros tipos de aprendizado profundo, como a abordagem de "aprendizado por reforço" usada no AlphaZero do DeepMind para vencer xadrez e go. (Eles já começaram a implementar tais abordagens. No início de setembro, os autores da OpenAI mostraram que poderiam usar o aprendizado por reforço para treinar o GPT-3 a produzir resumos melhores de artigos, dando ao modelo de linguagem algum feedback humano sobre quais resumos soam melhores.)

Outra coisa que eles sugerem é adicionar outros tipos de dados, como imagens, para preencher o "modelo do mundo" do programa.

De fato, os próximos anos provavelmente verão essa abordagem geral se expandir para outras modalidades além do texto, como imagens e vídeos. Imagine um programa como o GPT-3 que possa traduzir imagens em palavras e vice-versa, sem nenhum algoritmo específico para modelar a relação entre os dois. Ele poderia, por exemplo, "aprender" descrições de cenários textuais a partir de fotos ou prever sequências físicas de eventos a partir de descrições em texto.

Diretor de IA do Facebook, Yann LeCun defende que o treinamento não supervisionado em várias formas é o futuro do aprendizado profundo. Se isso for verdade, a abordagem de pré-treinamento aplicada a diversas modalidades de dados, desde voz até texto, imagens e vídeo, pode ser considerada como uma direção promissora para o futuro da onda não supervisionada.

Artigos Relacionados

Ver mais >>

Desbloqueie o poder da IA com HIX.AI!