ChatGPT pode escrever código. Agora os pesquisadores dizem que é bom em corrigir bugs também

O chatbot ChatGPT da OpenAI pode corrigir falhas de software muito bem, mas sua principal vantagem sobre outros métodos e modelos de IA é sua capacidade única de diálogo com seres humanos, o que permite aprimorar a precisão de uma resposta.

Pesquisadores da Universidade Johannes Gutenberg Mainz e da University College London colocaram ChatGPT da OpenAI contra "técnicas padronizadas de reparo automatizado de programas" e duas abordagens de aprendizado profundo para reparos de programas: CoCoNut, de pesquisadores da Universidade de Waterloo, Canadá; e Codex, modelo baseado no GPT-3 da OpenAI que sustenta o serviço de conclusão automática de código do GitHub, Copilot.

Também: Como começar a usar o ChatGPT

"Descobrimos que o desempenho da correção de bugs do ChatGPT é competitivo em relação às abordagens comuns de aprendizado profundo CoCoNut e Codex, e notablemente melhor do que os resultados relatados para as abordagens convencionais de reparo de programas", escrevem os pesquisadores em um novo artigo do arXiv, primeiro mencionado pela New Scientist.

Os melhores chatbots de IA: ChatGPT e outras alternativas interessantes para experimentar

Chatbots e escritores de IA podem ajudar a aliviar sua carga de trabalho ao escrever e-mails, ensaios e até mesmo fazer cálculos matemáticos. Eles usam inteligência artificial para gerar texto ou responder a consultas com base na entrada do usuário. O ChatGPT é um exemplo popular, mas existem outros chatbots de destaque.

Leia agora

Que o ChatGPT pode ser usado para resolver problemas de codificação não é novidade, mas os pesquisadores destacam que sua capacidade única de diálogo com humanos lhe dá uma vantagem potencial sobre outras abordagens e modelos.

Os pesquisadores testaram o desempenho do ChatGPT usando o benchmark de correção de bugs QuixBugs. Os sistemas de reparo automático de programas (APR) parecem estar em desvantagem, pois foram desenvolvidos antes de 2018.

ChatGPT é baseado na arquitetura transformer, que o chefe de IA da Meta, Yann LeCunn, destacou nesta semana foi desenvolvida pelo Google. Codex, CodeBERT da Microsoft Research e seu predecessor BERT do Google são todos baseados no método transformer do Google.

OpenAI destaca a capacidade de diálogo do ChatGPT em exemplos para depurar código, onde ele pode pedir esclarecimentos e receber dicas de uma pessoa para chegar a uma resposta melhor. Ele treinou os grandes modelos de linguagem por trás do ChatGPT (GPT-3 e GPT 3.5) usando o Reforço de Aprendizado a partir do Feedback Humano (RLHF).

Embora a capacidade de discussão do ChatGPT possa ajudá-lo a chegar a uma resposta mais correta, a qualidade de suas sugestões permanece indefinida, observam os pesquisadores. Por isso, eles queriam avaliar o desempenho do ChatGPT na correção de bugs.

Os pesquisadores testaram o ChatGPT contra 40 problemas exclusivamente em Python do QuixBugs e, em seguida, verificaram manualmente se a solução sugerida estava correta ou não. Eles repetiram a consulta quatro vezes porque há alguma aleatoriedade na confiabilidade das respostas do ChatGPT, como descobriu um professor de Wharton depois de submeter o chatbot a um exame semelhante ao de um MBA.

ChatGPT solucionou 19 dos 40 bugs de Python, colocando-o em pé de igualdade com CoCoNut (19) e Codex (21). Mas os métodos APR padrão só resolveram sete dos problemas.

Os pesquisadores constataram que a taxa de sucesso do ChatGPT com interações de acompanhamento alcançou 77,5%.

As implicações para os desenvolvedores em termos de esforço e produtividade são ambíguas, no entanto. O Stack Overflow recentemente proibiu respostas geradas pelo ChatGPT porque eram de baixa qualidade, mas pareciam plausíveis. O professor de Wharton descobriu que o ChatGPT poderia ser um ótimo companheiro para estudantes de MBA, pois ele pode atuar como um "consultor inteligente" -- alguém que produz respostas elegantes, mas muitas vezes equivocadas -- e promove o pensamento crítico.

"Isso mostra que a contribuição humana pode ser de grande ajuda para um sistema APR automatizado, com o ChatGPT fornecendo os meios para isso", escrevem os pesquisadores.

"Apesar de seu desempenho exemplar, surge a questão se o custo mental necessário para verificar as respostas do ChatGPT supera as vantagens que o ChatGPT traz."

ChatGPT pode escrever código. Agora, pesquisadores dizem que ele também é bom em corrigir bugs.

Os melhores chatbots de IA: ChatGPT e outras alternativas interessantes para experimentar

Artigos Relacionados