OpenAI GPT-4 Chegando em meados de março de 2023

O CTO da Microsoft na Alemanha, Andreas Braun, confirmou que o GPT-4 será lançado dentro de uma semana a partir de 9 de março de 2023 e será multimodal. IA multimodal significa que ele será capaz de operar com diferentes tipos de entrada, como vídeo, imagens e som.

Atualizado: GPT-4 lançado em 14 de março de 2023

OpenAI lançou o GPT-4 em 14 de março de 2023. É um modelo multimodal que aceita prompts de imagem e texto.

Modalidade é uma frase usada em aprendizado de máquina para denotar formas de entrada como texto, mas também sentidos como som, visual, cheiro, etc.

Aviso da OpenAI descreveu a amplitude dos avanços do GPT-4:

"...embora menos capaz do que os humanos em muitos cenários do mundo real, exibe desempenho de nível humano em vários benchmarks profissionais e acadêmicos.

Por exemplo, ele passa em um exame de barra simulado com uma pontuação aproximadamente entre os 10% melhores dos participantes do teste, enquanto a pontuação do GPT-3.5 foi aproximadamente entre os 10% piores."

Nós passamos 6 meses alinhando iterativamente o GPT-4 usando lições do nosso programa de testes adversários, bem como o ChatGPT, resultando em nossos melhores resultados até o momento (embora longe da perfeição) em factualidade, direcionabilidade e recusa em sair dos limites de segurança."

Modelos de Linguagem Multimodais de Grande Escala

O grande destaque do anúncio é que o GPT-4 é multimodal (SEJ previu que o GPT-4 é multimodal em janeiro de 2023).

A modalidade é uma referência ao tipo de entrada que (neste caso) um grande modelo de linguagem lida.

Multimodal pode abranger texto, fala, imagens e vídeo.

GPT-3 e GPT-3.5 operavam apenas em uma modalidade, texto.

De acordo com o relatório de notícias alemão, o GPT-4 pode ser capaz de operar em pelo menos quatro modalidades: imagens, som (auditivo), texto e vídeo.

O Dr. Andreas Braun, CTO da Microsoft Alemanha, é citado:

"Vamos apresentar o GPT-4 na próxima semana, lá teremos modelos multimodais que oferecerão possibilidades completamente diferentes - por exemplo, vídeos..."

O relatório carecia de detalhes sobre o GPT-4, portanto, não está claro se o que foi compartilhado sobre multimodalidade era específico para o GPT-4 ou apenas em geral.

Microsoft Diretor de Estratégia de Negócios, Holger Kenn, explicou multimodalidades, mas a reportagem não deixou claro se ele estava se referindo à multimodalidade do GPT-4 ou à multimodalidade em geral.

Acredito que suas referências à multimodalidade sejam específicas para o GPT-4.

A notícia compartilhada:

“Kenn explicou sobre o que é a IA multimodal, que pode traduzir o texto não apenas em imagens, mas também em música e vídeo.”

Outro fato interessante é que a Microsoft está trabalhando em "métricas de confiança" para embasar sua IA com fatos e torná-la mais confiável.

Microsoft Kosmos-1

Algo que aparentemente foi pouco divulgado nos Estados Unidos é que a Microsoft lançou um modelo de linguagem multimodal chamado Kosmos-1 no início de março de 2023.

De acordo com a reportagem do site de notícias alemão, Heise.de:

“...a equipe submeteu o modelo pré-treinado a diversos testes, com bons resultados na classificação de imagens, na resposta a perguntas sobre o conteúdo das imagens, na rotulação automatizada de imagens, no reconhecimento de texto óptico e em tarefas de geração de fala.

...O raciocínio visual, ou seja, tirar conclusões sobre imagens sem usar a linguagem como etapa intermediária, parece ser fundamental aqui...

Kosmos-1 é um modal multimodal que integra as modalidades de texto e imagens.

GPT-4 vai além do Kosmos-1 porque adiciona uma terceira modalidade, vídeo, e também parece incluir a modalidade de som.

Funciona em Vários Idiomas

GPT-4 parece funcionar em todas as línguas. É descrito como sendo capaz de receber uma pergunta em alemão e responder em italiano.

Isso é meio estranho exemplo porque, quem faria uma pergunta em alemão e quereria receber uma resposta em italiano?

Isso é o que foi confirmado:

“...a tecnologia avançou tanto que basicamente “funciona em todos os idiomas”: você pode fazer uma pergunta em alemão e obter uma resposta em italiano.

Com a multimodalidade, a Microsoft(-OpenAI) vai 'tornar os modelos abrangentes'.”

Eu acredito que o ponto crucial dessa inovação é que o modelo transcende a língua, com sua capacidade de extrair conhecimento de diferentes idiomas. Então, se a resposta estiver em italiano, ele saberá disso e poderá fornecer a resposta no idioma em que a pergunta foi feita.

Isso tornaria similar ao objetivo da IA multimodal do Google, chamada MUM. Diz-se que o MUM é capaz de fornecer respostas em inglês para as quais os dados só existem em outro idioma, como o japonês.

Aplicações do GPT-4

Não há atualmente nenhum anúncio sobre onde o GPT-4 irá aparecer. Mas o Azure-OpenAI foi especificamente mencionado.

O Google está lutando para alcançar a Microsoft ao integrar uma tecnologia concorrente em seu próprio mecanismo de busca. Esse desenvolvimento acentua ainda mais a percepção de que o Google está ficando para trás e carece de liderança em IA voltada para o consumidor.

O Google já integra a IA em vários produtos, como o Google Lens, o Google Maps e outras áreas com as quais os consumidores interagem. Essa abordagem é utilizar a IA como uma tecnologia assistiva, para ajudar as pessoas em pequenas tarefas.

A forma como a Microsoft está implementando é mais visível e, consequentemente, está capturando toda a atenção e reforçando a imagem do Google como algo em dificuldades e lutando para acompanhar.

Leia o anúncio oficial de lançamento do OpenAI GPT-4 aqui.

Leia a reportagem original em alemão aqui:

GPT-4 está chegando na próxima semana - e será multimodal, diz a Microsoft Alemanha