O CTO da Microsoft na Alemanha, Andreas Braun, confirmou que o GPT-4 será lançado dentro de uma semana a partir de 9 de março de 2023 e será multimodal. IA multimodal significa que ele será capaz de operar com diferentes tipos de entrada, como vídeo, imagens e som.
Atualizado: GPT-4 lançado em 14 de março de 2023
OpenAI lançou o GPT-4 em 14 de março de 2023. É um modelo multimodal que aceita prompts de imagem e texto.
Modalidade é uma frase usada em aprendizado de máquina para denotar formas de entrada como texto, mas também sentidos como som, visual, cheiro, etc.
Aviso da OpenAI descreveu a amplitude dos avanços do GPT-4:
"...embora menos capaz do que os humanos em muitos cenários do mundo real, exibe desempenho de nível humano em vários benchmarks profissionais e acadêmicos.
Por exemplo, ele passa em um exame de barra simulado com uma pontuação aproximadamente entre os 10% melhores dos participantes do teste, enquanto a pontuação do GPT-3.5 foi aproximadamente entre os 10% piores."
Nós passamos 6 meses alinhando iterativamente o GPT-4 usando lições do nosso programa de testes adversários, bem como o ChatGPT, resultando em nossos melhores resultados até o momento (embora longe da perfeição) em factualidade, direcionabilidade e recusa em sair dos limites de segurança."
Modelos de Linguagem Multimodais de Grande Escala
O grande destaque do anúncio é que o GPT-4 é multimodal (SEJ previu que o GPT-4 é multimodal em janeiro de 2023).
A modalidade é uma referência ao tipo de entrada que (neste caso) um grande modelo de linguagem lida.
Multimodal pode abranger texto, fala, imagens e vídeo.
GPT-3 e GPT-3.5 operavam apenas em uma modalidade, texto.
De acordo com o relatório de notícias alemão, o GPT-4 pode ser capaz de operar em pelo menos quatro modalidades: imagens, som (auditivo), texto e vídeo.
O Dr. Andreas Braun, CTO da Microsoft Alemanha, é citado:
"Vamos apresentar o GPT-4 na próxima semana, lá teremos modelos multimodais que oferecerão possibilidades completamente diferentes - por exemplo, vídeos..."
O relatório carecia de detalhes sobre o GPT-4, portanto, não está claro se o que foi compartilhado sobre multimodalidade era específico para o GPT-4 ou apenas em geral.
Microsoft Diretor de Estratégia de Negócios, Holger Kenn, explicou multimodalidades, mas a reportagem não deixou claro se ele estava se referindo à multimodalidade do GPT-4 ou à multimodalidade em geral.
Acredito que suas referências à multimodalidade sejam específicas para o GPT-4.
A notícia compartilhada:
“Kenn explicou sobre o que é a IA multimodal, que pode traduzir o texto não apenas em imagens, mas também em música e vídeo.”
Outro fato interessante é que a Microsoft está trabalhando em "métricas de confiança" para embasar sua IA com fatos e torná-la mais confiável.
Microsoft Kosmos-1
Algo que aparentemente foi pouco divulgado nos Estados Unidos é que a Microsoft lançou um modelo de linguagem multimodal chamado Kosmos-1 no início de março de 2023.
De acordo com a reportagem do site de notícias alemão, Heise.de:
“...a equipe submeteu o modelo pré-treinado a diversos testes, com bons resultados na classificação de imagens, na resposta a perguntas sobre o conteúdo das imagens, na rotulação automatizada de imagens, no reconhecimento de texto óptico e em tarefas de geração de fala.
...O raciocínio visual, ou seja, tirar conclusões sobre imagens sem usar a linguagem como etapa intermediária, parece ser fundamental aqui...
Kosmos-1 é um modal multimodal que integra as modalidades de texto e imagens.
GPT-4 vai além do Kosmos-1 porque adiciona uma terceira modalidade, vídeo, e também parece incluir a modalidade de som.
Funciona em Vários Idiomas
GPT-4 parece funcionar em todas as línguas. É descrito como sendo capaz de receber uma pergunta em alemão e responder em italiano.
Isso é meio estranho exemplo porque, quem faria uma pergunta em alemão e quereria receber uma resposta em italiano?
Isso é o que foi confirmado:
“...a tecnologia avançou tanto que basicamente “funciona em todos os idiomas”: você pode fazer uma pergunta em alemão e obter uma resposta em italiano.
Com a multimodalidade, a Microsoft(-OpenAI) vai 'tornar os modelos abrangentes'.”
Eu acredito que o ponto crucial dessa inovação é que o modelo transcende a língua, com sua capacidade de extrair conhecimento de diferentes idiomas. Então, se a resposta estiver em italiano, ele saberá disso e poderá fornecer a resposta no idioma em que a pergunta foi feita.
Isso tornaria similar ao objetivo da IA multimodal do Google, chamada MUM. Diz-se que o MUM é capaz de fornecer respostas em inglês para as quais os dados só existem em outro idioma, como o japonês.
Aplicações do GPT-4
Não há atualmente nenhum anúncio sobre onde o GPT-4 irá aparecer. Mas o Azure-OpenAI foi especificamente mencionado.
O Google está lutando para alcançar a Microsoft ao integrar uma tecnologia concorrente em seu próprio mecanismo de busca. Esse desenvolvimento acentua ainda mais a percepção de que o Google está ficando para trás e carece de liderança em IA voltada para o consumidor.
O Google já integra a IA em vários produtos, como o Google Lens, o Google Maps e outras áreas com as quais os consumidores interagem. Essa abordagem é utilizar a IA como uma tecnologia assistiva, para ajudar as pessoas em pequenas tarefas.
A forma como a Microsoft está implementando é mais visível e, consequentemente, está capturando toda a atenção e reforçando a imagem do Google como algo em dificuldades e lutando para acompanhar.
Leia o anúncio oficial de lançamento do OpenAI GPT-4 aqui.
Leia a reportagem original em alemão aqui:
GPT-4 está chegando na próxima semana - e será multimodal, diz a Microsoft Alemanha