Sete Modelos GPT de Código Aberto Grátis Lançados

imagem de open-source-gpt-642f3027d1001-sej-1520x800.jpg

A empresa de inteligência artificial Cerebras, do Vale do Silício, lançou sete modelos GPT de código aberto para fornecer uma alternativa aos sistemas controlados e proprietários disponíveis atualmente.

Os modelos GPT de código aberto e isentos de royalties, incluindo os pesos e a receita de treinamento, foram lançados sob a licença altamente permissiva Apache 2.0 pela Cerebras, uma empresa de infraestrutura de IA sediada no Vale do Silício para aplicações de IA.

Até certo ponto, os sete modelos GPT são uma prova de conceito para o supercomputador de IA Cerebras Andromeda.

A infraestrutura da Cerebras permite que seus clientes, como o Jasper AI Copywriter, treinem rapidamente seus próprios modelos de linguagem personalizados.

Um post do blog da Cerebras sobre a tecnologia de hardware observou:

"Treinamos todos os modelos Cerebras-GPT em um cluster em escala de wafer CS-2 16x chamado Andromeda."

O cluster permitiu que todos os experimentos fossem concluídos rapidamente, sem a necessidade tradicional de engenharia de sistemas distribuídos e ajuste de paralelismo de modelos em clusters de GPU.

Mais importante ainda, permitiu que nossos pesquisadores se concentrassem no design de ML em vez do sistema distribuído. Acreditamos que a capacidade de treinar facilmente modelos grandes é um facilitador fundamental para a comunidade em geral, por isso disponibilizamos o Cluster em Escala de Wafer Cerebras na nuvem por meio do Cerebras AI Model Studio."

Modelos Cerebras GPT e Transparência

Cerebras menciona a concentração da propriedade da tecnologia de IA em apenas algumas empresas como motivo para criar sete modelos GPT de código aberto.

OpenAI, Meta e Deepmind mantêm uma grande quantidade de informações sobre seus sistemas privadas e controladas rigorosamente, o que limita a inovação ao que as três corporações decidem que os outros podem fazer com seus dados.

Um sistema de código fechado é o melhor para inovação em IA? Ou o código aberto é o futuro?

Cerebras escreve:

"Para que os LLMs sejam uma tecnologia aberta e acessível, acreditamos ser importante ter acesso a modelos de última geração que sejam abertos, reprodutíveis e livres de royalties tanto para pesquisas quanto para aplicações comerciais.

Nesse sentido, treinamos uma família de modelos transformadores utilizando as técnicas mais recentes e conjuntos de dados abertos que chamamos de Cerebras-GPT.

Esses modelos são a primeira família de modelos GPT treinados utilizando a fórmula Chinchilla e lançados sob a licença Apache 2.0."

Portanto, esses sete modelos foram lançados no Hugging Face e no GitHub para incentivar mais pesquisas por meio do acesso aberto à tecnologia de IA.

Esses modelos foram treinados com o supercomputador de IA Andromeda da Cerebras, um processo que levou apenas semanas para ser concluído.

Cerebras-GPT é totalmente aberto e transparente, ao contrário dos últimos modelos GPT da OpenAI (GPT-4), Deepmind e Meta OPT.

OpenAI e Deepmind Chinchilla não oferecem licenças para usar os modelos. Meta OPT oferece apenas uma licença não comercial.

Análise de especialistas concluiu que o GPT-4 da OpenAI não oferece absolutamente nenhuma transparência sobre seus dados de treinamento. Será que eles utilizaram dados do Common Crawl? Ou será que eles fizeram a coleta de dados pela internet e criaram seu próprio conjunto de dados?

OpenAI está mantendo essa informação (e mais) em segredo, o que contrasta com a abordagem Cerebras-GPT que é totalmente transparente.

Tudo o que se segue é totalmente aberto e transparente:

  • Arquitetura do modelo
  • Dados de treinamento
  • Pesos do modelo
  • Pontos de verificação
  • Status de treinamento otimizado para computação (sim)
  • Licença de uso: Licença Apache 2.0

As sete versões vêm nos modelos de 111M, 256M, 590M, 1,3B, 2,7B, 6,7B e 13B.

FOI anunciado:

Em uma novidade entre as empresas de hardware de IA, pesquisadores da Cerebras treinaram, no supercomputador de IA Andromeda, uma série de sete modelos GPT com 111M, 256M, 590M, 1.3B, 2.7B, 6.7B e 13B de parâmetros.

Normalmente, esse trabalho leva meses para ser concluído, mas foi realizado em algumas semanas graças à velocidade incrível dos sistemas CS-2 da Cerebras que compõem o Andromeda, e à capacidade da arquitetura de streaming de peso da Cerebras de eliminar a dor da computação distribuída.

Esses resultados demonstram que os sistemas da Cerebras podem treinar as cargas de trabalho de IA mais complexas e maiores atualmente.

Esta é a primeira vez que uma coleção de modelos GPT, treinados usando técnicas de eficiência de treinamento de ponta, é tornada pública.

Esses modelos são treinados com a maior precisão possível dentro de um determinado orçamento de computação (ou seja, são eficientes em termos de tempo de treinamento, custo de treinamento e consumo de energia mais baixos do que qualquer modelo público existente).

IA de código aberto

A Mozilla Foundation, criadora do software de código aberto Firefox, iniciou uma empresa chamada Mozilla.ai para desenvolver sistemas GPT e de recomendação de código aberto, confiáveis e que respeitem a privacidade.

A Databricks também recentemente lançou um clone do GPT chamado Dolly de código aberto que tem como objetivo democratizar "a magia do ChatGPT".

Além dos sete modelos de Cerebras GPT, outra empresa, chamada Nomic AI, lançou o GPT4All, um GPT de código aberto que pode ser executado em um laptop.

O movimento de inteligência artificial de código aberto está em estágio inicial, mas está ganhando impulso.

A tecnologia GPT está dando origem a mudanças massivas em diversas indústrias, e é possível, talvez inevitável, que contribuições de código aberto possam alterar o panorama das indústrias impulsionando essa mudança.

Se o movimento de código aberto continuar avançando nesse ritmo, podemos estar prestes a testemunhar uma mudança na inovação de IA que impede que ela se concentre nas mãos de algumas corporações.

Leia o anúncio oficial:

Cerebras Systems lança sete novos modelos GPT treinados em sistemas em escala de wafer CS-2

Artigos Relacionados

Ver mais >>

Desbloqueie o poder da IA com HIX.AI!