O ChatGPT é Inovador?
“Inovar é criar algo novo, é introduzir novidades, renovar, recriar.” — CNI
O que sabemos quando falamos em ChatGPT:
• É um ChatBot que utiliza a arquitetura GPT (Generative Pre-trained Transformer).
• O GPT foi desenvolvido pela OpenAI..
Para os que estão conhecendo o Chat e o GPT agora, talvez não conheçam o importante papel do T no GPT nessa equação! :-)
O T do GPT significa Transformer, sem ele , o modelo GPT não seria capaz de gerar respostas, criar poemas, piadas e resumir aquele texto chato e massante! ehehe
Transformer
O Transformer é um modelo de rede neural especializado em aprender contexto. Esse modelo foi descrito pela primeira vez em 2017 pelo Google. Ele foi projetado para melhorar a precisão das traduções de texto. O Transformer funciona aprendendo a relação entre palavras e frases, o que permite gerar traduções mais naturais e fluentes.
O que esses modelos podem fazer?
Basicamente eles podem traduzir textos, gerar “falas” em “tempo real”.
“Os transformers tornaram possível o aprendizado autossupervisionado, e a AI deu um salto na velocidade máxima”, disse o fundador e CEO da NVIDIA, Jensen Huang, na sua apresentação esta semana no GTC.
Transformers Substituem CNNs e RNNs
Em muitos casos, os transformers substituem as redes neurais convolucionais (CNNs — Convolutional Neural Networks) e as redes neurais recorrentes (RNNs — Recurrent Neural Networks), os tipos de modelos de deep learning que eram mais populares há apenas cinco anos.
De fato, 70% dos artigos do arXiv sobre AI publicados nos últimos dois anos mencionam transformers. Essa é uma mudança radical em relação a um estudo da IEEE de 2017 que relatou que RNNs e CNNs eram os modelos mais populares para reconhecimento de padrões.
GPT & BERT
Após o bum dos modelos generativos, os modelos GPT e BERT, se solidificaram como os novos modelos fundação.
Enquanto BERT, ficou mais direcionado ao campo codificador:
Classificação(por exemplo: sentimento) , perguntas e respostas, resumo e reconhecimento de entidades.
O GPT, tem como base o decodificador:
Tradução, geração (por exemplo: histórias), prever próximas palavras e etc.
Modelos de Fundação
BERT e GPT são modelos de fundação. Vejamos a definição e as características:
- Pré-treinado em diferentes tipos de conjuntos de dados não rotulados (por exemplo, linguagem e imagens)
- Aprendizagem auto-supervisionada
- Representações de dados generalizadas que podem ser usadas em várias tarefas de downstream (por exemplo, classificação e geração)
- A
Transformer
arquitetura é mais usada, mas não obrigatória
Codificadores e Decodificadores
Como mencionado, existem codificadores e decodificadores. O BERT usa apenas codificadores, o GTP usa apenas decodificadores. Ambas as opções compreendem a linguagem, incluindo sintaxe e semântica. Especialmente a próxima geração de grandes modelos de linguagem como GPT com bilhões de parâmetros faz isso muito bem.
Os dois modelos se concentram em cenários diferentes. No entanto, como o campo dos modelos de fundação está evoluindo, a diferenciação costuma ser mais confusa.
- BERT (codificador): classificação (por exemplo, sentimento), perguntas e respostas, resumo, reconhecimento de entidade nomeada
- GPT (decodificador): tradução, geração (por exemplo, histórias)
As saídas dos modelos principais são diferentes:
- BERT (codificador): Embeddings representando palavras com informações de atenção em um determinado contexto
- GPT (decodificador): Próximas palavras com probabilidades
Foundation Models, Transformers, BERT and GPT
GPT-3
Hoje é o modelo mais usado, quando o assunto é modelo generativo textual.
Ele possui quatro versões: Ada, Babbage, Curie e Davinci.
O GPT-3 também possui alguma variantes, que em alguns casos, superam algumas versões.
GPT-J e GPT-NEO, desenvolvidas pela EleutherAI
O GPT-3 foi treinado com 175 bilhões de parâmetros — um número dez vezes maior do que seu predecessor, o GPT 2, foi treinado. As gerações de texto do GPT-3 são impressionantes.
Ele pode traduzir de um idioma para outro, reconhecer entidades nomeadas dentro do texto, resumir artigos e compor peças completas.
OpenAI’s GPT-3 vs. Open Source Alternatives (GPT-Neo and GPT-J)
LLM (Large Language Models)
Os modelos de linguagem grandes (LLMs) são evoluções incrementais treinadas em um enorme conjunto de dados de texto e código. Isso permite que eles analisem e gerem texto semelhante ao humano com um certo grau de precisão.
Os LLMs ainda estão em seus estágios iniciais de desenvolvimento, mas têm o potencial de revolucionar a forma como interagimos com os computadores. Eles podem ser usados para criar chatbots mais inteligentes, gerar conteúdo criativo e traduzir idiomas com maior precisão.
The Future of Large Language Models (LLMs): Strategy, Opportunities and Challenges