O ChatGPT é Inovador?

4 min readJul 14, 2023

“Inovar é criar algo novo, é introduzir novidades, renovar, recriar.” — CNI

O que sabemos quando falamos em ChatGPT:
• É um ChatBot que utiliza a arquitetura GPT (Generative Pre-trained Transformer).
• O GPT foi desenvolvido pela OpenAI..

Para os que estão conhecendo o Chat e o GPT agora, talvez não conheçam o importante papel do T no GPT nessa equação! :-)

O T do GPT significa Transformer, sem ele , o modelo GPT não seria capaz de gerar respostas, criar poemas, piadas e resumir aquele texto chato e massante! ehehe

Transformer

O Transformer é um modelo de rede neural especializado em aprender contexto. Esse modelo foi descrito pela primeira vez em 2017 pelo Google. Ele foi projetado para melhorar a precisão das traduções de texto. O Transformer funciona aprendendo a relação entre palavras e frases, o que permite gerar traduções mais naturais e fluentes.

O que esses modelos podem fazer?
Basicamente eles podem traduzir textos, gerar “falas” em “tempo real”.

“Os transformers tornaram possível o aprendizado autossupervisionado, e a AI deu um salto na velocidade máxima”, disse o fundador e CEO da NVIDIA, Jensen Huang, na sua apresentação esta semana no GTC.

Transformers Substituem CNNs e RNNs

Em muitos casos, os transformers substituem as redes neurais convolucionais (CNNs — Convolutional Neural Networks) e as redes neurais recorrentes (RNNs — Recurrent Neural Networks), os tipos de modelos de deep learning que eram mais populares há apenas cinco anos.

De fato, 70% dos artigos do arXiv sobre AI publicados nos últimos dois anos mencionam transformers. Essa é uma mudança radical em relação a um estudo da IEEE de 2017 que relatou que RNNs e CNNs eram os modelos mais populares para reconhecimento de padrões.

Modelo Transformer -NVIDIA

GPT & BERT

Após o bum dos modelos generativos, os modelos GPT e BERT, se solidificaram como os novos modelos fundação.

Enquanto BERT, ficou mais direcionado ao campo codificador:
Classificação(por exemplo: sentimento) , perguntas e respostas, resumo e reconhecimento de entidades.

O GPT, tem como base o decodificador:
Tradução, geração (por exemplo: histórias), prever próximas palavras e etc.

Modelos de Fundação

BERT e GPT são modelos de fundação. Vejamos a definição e as características:

Pré-treinado em diferentes tipos de conjuntos de dados não rotulados (por exemplo, linguagem e imagens)
Aprendizagem auto-supervisionada
Representações de dados generalizadas que podem ser usadas em várias tarefas de downstream (por exemplo, classificação e geração)
A Transformerarquitetura é mais usada, mas não obrigatória

Foundation Models at IBM

Codificadores e Decodificadores

Como mencionado, existem codificadores e decodificadores. O BERT usa apenas codificadores, o GTP usa apenas decodificadores. Ambas as opções compreendem a linguagem, incluindo sintaxe e semântica. Especialmente a próxima geração de grandes modelos de linguagem como GPT com bilhões de parâmetros faz isso muito bem.

Os dois modelos se concentram em cenários diferentes. No entanto, como o campo dos modelos de fundação está evoluindo, a diferenciação costuma ser mais confusa.

BERT (codificador): classificação (por exemplo, sentimento), perguntas e respostas, resumo, reconhecimento de entidade nomeada
GPT (decodificador): tradução, geração (por exemplo, histórias)

As saídas dos modelos principais são diferentes:

BERT (codificador): Embeddings representando palavras com informações de atenção em um determinado contexto
GPT (decodificador): Próximas palavras com probabilidades

Foundation Models, Transformers, BERT and GPT

GPT-3

Hoje é o modelo mais usado, quando o assunto é modelo generativo textual.

Ele possui quatro versões: Ada, Babbage, Curie e Davinci.

O GPT-3 também possui alguma variantes, que em alguns casos, superam algumas versões.
GPT-J e GPT-NEO, desenvolvidas pela EleutherAI

O GPT-3 foi treinado com 175 bilhões de parâmetros — um número dez vezes maior do que seu predecessor, o GPT 2, foi treinado. As gerações de texto do GPT-3 são impressionantes.
Ele pode traduzir de um idioma para outro, reconhecer entidades nomeadas dentro do texto, resumir artigos e compor peças completas.

OpenAI’s GPT-3 vs. Open Source Alternatives (GPT-Neo and GPT-J)

LLM (Large Language Models)

Os modelos de linguagem grandes (LLMs) são evoluções incrementais treinadas em um enorme conjunto de dados de texto e código. Isso permite que eles analisem e gerem texto semelhante ao humano com um certo grau de precisão.

Os LLMs ainda estão em seus estágios iniciais de desenvolvimento, mas têm o potencial de revolucionar a forma como interagimos com os computadores. Eles podem ser usados para criar chatbots mais inteligentes, gerar conteúdo criativo e traduzir idiomas com maior precisão.

The Future of Large Language Models (LLMs): Strategy, Opportunities and Challenges

Eae, o ChatGPT é Inovador?