Comment Chat GPT est-il entraîné ?

comment-le-chat-gpt-est-entrainé-768x435-718x.jpg

Si vous êtes familier avec ChatGPT, vous avez peut-être entendu dire qu'il est formé sur un vaste corpus de données. Mais qu'est-ce que cela signifie exactement ? Dans cet article, nous allons examiner les subtilités de la façon dont ChatGPT est formé ?

ChatGPT est un modèle de langage pré-entraîné qui a été ajusté grâce à une combinaison de techniques d'apprentissage supervisé et par renforcement. Le processus d'entraînement de ChatGPT impliquait l'entrée d'une grande quantité de données textuelles dans le modèle et l'ajustement de ses paramètres afin qu'il puisse générer du texte similaire au texte du corpus d'entraînement.

L'approche d'apprentissage non supervisé a été utilisée pour ce processus, ce qui signifie que le modèle n'a pas reçu de retour explicite sur la pertinence de son texte généré. Au lieu de cela, le modèle ajuste ses paramètres en fonction de la probabilité que le texte généré soit similaire au texte dans le corpus d'entraînement.

GPT-3, le modèle parent de ChatGPT-3, est l'un des plus grands modèles de langage jamais créés, avec 175 milliards de paramètres et un contexte de 2048 jetons. Il est entraîné sur des centaines de milliards de mots issus de Common Crawl, WebText2, Books1/2, Wikipedia en anglais, et des exemples de code en CSS, JSX, Python et d'autres langages de programmation.

La méthode de formation utilisée pour GPT-3 est la préformation générative, ce qui signifie qu'elle est entraînée à prédire le jeton ou le mot suivant dans la phrase d'entrée.

Meilleure alternative de Chat GPT

Apprentissage supervisé

Le modèle ChatGPT a été affiné via un processus d'apprentissage supervisé par des formateurs humains. Ces formateurs ont engagé des conversations, prenant à la fois le rôle de l'utilisateur et de l'assistant IA.

Ils ont reçu des suggestions du modèle pour les guider dans la composition de leurs réponses, qui ont ensuite été mixées avec le jeu de données InstructGPT converti en format de dialogue.

Apprentissage par renforcement

Le modèle a été amélioré grâce à l'apprentissage par renforcement en utilisant l'optimisation de politique proximale (PPO). Les entraîneurs humains ont évalué les réponses générées par le modèle lors d'une conversation précédente et ont utilisé ces évaluations pour développer des modèles de récompense. Le modèle a ensuite été affiné en fonction de ces modèles de récompense.

Le processus de peaufinage a été effectué plusieurs fois pour obtenir de meilleures performances. Les algorithmes PPO sont rentables par rapport à d'autres algorithmes et ont une performance plus rapide, ce qui les rend idéaux pour ce processus.

OpenAI continue de collecter des informations auprès des utilisateurs qui interagissent avec ChatGPT, qui peuvent ensuite être utilisées pour améliorer et affiner davantage le modèle.

Les utilisateurs ont la possibilité de voter sur les réponses de ChatGPT en votant soit pour ou contre, et ils ont également la possibilité d'offrir des commentaires supplémentaires. Ces données sont utilisées pour améliorer encore la performance du modèle et le rendre plus apte à générer un texte semblable à celui d'un être humain.

Données utilisées pour entraîner le modèle

ChatGPT-3 est un modèle de langage affiné à partir de la série GPT-3.5, qui a été entraîné à l'aide d'une infrastructure de supercalcul Azure AI. Il a été entraîné sur une énorme quantité de texte extrait d'Internet, qui comprend des livres, des forums de discussion, des articles, des sites web, des articles académiques, du code et d'autres sources.

Le corpus de données textuelles utilisé pour entraîner ChatGPT-3 faisait plus de 45 téraoctets, ce qui est extrêmement volumineux et contribue à la capacité du modèle à générer des textes similaires à ce que pourrait produire un journaliste ou un auteur.

Articles connexes

Voir plus >>