Token

En intelligence artificielle et en prompt engineering, le concept de « token » est fondamental pour comprendre comment les modèles de langage fonctionnent. Un token est l’unité de base utilisée par ces modèles pour traiter et générer du texte.
Qu’est-ce qu’un token ? C’est un morceau de texte, qui peut être un mot, un caractère ou une partie de mot, traité comme une unité par un modèle de langage.

Comment fonctionne un token ?

Imaginez un jeu de construction. Chaque brique représente un token. Les modèles de langage assemblent ces briques (tokens) pour former des phrases et des textes. Un mot courant comme « maison » pourrait être un seul token. Un mot plus complexe ou moins fréquent, comme « extraordinaire », pourrait être divisé en plusieurs tokens, comme « extra » et « ordinaire ». La façon dont les mots sont découpés en tokens dépend de l’algorithme de tokenisation utilisé par le modèle.

Pourquoi un token est-il important ?

Les tokens sont essentiels car ils permettent aux modèles de langage de quantifier et de manipuler le texte. Le nombre de tokens utilisés dans une requête ou une réponse a un impact direct sur les performances et le coût d’utilisation du modèle. En prompt engineering, comprendre les tokens permet d’optimiser les prompts pour obtenir de meilleurs résultats et gérer les limites de longueur imposées par les modèles.

Exemples d’utilisation de token

  • « Bonjour »: Un seul token.
  • « Intelligence artificielle »: Pourrait être deux tokens (« intelligence » et « artificielle ») ou trois si « artificielle » est décomposé en « artificiel » et « le ».
  • « 123 »: Un seul token, même s’il contient plusieurs chiffres.
  • « aujourd’hui »: Un seul token, même si on pourrait le considérer comme la contraction de « au jour d’hui ».

Termes associés

Laisser un commentaire

Retour en haut