La constellation des tokens — comprendre comment une IA prédit le mot suivant

Une IA générative ne lit pas une phrase, elle la prédit. À chaque instant, elle calcule la probabilité de tous les tokens (fragments de mot) qui pourraient venir ensuite, et en choisit un selon la température. À 0% elle prend toujours le candidat le plus probable (déterministe). À 50% elle ose un peu de diversité. Au-delà de 65%, le modèle commence à choisir des tokens improbables et la cohérence se brise — c'est la zone d'instabilité.

⚠ Note honnête : Gemini Flash est un modèle très aligné. Même à 100% il résiste à produire le pur charabia multilingue qu'on observerait sur Mistral ou Llama au même réglage. Le mécanisme est identique — la température ouvre la distribution — mais Gemini a appris à rester poli même quand on lui dit de divaguer. Le foirage existe mais reste plus discret qu'avec un modèle moins aligné.

Cet outil affiche, à chaque étape, la vraie distribution calculée par le modèle — pas une simulation. Ce sont les chiffres que voit l'IA elle-même au moment où elle choisit.

Phrase de départ

Température 35%

0% sage 65% ⚠ 100% chaos

Top-K candidats

Mode pas-à-pas activé — clique sur « Token suivant » pour avancer un token à la fois et observer la distribution à chaque étape.

Tape une phrase et clique « Générer la suite » pour commencer.

Ce qui se passe ici

Au-dessus du token sélectionné, tu vois les candidats les plus probables à ce moment-là. La taille de chaque bulle est proportionnelle à sa probabilité. La couleur du token au centre indique à quel point le modèle était sûr de lui : bleu foncé = très sûr (>85%), doré = hésitation possible, orange/rouge = forte incertitude. Le petit liseré sous chaque token dans la rangée du bas suit le même code.

L'ID (le #1234) sous chaque token est son identifiant unique dans le vocabulaire du modèle (Gemini en a environ 256 000). Deux tokens visuellement proches comme can et ·can (avec espace) ont des IDs différents — c'est exactement ce qui matérialise le fait que le modèle ne voit pas des mots, il voit des numéros.

Clique sur n'importe quel token de la rangée pour ouvrir la liste des autres candidats à cette position, classés par probabilité. Tu peux alors : cliquer sur un candidat alternatif pour explorer cette branche, ou utiliser le bouton « Regénérer la suite à partir d'ici » pour relancer l'IA depuis ce point. Bouge la température et regénère pour voir la distribution s'aplatir.

Température basse 0.2

—

Température haute 1.5

—

Ce qu'on observe

À température basse, la même phrase produit (presque) toujours la même suite : le modèle joue la sécurité. À température haute, il ose des chemins moins probables — ça donne plus d'originalité, mais aussi plus d'incohérences.

C'est ce que les enseignants appellent le compromis créativité/justesse : pareil pour une consigne en classe — plus elle est ouverte, plus les réponses divergent.