Concepts de l'IA générative — outils, modèles, tokens, prompts

Outils ou modèles : la distinction qui change tout

Quand on parle d'« IA », on confond souvent deux choses très différentes : l'outil qu'on utilise (l'application, l'interface) et le modèle qui tourne en dessous (le moteur statistique). Comprendre cette différence, c'est éviter beaucoup de malentendus en classe et en formation.

Un modèle, c'est un fichier — souvent énorme — qui contient des milliards de paramètres numériques. C'est le résultat brut d'un entraînement long et coûteux. Tout seul, il ne fait rien : il faut un programme pour lui poser des questions et afficher ses réponses.

Un outil, c'est ce programme : l'interface utilisateur, la mémoire de la conversation, les boutons, la mise en forme, parfois la recherche web ou les pièces jointes. Plusieurs outils peuvent utiliser le même modèle — et un même outil peut basculer d'un modèle à l'autre.

Exemples côte à côte

L'outil interface	Le modèle qui tourne dedans moteur
ChatGPT (l'app, l'interface web)	GPT-5, GPT-4o, GPT-4… (les modèles d'OpenAI)
Claude.ai (l'app d'Anthropic)	Claude Opus 4.6, Claude Sonnet 4.6, Claude Haiku 4.5
Gemini (l'app de Google)	Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 3…
Le Chat (l'app de Mistral)	Mistral Large, Mistral Small, Codestral…
Microsoft Copilot (intégré dans Word, Excel)	Souvent GPT-4 ou un dérivé — Microsoft est partenaire d'OpenAI
Cette démo (constellation des tokens)	Gemini 2.5 Flash via Vertex AI

En pratique pour les enseignants : quand un élève dit « j'ai utilisé l'IA », demande quel outil et si possible quel modèle. Les capacités, les limites, le coût en eau, l'accès, la confidentialité — tout dépend de ce couple, pas d'« l'IA » en général.

Le glossaire des sigles

Les acronymes pleuvent dès qu'on parle d'IA. En voici les essentiels, avec leur signification réelle.

GPT

Generative Pre-trained Transformer

Une famille de modèles développée par OpenAI (GPT-3, GPT-4, GPT-5…). « Generative » : produit du texte. « Pre-trained » : entraîné sur d'énormes quantités de données avant d'être mis en service. « Transformer » : l'architecture mathématique inventée chez Google en 2017 qui sert de base à tous les LLM modernes.

LLM

Large Language Model

« Grand modèle de langage ». Le terme générique pour désigner un modèle entraîné sur du texte avec des dizaines à des centaines de milliards de paramètres. GPT, Claude, Gemini, Mistral, Llama sont tous des LLM.

IA générative

Generative AI

Toute IA qui produit du contenu : texte, image, son, vidéo, code. Par opposition à une IA qui se contente de classifier ou de prédire (par exemple un filtre anti-spam). Un LLM est une IA générative spécialisée dans le texte.

RAG

Retrieval-Augmented Generation

Technique qui permet à un LLM de chercher dans des documents avant de répondre, plutôt que de répondre uniquement avec ce qu'il a en mémoire. C'est ce que fait NotebookLM ou un assistant qui « lit » tes PDF.

RLHF

Reinforcement Learning from Human Feedback

Méthode d'entraînement où des humains notent les réponses du modèle pour lui apprendre à être plus utile, plus sûr, plus poli. C'est ce qui « aligne » un modèle brut en assistant convenable. Cette étape explique pourquoi Gemini reste cohérent même à haute température.

API

Application Programming Interface

Le moyen par lequel un programme parle à un modèle. Quand tu utilises ChatGPT, tu parles à l'outil, qui parle à l'API, qui parle au modèle. Notre démo utilise directement l'API de Gemini.

Multimodal

Un modèle qui comprend plusieurs types d'entrées : texte et image, parfois son ou vidéo. GPT-4o, Claude, Gemini sont multimodaux. Les premiers GPT étaient seulement texte.

Open source / open weights

Un modèle dont les paramètres (les « poids ») sont publiés librement. Llama (Meta), Mistral, Gemma (Google), DeepSeek le sont. GPT, Claude, Gemini ne le sont pas — ils sont fermés.

Les concepts à comprendre pour bien l'utiliser

Au-delà des acronymes, quatre notions font la différence entre un usage hasardeux et un usage maîtrisé.

Token l'unité de base

Un token, c'est un fragment que le modèle voit. Pas un mot, pas une lettre, mais un morceau intermédiaire — souvent une syllabe ou une partie de mot fréquente. Le mot anticonstitutionnellement peut se découper en anti + constitution + nelle + ment ; le mot chat est un seul token.

C'est statistique, pas grammatical : le découpage a été appris en cherchant les fragments qui reviennent le plus souvent dans les données d'entraînement. Chaque token a un identifiant numérique dans le vocabulaire du modèle (Gemini en a environ 256 000).

Pourquoi ça compte : c'est ce qui explique pourquoi les modèles butent sur « combien de R dans fraise ? » — ils ne voient pas les lettres, ils voient des numéros de tokens. La démo « constellation des tokens » te montre ce découpage en direct.

Prompt ce que tu écris

Le prompt, c'est tout ce que tu donnes au modèle pour qu'il réponde : ta question, le contexte, les exemples, les consignes de format. Le terme vient de l'anglais to prompt, « inciter » ou « souffler une réplique ».

Un bon prompt n'est pas seulement clair : il est structuré. Plus tu donnes de contexte (qui tu es, ce que tu cherches, à qui tu t'adresses, quel format tu veux), plus la réponse sera utile. À l'inverse, un prompt trop court force le modèle à deviner — et il devine sur la base du plus probable, donc du plus banal.

Mauvais prompt : Fais-moi un poème.
Meilleur prompt :

Écris un poème en alexandrins de 8 vers, sur le thème de la rentrée scolaire vue par un élève qui hésite. Ton mélancolique, sans rimes faciles.

Contexte la mémoire courte

La fenêtre de contexte, c'est la quantité de tokens que le modèle peut voir d'un coup. Tout ce qui en sort est oublié. Une conversation longue, un document collé, des messages précédents : tout est compté en tokens dans cette fenêtre.

Les modèles modernes ont des fenêtres énormes (jusqu'à 1 million de tokens pour Gemini 2.5 Pro), mais attention : ce n'est pas parce que le modèle peut tout voir qu'il s'en souviendra bien. Plus le contexte est long, plus l'attention se dilue. C'est l'effet « perdu au milieu ».

En pratique : pour un travail sérieux, mieux vaut un contexte court et focalisé qu'un contexte fleuve. Coller 200 pages d'historique pour poser une question simple, c'est souvent contre-productif.

Température le réglage du hasard

La température, c'est un curseur entre déterministe et créatif. À 0, le modèle prend toujours le token le plus probable — la même question donne toujours la même réponse. Au maximum, il accepte les candidats moins probables — la même question donne des réponses différentes à chaque fois.

Une température basse, c'est utile pour les tâches précises (extraction d'info, classification, résumé fidèle). Une température haute, c'est utile pour brainstormer, écrire de la fiction, générer des variations. Au-delà d'un certain seuil, le modèle commence à choisir des tokens absurdes et la cohérence se brise.

À voir en direct : la démo « constellation des tokens » te permet de bouger la température entre 0% et 100% et d'observer la distribution des candidats s'aplatir. C'est le meilleur moyen de comprendre ce que ce paramètre fait vraiment.

Hallucination l'invention plausible

On parle d'hallucination quand le modèle produit une information fausse mais formulée de façon convaincante : un livre qui n'existe pas, une citation jamais prononcée, un fait inventé. Ce n'est pas un bug — c'est une conséquence directe du fonctionnement par prédiction de tokens probables.

Un LLM ne sait pas qu'il sait ou qu'il ne sait pas. Il génère ce qui sonne juste dans le contexte. Quand il n'a pas l'information précise, il complète par ce qui est statistiquement plausible — d'où l'invention de noms, dates, références plausibles mais fausses.

Pour les enseignants : c'est le point critique à comprendre avant d'autoriser un usage en classe. Toute information sortie d'un LLM doit être vérifiée si elle est factuelle. Le modèle est un partenaire de réflexion, pas une source.

Paramètres la taille du modèle

Quand on dit qu'un modèle a « 70 milliards de paramètres », ce sont les poids numériques qui ont été ajustés pendant l'entraînement. Plus il y en a, plus le modèle peut capturer des nuances — mais aussi plus il consomme de mémoire et d'énergie pour répondre.

Les modèles « Flash », « Mini », « Haiku » ont moins de paramètres et sont plus rapides et moins coûteux. Les modèles « Pro », « Opus », « Ultra » ont plus de paramètres et sont meilleurs pour les tâches complexes.

Ordre de grandeur : GPT-3 avait 175 milliards de paramètres. Les plus gros modèles actuels en ont plusieurs centaines de milliards. Le cerveau humain a environ 100 milliards de neurones et 100 000 milliards de synapses — donc nous restons largement plus complexes, malgré les apparences.

Voir tout ça en action

La démo interactive te permet d'observer la prédiction token par token, la distribution des candidats, l'effet de la température, et le poids probabiliste de la chaîne complète.

Ouvrir la constellation des tokens →