Outils ou modèles : la distinction qui change tout
Quand on parle d'« IA », on confond souvent deux choses très différentes : l'outil qu'on utilise (l'application, l'interface) et le modèle qui tourne en dessous (le moteur statistique). Comprendre cette différence, c'est éviter beaucoup de malentendus en classe et en formation.
Un modèle, c'est un fichier — souvent énorme — qui contient des milliards de paramètres numériques. C'est le résultat brut d'un entraînement long et coûteux. Tout seul, il ne fait rien : il faut un programme pour lui poser des questions et afficher ses réponses.
Un outil, c'est ce programme : l'interface utilisateur, la mémoire de la conversation, les boutons, la mise en forme, parfois la recherche web ou les pièces jointes. Plusieurs outils peuvent utiliser le même modèle — et un même outil peut basculer d'un modèle à l'autre.
Exemples côte à côte
| L'outil interface | Le modèle qui tourne dedans moteur |
|---|---|
| ChatGPT (l'app, l'interface web) | GPT-5, GPT-4o, GPT-4… (les modèles d'OpenAI) |
| Claude.ai (l'app d'Anthropic) | Claude Opus 4.6, Claude Sonnet 4.6, Claude Haiku 4.5 |
| Gemini (l'app de Google) | Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 3… |
| Le Chat (l'app de Mistral) | Mistral Large, Mistral Small, Codestral… |
| Microsoft Copilot (intégré dans Word, Excel) | Souvent GPT-4 ou un dérivé — Microsoft est partenaire d'OpenAI |
| Cette démo (constellation des tokens) | Gemini 2.5 Flash via Vertex AI |
En pratique pour les enseignants : quand un élève dit « j'ai utilisé l'IA », demande quel outil et si possible quel modèle. Les capacités, les limites, le coût en eau, l'accès, la confidentialité — tout dépend de ce couple, pas d'« l'IA » en général.
Le glossaire des sigles
Les acronymes pleuvent dès qu'on parle d'IA. En voici les essentiels, avec leur signification réelle.
GPT
Une famille de modèles développée par OpenAI (GPT-3, GPT-4, GPT-5…). « Generative » : produit du texte. « Pre-trained » : entraîné sur d'énormes quantités de données avant d'être mis en service. « Transformer » : l'architecture mathématique inventée chez Google en 2017 qui sert de base à tous les LLM modernes.
LLM
« Grand modèle de langage ». Le terme générique pour désigner un modèle entraîné sur du texte avec des dizaines à des centaines de milliards de paramètres. GPT, Claude, Gemini, Mistral, Llama sont tous des LLM.
IA générative
Toute IA qui produit du contenu : texte, image, son, vidéo, code. Par opposition à une IA qui se contente de classifier ou de prédire (par exemple un filtre anti-spam). Un LLM est une IA générative spécialisée dans le texte.
RAG
Technique qui permet à un LLM de chercher dans des documents avant de répondre, plutôt que de répondre uniquement avec ce qu'il a en mémoire. C'est ce que fait NotebookLM ou un assistant qui « lit » tes PDF.
RLHF
Méthode d'entraînement où des humains notent les réponses du modèle pour lui apprendre à être plus utile, plus sûr, plus poli. C'est ce qui « aligne » un modèle brut en assistant convenable. Cette étape explique pourquoi Gemini reste cohérent même à haute température.
API
Le moyen par lequel un programme parle à un modèle. Quand tu utilises ChatGPT, tu parles à l'outil, qui parle à l'API, qui parle au modèle. Notre démo utilise directement l'API de Gemini.
Multimodal
Un modèle qui comprend plusieurs types d'entrées : texte et image, parfois son ou vidéo. GPT-4o, Claude, Gemini sont multimodaux. Les premiers GPT étaient seulement texte.
Open source / open weights
Un modèle dont les paramètres (les « poids ») sont publiés librement. Llama (Meta), Mistral, Gemma (Google), DeepSeek le sont. GPT, Claude, Gemini ne le sont pas — ils sont fermés.
Les concepts à comprendre pour bien l'utiliser
Au-delà des acronymes, quatre notions font la différence entre un usage hasardeux et un usage maîtrisé.
Token l'unité de base
Un token, c'est un fragment que le modèle voit. Pas un mot, pas une lettre, mais un morceau intermédiaire — souvent une syllabe ou une partie de mot fréquente. Le mot anticonstitutionnellement peut se découper en anti + constitution + nelle + ment ; le mot chat est un seul token.
C'est statistique, pas grammatical : le découpage a été appris en cherchant les fragments qui reviennent le plus souvent dans les données d'entraînement. Chaque token a un identifiant numérique dans le vocabulaire du modèle (Gemini en a environ 256 000).
Prompt ce que tu écris
Le prompt, c'est tout ce que tu donnes au modèle pour qu'il réponde : ta question, le contexte, les exemples, les consignes de format. Le terme vient de l'anglais to prompt, « inciter » ou « souffler une réplique ».
Un bon prompt n'est pas seulement clair : il est structuré. Plus tu donnes de contexte (qui tu es, ce que tu cherches, à qui tu t'adresses, quel format tu veux), plus la réponse sera utile. À l'inverse, un prompt trop court force le modèle à deviner — et il devine sur la base du plus probable, donc du plus banal.
Fais-moi un poème.Meilleur prompt :
Écris un poème en alexandrins de 8 vers, sur le thème de la rentrée scolaire vue par un élève qui hésite. Ton mélancolique, sans rimes faciles.Contexte la mémoire courte
La fenêtre de contexte, c'est la quantité de tokens que le modèle peut voir d'un coup. Tout ce qui en sort est oublié. Une conversation longue, un document collé, des messages précédents : tout est compté en tokens dans cette fenêtre.
Les modèles modernes ont des fenêtres énormes (jusqu'à 1 million de tokens pour Gemini 2.5 Pro), mais attention : ce n'est pas parce que le modèle peut tout voir qu'il s'en souviendra bien. Plus le contexte est long, plus l'attention se dilue. C'est l'effet « perdu au milieu ».
Température le réglage du hasard
La température, c'est un curseur entre déterministe et créatif. À 0, le modèle prend toujours le token le plus probable — la même question donne toujours la même réponse. Au maximum, il accepte les candidats moins probables — la même question donne des réponses différentes à chaque fois.
Une température basse, c'est utile pour les tâches précises (extraction d'info, classification, résumé fidèle). Une température haute, c'est utile pour brainstormer, écrire de la fiction, générer des variations. Au-delà d'un certain seuil, le modèle commence à choisir des tokens absurdes et la cohérence se brise.
Hallucination l'invention plausible
On parle d'hallucination quand le modèle produit une information fausse mais formulée de façon convaincante : un livre qui n'existe pas, une citation jamais prononcée, un fait inventé. Ce n'est pas un bug — c'est une conséquence directe du fonctionnement par prédiction de tokens probables.
Un LLM ne sait pas qu'il sait ou qu'il ne sait pas. Il génère ce qui sonne juste dans le contexte. Quand il n'a pas l'information précise, il complète par ce qui est statistiquement plausible — d'où l'invention de noms, dates, références plausibles mais fausses.
Paramètres la taille du modèle
Quand on dit qu'un modèle a « 70 milliards de paramètres », ce sont les poids numériques qui ont été ajustés pendant l'entraînement. Plus il y en a, plus le modèle peut capturer des nuances — mais aussi plus il consomme de mémoire et d'énergie pour répondre.
Les modèles « Flash », « Mini », « Haiku » ont moins de paramètres et sont plus rapides et moins coûteux. Les modèles « Pro », « Opus », « Ultra » ont plus de paramètres et sont meilleurs pour les tâches complexes.
Voir tout ça en action
La démo interactive te permet d'observer la prédiction token par token, la distribution des candidats, l'effet de la température, et le poids probabiliste de la chaîne complète.
Ouvrir la constellation des tokens →