Qu'est-ce qu'une hallucination en IA ?

Une hallucination est une réponse fausse mais confiante générée par un LLM. L'IA peut inventer des faits, des citations, des chiffres ou des noms de personnes qui n'existent pas. Cela se produit parce que le modèle prédit des tokens plausibles, pas des vérités vérifiées.

Quelle est la différence entre IA faible et IA forte ?

L'IA faible (narrow AI) est spécialisée dans une tâche précise : reconnaissance d'image, traduction, jeu d'échecs. C'est ce qui existe aujourd'hui. L'IA forte (AGI — Artificial General Intelligence) serait capable de raisonner sur n'importe quel domaine comme un humain. Elle n'existe pas encore.

ChatGPT est-il connecté à Internet ?

ChatGPT dans sa version de base utilise des données d'entraînement figées (cutoff date). ChatGPT avec la fonctionnalité 'Recherche sur le Web' peut accéder à Internet en temps réel. Claude et Gemini ont également des fonctionnalités similaires selon la version utilisée.

Peut-on faire confiance aux réponses de ChatGPT ?

Partiellement. Les LLMs sont fiables pour des tâches de rédaction, de résumé et de brainstorming. Ils sont peu fiables pour des faits précis, des chiffres, des citations ou des événements récents. Vérifiez toujours les données factuelles importantes via une source primaire.

Qu'est-ce que le prompt engineering ?

Le prompt engineering est l'art de formuler des instructions précises pour obtenir de meilleurs résultats d'un LLM. Un bon prompt inclut un rôle, un contexte, une tâche précise et un format de sortie attendu. C'est une compétence qui s'apprend en quelques heures.

L'IA générative va-t-elle remplacer les emplois ?

L'IA remplace des tâches, pas des emplois en entier. Les emplois qui consistaient à 80 % en tâches répétitives (saisie de données, rédaction de templates, traduction basique) sont effectivement transformés. Les rôles qui nécessitent jugement, relation humaine et créativité stratégique évoluent mais ne disparaissent pas.

Combien de paramètres a GPT-4 ?

OpenAI n'a pas officiellement publié le nombre de paramètres de GPT-4. Des estimations non confirmées citent 1,8 trillion de paramètres pour une architecture MoE (Mixture of Experts). GPT-3 avait 175 milliards de paramètres.

Qu'est-ce qu'un LLM, des tokens, des hallucinations ? Le guide complet pour comprendre l'IA générative sans jargon technique, avec définitions et exemples concrets.

Enfin comprendre l'IA générative : guide sans jargon pour débutants

Q: Qu'est-ce qu'un LLM ?

Un LLM (Large Language Model) est un modèle d'intelligence artificielle entraîné sur des milliards de textes pour prédire le mot (ou token) le plus probable dans une séquence. GPT-4, Claude et Gemini sont des LLMs. Ils ne 'comprennent' pas au sens humain — ils calculent des probabilités statistiques.

L'IA générative fait la une des journaux depuis 2022. Pourtant, les explications disponibles oscillent entre le jargon technique incompréhensible et la vulgarisation si approximative qu'elle en devient trompeuse. Ce guide vise à expliquer exactement comment ça fonctionne, sans simplifier à l'excès et sans noyer le lecteur.

Qu'est-ce que l'IA générative ?

L'IA générative est une catégorie d'intelligence artificielle capable de créer du contenu original — texte, image, audio, vidéo, code — à partir d'une instruction.

Elle se distingue des IA classiques (dites "discriminatives") qui, elles, classifient ou analysent : détecter un chat sur une photo, filtrer un spam, prédire la météo.

Les 4 grandes familles d'IA générative :

| Type | Ce qu'elle génère | Exemples | |---|---|---| | Texte (LLM) | Articles, code, réponses, résumés | ChatGPT, Claude, Gemini | | Image | Photos, illustrations, logos | Midjourney, DALL-E, Stable Diffusion | | Audio | Voix, musique, sons | ElevenLabs, Suno, Udio | | Vidéo | Clips, animations | Sora (OpenAI), Runway, Kling |

Ce guide se concentre sur les LLMs (modèles de langage), qui sont les plus utilisés au quotidien.

Glossaire : les termes essentiels expliqués

LLM (Large Language Model) Un LLM est un modèle statistique entraîné sur des centaines de milliards de mots pour prédire le prochain mot dans une séquence. GPT-4, Claude 3 et Gemini 1.5 sont des LLMs. Ils ne « pensent » pas — ils calculent des probabilités.

Token Un token est l'unité de base qu'un LLM manipule. Ce n'est pas exactement un mot : un mot peut être découpé en plusieurs tokens, et un token peut représenter plusieurs caractères. En anglais, 1 token ≈ 0,75 mot. En français, les accents et la morphologie créent légèrement plus de tokens par mot. La fenêtre de contexte d'un modèle est mesurée en tokens (ex : "128k tokens" = environ 96 000 mots).

Prompt Le prompt est l'instruction que vous envoyez au modèle. C'est votre question, votre commande, votre contexte. La qualité du prompt détermine directement la qualité de la réponse.

Hallucination Une hallucination est une affirmation fausse mais présentée avec confiance par le modèle. Exemple classique : ChatGPT qui cite une étude scientifique qui n'a jamais existé, avec un titre plausible et un journal réputé. Cela se produit parce que le modèle cherche la continuité textuelle probable, pas la vérité factuelle.

Fenêtre de contexte La fenêtre de contexte est la quantité d'information qu'un modèle peut traiter en une seule fois — l'équivalent de sa "mémoire de travail". Un modèle avec 128k tokens peut lire et analyser environ 90 000 mots en une seule requête. Claude 3 offre 200k tokens, Gemini 1.5 Pro jusqu'à 1 million.

Fine-tuning Le fine-tuning consiste à ré-entraîner un modèle de base sur un corpus spécialisé pour le spécialiser dans un domaine (droit, médecine, code, etc.). C'est plus efficace que d'écrire de longs prompts, mais nécessite des ressources techniques et des données de qualité.

Embedding Un embedding est une représentation mathématique d'un texte (mot, phrase, document) sous forme de vecteur numérique. Les embeddings permettent de comparer la similarité sémantique entre textes — la base des systèmes de recherche et de RAG.

RAG (Retrieval-Augmented Generation) Le RAG est une architecture qui connecte un LLM à une base de connaissances externe. Au lieu d'utiliser uniquement la mémoire du modèle (qui peut être obsolète), le système récupère les documents pertinents en temps réel et les injecte dans le contexte. C'est ainsi que fonctionnent les assistants IA d'entreprise qui répondent sur la base de vos propres documents.

Température La température est un paramètre qui contrôle la "créativité" des réponses. Une température proche de 0 produit des réponses déterministes et conservatrices. Une température élevée (0,8 à 1) produit des réponses plus variées et créatives — mais aussi plus susceptibles d'halluciner.

Comment fonctionne un LLM en réalité ?

L'entraînement en 3 étapes

Étape 1 — Pré-entraînement

Le modèle ingère des centaines de milliards de mots (livres, sites web, Wikipedia, code GitHub, articles scientifiques). Il apprend à prédire le prochain token dans une séquence. C'est un processus non supervisé qui dure des semaines sur des milliers de GPUs. GPT-4 a coûté estimativement plus de 100 millions de dollars à entraîner.

Étape 2 — Fine-tuning supervisé (SFT)

Des humains écrivent des exemples de bonnes réponses. Le modèle apprend à imiter ces exemples. C'est à cette étape que le modèle acquiert le format "assistant" — répondre aux questions, suivre des instructions, maintenir une conversation.

Étape 3 — RLHF (Reinforcement Learning from Human Feedback)

Des évaluateurs humains comparent des paires de réponses et indiquent laquelle est meilleure. Le modèle apprend à maximiser ces préférences humaines. C'est ce qui rend les modèles modernes utiles, inoffensifs et honnêtes (plutôt qu'optimisés pour la simple prédiction textuelle).

La prédiction token par token

Quand vous posez une question, le modèle génère la réponse un token à la fois. À chaque étape, il calcule la probabilité de tous les tokens possibles et en choisit un (selon sa température). C'est pourquoi les LLMs ne peuvent pas "corriger" une phrase qu'ils ont déjà générée dans la même réponse — ils avancent toujours vers l'avant.

Ce que les LLMs font bien — et ce qu'ils font mal

Ce qu'ils font bien

Rédaction et reformulation : synthèse, réécriture, traduction, adaptation de ton
Raisonnement structuré : décomposition de problèmes, plans d'action, listes de pros/cons
Code : génération, débogage, explication de code existant
Brainstorming : génération d'idées, exploration d'angles différents
Résumé : condensation de longs documents en points essentiels

Ce qu'ils font mal

Faits précis et récents : les LLMs ont une date de coupure d'entraînement et peuvent halluciner des données
Calcul exact : les LLMs ne calculent pas — ils prédisent des séquences numériques plausibles (souvent correctes pour des calculs simples, faillibles pour des calculs complexes)
Sourcing fiable : les citations et sources inventées sont fréquentes
Raisonnement causal profond : la chaîne de causalité complexe reste un point faible
Cohérence sur de très longs contextes : des incohérences peuvent apparaître dans des conversations très longues

Le prompt engineering : comment obtenir de meilleurs résultats

La structure d'un prompt efficace

Un bon prompt contient 4 éléments :

Le rôle : "Tu es un expert en droit du travail français"
Le contexte : "Je suis une PME de 12 salariés et je veux mettre en place un accord de télétravail"
La tâche précise : "Rédige les 8 clauses essentielles d'un tel accord"
Le format : "Sous forme de liste numérotée avec une explication de 2 phrases par clause"

Les techniques avancées

Chain of thought : demandez au modèle de "raisonner étape par étape" avant de conclure. Cela améliore significativement la qualité sur des problèmes complexes.

Few-shot : donnez des exemples de ce que vous attendez avant de formuler votre requête. Le modèle imite le format et le style de vos exemples.

Persona + contraintes : combinez un rôle précis avec des contraintes explicites ("réponds en moins de 150 mots", "n'utilise pas de jargon", "adopte un ton direct").

Les limites éthiques et pratiques à connaître

Biais et représentation

Les LLMs sont entraînés sur des données humaines, qui contiennent des biais humains (culturels, politiques, de genre). Ces biais se retrouvent dans les sorties du modèle. Les entreprises comme Anthropic, OpenAI et Google investissent pour les réduire, mais ils ne sont pas éliminés.

Confidentialité des données

Ce que vous envoyez à un LLM en ligne est potentiellement utilisé pour l'amélioration du modèle (sauf désactivation explicite ou contrat API). Ne soumettez pas de données personnelles de clients, de secrets commerciaux ou d'informations confidentielles sans vérifier les conditions d'utilisation.

L'impact environnemental

L'entraînement d'un grand modèle consomme autant d'électricité qu'une ville moyenne pendant plusieurs semaines. L'inférence (chaque requête) consomme moins, mais à l'échelle de milliards d'utilisateurs, la consommation totale est significative.

Par où commencer concrètement ?

En 30 jours, un débutant peut :

Semaine 1 : tester ChatGPT et Claude gratuitement sur des tâches réelles de son travail
Semaine 2 : apprendre les bases du prompt engineering (rôle + contexte + tâche + format)
Semaine 3 : identifier les 3 tâches chronophages que l'IA peut accélérer dans son quotidien
Semaine 4 : créer ses premiers prompts réutilisables et mesurer le temps gagné

Les ressources pour progresser

Documentation officielle de ChatGPT, Claude et Gemini (gratuite)
Prompt engineering guides d'OpenAI et Anthropic (gratuits)
Communautés : r/ChatGPT, Indie Hackers, forums spécialisés

Approfondir avec un guide structuré

Ce guide couvre les fondamentaux. Pour aller plus loin — comprendre les architectures Transformer, les différences entre modèles, et construire ses propres workflows IA — le guide Enfin comprendre l'IA propose une progression structurée de 0 à opérationnel, avec des exercices pratiques et des exemples de cas d'usage métier.

Enfin comprendre l'IA générative : guide sans jargon pour débutants

Enfin comprendre l'IA générative : guide sans jargon pour débutants

Qu'est-ce que l'IA générative ?

Glossaire : les termes essentiels expliqués

Comment fonctionne un LLM en réalité ?

L'entraînement en 3 étapes

La prédiction token par token

Ce que les LLMs font bien — et ce qu'ils font mal

Ce qu'ils font bien

Ce qu'ils font mal

Le prompt engineering : comment obtenir de meilleurs résultats

La structure d'un prompt efficace

Les techniques avancées

Les limites éthiques et pratiques à connaître

Biais et représentation

Confidentialité des données

L'impact environnemental

Par où commencer concrètement ?

En 30 jours, un débutant peut :

Les ressources pour progresser

Approfondir avec un guide structuré

Enfin comprendre l'IA

Articles connexes

Agents IA en 2026 : 10 tâches business à automatiser immédiatement

ChatGPT, Claude et l'IA au quotidien : 15 cas d'usage qui font gagner 10h/semaine