MAG Editions
25 juillet 20258 min de lecture

Enfin comprendre l'IA générative : guide sans jargon pour débutants

Qu'est-ce qu'un LLM, des tokens, des hallucinations ? Le guide complet pour comprendre l'IA générative sans jargon technique, avec définitions et exemples concrets.

Enfin comprendre l'IA générative : guide sans jargon pour débutants

Enfin comprendre l'IA générative : guide sans jargon pour débutants

L'IA générative fait la une des journaux depuis 2022. Pourtant, les explications disponibles oscillent entre le jargon technique incompréhensible et la vulgarisation si approximative qu'elle en devient trompeuse. Ce guide vise à expliquer exactement comment ça fonctionne, sans simplifier à l'excès et sans noyer le lecteur.


Qu'est-ce que l'IA générative ?

L'IA générative est une catégorie d'intelligence artificielle capable de créer du contenu original — texte, image, audio, vidéo, code — à partir d'une instruction.

Elle se distingue des IA classiques (dites "discriminatives") qui, elles, classifient ou analysent : détecter un chat sur une photo, filtrer un spam, prédire la météo.

Les 4 grandes familles d'IA générative :

| Type | Ce qu'elle génère | Exemples | |---|---|---| | Texte (LLM) | Articles, code, réponses, résumés | ChatGPT, Claude, Gemini | | Image | Photos, illustrations, logos | Midjourney, DALL-E, Stable Diffusion | | Audio | Voix, musique, sons | ElevenLabs, Suno, Udio | | Vidéo | Clips, animations | Sora (OpenAI), Runway, Kling |

Ce guide se concentre sur les LLMs (modèles de langage), qui sont les plus utilisés au quotidien.


Glossaire : les termes essentiels expliqués

LLM (Large Language Model) Un LLM est un modèle statistique entraîné sur des centaines de milliards de mots pour prédire le prochain mot dans une séquence. GPT-4, Claude 3 et Gemini 1.5 sont des LLMs. Ils ne « pensent » pas — ils calculent des probabilités.

Token Un token est l'unité de base qu'un LLM manipule. Ce n'est pas exactement un mot : un mot peut être découpé en plusieurs tokens, et un token peut représenter plusieurs caractères. En anglais, 1 token ≈ 0,75 mot. En français, les accents et la morphologie créent légèrement plus de tokens par mot. La fenêtre de contexte d'un modèle est mesurée en tokens (ex : "128k tokens" = environ 96 000 mots).

Prompt Le prompt est l'instruction que vous envoyez au modèle. C'est votre question, votre commande, votre contexte. La qualité du prompt détermine directement la qualité de la réponse.

Hallucination Une hallucination est une affirmation fausse mais présentée avec confiance par le modèle. Exemple classique : ChatGPT qui cite une étude scientifique qui n'a jamais existé, avec un titre plausible et un journal réputé. Cela se produit parce que le modèle cherche la continuité textuelle probable, pas la vérité factuelle.

Fenêtre de contexte La fenêtre de contexte est la quantité d'information qu'un modèle peut traiter en une seule fois — l'équivalent de sa "mémoire de travail". Un modèle avec 128k tokens peut lire et analyser environ 90 000 mots en une seule requête. Claude 3 offre 200k tokens, Gemini 1.5 Pro jusqu'à 1 million.

Fine-tuning Le fine-tuning consiste à ré-entraîner un modèle de base sur un corpus spécialisé pour le spécialiser dans un domaine (droit, médecine, code, etc.). C'est plus efficace que d'écrire de longs prompts, mais nécessite des ressources techniques et des données de qualité.

Embedding Un embedding est une représentation mathématique d'un texte (mot, phrase, document) sous forme de vecteur numérique. Les embeddings permettent de comparer la similarité sémantique entre textes — la base des systèmes de recherche et de RAG.

RAG (Retrieval-Augmented Generation) Le RAG est une architecture qui connecte un LLM à une base de connaissances externe. Au lieu d'utiliser uniquement la mémoire du modèle (qui peut être obsolète), le système récupère les documents pertinents en temps réel et les injecte dans le contexte. C'est ainsi que fonctionnent les assistants IA d'entreprise qui répondent sur la base de vos propres documents.

Température La température est un paramètre qui contrôle la "créativité" des réponses. Une température proche de 0 produit des réponses déterministes et conservatrices. Une température élevée (0,8 à 1) produit des réponses plus variées et créatives — mais aussi plus susceptibles d'halluciner.


Comment fonctionne un LLM en réalité ?

L'entraînement en 3 étapes

Étape 1 — Pré-entraînement

Le modèle ingère des centaines de milliards de mots (livres, sites web, Wikipedia, code GitHub, articles scientifiques). Il apprend à prédire le prochain token dans une séquence. C'est un processus non supervisé qui dure des semaines sur des milliers de GPUs. GPT-4 a coûté estimativement plus de 100 millions de dollars à entraîner.

Étape 2 — Fine-tuning supervisé (SFT)

Des humains écrivent des exemples de bonnes réponses. Le modèle apprend à imiter ces exemples. C'est à cette étape que le modèle acquiert le format "assistant" — répondre aux questions, suivre des instructions, maintenir une conversation.

Étape 3 — RLHF (Reinforcement Learning from Human Feedback)

Des évaluateurs humains comparent des paires de réponses et indiquent laquelle est meilleure. Le modèle apprend à maximiser ces préférences humaines. C'est ce qui rend les modèles modernes utiles, inoffensifs et honnêtes (plutôt qu'optimisés pour la simple prédiction textuelle).

La prédiction token par token

Quand vous posez une question, le modèle génère la réponse un token à la fois. À chaque étape, il calcule la probabilité de tous les tokens possibles et en choisit un (selon sa température). C'est pourquoi les LLMs ne peuvent pas "corriger" une phrase qu'ils ont déjà générée dans la même réponse — ils avancent toujours vers l'avant.


Ce que les LLMs font bien — et ce qu'ils font mal

Ce qu'ils font bien

  • Rédaction et reformulation : synthèse, réécriture, traduction, adaptation de ton
  • Raisonnement structuré : décomposition de problèmes, plans d'action, listes de pros/cons
  • Code : génération, débogage, explication de code existant
  • Brainstorming : génération d'idées, exploration d'angles différents
  • Résumé : condensation de longs documents en points essentiels

Ce qu'ils font mal

  • Faits précis et récents : les LLMs ont une date de coupure d'entraînement et peuvent halluciner des données
  • Calcul exact : les LLMs ne calculent pas — ils prédisent des séquences numériques plausibles (souvent correctes pour des calculs simples, faillibles pour des calculs complexes)
  • Sourcing fiable : les citations et sources inventées sont fréquentes
  • Raisonnement causal profond : la chaîne de causalité complexe reste un point faible
  • Cohérence sur de très longs contextes : des incohérences peuvent apparaître dans des conversations très longues

Le prompt engineering : comment obtenir de meilleurs résultats

La structure d'un prompt efficace

Un bon prompt contient 4 éléments :

  1. Le rôle : "Tu es un expert en droit du travail français"
  2. Le contexte : "Je suis une PME de 12 salariés et je veux mettre en place un accord de télétravail"
  3. La tâche précise : "Rédige les 8 clauses essentielles d'un tel accord"
  4. Le format : "Sous forme de liste numérotée avec une explication de 2 phrases par clause"

Les techniques avancées

Chain of thought : demandez au modèle de "raisonner étape par étape" avant de conclure. Cela améliore significativement la qualité sur des problèmes complexes.

Few-shot : donnez des exemples de ce que vous attendez avant de formuler votre requête. Le modèle imite le format et le style de vos exemples.

Persona + contraintes : combinez un rôle précis avec des contraintes explicites ("réponds en moins de 150 mots", "n'utilise pas de jargon", "adopte un ton direct").


Les limites éthiques et pratiques à connaître

Biais et représentation

Les LLMs sont entraînés sur des données humaines, qui contiennent des biais humains (culturels, politiques, de genre). Ces biais se retrouvent dans les sorties du modèle. Les entreprises comme Anthropic, OpenAI et Google investissent pour les réduire, mais ils ne sont pas éliminés.

Confidentialité des données

Ce que vous envoyez à un LLM en ligne est potentiellement utilisé pour l'amélioration du modèle (sauf désactivation explicite ou contrat API). Ne soumettez pas de données personnelles de clients, de secrets commerciaux ou d'informations confidentielles sans vérifier les conditions d'utilisation.

L'impact environnemental

L'entraînement d'un grand modèle consomme autant d'électricité qu'une ville moyenne pendant plusieurs semaines. L'inférence (chaque requête) consomme moins, mais à l'échelle de milliards d'utilisateurs, la consommation totale est significative.


Par où commencer concrètement ?

En 30 jours, un débutant peut :

  • Semaine 1 : tester ChatGPT et Claude gratuitement sur des tâches réelles de son travail
  • Semaine 2 : apprendre les bases du prompt engineering (rôle + contexte + tâche + format)
  • Semaine 3 : identifier les 3 tâches chronophages que l'IA peut accélérer dans son quotidien
  • Semaine 4 : créer ses premiers prompts réutilisables et mesurer le temps gagné

Les ressources pour progresser

  • Documentation officielle de ChatGPT, Claude et Gemini (gratuite)
  • Prompt engineering guides d'OpenAI et Anthropic (gratuits)
  • Communautés : r/ChatGPT, Indie Hackers, forums spécialisés

Approfondir avec un guide structuré

Ce guide couvre les fondamentaux. Pour aller plus loin — comprendre les architectures Transformer, les différences entre modèles, et construire ses propres workflows IA — le guide Enfin comprendre l'IA propose une progression structurée de 0 à opérationnel, avec des exercices pratiques et des exemples de cas d'usage métier.

Pour aller plus loin

Enfin comprendre l'IA

Une vulgarisation claire et accessible de l'intelligence artificielle : comment ça fonctionne, ce que ça change et comment s'y adapter.

Voir le produit