CONCEPTS FONDAMENTAUX
Intelligence Artificielle Générative
Branche de l’IA capable de créer du contenu original (texte, images, audio, code) en apprenant des modèles à partir de données d’entraînement massives.
Exemple : ChatGPT génère des textes, DALL-E crée des images
Multimodal AI
IA capable de traiter et générer plusieurs types de données simultanément : texte, images, audio, vidéo dans un même modèle unifié.
Exemple : GPT-4V analyse images et texte ensemble
Artificial General Intelligence (AGI)
IA hypothétique possédant une intelligence générale comparable à celle des humains, capable d’apprendre et exceller dans n’importe quel domaine.
Exemple : IA pouvant maîtriser aussi bien la physique que l’art ou la cuisine
Superintelligence
Intelligence artificielle dépassant largement les capacités cognitives humaines dans tous les domaines, concept théorique et débattu.
Exemple : IA résolvant des problèmes scientifiques impossibles pour l’humanité
Foundation Model
Modèle de grande taille entraîné sur des données diverses, servant de base pour de nombreuses applications spécialisées via adaptation.
Exemple : GPT, BERT comme fondations pour diverses tâches de NLP
MODÈLES
Large Language Model (LLM)
Modèle de langage de grande taille entraîné sur des corpus textuels massifs pour comprendre et générer du langage naturel avec une précision remarquable.
Exemple : GPT-4, Claude, Gemini sont des LLM
GPT (Generative Pre-trained Transformer)
Famille de modèles de langage basés sur l’architecture Transformer, pré-entraînés sur de vastes corpus textuels pour la génération de texte.
Exemple : GPT-3.5, GPT-4 d’OpenAI
BERT (Bidirectional Encoder Representations from Transformers)
Modèle de langage bidirectionnel excellent pour la compréhension de texte et les tâches de classification plutôt que la génération.
Exemple : Analyse de sentiment, classification de documents
Stable Diffusion
Modèle de diffusion open-source pour la génération d’images à partir de descriptions textuelles, fonctionnant dans l’espace latent.
Exemple : Générer ‘un chat astronaute dans l’espace’
DALL-E
Modèle d’OpenAI spécialisé dans la génération d’images créatives et artistiques à partir de descriptions textuelles détaillées.
Exemple : ‘Un avocat (fruit) en costume d’avocat (métier)’
Midjourney
Plateforme de génération d’images IA accessible via Discord, réputée pour ses créations artistiques et esthétiques de haute qualité.
Exemple : Génération d’art conceptuel et d’illustrations professionnelles
Frontier Model
Modèles IA les plus avancés et performants du moment, repoussant les limites des capacités actuelles de l’intelligence artificielle.
Exemple : GPT-4, Claude 3, Gemini Ultra représentent les modèles frontières actuels
ARCHITECTURE
Transformer
Architecture de réseau de neurones révolutionnaire utilisant le mécanisme d’attention pour traiter les séquences de données de manière parallèle et efficace.
Exemple : Base de tous les modèles GPT et BERT
Attention Mechanism
Mécanisme permettant au modèle de se concentrer sélectivement sur différentes parties de l’entrée lors de la génération de chaque élément de sortie.
Exemple : Focus sur les mots pertinents dans une phrase longue
Retrieval-Augmented Generation (RAG)
Architecture combinant génération de texte et recherche d’informations pour produire des réponses factuellement plus précises et actualisées.
Exemple : Chercher dans une base de données avant de générer une réponse
Variational Autoencoder (VAE)
Architecture de réseau neuronal apprenant à encoder des données dans un espace latent et à les décoder, utilisée en génération d’images.
Exemple : Composant de Stable Diffusion pour encoder/décoder les images
Generative Adversarial Network (GAN)
Architecture où deux réseaux (générateur et discriminateur) s’entraînent en opposition pour créer des données synthétiques réalistes.
Exemple : StyleGAN pour générer des visages ultra-réalistes
Parameters
Variables ajustables dans un réseau de neurones, déterminant sa capacité et sa complexité. Plus de paramètres = plus de capacité potentielle.
Exemple : GPT-3 : 175 milliards de paramètres, GPT-4 : estimation 1.7 trillion
TECHNIQUES
Prompt Engineering
Art et science de concevoir des prompts optimaux pour maximiser la qualité et la pertinence des réponses générées par l’IA.
Exemple : Utiliser des exemples et du contexte pour améliorer les réponses
Chain-of-Thought (CoT)
Technique de prompting encourageant le modèle à décomposer son raisonnement en étapes explicites pour améliorer la logique.
Exemple : ‘Résolvons ce problème étape par étape’ améliore les performances
ControlNet
Extension pour les modèles de diffusion permettant un contrôle précis de la génération via des conditions supplémentaires (pose, contours, profondeur).
Exemple : Contrôler la pose d’un personnage généré
Neural Style Transfer
Application de réseaux de neurones convolutionnels pour transférer le style artistique d’une image vers le contenu d’une autre.
Exemple : Transformer une photo en peinture impressionniste
Classifier-Free Guidance
Méthode améliorant la qualité et la conformité des images générées en amplifiant la différence entre génération conditionnelle et inconditionnelle.
Exemple : Renforcer l’adhérence au prompt sans classificateur externe
Data Augmentation
Techniques d’expansion artificielle des datasets en créant des variations des données existantes pour améliorer la robustesse des modèles.
Exemple : Rotation, recadrage d’images ou paraphrase de textes
ENTRAÎNEMENT
Fine-tuning
Processus d’ajustement d’un modèle pré-entraîné sur des données spécifiques pour l’adapter à une tâche ou un domaine particulier.
Exemple : Adapter GPT-3 pour la rédaction juridique
Reinforcement Learning from Human Feedback (RLHF)
Technique d’entraînement utilisant les préférences humaines pour améliorer les réponses du modèle via l’apprentissage par renforcement.
Exemple : ChatGPT utilise RLHF pour des réponses plus utiles et sûres
Training Data
Ensemble massif de données utilisées pour entraîner un modèle IA, déterminant ses connaissances, capacités et biais potentiels.
Exemple : Common Crawl, Wikipedia, livres numérisés pour les LLM
Transfer Learning
Réutilisation des connaissances acquises par un modèle sur une tâche pour accélérer l’apprentissage sur une tâche différente mais liée.
Exemple : Utiliser un modèle de vision pré-entraîné pour la classification médicale
INTERACTION
Prompt
Instruction ou question formulée par l’utilisateur pour guider la réponse d’un modèle d’IA générative vers le résultat souhaité.
Exemple : ‘Écris un poème sur l’automne’ est un prompt
Multi-turn Conversation
Dialogue étendu où l’IA maintient le contexte et la cohérence à travers plusieurs échanges successifs avec l’utilisateur.
Exemple : Discussion approfondie sur un sujet avec suivi du fil de conversation
Streaming
Affichage progressif des réponses générées token par token, améliorant l’expérience utilisateur en réduisant l’attente perçue.
Exemple : Voir le texte de ChatGPT apparaître mot par mot
APPRENTISSAGE
Zero-shot Learning
Capacité d’un modèle à effectuer une tâche sans avoir été explicitement entraîné sur des exemples de cette tâche spécifique.
Exemple : Traduire dans une langue non vue pendant l’entraînement
Few-shot Learning
Apprentissage à partir de quelques exemples seulement, permettant au modèle de généraliser rapidement à de nouvelles tâches.
Exemple : Donner 3 exemples de résumés pour apprendre le style
In-context Learning
Capacité d’apprendre et s’adapter à de nouvelles tâches uniquement à partir du contexte fourni dans le prompt, sans modification des paramètres.
Exemple : Apprendre un nouveau format en voyant des exemples dans le prompt
LIMITATIONS
Hallucination
Phénomène où l’IA génère des informations factuellement incorrectes mais présentées de manière convaincante et cohérente.
Exemple : Inventer des citations ou des faits historiques inexistants
Context Window
Nombre maximum de tokens qu’un modèle peut traiter simultanément, déterminant la longueur des conversations et documents analysables.
Exemple : GPT-4 Turbo a une fenêtre de 128k tokens (≈100 pages)
Context Length
Longueur effective du contexte utilisé dans une interaction, incluant l’historique de conversation et les instructions système.
Exemple : Conversation de 50 messages = contexte de plusieurs milliers de tokens
Out-of-Vocabulary (OOV)
Tokens non présents dans le vocabulaire d’entraînement du modèle, nécessitant des stratégies spéciales de traitement ou de substitution.
Exemple : Nouveaux mots d’argot ou termes techniques très spécialisés
Black Box
Système dont le fonctionnement interne est opaque et difficile à comprendre, même si les entrées et sorties sont observables.
Exemple : Réseaux de neurones profonds où le raisonnement est difficile à tracer
SÉCURITÉ
Constitutional AI
Approche d’entraînement où l’IA apprend à suivre un ensemble de principes éthiques et de règles de comportement définies.
Exemple : Claude d’Anthropic utilise une ‘constitution’ pour guider ses réponses
Alignment
Processus visant à s’assurer que les objectifs et comportements de l’IA correspondent aux valeurs et intentions humaines.
Exemple : Éviter que l’IA optimise des métriques au détriment du bien-être humain
Red Teaming
Pratique de test adversarial où des experts tentent délibérément de faire échouer ou contourner les mesures de sécurité d’un système IA.
Exemple : Tester si un chatbot peut être manipulé pour générer du contenu nuisible
Jailbreaking
Tentatives de contournement des restrictions et garde-fous d’un modèle IA pour obtenir des réponses normalement interdites.
Exemple : Utiliser des prompts détournés pour obtenir des informations sensibles
Adversarial Examples
Entrées spécialement conçues pour tromper un modèle IA en causant des erreurs de classification ou de génération.
Exemple : Image modifiée imperceptiblement pour tromper un classificateur
Data Poisoning
Attaque consistant à corrompre les données d’entraînement pour influencer malicieusement le comportement du modèle résultant.
Exemple : Injecter de fausses données pour biaiser un système de recommandation
Model Stealing
Tentative de reproduire ou copier un modèle propriétaire en analysant ses réponses à de nombreuses requêtes d’entrée.
Exemple : Recréer GPT-4 en analysant ses réponses à millions de prompts
Watermarking
Technique d’insertion de signatures invisibles dans le contenu généré par IA pour permettre sa détection et traçabilité ultérieure.
Exemple : Marquer subtilement les images générées par IA pour les identifier
GÉNÉRATION D’IMAGES
Diffusion Models
Classe de modèles génératifs créant des images en apprenant à inverser un processus de dégradation progressive par bruit.
Exemple : Stable Diffusion, DALL-E 2 utilisent cette approche
Negative Prompt
Instructions spécifiant ce qui ne doit PAS apparaître dans l’image générée, permettant un contrôle plus précis du résultat final.
Exemple : ‘Pas de mains déformées, pas d’arrière-plan flou’
ÉDITION D’IMAGES
Inpainting
Technique de remplissage intelligent des zones masquées d’une image en générant du contenu cohérent avec le contexte environnant.
Exemple : Effacer un objet d’une photo et le remplacer naturellement
Outpainting
Extension d’une image au-delà de ses bordures originales en générant du contenu cohérent qui prolonge naturellement la scène.
Exemple : Étendre un paysage pour créer un panorama plus large
AMÉLIORATION
Upscaling
Processus d’augmentation de la résolution d’une image en utilisant l’IA pour prédire et ajouter des détails manquants de manière intelligente.
Exemple : Transformer une image 512×512 en 2048×2048 avec plus de détails
TRANSFORMATION
Style Transfer
Technique appliquant le style artistique d’une image (couleurs, textures, coups de pinceau) au contenu d’une autre image.
Exemple : Appliquer le style de Van Gogh à une photo moderne
PERSONNALISATION
Dreambooth
Technique permettant de personnaliser les modèles de diffusion pour générer des images d’un sujet spécifique à partir de quelques photos.
Exemple : Entraîner un modèle à générer des images de votre animal de compagnie
Custom Instructions
Directives personnalisées définies par l’utilisateur pour adapter de manière permanente le style et l’approche de l’IA.
Exemple : ‘Réponds toujours de manière concise et avec des exemples’
Personalization
Adaptation du comportement et des réponses de l’IA aux préférences, au style et aux besoins spécifiques de chaque utilisateur.
Exemple : Adapter le niveau de technicité selon l’expertise de l’utilisateur
AUDIO
Text-to-Speech (TTS)
Technologie convertissant du texte écrit en parole synthétique naturelle, souvent avec contrôle de la voix, l’émotion et l’intonation.
Exemple : ElevenLabs, Murf pour créer des voix off réalistes
Speech-to-Text (STT)
Technologie de reconnaissance vocale convertissant la parole humaine en texte écrit avec une précision élevée et en temps réel.
Exemple : Whisper d’OpenAI pour la transcription automatique
Voice Cloning
Technologie reproduisant fidèlement la voix d’une personne spécifique à partir d’échantillons audio pour générer de nouveaux discours.
Exemple : Créer un audiobook avec la voix d’un narrateur célèbre
Music Generation
Création automatique de compositions musicales originales par l’IA, incluant mélodie, harmonie, rythme et arrangements instrumentaux.
Exemple : AIVA, Amper Music pour composer de la musique originale
PROGRAMMATION
Code Generation
Capacité de l’IA à écrire, compléter et déboguer du code informatique dans divers langages de programmation à partir de descriptions naturelles.
Exemple : GitHub Copilot, CodeT5 pour l’assistance au développement
Code Completion
Fonctionnalité prédisant et suggérant automatiquement la suite logique du code en cours d’écriture, accélérant le développement.
Exemple : Compléter automatiquement une boucle for après avoir tapé ‘for i’
Natural Language to Code
Conversion directe d’instructions en langage naturel en code fonctionnel, démocratisant la programmation pour les non-développeurs.
Exemple : ‘Crée une fonction qui trie une liste’ → code Python généré
OUTILS
GitHub Copilot
Assistant IA de programmation développé par GitHub et OpenAI, suggérant du code en temps réel directement dans l’éditeur.
Exemple : Autocomplétion intelligente et génération de fonctions entières
INFRASTRUCTURE
Vector Database
Base de données optimisée pour stocker et rechercher efficacement des embeddings vectoriels, essentielle pour les applications RAG.
Exemple : Pinecone, Weaviate pour stocker des embeddings de documents
API (Application Programming Interface)
Interface permettant aux applications d’accéder aux fonctionnalités des modèles IA via des requêtes HTTP standardisées et sécurisées.
Exemple : OpenAI API, Anthropic API pour intégrer l’IA dans des applications
DÉPLOIEMENT
Model as a Service (MaaS)
Modèle économique où les capacités d’IA sont fournies via le cloud comme service payant, sans nécessiter d’infrastructure locale.
Exemple : Utiliser GPT-4 via l’API OpenAI plutôt que l’héberger soi-même
Edge AI
Exécution de modèles IA directement sur des appareils locaux (smartphones, IoT) plutôt que dans le cloud pour réduire latence et coûts.
Exemple : Reconnaissance vocale sur smartphone sans connexion internet
OPTIMISATION
LoRA (Low-Rank Adaptation)
Technique d’adaptation efficace des grands modèles en entraînant seulement des matrices de rang faible, réduisant drastiquement les coûts.
Exemple : Adapter Stable Diffusion pour un style artistique spécifique
Model Compression
Techniques réduisant la taille et la complexité des modèles IA tout en préservant leurs performances pour un déploiement efficace.
Exemple : Quantification, élagage pour faire tourner GPT sur mobile
Quantization
Réduction de la précision numérique des poids du modèle (de 32 bits à 8 bits) pour diminuer la taille et accélérer l’inférence.
Exemple : Modèle 4-bit utilisant 4x moins de mémoire
Pruning
Suppression des connexions neuronales les moins importantes dans un réseau pour réduire sa complexité sans perte significative de performance.
Exemple : Éliminer 50% des paramètres tout en gardant 95% des performances
Knowledge Distillation
Transfert des connaissances d’un grand modèle ‘professeur’ vers un modèle plus petit ‘étudiant’ pour obtenir des performances similaires.
Exemple : Créer un ‘mini-GPT’ performant à partir de GPT-4
EXÉCUTION
Inference
Phase d’utilisation d’un modèle entraîné pour générer des prédictions ou du contenu à partir de nouvelles données d’entrée.
Exemple : Utiliser ChatGPT pour répondre à une question (vs l’entraîner)
Batch Processing
Traitement simultané de plusieurs requêtes en lot pour optimiser l’utilisation des ressources computationnelles et réduire les coûts.
Exemple : Traiter 100 images simultanément plutôt qu’une par une
Real-time Inference
Génération de réponses IA avec une latence minimale, permettant des interactions fluides et naturelles en temps réel.
Exemple : Chatbot répondant instantanément, traduction simultanée
INTERFACE
Streaming
Affichage progressif des réponses générées token par token, améliorant l’expérience utilisateur en réduisant l’attente perçue.
Exemple : Voir le texte de ChatGPT apparaître mot par mot
CAPACITÉS
Memory
Capacité d’un système IA à retenir et utiliser des informations des interactions passées pour personnaliser les réponses futures.
Exemple : Se souvenir des préférences utilisateur entre les sessions
Tool Use
Aptitude de l’IA à utiliser des outils externes (calculatrices, APIs, bases de données) pour étendre ses capacités au-delà de la génération de texte.
Exemple : Utiliser un navigateur web pour chercher des informations récentes
CONFIGURATION
System Prompt
Instructions initiales définissant le rôle, le comportement et les contraintes de l’IA avant toute interaction avec l’utilisateur.
Exemple : ‘Tu es un assistant expert en marketing digital…’
INTÉGRATION
Function Calling
Capacité des modèles IA à identifier quand et comment utiliser des outils externes ou des fonctions spécifiques pour accomplir des tâches.
Exemple : Appeler une API météo pour donner la température actuelle
EXTENSIONS
Plugin
Module d’extension permettant aux modèles IA d’accéder à des services tiers et d’effectuer des actions dans le monde réel.
Exemple : Plugin Wolfram Alpha pour les calculs mathématiques complexes
SYSTÈMES
Agent
Système IA autonome capable de planifier, prendre des décisions et exécuter des séquences d’actions pour atteindre des objectifs complexes.
Exemple : Agent planifiant et réservant automatiquement un voyage complet
Multi-Agent System
Architecture où plusieurs agents IA spécialisés collaborent et communiquent pour résoudre des problèmes complexes de manière distribuée.
Exemple : Équipe d’agents : un pour la recherche, un pour l’analyse, un pour la rédaction
Autonomous AI
IA capable de fonctionner de manière indépendante, prenant des décisions et exécutant des tâches sans supervision humaine constante.
Exemple : Système de trading automatique ou assistant personnel autonome
PHÉNOMÈNES
Emergent Behavior
Capacités ou comportements complexes qui émergent spontanément dans les grands modèles sans avoir été explicitement programmés.
Exemple : Capacités de raisonnement mathématique apparaissant avec la taille du modèle
RECHERCHE
Scaling Laws
Relations mathématiques prédictibles entre la taille des modèles, les données d’entraînement, la puissance de calcul et les performances résultantes.
Exemple : Doubler la taille du modèle améliore les performances de X%
RECHERCHE
Semantic Search
Recherche basée sur la signification et le contexte plutôt que sur la correspondance exacte de mots-clés, utilisant des embeddings.
Exemple : Trouver ‘automobile’ en cherchant ‘véhicule’
RESSOURCES
Compute
Puissance de calcul nécessaire pour entraîner et faire fonctionner les modèles IA, généralement mesurée en FLOPS ou heures GPU.
Exemple : GPT-4 a nécessité des milliers de GPU pendant des mois
HARDWARE
GPU (Graphics Processing Unit)
Processeur spécialisé optimisé pour les calculs parallèles, devenu essentiel pour l’entraînement et l’inférence des modèles IA.
Exemple : NVIDIA H100, A100 pour l’entraînement des LLM
TPU (Tensor Processing Unit)
Puce spécialisée développée par Google spécifiquement pour accélérer les calculs d’apprentissage automatique et de réseaux de neurones.
Exemple : TPU v4 pour entraîner les modèles Gemini de Google
MÉTRIQUES
Perplexité
Mesure de la qualité d’un modèle de langage : plus la perplexité est faible, mieux le modèle prédit le texte suivant.
Exemple : Perplexité de 20 signifie 20 choix équiprobables en moyenne
BLEU Score
Métrique d’évaluation automatique comparant la similarité entre un texte généré et des références humaines, couramment utilisée en traduction.
Exemple : Score BLEU de 0.8 indique une très bonne traduction
ROUGE Score
Ensemble de métriques évaluant la qualité des résumés automatiques en comparant les n-grammes avec des résumés de référence.
Exemple : ROUGE-L mesure la plus longue sous-séquence commune
FLOPS
Floating Point Operations Per Second – mesure de la puissance de calcul, cruciale pour quantifier les besoins computationnels des modèles IA.
Exemple : Entraînement de GPT-3 : ~3.14 × 10²³ FLOPS
GÉNÉRATION
Top-k Sampling
Technique de génération limitant les choix aux k tokens les plus probables à chaque étape pour équilibrer qualité et diversité.
Exemple : Choisir parmi les 40 mots les plus probables seulement
Top-p (Nucleus) Sampling
Méthode de génération sélectionnant dynamiquement les tokens dont la probabilité cumulée atteint un seuil p donné.
Exemple : Sélectionner les mots représentant 90% de la probabilité totale
PARAMÈTRES
Température
Paramètre contrôlant la créativité et l’aléatoire des réponses générées : faible pour plus de cohérence, élevée pour plus de créativité.
Exemple : Température 0.1 pour des réponses factuelles, 0.8 pour de la créativité
REPRÉSENTATION
Embedding
Représentation vectorielle dense des mots, phrases ou concepts dans un espace mathématique multidimensionnel capturant les relations sémantiques.
Exemple : ‘Roi’ – ‘Homme’ + ‘Femme’ ≈ ‘Reine’ dans l’espace vectoriel
Latent Space
Espace mathématique de dimension réduite où les modèles encodent et manipulent les représentations compressées des données d’entrée.
Exemple : Stable Diffusion travaille dans l’espace latent pour l’efficacité
TRAITEMENT
Token
Unité de base du traitement textuel, généralement un mot, une partie de mot ou un caractère, utilisée par les modèles pour analyser et générer du texte.
Exemple : Le mot ‘intelligence’ peut être divisé en plusieurs tokens
Tokenization
Processus de division du texte en unités plus petites (tokens) que le modèle peut traiter, étape fondamentale du traitement du langage naturel.
Exemple : ‘Hello world!’ → [‘Hello’, ‘ world’, ‘!’] ou [‘Hel’, ‘lo’, ‘ wor’, ‘ld’, ‘!’]
Vocabulary
Ensemble de tous les tokens uniques qu’un modèle peut reconnaître et utiliser, déterminant sa capacité à traiter différentes langues et domaines.
Exemple : Vocabulaire de 50k tokens couvrant mots courants et sous-mots
DONNÉES
Synthetic Data
Données artificielles générées par IA pour augmenter les datasets d’entraînement, protéger la vie privée ou simuler des scénarios rares.
Exemple : Générer des données médicales synthétiques pour l’entraînement sans risquer la confidentialité
PRÉPARATION
Data Preprocessing
Étapes de nettoyage, filtrage et formatage des données brutes avant l’entraînement pour optimiser la qualité et l’efficacité de l’apprentissage.
Exemple : Supprimer le spam, détecter les doublons, normaliser le format
ÉTHIQUE
Bias
Préjugés systématiques présents dans les données d’entraînement qui se reflètent dans les réponses et décisions du modèle IA.
Exemple : Biais de genre dans les descriptions de métiers ou biais culturels
Fairness
Principe visant à garantir que les systèmes IA traitent tous les groupes et individus de manière équitable, sans discrimination.
Exemple : Système de recrutement IA ne discriminant pas selon le genre
TRANSPARENCE
Explainability
Capacité à comprendre et expliquer comment un modèle IA arrive à ses décisions, crucial pour la confiance et la responsabilité.
Exemple : Expliquer pourquoi un prêt a été refusé par un système IA
Interpretability
Degré auquel les humains peuvent comprendre les mécanismes internes et le processus de décision d’un modèle d’IA.
Exemple : Visualiser quels mots influencent le plus une classification de sentiment
QUALITÉ
Robustness
Capacité d’un modèle à maintenir des performances stables face à des variations dans les données d’entrée ou des conditions adverses.
Exemple : Modèle fonctionnant bien même avec des fautes de frappe ou du bruit
VÉRIFICATION
AI Detection
Méthodes et outils pour identifier si un contenu (texte, image, audio) a été généré par une IA plutôt que par un humain.
Exemple : GPTZero, Originality.ai pour détecter les textes générés par IA