Démystifier l'I.A.
L'Intelligence Artificielle (IA) est un terme parapluie qui englobe toutes les techniques permettant aux machines de mimer l'intelligence humaine. Historiquement, l'IA a commencé par des systèmes experts symboliques, basés sur d'énormes arbres de règles programmées à la main ("Si A alors B").
Aujourd'hui, l'IA moderne repose sur l'approche connexionniste et statistique. Plutôt que de dicter les règles, nous fournissons à la machine les données et les réponses, et elle doit déduire les règles par elle-même.
- L'IA : L'objectif final. Le domaine d'étude de la reproduction de la cognition.
- Le Machine Learning (ML) : L'outil statistique. Les algorithmes apprennent des motifs à partir de données historiques pour faire des prédictions.
- Le Deep Learning (DL) : Le ML sous stéroïdes. L'utilisation de réseaux de neurones artificiels multicouches pour traiter des données non structurées (images, texte, son).
Régression Linéaire : Prédire le continu
L'apprentissage supervisé consiste à apprendre une fonction $f$ qui mappe des caractéristiques (Features $X$) à une cible (Label $y$). Lorsque la cible est une valeur continue (comme un prix en euros, une température, ou une distance), on parle de Régression.
Le modèle le plus fondamental est la Régression Linéaire. L'hypothèse est qu'il existe une relation linéaire entre les entrées et la sortie. Mathématiquement, nous cherchons l'équation d'une hyperplan (une droite en 2D) :
- $\hat{y}$ est la prédiction du modèle.
- $w$ (Weight / Poids) détermine la pente de la droite. Il indique l'importance de la variable $x$.
- $b$ (Bias / Biais) est l'ordonnée à l'origine. C'est la valeur de base si $x$ vaut 0.
La Fonction de Coût (Loss)
L'apprentissage automatique n'est rien d'autre qu'un problème d'optimisation mathématique. Pour que la machine s'améliore, elle a besoin d'une métrique stricte quantifiant à quel point elle est dans l'erreur. C'est la Fonction de Coût (Loss Function).
Pour la régression, on utilise généralement l'Erreur Quadratique Moyenne (Mean Squared Error - MSE). Elle mesure la moyenne du carré des résidus (la distance verticale entre le point réel et la droite de prédiction) :
Pourquoi mettre au carré ? Cela présente deux avantages mathématiques cruciaux : 1) Cela transforme les écarts négatifs en valeurs positives. 2) Les grandes erreurs sont lourdement pénalisées en grandissant de manière exponentielle. L'espace de cette fonction dessine une parabole parfaite, un "bol" dont le fond est la perfection absolue.
La Descente de Gradient
Nous avons notre bol (la fonction de coût). Comment un ordinateur aveugle trouve-t-il le fond ? Grâce au calcul différentiel et à l'algorithme de Descente de Gradient.
Le principe est de calculer la dérivée (la pente) de la fonction de coût à la position actuelle du poids. Si la pente est positive (on monte), il faut reculer. Si elle est négative (on descend), il faut avancer. On met donc à jour le poids en faisant un pas dans la direction opposée au gradient :
$\alpha$ est l'hyperparamètre le plus critique du Deep Learning : le Taux d'Apprentissage (Learning Rate). C'est la taille des "pas". S'il est minuscule (0.001), le modèle mettra une éternité à converger. S'il est énorme (10), il va survoler le fond du bol et diverger (la perte explosera vers l'infini).
Régression Logistique : Trier en Catégories
Lorsque la cible n'est pas un nombre continu mais une classe (ex: Spam=1 ou Valide=0, Chien ou Chat, Sain ou Malade), on parle de Classification.
La Régression Logistique est le pont entre prédiction linéaire et probabilités. Plutôt que de sortir un nombre de $-\infty$ à $+\infty$, elle écrase le résultat à travers une fonction "Sigmoïde" (en forme de S) qui force la sortie entre 0 et 1. Ce chiffre devient alors une véritable probabilité mathématique.
L'algorithme tente de tracer un hyperplan (une ligne droite en 2D) qui sert de Frontière de Décision. Tout ce qui tombe d'un côté est classé 0, l'autre côté est classé 1.
Le Clustering (Apprentissage Non-Supervisé)
Et si nous n'avons pas les réponses ($y$) ? Si nous avons seulement une montagne de données chaotiques brutes ? C'est le domaine du Machine Learning Non-Supervisé. Le but est de laisser l'algorithme trouver lui-même des structures cachées, des motifs ou des groupes (Clusters).
L'algorithme star est le K-Means. Le principe : on jette $K$ "centroïdes" (des points fictifs) au hasard dans les données. Chaque point de donnée rejoint le centroïde le plus proche (assignation). Ensuite, on déplace chaque centroïde au barycentre exact de son nouveau groupe. On répète jusqu'à ce que plus rien ne bouge.
C'est extrêmement puissant pour la segmentation marketing : comprendre automatiquement qu'il existe un sous-groupe de "jeunes urbains acheteurs impulsifs" sans jamais l'avoir spécifié au préalable.
Le Paradoxe du Surapprentissage
Avoir un taux d'erreur de 0% sur ses données d'entraînement est généralement une catastrophe. C'est le fléau de l'Overfitting (Surapprentissage).
L'objectif du ML n'est pas de mémoriser le passé, mais de généraliser sur le futur. Si l'on donne trop de paramètres à un modèle (par exemple un polynôme de degré 10), il va tordre sa ligne de prédiction pour toucher chaque point de donnée exactement, y compris le "bruit" aléatoire. Lorsqu'une nouvelle donnée réelle arrivera, la prédiction sera extravagante.
À l'inverse, l'Underfitting (Sous-apprentissage) est un modèle trop bête, comme une ligne droite rigide, incapable de capter la courbure naturelle d'un phénomène complexe. L'art de la Data Science est de trouver l'équilibre parfait de complexité (le "Good Fit").
Les Réseaux de Neurones Multicouches
Lorsque les données (comme une image en 4K ou du texte) sont trop complexes, une simple ligne droite ou logistique échoue. Inspirés du cortex humain, nous avons créé les Perceptrons Multicouches (MLP) : le cœur du Deep Learning.
Un réseau est composé de Couches (Layers) empilant des "neurones" artificiels. Chaque neurone fait une régression basique (Somme pondérée des entrées) puis passe le résultat dans une Fonction d'Activation non-linéaire (ex: ReLU, Sigmoïde, Tanh).
Sans ces fonctions non-linéaires, peu importe le nombre de couches que vous empilez, le réseau s'effondrerait mathématiquement en une seule régression linéaire bête. La combinaison de milliers de neurones non-linéaires permet, selon le théorème d'approximation universelle, de modéliser n'importe quelle fonction de l'univers.
Le Miracle de la Rétropropagation
Un réseau moderne comme GPT-4 possède des milliards de poids (paramètres). Comment trouver le bon réglage pour tous ces poids simultanément ? C'est le triomphe de l'algorithme de Backpropagation (Rétropropagation du Gradient) inventé dans les années 80.
L'algorithme utilise la règle de dérivation en chaîne (Chain Rule) de notre cours de calcul différentiel. Une fois la "Propagation Avant" terminée, on compare la prédiction à la réalité. On calcule l'Erreur. Ensuite, cette erreur fait marche arrière, couche par couche.
Chaque neurone demande au neurone précédent : "Aide-moi à baisser cette erreur, modifie un peu la connexion entre nous". La responsabilité de l'erreur est diluée et propagée à reculons jusqu'à l'entrée. Tous les poids sont alors mis à jour via une descente de gradient massive.
Vision par Ordinateur (CNN)
Traiter des images avec un réseau de neurones classique (Dense) est impossible : une petite image couleur de 1000x1000 pixels ferait 3 millions d'entrées. S'y ajoute la perte des informations spatiales.
La solution (Yann LeCun, 1989) s'appelle le Réseau de Neurones Convolutif (CNN). Au lieu de lire l'image entière, de petites matrices de poids, appelées "Filtres" ou "Kernels" (ex: 3x3), glissent sur l'image en scannant des petits patchs locaux.
Cela crée une hiérarchie visuelle. La couche 1 apprends à repérer des lignes et des angles (filtres de Gabor). La couche 2 assemble ces angles pour faire des ronds. La couche 3 assemble ces ronds pour détecter des yeux de chats. À la fin, l'information dense et condensée est lue pour dire "C'est un chat à 99%".
Le Langage Naturel (NLP)
Le texte est un challenge redoutable car un ordinateur ne comprend que les mathématiques. Comment modéliser des concepts, de l'ironie, de la sémantique ? L'avancée majeure a été la création des Word Embeddings (Plongements Lexicaux, ex: Word2Vec).
Les algorithmes projettent chaque mot de la langue française dans un hyper-espace mathématique à des centaines de dimensions, basé sur le contexte dans lequel le mot a été lu. Les mots ayant un sens sémantique similaire finissent par avoir des coordonnées (vecteurs) proches dans l'espace.
La magie survient : la grammaire et le sens deviennent des opérations géométriques ! La distance spatiale entre Homme et Femme devient la même qu'entre Roi et Reine.
L'Intelligence Artificielle Médecin 🩺
Mettez en pratique tout ce que nous avons vu. Vous voici devant le tableau de bord d'un médecin utilisant un modèle de Régression Logistique Multiple entraîné sur des milliers de dossiers de cardiologie.
Plutôt que d'avoir une seule donnée $x$, l'IA lit ici un vecteur $X$ contenant 3 caractéristiques biologiques ($x_1, x_2, x_3$). Elle calcule un score linéaire, puis applique une fonction Sigmoïde pour l'écraser sous forme de pourcentage de risque compris strictement entre 0 et 100%.
Analyse de Sentiment par Transformer 📝
Clôturons notre apprentissage en jouant avec un système simulant l'architecture reine actuelle : les Transformers. Ces réseaux de Deep Learning excellent dans l'Analyse de Sentiment (Savoir si un texte est content ou en colère).
Lorsque vous tapez un texte, l'algorithme "tokenize" (divise) votre phrase. Grâce au mécanisme d'Auto-Attention (Self-Attention), il évalue le poids sémantique de chaque mot dans le contexte des autres. Les mots porteurs d'émotions polarisent immédiatement la sortie de la dernière couche "Softmax", qui crache une probabilité sur 3 classes : Positif, Neutre, ou Négatif.
La courbe d'Erreur J(w)
Complexité du Modèle
IA Cardiologue
Modèle de Régression Logistique Multiple
IA Analyseur d'Émotions (NLP)
Simulation d'un réseau Transformer