Expert IA | Scrollytelling ML & DL

Chapitre 1

Démystifier l'I.A.

L'Intelligence Artificielle (IA) est un terme parapluie qui englobe toutes les techniques permettant aux machines de mimer l'intelligence humaine. Historiquement, l'IA a commencé par des systèmes experts symboliques, basés sur d'énormes arbres de règles programmées à la main ("Si A alors B").

Aujourd'hui, l'IA moderne repose sur l'approche connexionniste et statistique. Plutôt que de dicter les règles, nous fournissons à la machine les données et les réponses, et elle doit déduire les règles par elle-même.

L'IA : L'objectif final. Le domaine d'étude de la reproduction de la cognition.
Le Machine Learning (ML) : L'outil statistique. Les algorithmes apprennent des motifs à partir de données historiques pour faire des prédictions.
Le Deep Learning (DL) : Le ML sous stéroïdes. L'utilisation de réseaux de neurones artificiels multicouches pour traiter des données non structurées (images, texte, son).

Machine Learning

Régression Linéaire : Prédire le continu

L'apprentissage supervisé consiste à apprendre une fonction $f$ qui mappe des caractéristiques (Features $X$) à une cible (Label $y$). Lorsque la cible est une valeur continue (comme un prix en euros, une température, ou une distance), on parle de Régression.

Le modèle le plus fondamental est la Régression Linéaire. L'hypothèse est qu'il existe une relation linéaire entre les entrées et la sortie. Mathématiquement, nous cherchons l'équation d'une hyperplan (une droite en 2D) :

\hat{y} = w \cdot x + b

$\hat{y}$ est la prédiction du modèle.
$w$ (Weight / Poids) détermine la pente de la droite. Il indique l'importance de la variable $x$.
$b$ (Bias / Biais) est l'ordonnée à l'origine. C'est la valeur de base si $x$ vaut 0.

👉 À vous de jouer : Modifiez les paramètres $w$ et $b$ à droite pour ajuster manuellement la droite aux données bleues (les maisons réelles).

Théorie Mathématique

La Fonction de Coût (Loss)

L'apprentissage automatique n'est rien d'autre qu'un problème d'optimisation mathématique. Pour que la machine s'améliore, elle a besoin d'une métrique stricte quantifiant à quel point elle est dans l'erreur. C'est la Fonction de Coût (Loss Function).

Pour la régression, on utilise généralement l'Erreur Quadratique Moyenne (Mean Squared Error - MSE). Elle mesure la moyenne du carré des résidus (la distance verticale entre le point réel et la droite de prédiction) :

J(w, b) = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2

Pourquoi mettre au carré ? Cela présente deux avantages mathématiques cruciaux : 1) Cela transforme les écarts négatifs en valeurs positives. 2) Les grandes erreurs sont lourdement pénalisées en grandissant de manière exponentielle. L'espace de cette fonction dessine une parabole parfaite, un "bol" dont le fond est la perfection absolue.

👉 Visualisation : Observez la parabole de l'erreur $J(w)$ à droite. Le but absolu de l'algorithme est de trouver le Poids $w$ exact qui correspond au minimum global (le fond du bol).

Théorie Mathématique

La Descente de Gradient

Nous avons notre bol (la fonction de coût). Comment un ordinateur aveugle trouve-t-il le fond ? Grâce au calcul différentiel et à l'algorithme de Descente de Gradient.

Le principe est de calculer la dérivée (la pente) de la fonction de coût à la position actuelle du poids. Si la pente est positive (on monte), il faut reculer. Si elle est négative (on descend), il faut avancer. On met donc à jour le poids en faisant un pas dans la direction opposée au gradient :

w := w - \alpha \frac{\partial J}{\partial w}

$\alpha$ est l'hyperparamètre le plus critique du Deep Learning : le Taux d'Apprentissage (Learning Rate). C'est la taille des "pas". S'il est minuscule (0.001), le modèle mettra une éternité à converger. S'il est énorme (10), il va survoler le fond du bol et diverger (la perte explosera vers l'infini).

👉 Simulateur : Choisissez un Learning Rate ($\alpha$) et cliquez sur "Lâcher la bille". Si $\alpha > 1.0$, vous verrez la bille "sauter" d'un bord à l'autre sans jamais trouver le fond !

Machine Learning

Régression Logistique : Trier en Catégories

Lorsque la cible n'est pas un nombre continu mais une classe (ex: Spam=1 ou Valide=0, Chien ou Chat, Sain ou Malade), on parle de Classification.

La Régression Logistique est le pont entre prédiction linéaire et probabilités. Plutôt que de sortir un nombre de $-\infty$ à $+\infty$, elle écrase le résultat à travers une fonction "Sigmoïde" (en forme de S) qui force la sortie entre 0 et 1. Ce chiffre devient alors une véritable probabilité mathématique.

P(y=1) = \frac{1}{1 + e^{-(wx+b)}}

L'algorithme tente de tracer un hyperplan (une ligne droite en 2D) qui sert de Frontière de Décision. Tout ce qui tombe d'un côté est classé 0, l'autre côté est classé 1.

👉 Visualisation : À droite, une frontière de décision linéaire (ligne violette pointillée) sépare mathématiquement l'espace entre les emails Spams (fort taux de mots suspects) et les emails valides.

Machine Learning

Le Clustering (Apprentissage Non-Supervisé)

Et si nous n'avons pas les réponses ($y$) ? Si nous avons seulement une montagne de données chaotiques brutes ? C'est le domaine du Machine Learning Non-Supervisé. Le but est de laisser l'algorithme trouver lui-même des structures cachées, des motifs ou des groupes (Clusters).

L'algorithme star est le K-Means. Le principe : on jette $K$ "centroïdes" (des points fictifs) au hasard dans les données. Chaque point de donnée rejoint le centroïde le plus proche (assignation). Ensuite, on déplace chaque centroïde au barycentre exact de son nouveau groupe. On répète jusqu'à ce que plus rien ne bouge.

C'est extrêmement puissant pour la segmentation marketing : comprendre automatiquement qu'il existe un sous-groupe de "jeunes urbains acheteurs impulsifs" sans jamais l'avoir spécifié au préalable.

👉 Animation K-Means : Cliquez sur "Étape Suivante" pour voir comment un chaos de points gris non labelisés finit par être mathématiquement séparé en trois segments comportementaux distincts.

Théorie Machine Learning

Le Paradoxe du Surapprentissage

Avoir un taux d'erreur de 0% sur ses données d'entraînement est généralement une catastrophe. C'est le fléau de l'Overfitting (Surapprentissage).

L'objectif du ML n'est pas de mémoriser le passé, mais de généraliser sur le futur. Si l'on donne trop de paramètres à un modèle (par exemple un polynôme de degré 10), il va tordre sa ligne de prédiction pour toucher chaque point de donnée exactement, y compris le "bruit" aléatoire. Lorsqu'une nouvelle donnée réelle arrivera, la prédiction sera extravagante.

À l'inverse, l'Underfitting (Sous-apprentissage) est un modèle trop bête, comme une ligne droite rigide, incapable de capter la courbure naturelle d'un phénomène complexe. L'art de la Data Science est de trouver l'équilibre parfait de complexité (le "Good Fit").

👉 Comparaison : À droite, cliquez sur "Overfit". Regardez la ligne rouge essayer frénétiquement de toucher chaque point bleu au prix d'ondulations folles qui la rendent inutile en production.

Deep Learning

Les Réseaux de Neurones Multicouches

Lorsque les données (comme une image en 4K ou du texte) sont trop complexes, une simple ligne droite ou logistique échoue. Inspirés du cortex humain, nous avons créé les Perceptrons Multicouches (MLP) : le cœur du Deep Learning.

Un réseau est composé de Couches (Layers) empilant des "neurones" artificiels. Chaque neurone fait une régression basique (Somme pondérée des entrées) puis passe le résultat dans une Fonction d'Activation non-linéaire (ex: ReLU, Sigmoïde, Tanh).

a^{(l)} = \text{ReLU}\left(W^{(l)} a^{(l-1)} + b^{(l)}\right)

Sans ces fonctions non-linéaires, peu importe le nombre de couches que vous empilez, le réseau s'effondrerait mathématiquement en une seule régression linéaire bête. La combinaison de milliers de neurones non-linéaires permet, selon le théorème d'approximation universelle, de modéliser n'importe quelle fonction de l'univers.

👉 Propagation Avant (Forward) : Cliquez sur un neurone d'entrée (IN) pour initier une impulsion électrique factice. La donnée traverse les couches cachées en activant certains chemins, jusqu'à former la prédiction finale à la sortie.

Théorie Deep Learning

Le Miracle de la Rétropropagation

Un réseau moderne comme GPT-4 possède des milliards de poids (paramètres). Comment trouver le bon réglage pour tous ces poids simultanément ? C'est le triomphe de l'algorithme de Backpropagation (Rétropropagation du Gradient) inventé dans les années 80.

L'algorithme utilise la règle de dérivation en chaîne (Chain Rule) de notre cours de calcul différentiel. Une fois la "Propagation Avant" terminée, on compare la prédiction à la réalité. On calcule l'Erreur. Ensuite, cette erreur fait marche arrière, couche par couche.

\frac{\partial L}{\partial w_{ij}} = \frac{\partial L}{\partial a_j} \cdot \frac{\partial a_j}{\partial z_j} \cdot \frac{\partial z_j}{\partial w_{ij}}

Chaque neurone demande au neurone précédent : "Aide-moi à baisser cette erreur, modifie un peu la connexion entre nous". La responsabilité de l'erreur est diluée et propagée à reculons jusqu'à l'entrée. Tous les poids sont alors mis à jour via une descente de gradient massive.

👉 Simulateur : Cliquez sur le bouton d'Erreur (Err) pour déclencher la passe arrière (Backward pass). L'ajustement rouge remonte le réseau, distribuant les corrections aux couches cachées.

Deep Learning Appliqué

Vision par Ordinateur (CNN)

Traiter des images avec un réseau de neurones classique (Dense) est impossible : une petite image couleur de 1000x1000 pixels ferait 3 millions d'entrées. S'y ajoute la perte des informations spatiales.

La solution (Yann LeCun, 1989) s'appelle le Réseau de Neurones Convolutif (CNN). Au lieu de lire l'image entière, de petites matrices de poids, appelées "Filtres" ou "Kernels" (ex: 3x3), glissent sur l'image en scannant des petits patchs locaux.

Cela crée une hiérarchie visuelle. La couche 1 apprends à repérer des lignes et des angles (filtres de Gabor). La couche 2 assemble ces angles pour faire des ronds. La couche 3 assemble ces ronds pour détecter des yeux de chats. À la fin, l'information dense et condensée est lue pour dire "C'est un chat à 99%".

Deep Learning Appliqué

Le Langage Naturel (NLP)

Le texte est un challenge redoutable car un ordinateur ne comprend que les mathématiques. Comment modéliser des concepts, de l'ironie, de la sémantique ? L'avancée majeure a été la création des Word Embeddings (Plongements Lexicaux, ex: Word2Vec).

Les algorithmes projettent chaque mot de la langue française dans un hyper-espace mathématique à des centaines de dimensions, basé sur le contexte dans lequel le mot a été lu. Les mots ayant un sens sémantique similaire finissent par avoir des coordonnées (vecteurs) proches dans l'espace.

La magie survient : la grammaire et le sens deviennent des opérations géométriques ! La distance spatiale entre Homme et Femme devient la même qu'entre Roi et Reine.

[ Roi ] - [ Homme ] + [ Femme ] = [ Reine ]

Le Laboratoire : Cas Pratique ML

L'Intelligence Artificielle Médecin 🩺

Mettez en pratique tout ce que nous avons vu. Vous voici devant le tableau de bord d'un médecin utilisant un modèle de Régression Logistique Multiple entraîné sur des milliers de dossiers de cardiologie.

Plutôt que d'avoir une seule donnée $x$, l'IA lit ici un vecteur $X$ contenant 3 caractéristiques biologiques ($x_1, x_2, x_3$). Elle calcule un score linéaire, puis applique une fonction Sigmoïde pour l'écraser sous forme de pourcentage de risque compris strictement entre 0 et 100%.

\text{Risque} = \sigma(w_1\text{Âge} + w_2\text{Chol} + w_3\text{PA} + b)

👉 Votre Mission : Manipulez le dossier du patient à droite. Jouez sur l'Âge, le Cholestérol et la Pression Artérielle. Observez l'algorithme logistique recalculer instantanément l'aiguille du risque !

Le Laboratoire : Cas Pratique DL

Analyse de Sentiment par Transformer 📝

Clôturons notre apprentissage en jouant avec un système simulant l'architecture reine actuelle : les Transformers. Ces réseaux de Deep Learning excellent dans l'Analyse de Sentiment (Savoir si un texte est content ou en colère).

Lorsque vous tapez un texte, l'algorithme "tokenize" (divise) votre phrase. Grâce au mécanisme d'Auto-Attention (Self-Attention), il évalue le poids sémantique de chaque mot dans le contexte des autres. Les mots porteurs d'émotions polarisent immédiatement la sortie de la dernière couche "Softmax", qui crache une probabilité sur 3 classes : Positif, Neutre, ou Négatif.

👉 Votre Mission : Écrivez votre propre critique (ex: de produit) dans la zone de texte à droite. Observez l'IA surligner "l'attention" sur les mots clés et rendre son verdict mathématique !

Intelligence Artificielle

Machine Learning

Deep Learning

Poids (w)1.00

Biais (b)0.00

La courbe d'Erreur J(w)

Learning Rate ($\alpha$)0.1

Complexité du Modèle

🐱

→

CHAT

IA Cardiologue

Modèle de Régression Logistique Multiple

12%Risque Faible

Âge du Patient45 ans

Cholestérol (mg/dL)180

Pression Artérielle (mmHg)120

IA Analyseur d'Émotions (NLP)

Simulation d'un réseau Transformer