L’apprentissage automatique supervisé (IA).

L’apprentissage automatique supervisé est aujourd’hui la forme la plus courante de l’intelligence artificielle.

L’intelligence artificielle a fait l’objet de plusieurs définitions depuis l’apparition des termes « artificial intelligence ».

Pour certains, l’IA a pour but d’imiter l’intelligence humaine ou de l’assister à l’aide de machines capables de reconnaître, d’apprendre, de raisonner et de prendre des décisions.

Pour d’autres l’IA a pour but de simuler l’intelligence humaine ou animale.

L’AAAI (Association pour l’avancement de l’intelligence artificielle) retient la définition suivante : l’intelligence artificielle est l’étude de la pensée scientifique et des comportements intelligents en vue de leur implantation et de leur automatisation dans des machines ».

IL s’agit donc bien de transposition, de simulation et non d’imitation. C’est la capacité d’apprentissage de l’homme que l’apprentissage automatique vise à installer dans une machine. Et cet apprentissage fonctionne comme un enfant apprend le nom des animaux ; des images d’animaux associées à leurs noms lui sont montrée et l’enfant apprend en commettant des erreurs corrigées par un parent ou équivalent.

L’apprentissage automatique supervisé est l’étude des algorithmes informatiques qui s’améliorent avec l’expérience.

Une classe particulière d’apprentissage est l’apprentissage automatique supervisé.

En apprentissage supervisé l’expérience utilisée par le programme pour apprendre est constituée d’exemples antérieurs de la tâche où la réponse désirée est fournie. Et une mesure de la performance est nécessaire pour déterminer si l’algorithme est performant et améliore la qualité de sa réponse.

Un expert souligne : « On dit qu’un programme informatique apprend de l’expérience E en ce qui concerne une classe de tâches T, si sa performance aux tâches T, mesurée par P, s’améliore avec l’expérience E. »

En pratique l’apprentissage supervisé correspond à la plupart des situations d’apprentissage automatiques.

C’est le cas, par exemple, des deux réalisations suivantes bien connues :

-La recommandation de produits aux consommateurs.

Pour faire des recommandations de produits, un algorithme a été construit qui fait le lien entre des classes de consommateurs et des produits ; et pour faire des suggestions d’achat, l’algorithme met en œuvre la « complémentarité » entre produits.

-La suggestion de mots lors de la rédaction de sms ou la correction d’orthographe.

Ici l’algorithme fait le lien entre des débuts de mots et des mots complets.

D’autres algorithmes peuvent également faire de la reconnaissance faciale ou de la traduction automatique, etc.

Voyons d’abord la tâche à réaliser (à automatiser) et la mesure de la performance de l’algorithme. Nous présenterons ensuite les types de données et la sélec des caractéristiques. Exemples d’application d’apprentissage automatique supervisé.

La tâche à réaliser et la mesure de la performance.

1.1. La tâche à réaliser

Tout système d’apprentissage automatique supervisé utilise des données dites « d’entrée » pour générer des prédictions.

Chaque donnée d’entrée est une ligne comportant une série de caractéristiques choisies selon la tâche d’une part et d’autre part, les vraies « étiquettes » qu’on aura à prédire. Ces vraies étiquettes sont nommées données « de sortie ». Un ensemble de paires (données d’entrées, données de sortie) vont servir à l’apprentissage parce ces données sont utilisées pour « entraîner » le modèle à générer de bonnes prédictions sur la base des données historiques d’entrée.

Par exemple, imaginons la prédiction du prix de la vente d’une maison en fonction de son nombre de chambres et de la superficie de son terrain. Ces caractéristiques sont les données d’entrée de différentes maisons vendues dans le passé et les données de sortie sont les prix de vente réels de ces maisons. Il est alors possible « d’entraîner » un algorithme d’apprentissage supervisé à prédire les prix de vente des maisons (les données de sortie) en fonction de leur nombre de chambres et de la superficie de leur terrain (les données d’entrée) en regardant des exemples de maisons déjà vendues (les données d’entraînement).

La sortie désirée peut être une classification ou une valeur numérique.

La classification automatique d’un objet, d’une personne, etc. exige que les classes soient prédéfinies et que l’algorithme sache affecter une donnée d’entré ayant telles caractéristique à l’une de ces classes.

La valeur numérique exige qu’une corrélation (régression) ait été établie ou supposée entre des déterminants prédéfinis et le résultat recherché (exemple financier : l’attribution d’un prêt à un client est-elle trop risquée, compte tenu des caractéristiques du client et des exemples précédents ?).

Ces deux types de tâches sont majoritaires mais il y en a beaucoup d’autres, telles que la traduction automatique, l’analyse d’opinion, la génération de textes, de musiques, etc.

Pour une liste complète, voir https://paperswithcode.com/sota

1.2. La mesure de la performance de l’algorithme.

Le but de l’apprentissage est d’améliorer la performance de l’algorithme dans la réalisation de la tâche.

On mesure cette performance en se basant sur une comparaison entre les sorties obtenues pendant l’apprentissage et les entrées réellement constatées.

C’est ainsi qu’en apprentissage de classification, par exemple, on pourra avoir des prédictions correctes (vrais positifs et vrais négatifs), mais aussi des erreurs (faux positifs et faux négatifs). La mesure de la performance pourrait être la proportion de cas classés comme « vrais positifs » par l’algorithme sur l’ensemble des cas positifs réels.

Dans le cas de la corrélation ou régression on peut calculer le taux d’erreur par l’écart-type.

La performance d’un algorithme d’apprentissage doit se mesurer sur des cas de test qui sont différents des cas d’entraînement. En pratique, sur un ensemble d’exemples réalisés dans le passé, on va utiliser une partie pour l’entraînement, et le reste pour des tests (système de validation du modèle).

Les types de données et la sélection des caractéristiques.

Les données initiales peuvent être diverses (images, textes, voies, dates, valeurs, etc.) et peuvent être encodées de façons diverses et stockées en différents endroits. Il faut procéder aux opérations de préparation suivantes :

– nettoyer les données (données incomplètes, erronées, inutiles, etc.).

– formater ces données car l’algorithme d’apprentissage ne peut traiter ces données que si elles ont un format standard (vecteur de caractéristiques numériques ?

– sélectionner les caractéristiques pertinentes pour effectuer la tâche.

Caractéristiques d’un texte.

Si la tâche est de classer des textes dans des catégories (société, sport, économie), tous les mots des textes n’ont pas égale valeur et certains sont totalement inutiles. Par exemple, football ou budget doivent être retenus mais pas les « de, à, nous, tu, etc. ».

La sélection des caractéristiques doit être faite selon la tâche à accomplir et par des experts du domaine. On peut aussi utiliser la corrélation entre une caractéristique et les classes pour voir si le lien est étroit ou faible.

On peut aussi utiliser la méthode TF-IDF qui va pondérer les mots en fonction de leur importance dans le document.

Il est constitué de deux composantes qu’on multiplie : le TF et le IDF.

Le TF (« term frequency ») mesure la fréquence d’un terme dans un document. Il est clair qu’une forte fréquence d’un mot dans un texte donne une bonne indication du contenu et donc de sa classification.

Le IDF (« inverse document frequency ») mesure la proportion de textes contenant le mot. Le mot aura d’autant plus importance qu’il n’est employé que dans quelques documents.

Le score TF-IDF est une caractéristique d’un texte.

L’analyse des scores TF-IDF montre qu’il y a des « grappes » de mots différents selon le texte, grappes qui caractérisent le contenu.

Caractéristiques d’une voix.

La voix va créer une onde sonore (pression et décompression en une seconde) mais aussi des « bruits » (actions de facteurs externes). Un microphone va convertir cette onde sonore en un courant électrique continu mais la capture de la tension électrique et la sauvegarde de l’onde sonore n’est possible que par intermittence.

Le spectrogramme représente la fréquence d’une onde sonore en fonction du temps.

Une autre information nécessaire pour comprendre concerne l’écoute humaine et son incapacité à évaluer correctement les différences d’ondes sonores. Une transformation est donc nécessaire pour que l’oreille humaine perçoive les différences de manière identique, quels que soient les ordres de grandeur des ondes.

Extraction des caractéristiques d’un visage.

Le visage a plusieurs caractéristiques telles que les yeux, le nez, les paupières, les oreilles et le menton pour n’en nommer que quelques-unes. L’extraction de caractéristiques faciales consiste donc à extraire ces composantes du visage. Certains algorithmes permettent d’avoir 68 points particuliers sur une face comme le montre la figure ci-dessous :

3. Exemples d’application de l’apprentissage automatique supervisé.

3.1. Fidélisation.

Une entreprise cherchant à conserver ses clients a décidé d’offrir un cadeau aux plus susceptibles de rompre leur contrat dans l’année en cours. Mais comment repérer ceux qui risquent le plus fortement de partir ?

Elle a d’abord analysé les caractéristiques de ses clients au cours de l’an précédent, cherché à repérer les déterminants du départ et a abouti à 31 prédicteurs organisés en arbre de décision.

Une partie des clients avec leurs caractéristiques va servir de base à l’apprentissage automatique supervisé et une autre à la validation du modèle.

Les résultats montrent que le modèle repère 40% de plus de clients susceptibles de partir que le tirage au hasard.

Les variables textes, données et voix ont été les déterminants les plus importants.

3.2. Repérage des pourriels.

Ici aussi le travail de préparation a commencé par l’analyse des courriels reçus au cours d’une période et le repérage des signes et des caractéristiques des pourriels.

E c’est sur cette base que les experts vont déterminer la probabilité que tel courrier est un pourriel.

3.3. Système de recommandation de recettes

L’idée est de développer un système qui arrive à prédire la popularité d’une recette à partir de ses ingrédients.

On classe les recettes en trois groupes de popularité décroissante. Et la variable explicative va être la liste des ingrédients, plus précisément la présence d’un ingrédient ou non dans la recette.

Comme il y a plusieurs milliers de recettes et que chaque recette utilise en moyenne une dizaine d’ingrédients, on a réduit les données en ne gardant que les ingrédients qui apparaissent au moins dans 0,5 % des recettes et au plus, dans 10 % des recettes ; ce qui réduit les ingrédients à considérer à 314.

Pour obtenir une prédiction, il faut utiliser les probabilités et repérer les ingrédients les plus associés aux deux classes extrêmes : très populaire et peu populaire.

L’étude constate que sont associés aux recettes les plus populaires les ingrédients suivants : carottes, tomates, oignons verts, céleris, bouillon de poulet, coriandre, poudre à pâte et poivrons rouges.

Et sont associés aux recettes les moins populaires les ingrédients suivants : farine, beurre, cassonade, poudre à pâte et sirop d’étable.

3.4. Classification de document textes

Le corpus de textes utilisé est composé des nouvelles financières de l’agence de presse Reuters ; soit 11 000 articles de journaux, triés en 90 catégories différentes. Il est clair que certains termes sont très fréquemment utilisés.

L’auteur de l‘étude a voulu repérer les textes qui parlent de la culture du blé. Le titre des articles n’est pas suffisant cat il peut concerner les transactions sur le blé.

Les éléments du vocabulaire que l’on retrouve dans le corpus sont de 10 278. Il y a également des grappes identifiables qui vont correspondre à différents thèmes abordés dans les articles du corpus.

On peut regarder les textes de la classe positive (blé) versus ceux de la classe négative (non-blé)

D’abord, les textes qui traitent de blé étant beaucoup moins nombreux que les autres textes, on décide de se concentrer sur un petit échantillon du corpus et on constate que les données ne sont pas bien séparées dans l’espace ; la catégorisation sera incertaine et il y aura beaucoup de faux positifs et de faux négatifs.

La réalité n’est pas toujours aussi mal catégorisable mais dans les corpus textuels, il est très rare que les données soient bien catégorisables.

L’objectif de cet article n’est pas de former des opérateurs de l’apprentissage automatique supervisé (IA) mais de bien faire apparaître ce qu’est le processus et pourquoi il n’est pas une sorte d’imitation d’intelligence humaine.

C’est d’abord la construction d’un modèle de prévision faite par une intelligence humaine. C’est l’intelligence humaine qui opère du début à la fin ; définition des objectifs, définition des variables déterminantes, recherche des liens entre variable et résultats, utilisation des résultats.

On est très loin du mythe faisant état de l’intelligence de la machine se substituant à l’intelligence humaine.

(Source : Mooc : Techniques d’intelligence artificielle. Université de Montréal

https://cours.edulib.org/courses/course-v1:UMontreal+FAS-AAA+H2022/courseware)

Pour d’autres articles sur le même thème :

https://outilspourdiriger.fr/les-applications-cognitives-1/

https://outilspourdiriger.fr/?s=Intelligence+artificielle

https://outilspourdiriger.fr/lia-creation-destructrice-ou-destruction-creatrice-demplois/

Aucune reproduction ne peut être faite de cet article sans l’autorisation expresse de l’auteur. A. Uzan. 10/12/2022.