Mieux comprendre l’IA et le « big data »

Mieux comprendre l’IA et le « big data » est devenu nécessaire pour tout manager.

L’IA vise à faire en sorte que les ordinateurs fassent le genre de choses qui nécessitent l’intelligence humaine : comprendre le langage, raisonner, naviguer dans le monde physique, apprendre, etc.

C’est devenu une technologie à usage général, à l’usage de tous les secteurs et de tous les métiers. C’est pourquoi les managers doivent comprendre sa technologie et ses applications.

Par ailleurs, chacun a entendu parler de « Big data » ou mégadonnées qui sont traitées par l’IA er éclaire son fonctionnement.

Nous présentons successivement les deux sujets pour permettre à chacun de mieux comprendre l’IA et le Big data.

Les méthode de l’IA (intelligence artificielle)

L’IA a beaucoup évolué. Selon la terminologie des experts, elle est passée de l’apprentissage supervisé à l’apprentissage automatique, à l’apprentissage par renforcement et à l’apprentissage automatique supervisé.

Notons tout de suite que les mots « Intelligence et apprentissage » ne doivent tromper personne car, dans tous les cas, ces opérations sont commandées par des logiciels conçus par des humains.

1.1. L’apprentissage supervisé

L’apprentissage supervisé vise à construire un modèle prédictif basé sur des données passées ; par exemple, on saisit des emails passés en distinguant ce qui est spam et ce qui ne l’est pas et au reçu d’un nouvel email le modèle dit s’il s’agit d’un spam ou pas. Le modèle effectue une tâche très spécifique mais une seule tâche.

1.2 L’apprentissage automatique

L’apprentissage automatique vise à faire « apprendre » (faire-faire) aux ordinateurs une tâche sans programmation explicite.

Les experts disent que 90% au moins des applications commerciales relèvent de l’apprentissage automatique et visent à faciliter la prévision ou la prédiction.

C’est le logiciel qui découvre les modèles et les relations parmi les données saisies et les propose à l’analyste.

Par exemple, des données sur les transactions passées opérées par carte bancaire sont saisies et l’analyse opérée par le logiciel vise à repérer les transactions frauduleuses et à prévoir si la transaction à venir est frauduleuse.

On pourrait agir de même en analysant les images captées par une voiture sans conducteur ou des textes ou des paroles ou des soins médicaux ou des productions,

Les techniques d’apprentissage automatique permettent donc de trouver des modèles dans les données d’entrée. Par exemple, chercher à opérer des segmentations (clustering) mais on ne dit pas à l’avance au logiciel à quoi ressemble le clustering idéal ou recherché. Idem pour la détection d’anomalies ; les algorithmes de détection des anomalies examinent un ensemble de données et identifient les points de données qui ne ressemblent pas à la plupart des autres données et les livre à l’étude de l’analyste.

Un autre exemple concerne les sujets contenus dans un document (journal par exemple) et donc la classification du document sur la base de l’analyse de données d’entrée composées d’un grand ensemble de documents.

L’hypothèse est que chaque document couvre très peu de sujets et que chaque sujet contient quelques mots utilisés fréquemment, ce qui permet de caractériser le document.

1.3 L’apprentissage par renforcement

L’algorithme teste ou essaye diverses actions ou stratégies, et « apprend » en observant les effets.

C’est une méthode qui a été utilisée en robotique et qu’on peut utiliser en marketing.

Par exemple, on a créé deux publicités différentes mais on ne sait pas quelle publicité est la meilleure à utiliser.

On sait que l’on doit, alors, faire un test A/B, c’est-à -dire afficher l’annonce A devant la moitié des utilisateurs et l’annonce B devant l’autre moitié et observer laquelle recueille le taux de clics le plus élevé.

C’est ce que réalisent les certains types algorithme.

Certains logiciels (dits « bandits multiarmés ; multi-armed bandit) automatisent cette procédure en affichant l’une puis l’autre de ces publicités, en observant les effets et en choisissant ce qui est le plus performant.

Ce sont des outils d’autant plus efficaces que les données sont saisies en continu.

Par exemple, un site Web multimédia souhaite personnaliser le site en fonction de ses utilisateurs et déterminer lequel des articles de presse doit figurer en haut de la page d’accueil, comment personnaliser la page du produit pour le consommateur, laquelle des images d’un produit mettre en en valeur, etc.

Et l’objectif est de décider quelles actions choisir afin de maximiser les revenus.

Au cours des premières semaines, sont essayés de nombreux messages marketing différents, de nombreuses images différentes, etc. et, sur la base des résultats, est choisie la variante la plus efficace.

Un autre algorithme disponible est « l’échantillonnage Thompson ». Cet algorithme vise à répondre aux questions du manager, par exemple d’un site Web, devant choisir entre les caractéristiques du produit à mettre en valeur, entre messages et visuels, etc.

L’algorithme testera les résultats de chaque terme du choix puis, à mesure que de plus en plus de données seront reçues, choisira ceux qui produisent les meilleurs résultats.

L’apprentissage par renforcement est une méthode qui repose moins sur les données « d’entraînement » et davantage sur l’expérimentation dynamique pour découvrir quelles stratégies fonctionnent le mieux et pour les utiliser de plus en plus.

1.4. L’apprentissage automatique supervisé

Il vise à prédire une variable de résultat sur la base d’un ensemble de variables d’entrée.

Il existe aujourd’hui de nombreuses applications commerciales de ce type de prédiction ; par exemple, prédire si le prospect deviendra client ; si un internaute cliquera sur l’annonce. Toutefois la condition du succès réside dans la qualité et la pertinence des données d’entraînement. Il est clair qu’on ne peut prédire un achat futur dans disposer des déterminants de l’achat.

Toute la tâche de l’apprentissage automatique supervisé consiste à trouver le lien (corrélation) entre les données entrées et le résultat visé.

La précision de la prédiction va dépendre de la quantité de données entrées et de la pertinence de ces entrées, c’est-à-dire de l’expertise de l’analyste.

On voit qu’il s’agit toujours de logiciels qui produisent des résultats souhaités par l’analyste.

Mégadonnées (« Big Data »)

L’utilisation des mégadonnées.

On parle de mégadonnées ou de « Big Data » lorsque les données à traiter présentent les caractéristiques suivantes :

-un volume qui ne peut être traité par les ordinateurs personnels ou d’entreprise ;

-une combinaison de données de divers types : texte, nombres, audio, vidéo, etc.

-une arrivée constante, ultrarapide (toutes les secondes ou moins), de sources multiples ;

-une véracité vérifiée.

C’est l’augmentation des capacités de calcul et de stockage qui a rendu possible la création d’outils adaptés au nombre, à vitesse et à la diversité des sources (utilisateurs sur les réseaux sociaux ou en lien avec l’entreprise, appareils fixes ou mobiles, capteurs qu’une entreprise utilise, etc.).

Dans le passé et encore aujourd’hui, l’analyse de données commençait par une hypothèse faite par un statisticien ou un « data scientist » et l’analyse consistait à vérifier si cette hypothèse était bonne.

L’analyse des mégadonnées est plus exploratoire et itérative. Elle commence par l’examen des données disponibles afin de trouver des modèles ou des corrélations qui soient explicatifs ou suggèrent certaines idées ou hypothèses.

Voici quelques méthodes l’exploration de données.

-le clustering.

C’est la segmentation par exemple celle des clients.

-les règles d’association.

L’exploration cherche à détecter des cooccurrences courantes dans les données.

Les clients ont tendance à acheter les mêmes ensembles de produits ; on peut repérer des modèles courants et prendre les décisions de promotion qui conviennent.

Cette méthode s’est appliquée dans le cas d’une maladie supposée incurable grâce à l’exploration de nombreux traitant plus ou moins de ma maladie.

– l’analyse prédictive

Amazon applique beaucoup cette méthode en présentant des recommandations de produits à ses clients.

La caractéristique de l’analyse des mégadonnées est la vitesse de réponse aux questions de l’analyste, réponse quasi instantanée.

2 Les compétences et outils nécessaires à l’entreprise.

2.1. Les compétences.

L’organisation des données implique parfois l’achat d’outils spéciaux pour regrouper et extraire les données, ou la présence d’un expert interne en données : statisticiens, expert en apprentissage automatique.

Elle implique, également, des managers compétents en analyse des données, capables de choisir le type de données nécessaires et de définir les recherches pertinentes à faire pour décider.

2.2. Les outils

L’IA exige l’accès à toutes les données de l’entreprise ou à la plupart d’entre elles pour avoir une vue plus complète en faisant des rapprochements.

Des outils ETL (extraction, transformation, chargement) existent qui extraient les données des différentes bases de données existantes, les organisent pour l’analyse en cours et les chargent dans un entrepôt de données.

Il existe aussi des outils qui stockent et traitent les mégadonnées.

Source : https://www.coursera.org/learn/wharton-ai-fundamentals-non-data-scientists/home/module/1

Pour aller plus loin :

https://outilspourdiriger.fr/utiliser-lia-daujourdhui/

https://outilspourdiriger.fr/les-impacts-de-lia-generative/

https://outilspourdiriger.fr/lapprentissage-automatique-supervise-ia/

Aucune reproduction ne peut être faite de cet article sans l’autorisation expresse de l’auteur. A. Uzan. 14/12/2024