Il y a quelques semaines, Anne-Sophie Mertens, fondatrice de Vouloir Dire (une société de réservation en ligne d’interprètes en LSF), nous partageait un article sur LinkedIn à propos du dataïsme, terme que nous ne connaissions pas. Et nous qui sommes professionnels de la donnée, qui utilisons l’Intelligence Artificielle au quotidien, avons été surpris : il existe un mouvement qui place la data au-dessus des hommes.

Le concept du dataïsme

Le terme de dataïsme a été utilisé pour la première fois en Février 2013 dans un article du New York Times écrit par David Brooks. Dans ce billet d’opinion, David Brooks explique que la machine et les algorithmes sont bien supérieurs à l’Homme pour détecter des signaux faibles et pour observer et modéliser des évènements sans biais de jugement.

En 2016, Yuval Noah Harari développe davantage le concept en expliquant que “le dataïsme déclare que l’univers est constitué de flux de données et que la valeur de tout phénomène ou entité est déterminée par sa contribution au traitement des données”. Il décrit ensuite que les individus sont en fait des unités de calcul et que l’organisation de la société cherche à optimiser la capacité de calcul de cette société et la propagation de l’information au sein de cette société.

Bien sûr, ce concept et cette description sont avant tout une posture philosophique avant d’être une réalité absolue. Il en existe d’autres, comme la théorie du gène égoïste, le stoïcisme, etc. Nous voyons bien ici que le dataïsme est un paradigme et qu’il ne saurait en aucun cas être une doctrine absolue.

Le problème est que par état de fait, certaines personnes sont réellement convaincues que le sacro-saint Big Data domine le monde, et que nous sommes à l’aube d’un univers dystopique où la machine est plus intelligente, plus performante, plus autonome que l’Homme. D’ailleurs, la machine n’est elle pas supérieure à l’Homme au jeu de Go, à Jeopardy ? N’a t-on pas vu des Intelligences Artificielles (IA) de chez Facebook inventer leur propre langage, incompréhensible pour les humains ? Et par dessus tout, n’a t-on pas vue une IA de Google créer sa propre IA supérieure à toutes les IA similaires développées par les humains ? Et bien pas vraiment.  A notre sens, cela dénote une mauvaise compréhension du processus de développement des IA, et de ce qu’elles sont ou ne sont pas capables de faire.

Ce qu’on appelle une Intelligence Artificielle n’est pas une intelligence comparable à l’intelligence humaine. C’est simplement une règle mathématique, parfois certes extrêmement complexe, programmée pour effectuer un calcul, et s’exécutant sur un ordinateur de puissance variable. AlphaGo, qui a battu le meilleur joueur humain au jeu de Go, n’est qu’un programme paramétré pour être bon au jeu de Go. Il ne sait rien faire d’autre. Ce qu’on appelle alors “intelligence” n’est que la capacité à analyser un plateau de Go et à placer ses pions de façon optimale pour maximiser son score. L’IA créée par une autre IA ? Rien de très sorcier : l’IA-mère cherche à optimiser les paramètres (architecture, coefficients, poids, fonctions, etc.) de son IA-fille afin que celle-ci renvoie la plus petite erreur possible. En fait, l’IA-mère produit une matrice, un tableau de paramètres qui sont utilisés pour créer l’IA-fille. Cette IA fille a elle un objectif défini à priori, la reconnaissance d‘image dans ce cas.

La réalité concrète

Chez DataTailors, nous utilisons des Intelligences Artificielles au quotidien pour permettre aux entreprises de prendre de meilleures décisions. Comment cela se passe-t-il concrètement pour nous, qui créons des IA ?

Dans un premier temps, nous devons définir un objectif à l’IA que nous créons : prédire une vente, une probabilité d’attrition, reconnaître un objet dans une image, détecter une anomalie dans une série de données, etc. Cette étape nécessite une expertise humaine, pour la simple et bonne raison que si l’IA peut modéliser et prédire n’importe quoi pourvu qu’elle dispose de l’entraînement suffisant, l’IA en elle-même est incapable de déterminer ce qui est pertinent pour une entreprise ou pas. Cet objectif est choisi par des personnes qui ont une connaissance fine de leur secteur d’activité, notamment au niveau social et humain.

Dans un second temps, nous choisissons les données que la machine va considérer pour atteindre son objectif. Par exemple, imaginons que nous devons prédire un risque d’avalanche. Il y a plusieurs façons d’aborder le problème. On peut prendre en considération la météo et l’historique des avalanche sur la même période au cours des années passées. On peut également demander son avis à un spécialiste des avalanches qui nous dira que le risque d’avalanche dépend effectivement de la météo, mais aussi de la structure du manteau neigeux, du taux d’humidité de la neige, de la pente, etc. Cette expertise est cruciale car aucune IA n’est capable a priori de définir de quelles données elle a besoin pour atteindre son objectif. Pire que ça : on pourrait très bien prédire le risque d’avalanche à partir des indices boursiers des sociétés du CAC40. L’IA réussira à trouver des relations mathématiques faibles entre ces indices boursiers et le risque d’avalanche si on le lui demande. Le problème est que ces relations mathématiques ne sont pas pertinentes, pas fiables. Elles sont absurdes. Dans ce cas l’IA ne sert à rien.

Dans un troisième temps, nous choisissons l’algorithme que nous allons utiliser pour créer cette IA. Il en existe une multitude suivant l’objectif à atteindre. Le choix de cet algorithme est éminemment humain également. Il existe bien sûr des règles générales pour choisir l’algorithme suivant le type d’objectifs à atteindre, mais bien souvent le Data Scientist va s’appuyer in fine sur sa connaissance profonde des processus mathématiques, algébriques, qui régissent les algorithmes considérés. En plus, l’algorithme choisi va dépendre pour partie des données retenues pour entraîner cet algorithme.

Ensuite, nous pré-traitons le jeu de données d’entraînement pour le mettre dans un format compréhensible par l’algorithme choisi. En fait, 95% du succès d’une IA dépend de la capacité de l’humain à s’adresser à l’algorithme de la façon la plus adéquate. Un algorithme est idiot par nature, et fera comme il peut avec les données qu’on lui donne. Il existe d’ailleurs un principe qui gouverne le développement des IA : GIGO (Garbage In, Garbage Out). Des mauvaises données produiront une IA peu performante. Le prétraitement des données s’appuie également sur une expertise humaine, qui va déterminer la pertinence du prétraitement. Par exemple pour une série de données continues dont les valeurs s’échelonnent de 0 à 100 (comme des températures), est-il plus judicieux de centrer-réduire ces valeurs entre -1 et 1 ou de regrouper ces données en classes (0-20 °C, 20-40 °C, etc.) ? Cette décision dépend de l’objectif à atteindre, de l’importance que l’on veut donner à ces données pour l’IA, et des connaissances que nous avons à priori de la relation de ces données avec l’objectif à atteindre.

C’est à l’étape du paramétrage du modèle que la machine est bien supérieure à l’Homme. Pourquoi ? Parce que la machine doit régler un problème d’optimisation mathématique qui demande d’effectuer sans erreurs des millions de calculs, avec une très grande précision. La machine sait très bien faire ça, et très vite. C’est même pour ça que l’Homme l’a fabriquée. Notre tâche, à cette étape, consiste à choisir les méthodes d’optimisation des paramètres, et de nous assurer que l’IA arrive correctement à s’entraîner. Mais le gros du travail est effectué par la machine.

Enfin, nous développons une interface qui permet à l’humain, notre client, de communiquer avec l’IA. Notez bien que ce n’est pas l’IA qui s’adresse à l’humain. L’IA n’a pas d’intention. C’est l’humain qui décide d’interroger l’IA. Autrement, l’IA est juste un modèle mathématique inerte dormant au fond d’un ordinateur.

En résumé

Alors le dataïsme, qu’en est-il ? Et bien, c’est avant tout une position philosophique, un paradigme que nous devons confronter à la réalité concrète. Il est vrai que la machine est supérieure à l’Homme pour comprendre les signaux faibles, modéliser, faire des statistiques, etc. En fait, la machine est supérieure à l’Homme en calcul. C’est pour cela qu’un ordinateur s’appelle un computer en anglais, autrement dit un calculateur. Les IA sont des créations prodigieuses qui permettent d’effectuer des tâches de plus en plus complexes : piloter des voitures, reconnaître des visages, entretenir des conversations presque naturelles. Néanmoins, elles ne sont jamais que modèles mathématiques créés précisément pour effectuer la tâche qui leur a été affectée.

Le Big Data, le Deep Learning, les IA, sont avant tout des créations fabuleusement ingénieuses d’hommes et de femmes. Ils ont été inventés pour répondre à des questions, pour atteindre des objectifs définis par les Hommes. Il est prématuré de placer les machines, les données, au dessus de l’Homme. Bien sûr que nous sommes parfois effrayés de voir comment Google nous recommande de partir 15 minutes plus tôt parce qu’il a vu dans notre agenda que nous avons une réunion dans un autre lieu que d’habitude. Il ne faut cependant pas oublier qu’à la base, un humain a créé cette IA précisément avec cet objectif : dire à l’utilisateur quand partir en fonction des lieux écrits dans son agenda. Et l’IA le fait bien, parce que Google dispose de gens extrêmement brillants pour créer ces IA. Mais cela reste une histoire d’hommes et de femmes.