AI : Le motif n'est pas dans les données, il est dans la machine

b21c7d8b-5465-4ff6-ad1e-a3aa0de5af4e.jpg

Un réseau de neurones transforme l’entrée, les cercles à gauche, en sortie, à droite. Comment cela se produit est une transformation des poids, centre, que nous confondons souvent avec des modèles dans les données elles-mêmes.

Tiernan Ray pour ZDNET

C’est un lieu commun de l’intelligence artificielle de dire que l’apprentissage automatique, qui dépend de grandes quantités de données, fonctionne en trouvant des modèles dans les données.

L’expression “trouver des modèles dans les données” est en fait une expression de base de choses telles que l’exploration de données et la découverte de connaissances depuis des années maintenant, et il a été supposé que l’apprentissage automatique, et sa variante d’apprentissage en profondeur en particulier, ne font que continuer la tradition de trouver de tels modèles.

Les programmes d’IA aboutissent, en effet, à des modèles, mais, tout comme La faute, cher Brutus, ne réside pas dans nos étoiles mais en nous-mêmes, le fait de ces modèles n’est pas quelque chose dans les données, c’est ce que le programme d’IA fait du Les données.

Presque tous les modèles d’apprentissage automatique fonctionnent via une règle d’apprentissage qui modifie les soi-disant pondérations, également appelées paramètres, du programme lorsque le programme reçoit des exemples de données et, éventuellement, des étiquettes attachées à ces données. C’est la valeur des poids qui compte comme “savoir” ou “comprendre”.

Le modèle qui est trouvé est vraiment un modèle de la façon dont les poids changent. Les poids simulent la façon dont les vrais neurones sont censés “s’allumer”, le principe formé par le psychologue Donald O. Hebb, qui est devenu connu sous le nom d’apprentissage hebbien, l’idée que “les neurones qui s’allument ensemble, se connectent ensemble”.

Aussi : L’IA en soixante secondes

C’est le schéma des changements de poids qui est le modèle d’apprentissage et de compréhension dans l’apprentissage automatique, ce que les fondateurs de l’apprentissage en profondeur ont souligné. Comme exprimé il y a près de quarante ans, dans l’un des textes fondateurs de l’apprentissage en profondeur, Parallel Distributed Processing, Volume I, James McClelland, David Rumelhart et Geoffrey Hinton ont écrit :

Ce qui est stocké, ce sont les forces de connexion entre les unités qui permettent de créer ces modèles […] Si la connaissance est la force des connexions, l’apprentissage doit consister à trouver les bonnes forces de connexion afin que les bons schémas d’activation soient produits dans les bonnes circonstances.

McClelland, Rumelhart et Hinton écrivaient pour un public restreint, des psychologues cognitifs et des informaticiens, et ils écrivaient à une époque très différente, une époque où les gens ne faisaient pas de suppositions faciles que tout ce qu’un ordinateur faisait représentait une “connaissance”. Ils travaillaient à une époque où les programmes d’IA ne pouvaient pas faire grand-chose du tout, et ils se préoccupaient principalement de la façon de produire un calcul, n’importe quel calcul, à partir d’un agencement assez limité de transistors.

Puis, en commençant par la montée en puissance des puces GPU puissantes il y a environ seize ans, les ordinateurs ont vraiment commencé à produire un comportement intéressant, couronné par la performance historique ImageNet du travail de Hinton avec ses étudiants diplômés en 2012 qui a marqué l’avènement de l’apprentissage en profondeur.

À la suite des nouvelles réalisations informatiques, l’esprit populaire a commencé à construire toutes sortes de mythologies autour de l’IA et de l’apprentissage en profondeur. Il y a eu une ruée vers de très mauvais titres comparant la technologie à des performances surhumaines.

Aussi : Pourquoi les rapports de l’IA sont-ils si mauvais ?

La conception actuelle de l’IA a obscurci ce sur quoi McClelland, Rumelhart et Hinton se sont concentrés, à savoir la machine, et comment elle “crée” des modèles, comme ils le disent. Ils connaissaient très bien la mécanique des pondérations construisant un modèle en réponse à ce qui n’était, dans l’entrée, que des données.

Pourquoi tout cela compte-t-il ? Si la machine est le créateur de modèles, alors les conclusions que les gens tirent sur l’IA sont probablement pour la plupart fausses. La plupart des gens supposent qu’un programme informatique perçoit un modèle dans le monde, ce qui peut amener les gens à reporter leur jugement sur la machine. S’il produit des résultats, pense-t-on, l’ordinateur doit voir quelque chose que les humains ne voient pas.

Sauf qu’une machine qui construit des motifs ne voit rien explicitement. C’est construire un modèle. Cela signifie que ce qui est “vu” ou “connu” n’est pas le même que le sens familier et quotidien dans lequel les humains parlent d’eux-mêmes comme connaissant les choses.

Au lieu de partir de la question anthropocentrique, que sait la machine ? il est préférable de partir d’une question plus précise, Que représente ce programme dans les relations de ses poids ?

Selon la tâche, la réponse à cette question prend plusieurs formes.

Pensez à la vision par ordinateur. Le réseau neuronal convolutif qui sous-tend les programmes d’apprentissage automatique pour la reconnaissance d’images et d’autres perceptions visuelles est composé d’un ensemble de poids qui mesurent les valeurs des pixels dans une image numérique.

La grille de pixels est déjà une imposition d’un système de coordonnées 2D sur le monde réel. Fourni avec l’abstraction conviviale de la grille de coordonnées, la tâche de représentation d’un réseau de neurones se résume à faire correspondre la force des collections de pixels à une étiquette qui a été imposée, comme “oiseau” ou “geai bleu”.

Dans une scène contenant un oiseau, ou plus précisément un geai bleu, de nombreuses choses peuvent se produire, notamment des nuages, du soleil et des passants. Mais la scène dans son intégralité n’est pas la chose. Ce qui compte pour le programme, c’est la collection de pixels la plus susceptible de produire une étiquette appropriée. Le modèle, en d’autres termes, est un acte réducteur de concentration et de sélection inhérent à l’activation des connexions du réseau neuronal.

Vous pourriez dire qu’un programme de ce type ne « voit » ou ne « perçoit » pas autant qu’il filtre.

Aussi : Une nouvelle expérience : L’IA connaît-elle vraiment les chats ou les chiens — ou quoi que ce soit ?

Il en va de même dans les jeux, où l’IA maîtrise les échecs et le poker. Dans le jeu d’échecs à informations complètes, pour le programme AlphaZero de DeepMind, la tâche d’apprentissage automatique se résume à l’élaboration d’un score de probabilité à chaque instant de combien un prochain coup potentiel mènera finalement à gagner, perdre ou faire match nul.

Étant donné que le nombre de configurations futures potentielles du plateau de jeu ne peut pas être calculé même par les ordinateurs les plus rapides, les poids de l’ordinateur coupent court à la recherche de coups en faisant ce que l’on pourrait appeler un résumé. Le programme résume la probabilité de succès si l’on devait poursuivre plusieurs mouvements dans une direction donnée, puis compare ce résumé au résumé des mouvements potentiels à prendre dans une autre direction.

Alors que l’état de l’échiquier à tout moment – la position des pièces et les pièces restantes – peut “signifier” quelque chose pour un grand maître d’échecs humain, il n’est pas clair que le terme “moyen” ait un sens pour AlphaZero de DeepMind pour une telle tâche de synthèse. .

Une tâche de synthèse similaire est accomplie pour le programme Pluribus qui a conquis en 2019 la forme de poker la plus difficile, le No-limit Texas Hold’em. Ce jeu est encore plus complexe en ce sens qu’il contient des informations cachées, les cartes face cachée des joueurs et des éléments “stochastiques” supplémentaires de bluff. Mais la représentation est, encore une fois, un résumé des vraisemblances par tour.

Même dans le langage humain, ce qu’il y a dans les poids est différent de ce que l’observateur occasionnel pourrait supposer. GPT-3, le meilleur programme de langage d’OpenAI, peut produire une sortie étonnamment humaine dans les phrases et les paragraphes.

Le programme « connaît-il » la langue ? Ses poids contiennent une représentation de la probabilité de trouver des mots individuels et même des chaînes entières de texte en séquence avec d’autres mots et chaînes.

Vous pourriez appeler cette fonction d’un réseau de neurones un résumé similaire à AlphaGo ou Pluribus, étant donné que le problème ressemble un peu aux échecs ou au poker. Mais les états possibles à représenter en tant que connexions dans le réseau de neurones ne sont pas seulement vastes, ils sont infinis compte tenu de la composabilité infinie du langage.

D’autre part, étant donné que la sortie d’un programme de langage tel que GPT-3, une phrase, est une réponse floue plutôt qu’un score discret, la “bonne réponse” est un peu moins exigeante que le gain, la perte ou le nul aux échecs. ou le tisonnier. Vous pouvez également appeler cette fonction de GPT-3 et de programmes similaires une “indexation” ou un inventaire” des choses dans leurs poids.

Aussi : Qu’est-ce que le GPT-3 ? Tout ce que votre entreprise doit savoir sur le programme révolutionnaire de langage d’IA d’OpenAI

Les humains ont-ils un genre similaire d’inventaire ou d’index de langage ? Il ne semble pas y avoir d’indication de cela jusqu’à présent dans les neurosciences. De même, dans l’expression pour distinguer le danseur de la danse, GPT-3 repère-t-il les multiples niveaux de signification dans la phrase, ou les associations ? Il n’est pas clair qu’une telle question ait même un sens dans le contexte d’un programme informatique.

Dans chacun de ces cas – échiquier, cartes, chaînes de mots – les données sont ce qu’elles sont : un substrat façonné divisé de diverses manières, un ensemble de produits en papier rectangulaires en plastique, un regroupement de sons ou de formes. Que de telles inventions “signifient” quelque chose, collectivement, pour l’ordinateur, n’est qu’une façon de dire qu’un ordinateur s’adapte en réponse, dans un but.

Les choses que ces données invitent dans la machine – filtres, résumés, index, inventaires, ou tout ce que vous voulez caractériser ces représentations – ne sont jamais la chose en soi. Ce sont des inventions.

Aussi : DeepMind : pourquoi l’IA est-elle si douée pour le langage ? C’est quelque chose dans le langage lui-même

Mais, direz-vous, les gens voient des flocons de neige et voient leurs différences, et cataloguent également ces différences, s’ils en ont envie. Certes, l’activité humaine a toujours cherché à trouver des modèles, par divers moyens. L’observation directe est l’un des moyens les plus simples et, en un sens, ce qui se fait dans un réseau de neurones en est une sorte d’extension.

On pourrait dire que le réseau de neurones révèle ce qui a toujours été vrai dans l’activité humaine pendant des millénaires, que parler de modèles est une chose imposée au monde plutôt qu’une chose dans le monde. Dans le monde, les flocons de neige ont une forme, mais cette forme n’est qu’un modèle pour une personne qui les collecte, les indexe et les catégorise. C’est une construction, en d’autres termes.

L’activité de création de modèles augmentera considérablement à mesure que de plus en plus de programmes seront activés sur les données du monde et que leurs poids seront ajustés pour former des connexions qui, nous l’espérons, créeront des représentations utiles. De telles représentations peuvent être incroyablement utiles. Ils pourraient un jour guérir le cancer. Il est utile de se rappeler, cependant, que les modèles qu’ils révèlent ne sont pas là dans le monde, ils sont dans l’œil de celui qui les perçoit.

Aussi: “Gato” de DeepMind est médiocre, alors pourquoi l’ont-ils construit?