Le "Gato" de DeepMind est médiocre, alors pourquoi l'ont-ils construit ?  |  ZDNet

deepmind-gato-slash-image-closer-in.png

Le réseau neuronal “Gato” de DeepMind excelle dans de nombreuses tâches, notamment le contrôle de bras robotiques qui empilent des blocs, la lecture de jeux Atari 2600 et le sous-titrage d’images.

DeepMind

Le monde est habitué à voir les gros titres sur la dernière percée des formes d’apprentissage en profondeur de l’intelligence artificielle. La dernière réalisation de la division DeepMind de Google, cependant, pourrait être résumée comme suit : “Un programme d’IA qui fait un travail moyen dans beaucoup de choses”.

Gato, comme on appelle le programme de DeepMind, a été dévoilé cette semaine en tant que programme dit multimodal, qui peut jouer à des jeux vidéo, discuter, écrire des compositions, sous-titrer des images et contrôler un bras robotique empilant des blocs. Il s’agit d’un réseau de neurones qui peut fonctionner avec plusieurs types de données pour effectuer plusieurs types de tâches.

“Avec un seul ensemble de poids, Gato peut engager un dialogue, sous-titrer des images, empiler des blocs avec un vrai bras de robot, surpasser les humains dans les jeux Atari, naviguer dans des environnements 3D simulés, suivre des instructions, et plus encore”, écrit l’auteur principal Scott Reed. et ses collègues dans leur article, “A Generalist Agent”, publié sur le serveur de préimpression Arxiv.

Le co-fondateur de DeepMind, Demis Hassabis, a encouragé l’équipe, s’exclamer dans un tweet“Notre agent le plus général à ce jour !! Travail fantastique de la part de l’équipe !”

Aussi: Une nouvelle expérience : l’IA connaît-elle vraiment les chats ou les chiens – ou quoi que ce soit ?

Le seul hic, c’est que Gato n’est en fait pas si doué pour plusieurs tâches.

D’une part, le programme est capable de faire mieux qu’un programme d’apprentissage automatique dédié pour contrôler un bras robotique Sawyer qui empile des blocs. D’autre part, il produit des légendes pour les images qui, dans de nombreux cas, sont assez pauvres. Sa capacité au dialogue de chat standard avec un interlocuteur humain est également médiocre, suscitant parfois des énoncés contradictoires et absurdes.

Et sa lecture des jeux vidéo Atari 2600 est inférieure à celle de la plupart des programmes ML dédiés conçus pour rivaliser dans l’environnement d’apprentissage Arcade de référence.

Pourquoi feriez-vous un programme qui fait certaines choses assez bien et un tas d’autres choses moins bien ? Précédent, et attente, selon les auteurs.

Il existe un précédent pour des types de programmes plus généraux qui deviennent l’état de l’art en matière d’IA, et on s’attend à ce que des quantités croissantes de puissance de calcul compensent à l’avenir les lacunes.

La généralité peut avoir tendance à triompher en IA. Comme le notent les auteurs, citant le spécialiste de l’IA Richard Sutton, “Historiquement, les modèles génériques qui tirent le meilleur parti du calcul ont également eu tendance à dépasser les approches spécifiques à un domaine plus spécialisées.”

Comme Sutton l’a écrit dans son propre article de blog, “La plus grande leçon que l’on puisse tirer de 70 ans de recherche sur l’IA est que les méthodes générales qui exploitent le calcul sont finalement les plus efficaces, et de loin.”

Mis dans une thèse formelle, Reed et son équipe écrivent que “nous testons ici l’hypothèse qu’il est possible de former un agent généralement capable d’effectuer un grand nombre de tâches ; et que cet agent général peut être adapté avec peu de données supplémentaires pour réussir à un un nombre encore plus grand de tâches.”

Aussi: Leluminaire de l’IA de Meta, LeCun, explore la frontière énergétique de l’apprentissage en profondeur

Le modèle, dans ce cas, est en effet très général. Il s’agit d’une version du Transformer, le type dominant de modèle basé sur l’attention qui est devenu la base de nombreux programmes, dont GPT-3. Un transformateur modélise la probabilité d’un élément compte tenu des éléments qui l’entourent, tels que des mots dans une phrase.

Dans le cas de Gato, les scientifiques de DeepMind sont capables d’utiliser la même recherche de probabilité conditionnelle sur de nombreux types de données.

Comme Reed et ses collègues décrivent la tâche de former Gato,

Pendant la phase de formation de Gato, les données de différentes tâches et modalités sont sérialisées en une séquence plate de jetons, regroupées et traitées par un réseau neuronal transformateur similaire à un grand modèle de langage. La perte est masquée de sorte que Gato prédit uniquement les cibles d’action et de texte.

Gato, en d’autres termes, ne traite pas les jetons différemment, qu’il s’agisse de mots dans un chat ou de vecteurs de mouvement dans un exercice d’empilement de blocs. C’est tout pareil.

deepmind-comment-gato-est-formé.png

Scénario de formation Gato.

Reid et al. 2022

Enfouie dans l’hypothèse de Reed et de son équipe, il y a un corollaire, à savoir que de plus en plus de puissance de calcul finira par gagner. À l’heure actuelle, Gato est limité par le temps de réponse d’un bras de robot Sawyer qui effectue l’empilement des blocs. Avec 1,18 milliard de paramètres réseau, Gato est beaucoup plus petit que les très grands modèles d’IA tels que GPT-3. À mesure que les modèles d’apprentissage en profondeur prennent de l’ampleur, l’inférence entraîne une latence qui peut échouer dans le monde non déterministe d’un robot du monde réel.

Mais Reed et ses collègues s’attendent à ce que cette limite soit dépassée à mesure que le matériel d’IA devient plus rapide au traitement.

“Nous concentrons notre formation sur le point de fonctionnement de l’échelle du modèle qui permet le contrôle en temps réel de robots du monde réel, actuellement autour de 1,2 milliard de paramètres dans le cas de Gato”, ont-ils écrit. “Au fur et à mesure que les architectures matérielles et modèles s’améliorent, ce point de fonctionnement augmentera naturellement la taille de modèle réalisable, poussant les modèles généralistes plus haut sur la courbe de la loi d’échelle.”

Par conséquent, Gato est vraiment un modèle de la façon dont l’échelle de calcul continuera d’être le principal vecteur de développement de l’apprentissage automatique, en rendant les modèles généraux de plus en plus grands. Plus c’est gros, mieux c’est, en d’autres termes.

deepmind-devient-meilleur-avec-scale.png

Gato s’améliore à mesure que la taille du réseau de neurones dans les paramètres augmente.

Reid et al. 2022

Et les auteurs en ont des preuves. Gato semble s’améliorer à mesure qu’il grossit. Ils comparent les scores moyens de toutes les tâches de référence pour trois tailles de modèle selon les paramètres, 79 millions, 364 millions et le modèle principal, 1,18 milliard. “Nous pouvons voir que pour un nombre de jetons équivalent, il y a une amélioration significative des performances avec une échelle accrue”, écrivent les auteurs.

Une question future intéressante est de savoir si un programme généraliste est plus dangereux que d’autres types de programmes d’IA. Les auteurs passent beaucoup de temps dans l’article à discuter du fait qu’il existe des dangers potentiels qui ne sont pas encore bien compris.

L’idée d’un programme qui gère plusieurs tâches suggère au profane une sorte d’adaptabilité humaine, mais cela peut être une perception erronée dangereuse. “Par exemple, l’incarnation physique pourrait conduire les utilisateurs à anthropomorphiser l’agent, conduisant à une confiance mal placée dans le cas d’un système défectueux, ou être exploitable par de mauvais acteurs”, écrivent Reed et son équipe.

“De plus, bien que le transfert de connaissances entre domaines soit souvent un objectif de la recherche ML, il pourrait créer des résultats inattendus et indésirables si certains comportements (par exemple, les combats de jeux d’arcade) sont transférés dans le mauvais contexte.”

Par conséquent, écrivent-ils, “Les considérations d’éthique et de sécurité du transfert de connaissances peuvent nécessiter de nouvelles recherches substantielles à mesure que les systèmes généralistes progressent.”

(En guise de remarque intéressante, l’article de Gato utilise un schéma pour décrire le risque conçu par l’ancienne chercheuse Google AI Margaret Michell et ses collègues, appelé Model Cards. Model Cards donne un résumé concis de ce qu’est un programme d’IA, ce qu’il fait et ce qu’il fait. facteurs affectent son fonctionnement. Michell a écrit l’année dernière qu’elle avait été forcée de quitter Google pour avoir soutenu son ancien collègue, Timnit Gebru, dont les préoccupations éthiques concernant l’IA allaient à l’encontre du leadership de Google en matière d’IA.)

Gato n’est en aucun cas unique dans sa tendance à généraliser. Cela fait partie de la tendance générale à la généralisation et aux modèles plus grands qui utilisent des seaux de puissance. Le monde a eu un premier aperçu de l’inclinaison de Google dans cette direction l’été dernier, avec le réseau de neurones “Perceiver” de Google qui combinait des tâches de transformateur de texte avec des images, du son et des coordonnées spatiales LiDAR.

Aussi: Supermodel de Google : DeepMind Perceiver est une étape sur la voie d’une machine d’IA capable de traiter tout et n’importe quoi

Parmi ses pairs figure PaLM, le Pathways Language Model, introduit cette année par les scientifiques de Google, un modèle de 540 milliards de paramètres qui utilise une nouvelle technologie de coordination de milliers de puces, connue sous le nom de Pathways, également inventée chez Google. Un réseau de neurones publié en janvier par Meta, appelé “data2vec”, utilise des transformateurs pour les données d’image, les formes d’onde audio de la parole et les représentations du langage textuel tout en un.

Ce qui est nouveau à propos de Gato, semble-t-il, c’est l’intention de prendre l’IA utilisée pour des tâches non robotiques et de la pousser dans le domaine de la robotique.

Les créateurs de Gato, notant les réalisations de Pathways et d’autres approches généralistes, voient la réalisation ultime de l’IA qui peut fonctionner dans le monde réel, avec tout type de tâches.

“Les travaux futurs devraient examiner comment unifier ces capacités de texte en un agent entièrement généraliste qui peut également agir en temps réel dans le monde réel, dans divers environnements et modes de réalisation.”

Vous pourriez alors considérer Gato comme une étape importante sur la voie de la résolution du problème le plus difficile de l’IA, la robotique.