DeepMind : Pourquoi l'IA est-elle si douée pour le langage ?  C'est quelque chose dans le langage lui-même

omniglot-characters-hero-image.png

La fréquence du langage et des qualités telles que la polysémie peuvent-elles affecter la capacité d’un réseau de neurones à résoudre soudainement des tâches pour lesquelles il n’a pas été spécifiquement développé, ce que l’on appelle “l’apprentissage en quelques coups” ? DeepMind dit oui.

Tiernan Ray pour ZDNet

Comment se fait-il qu’un programme tel que le réseau neuronal GPT-3 d’OpenAI puisse répondre à des questions à choix multiples ou écrire un poème dans un style particulier, bien qu’il n’ait jamais été programmé pour ces tâches spécifiques ?

C’est peut-être parce que le langage humain a des propriétés statistiques qui conduisent un réseau de neurones à s’attendre à l’inattendu, selon une nouvelle étude de DeepMind, l’unité d’IA de Google.

Le langage naturel, vu du point de vue des statistiques, a des qualités qui sont « non uniformes », comme des mots qui peuvent représenter plusieurs choses, appelées « polysémie », comme le mot « banque », qui signifie un endroit où vous mettez de l’argent ou un monticule de terre qui s’élève. Et les mots qui se prononcent de la même manière peuvent représenter différentes choses, appelées homonymes, comme “ici” et “entendre”.

Ces qualités de langage sont au centre d’un article publié sur arXiv ce mois-ci, “Data Distributional Properties Drive Emergent Few-Shot Learning in Transformers”, par les scientifiques de DeepMind Stephanie CY Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang, Aaditya Singh, Pierre H. Richemond, Jay McClelland et Felix Hill.

Aussi: Qu’est-ce que le GPT-3 ? Tout ce que votre entreprise doit savoir sur le programme révolutionnaire de langage d’IA d’OpenAI

Les auteurs ont commencé par demander comment des programmes tels que GPT-3 peuvent résoudre des tâches lorsqu’ils sont présentés avec des types de requêtes pour lesquelles ils n’ont pas été explicitement formés, ce que l’on appelle “l’apprentissage en quelques coups”.

Par exemple, GPT-3 peut répondre à des questions à choix multiples sans jamais avoir été explicitement programmé pour répondre à une telle forme de question, simplement en étant invité par un utilisateur humain à taper un exemple de paire question/réponse à choix multiples.

“Les grands modèles de langage basés sur des transformateurs sont capables d’effectuer un apprentissage en quelques coups (également connu sous le nom d’apprentissage en contexte), sans avoir été explicitement formés pour cela”, écrivent-ils, faisant référence au très populaire réseau neuronal Transformer de Google qui est le base de GPT-3 et du programme linguistique BERT de Google.

Comme ils l’expliquent, “Nous avons émis l’hypothèse que des propriétés distributionnelles spécifiques du langage naturel pourraient être à l’origine de ce phénomène émergent.”

Les auteurs supposent que ces grands programmes de modèles de langage se comportent comme un autre type de programme d’apprentissage automatique, connu sous le nom de méta-apprentissage. Les programmes de méta-apprentissage, qui ont été explorés par DeepMind ces dernières années, fonctionnent en étant capables de modéliser des modèles de données qui couvrent différents ensembles de données. De tels programmes sont formés pour modéliser non pas une seule distribution de données, mais un distribution des jeux de données, comme expliqué dans des recherches antérieures par le membre de l’équipe Adam Santoro.

Aussi: Le gigantesque GPT-3 d’OpenAI indique les limites des modèles de langage pour l’IA

La clé ici est l’idée de différent ensembles de données. Toutes les non-uniformités du langage, conjecturent-ils, telles que la polysémie et la “longue traîne” du langage, le fait que le discours contient des mots utilisés avec une fréquence relativement faible – chacun de ces faits étranges du langage s’apparente à une distribution séparée des données.

En fait, le langage, écrivent-ils, est comme quelque chose entre les données d’apprentissage supervisé, avec des modèles réguliers, et le méta-apprentissage avec beaucoup de données différentes :

Comme dans la formation supervisée, les éléments (mots) se reproduisent et les mappages élément-étiquette (par exemple, la signification des mots) sont quelque peu fixes. Dans le même temps, la distribution à longue queue garantit qu’il existe de nombreux mots rares qui ne se reproduisent que rarement dans les fenêtres contextuelles, mais peuvent être en rafales (apparaître plusieurs fois) dans les fenêtres contextuelles. Nous pouvons également voir les synonymes, les homonymes et la polysémie comme des versions plus faibles des mappages d’étiquettes d’éléments complètement non fixés qui sont utilisés dans la méta-formation à quelques plans, où les mappages changent à chaque épisode.

Pour tester l’hypothèse, Chan et ses collègues adoptent une approche surprenante : ils ne travaillent pas réellement avec des tâches linguistiques. Au lieu de cela, ils entraînent un réseau neuronal Transformer pour résoudre une tâche visuelle, appelée Omniglot, introduite en 2016 par des universitaires de NYU, Carnegie Mellon et MIT. Omniglot met au défi un programme d’attribuer la bonne étiquette de classification à 1 623 glyphes de caractères manuscrits.

deepmind-omniglot-modified-challenge-mai-2022.jpg

Dans le cas du travail de Chan et al., ils transforment le défi Omniglot étiqueté en une tâche unique en mélangeant au hasard les étiquettes des glyphes, de sorte que le réseau neuronal apprend à chaque “épisode”:

Contrairement à la formation, où les étiquettes étaient fixées sur toutes les séquences, les étiquettes de ces deux classes d’images ont été réattribuées au hasard pour chaque séquence […] Étant donné que les étiquettes ont été réaffectées de manière aléatoire pour chaque séquence, le modèle doit utiliser le contexte dans la séquence actuelle afin de faire une prédiction d’étiquette pour l’image de requête (un problème de classification à 2 voies). Sauf indication contraire, l’apprentissage en quelques prises de vue a toujours été évalué sur des classes d’images retenues qui n’ont jamais été vues en formation.

De cette manière, les auteurs manipulent des données visuelles, les glyphes, pour capturer les qualités non uniformes du langage. “Au moment de la formation, nous situons les images et les étiquettes Omniglot dans des séquences avec diverses propriétés de distribution inspirées du langage”, écrivent-ils. Par exemple, ils augmentent progressivement le nombre d’étiquettes de classe pouvant être attribuées à un glyphe donné, pour se rapprocher de la qualité de la polysémie.

“Lors de l’évaluation, nous évaluons ensuite si ces propriétés donnent lieu à des capacités d’apprentissage en quelques coups.”

Ce qu’ils ont découvert, c’est qu’en multipliant le nombre d’étiquettes pour un glyphe donné, le réseau de neurones s’est amélioré pour effectuer un apprentissage en quelques coups. “Nous voyons que l’augmentation de ce” facteur de polysémie “(le nombre d’étiquettes attribuées à chaque mot) augmente également l’apprentissage en quelques coups”, comme l’ont dit Chan et ses collègues.

“En d’autres termes, rendre le problème de généralisation plus difficile a en fait fait émerger plus fortement l’apprentissage en quelques coups.”

Dans le même temps, il y a quelque chose dans la structure spécifique du réseau neuronal Transformer qui l’aide à réaliser un apprentissage en quelques coups, trouvent Chan et ses collègues. Ils testent “un réseau neuronal récurrent vanille”, écrivent-ils, et constatent qu’un tel réseau jamais atteint une capacité de quelques coups.

“Les transformateurs montrent un biais significativement plus grand vers l’apprentissage en quelques coups que les modèles récurrents.”

Les auteurs concluent que les qualités des données, comme la longue traîne du langage, et la nature du réseau neuronal, comme la structure Transformer, sont importantes. Ce n’est pas l’un ou l’autre mais les deux.

Les auteurs énumèrent un certain nombre de pistes à explorer dans le futur. L’un est le lien avec la cognition humaine puisque les bébés démontrent ce qui semble être un apprentissage en quelques coups.

Par exemple, les nourrissons apprennent rapidement les propriétés statistiques du langage. Ces caractéristiques distributionnelles pourraient-elles aider les nourrissons à acquérir la capacité d’apprendre rapidement ou servir de préformation utile pour un apprentissage ultérieur ? Et des distributions non uniformes similaires dans d’autres domaines d’expérience, comme la vision, pourraient-elles également jouer un rôle dans ce développement ?

Il devrait être évident que le travail actuel n’est pas du tout un test de langage. Il vise plutôt à imiter les supposées propriétés statistiques du langage en recréant des non-uniformités dans les données visuelles, les images Omniglot.

Les auteurs n’expliquent pas si cette traduction d’une modalité à une autre a un effet sur la signification de leur travail. Au lieu de cela, ils écrivent qu’ils s’attendent à étendre leur travail à d’autres aspects du langage.

“Les résultats ci-dessus suggèrent des pistes de recherche futures passionnantes”, écrivent-ils, notamment : “Comment ces propriétés de distribution de données interagissent-elles avec l’apprentissage par renforcement par rapport aux pertes supervisées ? Comment les résultats pourraient-ils différer dans les expériences qui reproduisent d’autres aspects du langage et de la modélisation du langage, par exemple en utilisant des entrées symboliques, en s’entraînant à la prédiction du jeton suivant ou du jeton masqué, et en ayant le sens des mots déterminé par leur contexte ? »