Adept vise à créer une IA capable d'automatiser n'importe quel processus logiciel – TechCrunch

En 2016, à TechCrunch Disrupt New York, plusieurs des développeurs originaux derrière ce qui est devenu Siri ont dévoilé Viv, une plate-forme d’IA qui promettait de connecter diverses applications tierces pour effectuer à peu près n’importe quelle tâche. Le pitch était alléchant – mais jamais pleinement réalisé. Samsung a ensuite acquis Viv, intégrant une version simplifiée de la technologie dans son assistant vocal Bixby.

Six ans plus tard, une nouvelle équipe prétend avoir déchiffré le code d’un assistant IA universel – ou du moins s’être rapproché un peu plus. Dans un laboratoire de produits appelé Adept qui a émergé de la furtivité aujourd’hui avec un financement de 65 millions de dollars, ils sont – selon les mots des fondateurs – “construisent[ing] intelligence générale qui permet aux humains et aux ordinateurs de travailler ensemble de manière créative pour résoudre des problèmes.

C’est noble. Mais les cofondateurs d’Adept, le PDG David Luan, le directeur technique Niki Parmar et le scientifique en chef Ashish Vaswani, résument leur ambition à perfectionner une «superposition» dans les ordinateurs qui fonctionne avec les mêmes outils que les gens. Cette superposition pourra répondre à des commandes telles que “générer un rapport de conformité mensuel” ou “dessiner des escaliers entre ces deux points dans ce plan”, affirme Adept, le tout en utilisant des logiciels existants comme Airtable, Photoshop, Tableau et Twilio pour faire le travail. .

“[W]Nous formons un réseau de neurones pour utiliser tous les outils logiciels du monde, en nous appuyant sur la grande quantité de capacités existantes que les gens ont déjà créées. Luan a déclaré à TechCrunch dans une interview par e-mail. “[W]vec Adept, vous pourrez vous concentrer sur le travail que vous aimez le plus et demander à notre [system] pour assumer d’autres tâches… Nous attendons du collaborateur qu’il soit un bon élève et qu’il soit hautement coachable, qu’il devienne plus serviable et aligné sur chaque interaction humaine.

D’après la description de Luan, ce qu’Adept crée ressemble un peu à l’automatisation robotique des processus (RPA), ou à des robots logiciels qui exploitent une combinaison d’automatisation, de vision par ordinateur et d’apprentissage automatique pour automatiser des tâches répétitives comme remplir des formulaires et répondre aux e-mails. Mais l’équipe insiste sur le fait que leur technologie est bien plus sophistiquée que ce que proposent aujourd’hui les fournisseurs de RPA comme Automation Anywhere et UiPath.

“Nous construisons un système général qui aide les gens à faire des choses devant leur ordinateur : un collaborateur universel d’IA pour chaque travailleur du savoir… Nous formons un réseau de neurones pour utiliser tous les outils logiciels dans le monde, en nous appuyant sur la grande quantité des capacités existantes que les gens ont déjà créées », a déclaré Luan. “Nous pensons que la capacité de l’IA à lire et à écrire du texte continuera d’être précieuse, mais que pouvoir faire des choses sur un ordinateur sera beaucoup plus précieux pour l’entreprise… [M]Les modèles formés au texte peuvent écrire une belle prose, mais ils ne peuvent pas agir dans le monde numérique. Tu ne peux pas demander [them] pour vous réserver un vol, faire un chèque à un vendeur ou mener une expérience scientifique. La véritable intelligence générale nécessite des modèles qui peuvent non seulement lire et écrire, mais agir lorsque les gens lui demandent de faire quelque chose.

Adept n’est pas le seul à explorer cette idée. Dans un article de février, les scientifiques de DeepMind, soutenu par Alphabet, décrivent ce qu’ils appellent une approche « axée sur les données » pour enseigner à l’IA le contrôle des ordinateurs. En demandant à une IA d’observer les commandes du clavier et de la souris des personnes effectuant des tâches informatiques “suivant les instructions”, comme la réservation d’un vol, les scientifiques ont pu montrer au système comment effectuer plus d’une centaine de tâches avec une précision “humaine”.

Ce n’est pas une coïncidence si le cofondateur de DeepMind, Mustafa Suleyman, s’est récemment associé au cofondateur de LinkedIn, Reid Hoffman, pour lancer Inflection AI, qui, comme Adept, vise à utiliser l’IA pour aider les humains à travailler plus efficacement avec les ordinateurs.

Le différenciateur apparent d’Adept est un groupe de cerveaux de chercheurs en IA issus de DeepMind, Google et OpenAI. Vaswani et Parmar ont aidé à lancer le Transformer, une architecture d’IA qui a suscité une attention considérable au cours des dernières années. Datant de 2017, Transformer est devenu l’architecture de choix pour les tâches en langage naturel, démontrant une aptitude à résumer des documents, à traduire entre les langues, et même à classer des images et à analyser des séquences biologiques.

Entre autres produits, le GPT-3 générateur de langage d’OpenAI se développait à l’aide de la technologie Transformer.

“Au cours des années suivantes, tout le monde s’est empilé sur le Transformer, l’utilisant pour résoudre rapidement des problèmes vieux de plusieurs décennies. Lorsque je dirigeais l’ingénierie chez OpenAI, nous avons fait évoluer le Transformer en GPT-2 (le prédécesseur de GPT-3) et GPT-3 », a déclaré Luan. “Les efforts de Google pour mettre à l’échelle les modèles Transformer ont donné [the AI architecture] BERT, propulsant la recherche Google. Et plusieurs équipes, y compris les membres de notre équipe fondatrice, ont formé des Transformers capables d’écrire du code. DeepMind a même montré que le Transformer fonctionne pour le repliement des protéines (AlphaFold) et Starcraft (AlphaStar). Les transformateurs ont rendu l’intelligence générale tangible pour notre domaine.

Chez Google, Luan était le responsable technique général de ce qu’il décrit comme «l’effort de grands modèles» chez Google Brain, l’une des divisions de recherche prééminentes du géant de la technologie. Là, il a formé des transformateurs de plus en plus gros dans le but de créer éventuellement un modèle général pour alimenter tous les cas d’utilisation de l’apprentissage automatique, mais son équipe s’est heurtée à une limite claire. Les meilleurs résultats se limitaient aux modèles conçus pour exceller dans des domaines spécifiques, comme l’analyse de dossiers médicaux ou la réponse à des questions sur des sujets particuliers.

“Depuis le début du domaine, nous avons voulu construire des modèles avec une flexibilité similaire à celle de l’intelligence humaine – ceux qui peuvent fonctionner pour une grande variété de tâches… [M]L’apprentissage automatique a connu plus de progrès au cours des cinq dernières années qu’au cours des 60 précédentes », a déclaré Luan. “Historiquement, le travail à long terme sur l’IA a été du ressort des grandes entreprises technologiques, et leur concentration de talents et de calculs a été irréprochable. Pour l’avenir, nous pensons que la prochaine ère de percées de l’IA nécessitera de résoudre des problèmes au cœur de la collaboration homme-ordinateur.

Quelle que soit la forme finale de son produit et de son modèle commercial, Adept peut-il réussir là où d’autres ont échoué ? Si c’est le cas, la manne pourrait être substantielle. Selon Markets and Markets, le marché des technologies d’automatisation des processus métier – des technologies qui rationalisent les charges de travail d’entreprise en contact avec les clients et en back-office – passera de 9,8 milliards de dollars en 2020 à 19,6 milliards de dollars d’ici 2026. Une enquête réalisée en 2020 par le fournisseur d’automatisation des processus Camunda (un source biaisée, accordée) a révélé que 84 % des organisations anticipent une augmentation des investissements dans l’automatisation des processus en raison des pressions de l’industrie, y compris l’augmentation du travail à distance.

“La technologie d’Adept semble plausible en théorie, [but] parler du fait que Transformers doit être “capable d’agir” me semble un peu comme une mauvaise direction », a déclaré Mike Cook, chercheur en intelligence artificielle au collectif de recherche Knives & Paintbrushes, qui n’est pas affilié à Adept, à TechCrunch par e-mail. “Les transformateurs sont conçus pour prédire les éléments suivants dans une séquence de choses, c’est tout. Pour un transformateur, cela ne fait aucune différence que cette prédiction soit une lettre dans du texte, un pixel dans une image ou un appel d’API dans un morceau de code. Cette innovation ne semble donc pas plus susceptible de conduire à l’intelligence artificielle générale qu’autre chose, mais elle pourrait produire une IA mieux adaptée à l’assistance dans des tâches simples. »

Il est vrai que le coût de la formation de systèmes d’IA de pointe est inférieur à ce qu’il était autrefois. Avec une fraction du financement d’OpenAI, des startups récentes, dont AI21 Labs et Cohere, ont réussi à construire des modèles comparables à GPT-3 en termes de capacités.

Entre-temps, les innovations continues dans l’IA multimodale – une IA qui peut comprendre les relations entre les images, le texte et plus encore – placent un système capable de traduire les demandes en un large éventail de commandes informatiques dans le domaine du possible. Il en va de même pour InstructGPT d’OpenAI, une technique qui améliore la capacité des modèles de langage comme GPT-3 à suivre les instructions.

La principale préoccupation de Cook est de savoir comment Adept a formé ses systèmes d’IA. Il note que l’une des raisons pour lesquelles d’autres modèles Transformer ont eu un tel succès avec le texte est qu’il existe une abondance d’exemples de texte à partir desquels apprendre. Un produit comme celui d’Adept aurait vraisemblablement besoin de beaucoup d’exemples de tâches accomplies avec succès dans des applications (par exemple, Photoshop) associées à des descriptions textuelles, mais ces données ne se produisent pas naturellement dans le monde.

Dans l’étude DeepMind de février, les scientifiques ont écrit que, pour collecter des données de formation pour leur système, ils devaient payer 77 personnes pour effectuer plus de 2,4 millions de démonstrations de tâches informatiques.

“[T]Les données de formation sont probablement créées artificiellement, ce qui soulève de nombreuses questions à la fois sur qui a été payé pour les créer, sur leur évolutivité à d’autres domaines à l’avenir et si le système formé aura le type de profondeur que les autres modèles Transformer ont. “, a déclaré Cook. “Son [also] en aucun cas une “voie vers l’intelligence générale”… Cela pourrait le rendre plus performant dans certains domaines, mais il sera probablement moins performant qu’un système formé explicitement sur une tâche et une application particulières.

Même les feuilles de route les mieux conçues peuvent se heurter à des défis techniques imprévus, en particulier en ce qui concerne l’IA. Mais Luan fait confiance au talent senior fondateur d’Adept, qui comprend l’ancien responsable de l’infrastructure de production de modèles de Google (Kelsey Schroeder) et l’un des ingénieurs originaux du modèle de reconnaissance vocale de production de Google (Anmol Gulati).

“[W]Bien que l’intelligence générale soit souvent décrite dans le contexte du remplacement humain, ce n’est pas notre étoile polaire. Au lieu de cela, nous pensons que les systèmes d’IA devraient être construits avec les personnes au centre », a déclaré Luan. « Nous voulons donner à chacun accès à des outils d’IA de plus en plus sophistiqués qui lui permettent d’atteindre ses objectifs en collaboration avec l’outil ; nos modèles sont conçus pour travailler main dans la main avec les gens. Notre vision est celle où les gens restent aux commandes : découvrir de nouvelles solutions, permettre des décisions plus éclairées et nous donner plus de temps pour le travail que nous voulons réellement faire.

Greylock et Addition ont codirigé le cycle de financement d’Adept. La ronde a également vu la participation de Root Ventures et d’anges, dont le fondateur de Behance, Scott Belsky (fondateur de Behance), le fondateur d’Airtable, Howie Liu, Chris Re, Andrej Karpathy, responsable de Tesla Autopilot, et Sarah Meyohas.