Qu'est-ce qu'un embedding pour l'IA ?

Lorsqu’une question est présentée à un algorithme d’intelligence artificielle (IA), elle doit être convertie dans un format que l’algorithme peut comprendre. C’est ce qu’on appelle souvent « intégrer un problème », pour utiliser la forme verbale du mot. Les scientifiques utilisent également le mot comme un nom et parlent d’une « intégration ».

Dans la plupart des cas, les plongements sont des collections de nombres. Ils sont souvent disposés dans un vecteur pour simplifier leur représentation. Parfois, ils sont présentés sous la forme d’une matrice carrée ou rectangulaire pour permettre un travail mathématique.

Les intégrations sont construites à partir de données brutes qui peuvent être des informations numériques audio, vidéo ou textuelles. Pratiquement toutes les données d’une expérience ou d’un capteur peuvent être converties en une intégration sous une forme ou une autre.

Dans certains cas, c’est un processus évident. Les nombres comme les températures ou les heures peuvent être copiés à peu près textuellement. Ils peuvent également être arrondis, convertis en un ensemble d’unités différent (par exemple, Celsius de Fahrenheit), normalisés ou nettoyés des erreurs simples.

Dans d’autres cas, c’est un mélange d’art et de savoir. Les algorithmes prennent les informations brutes et recherchent des caractéristiques et des modèles saillants qui pourraient aider à répondre à la question posée par l’IA. Par exemple, une voiture autonome peut rechercher des motifs octogonaux pour identifier les panneaux d’arrêt. De même, un algorithme de texte peut rechercher des mots qui ont généralement une connotation colérique afin de pouvoir évaluer le sentiment d’une déclaration.

Quelle est la structure d’une incorporation d’IA ?

L’algorithme d’intégration transforme ces fichiers bruts en collections de nombres plus simples. Ce format numérique du problème est généralement une simplification délibérée des différents éléments du problème. Il est conçu pour que les détails puissent être décrits avec un ensemble de nombres beaucoup plus petit. Certains scientifiques disent que le processus d’intégration passe d’un format brut pauvre en informations à un format d’intégration dense en informations.

Ce vecteur plus court ne doit pas être confondu avec les fichiers de données brutes plus volumineux, qui ne sont finalement que des collections de nombres. Toutes les données sont numériques sous une forme ou une autre car les ordinateurs sont remplis de portes logiques qui ne peuvent prendre des décisions que sur la base du numérique.

Les incorporations sont souvent quelques chiffres importants – une encapsulation succincte des composants importants dans les données. Une analyse d’un problème sportif, par exemple, peut réduire chaque entrée d’un joueur à la taille, au poids, à la vitesse de sprint et au saut vertical. Une étude des aliments peut réduire chaque élément de menu potentiel à sa composition en protéines, lipides et glucides.

La décision de ce qu’il faut inclure et omettre dans une incorporation est à la fois un art et une science. Dans de nombreux cas, cette structure est un moyen pour les humains d’ajouter leur connaissance du problème et de laisser de côté des informations superflues tout en guidant l’IA vers le cœur du problème. Par exemple, un encastrement peut être structuré de manière à ce qu’une étude sur des athlètes puisse exclure la couleur de leurs yeux ou le nombre de tatouages.

Dans certains cas, les scientifiques commencent délibérément avec autant d’informations que possible, puis laissent l’algorithme rechercher les détails les plus saillants. Parfois, les conseils humains finissent par exclure des détails utiles sans reconnaître le biais implicite que cela entraîne.

Comment les intégrations sont-elles biaisées ?

Les algorithmes d’intelligence artificielle ne sont aussi bons que leurs intégrations dans leur ensemble de formation et leurs intégrations ne sont aussi bonnes que les données qu’ils contiennent. S’il y a un biais dans les données brutes collectées, les intégrations construites à partir de celles-ci refléteront – à tout le moins – ce biais.

Par exemple, si un ensemble de données est collecté dans une ville, il ne contiendra que des informations sur les habitants de cette ville et emportera avec lui toutes les particularités de la population. Si les plongements construits à partir de ces données sont utilisés sur cette seule ville, les biais s’adapteront aux personnes. Mais si les données sont utilisées pour ajuster un modèle utilisé pour de nombreuses autres villes, les biais peuvent être très différents.

Parfois, des biais peuvent se glisser dans le modèle lors du processus de création d’une intégration. Les algorithmes réduisent la quantité d’informations et la simplifient. Si cela élimine un élément crucial, le biais augmentera.

Il existe des algorithmes conçus pour réduire les biais connus. Par exemple, un ensemble de données peut être collecté de manière imparfaite et peut surreprésenter, par exemple, le nombre de femmes ou d’hommes dans la population générale. Peut-être que seuls certains ont répondu à une demande d’information ou peut-être que les données n’ont été recueillies que dans un endroit biaisé. La version intégrée peut exclure au hasard une partie de l’ensemble surreprésenté pour rétablir un certain équilibre global.

Y a-t-il quelque chose à faire contre les préjugés ?

En plus de cela, il existe des algorithmes conçus pour équilibrer un ensemble de données. Ces algorithmes utilisent des techniques statistiques et l’IA pour identifier les façons dont il existe des corrélations dangereuses ou biaisées dans l’ensemble de données. Les algorithmes peuvent ensuite supprimer ou redimensionner les données et supprimer certains biais.

Un scientifique qualifié peut également concevoir les incorporations pour cibler la meilleure réponse. Les humains qui créent les algorithmes d’intégration peuvent choisir des approches qui peuvent minimiser le potentiel de biais. Ils peuvent soit laisser de côté certains éléments de données, soit minimiser leurs effets.

Pourtant, il y a des limites à ce qu’ils peuvent faire avec des ensembles de données imparfaits. Dans certains cas, la polarisation est un signal dominant dans le flux de données.

Quelles sont les structures les plus courantes pour les plongements ?

Les intégrations sont conçues pour être des représentations denses en informations de l’ensemble de données étudié. Le format le plus courant est un vecteur de nombres à virgule flottante. Les valeurs sont mises à l’échelle, parfois de manière logarithmique, de sorte que chaque élément du vecteur ait une plage de valeurs similaire. Certains choisissent des valeurs entre zéro et un.

L’un des objectifs est de s’assurer que les distances entre les vecteurs représentent la différence entre les éléments sous-jacents. Cela peut nécessiter une prise de décision astucieuse. Certains éléments de données peuvent être élagués. D’autres peuvent être mis à l’échelle ou combinés.

Bien que certains éléments de données tels que les températures ou les poids soient naturellement des nombres à virgule flottante sur une échelle absolue, de nombreux éléments de données ne correspondent pas directement à cela. Certains paramètres sont des valeurs booléennes, par exemple, si une personne possède une voiture. D’autres sont tirés d’un ensemble de valeurs standard, par exemple, le modèle, la marque et l’année modèle d’une voiture.

Un véritable défi consiste à convertir du texte non structuré en vecteurs intégrés. Un algorithme courant consiste à rechercher la présence ou l’absence de mots peu courants. C’est-à-dire des mots qui ne sont pas des verbes de base, des pronoms ou d’autres mots-colles utilisés dans chaque phrase. Certains des algorithmes les plus complexes incluent Word2vec, Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA) et – Biterm Topic Model (BTM).

Existe-t-il des normes pour les encastrements ?

Alors que l’IA est devenue plus courante et plus populaire, les scientifiques ont créé et partagé des algorithmes d’intégration standard. Ces versions, souvent protégées par des licences open-source, sont souvent développées par des chercheurs universitaires qui les partagent pour accroître les connaissances.

D’autres algorithmes proviennent directement des entreprises. Ils vendent effectivement non seulement leurs algorithmes d’apprentissage de l’IA, mais également les algorithmes d’intégration pour le prétraitement des données.

Certaines normes mieux connues sont :

  • Object2vec – De SageMaker d’Amazon. Cet algorithme trouve les parties les plus saillantes de tout objet de données et les conserve. Il est conçu pour être hautement personnalisable, afin que le scientifique puisse se concentrer sur les champs de données importants.
  • Word2vec – Google a créé Word2vec en analysant le langage et en trouvant un algorithme qui convertit les mots en intégrations vectorielles en analysant le contexte et en créant des intégrations qui capturent les modèles sémantiques et syntaxiques. Il est formé de manière à ce que les mots ayant des significations similaires se retrouvent avec des vecteurs intégrés similaires.
  • GloVe – Les chercheurs de Stanford ont construit cet algorithme qui essaie d’analyser les données sur l’utilisation des mots dans le monde. Le nom est l’abréviation de Global Vectors.
  • Inception – Ce modèle utilise un réseau neuronal convolutif pour analyser directement les images, puis produire des incorporations basées sur le contenu. Ses principaux auteurs venaient de Google et de plusieurs grandes universités.

Comment les leaders du marché créent-ils des intégrations pour leurs algorithmes d’IA ?

Toutes les grandes sociétés informatiques ont de gros investissements dans l’intelligence artificielle ainsi que dans les outils nécessaires pour prendre en charge les algorithmes. Le prétraitement des données et la création d’intégrations personnalisées sont une étape clé.

SageMaker d’Amazon, par exemple, propose une routine puissante, Object2Vec, qui convertit les fichiers de données en intégrations de manière personnalisable. L’algorithme apprend également au fur et à mesure de sa progression, s’adaptant à l’ensemble de données afin de produire un ensemble cohérent de vecteurs d’incorporation. Ils prennent également en charge plusieurs algorithmes axés sur des données non structurées comme BlazingText pour extraire des vecteurs d’intégration utiles à partir de fichiers texte volumineux.

Le projet TensorFlow de Google prend en charge un Universal Sentence Encoder pour fournir un mécanisme standard de conversion de texte en incorporations. Leurs modèles d’image sont également pré-formés pour gérer certains objets et fonctionnalités standard trouvés dans les images. Certains les utilisent comme base pour une formation personnalisée sur leurs ensembles particuliers d’objets dans leur ensemble d’images.

L’équipe de recherche sur l’intelligence artificielle de Microsoft offre une large prise en charge d’un certain nombre de modèles d’incorporation universels pour le texte. Leur modèle Multitask, Deep Neural Network, par exemple, vise à créer des modèles solides qui sont cohérents même lorsqu’ils travaillent avec un langage utilisé dans différents domaines. Leur modèle DeBERT utilise plus de 1,5 milliard de paramètres pour capturer de nombreuses subtilités du langage naturel. Les versions antérieures sont également intégrées à l’outil AutomatedML pour une utilisation plus facile.

IBM prend en charge une variété d’algorithmes d’intégration, y compris de nombreuses normes. Leur algorithme Quantum Embedding a été inspiré par des parties de la théorie utilisée pour décrire les particules subatomiques. Il est conçu pour préserver les concepts logiques et la structure pendant le processus. Leur approche MAX-Word utilise l’algorithme Swivel pour prétraiter le texte dans le cadre de la formation pour leur projet Watson.

Comment les startups ciblent-elles les incorporations d’IA ?

Les startups ont tendance à se concentrer sur des domaines étroits du processus afin de pouvoir faire la différence. Certains travaillent sur l’optimisation de l’algorithme d’intégration eux-mêmes et d’autres se concentrent sur des domaines particuliers ou des domaines appliqués.

Un domaine de grand intérêt est la construction de bons moteurs de recherche et de bases de données pour stocker les incorporations afin qu’il soit facile de trouver les correspondances les plus proches. Des entreprises comme Pinecone.io, Milvus, Zilliz et Elastic créent des moteurs de recherche spécialisés dans la recherche de vecteurs afin qu’ils puissent être appliqués aux vecteurs produits par l’intégration d’algorithmes. Ils simplifient également le processus d’intégration, en utilisant souvent des bibliothèques open source communes et des algorithmes d’intégration pour le traitement du langage naturel.

Intent AI veut libérer la puissance des connexions réseau découvertes dans les données marketing de première partie. Leurs algorithmes d’intégration aident les spécialistes du marketing à appliquer l’IA pour optimiser le processus de mise en relation des acheteurs avec les vendeurs.

H20.ai construit un outil automatisé pour aider les entreprises à appliquer l’IA à leurs produits. L’outil contient un pipeline de création de modèles avec des algorithmes d’intégration prédéfinis pour commencer. Les scientifiques peuvent également acheter et vendre des fonctionnalités de modèle utilisées dans la création d’intégration via leur magasin de fonctionnalités.

La plateforme Rosette de Basis Technology propose un modèle statistique pré-entraîné pour identifier et marquer des entités en langage naturel. Il intègre ce modèle avec un indexeur et un logiciel de traduction pour fournir une solution pan-langue.

Y a-t-il quelque chose qui ne peut pas être intégré ?

Le processus de conversion des données en entrées numériques pour un algorithme d’IA est généralement réducteur. Autrement dit, cela réduit la quantité de complexité et de détails. Lorsque cela détruit une partie de la valeur nécessaire des données, l’ensemble du processus de formation peut échouer ou du moins ne pas capturer toutes les riches variations.

Dans certains cas, le processus d’intégration peut entraîner tous les biais avec lui. L’exemple classique d’échec de l’apprentissage de l’IA est lorsqu’on demande à l’algorithme de faire une distinction entre des photos de deux types d’objets différents. Si une série de photos est prise par une journée ensoleillée et l’autre par une journée nuageuse, les différences subtiles d’ombrage et de coloration peuvent être captées par l’algorithme d’entraînement de l’IA. Si le processus d’intégration transmet ces différences, toute l’expérience produira un modèle d’IA qui apprendra à se concentrer sur l’éclairage plutôt que sur l’objet.

Il y aura également des ensembles de données vraiment complexes qui ne peuvent pas être réduits à une forme plus simple et plus gérable. Dans ces cas, différents algorithmes qui n’utilisent pas d’incorporations doivent être déployés.