Est-ce de l'art ou de l'intelligence artificielle ?

Une image peut valoir mille mots, mais grâce à un programme d’intelligence artificielle appelé DALL-E 2, vous pouvez avoir une image d’aspect professionnel avec beaucoup moins.

DALL-E 2 est un nouvel algorithme de réseau neuronal qui crée une image à partir d’une courte phrase ou d’une phrase que vous fournissez. Le programme, qui a été annoncé par le laboratoire de recherche en intelligence artificielle OpenAI en avril 2022, n’a pas été rendu public. Mais un nombre restreint et croissant de personnes – moi y compris – ont eu accès à l’expérimentation.

En tant que chercheur étudiant le lien entre la technologie et l’art, j’avais hâte de voir à quel point le programme fonctionnait. Après des heures d’expérimentation, il est clair que DALL-E, bien qu’il ne soit pas sans défauts, a une longueur d’avance sur la technologie de génération d’images existante. Cela soulève des questions immédiates sur la façon dont ces technologies vont changer la façon dont l’art est fabriqué et consommé. Cela soulève également des questions sur ce que signifie être créatif lorsque DALL-E 2 semble automatiser une grande partie du processus créatif lui-même.

Les chercheurs d’OpenAI ont construit DALL-E 2 à partir d’une énorme collection d’images avec des légendes. Ils ont rassemblé certaines des images en ligne et en ont autorisé d’autres.

L’utilisation de DALL-E 2 ressemble beaucoup à la recherche d’une image sur le Web : vous tapez une courte phrase dans une zone de texte et cela renvoie six images.

Mais au lieu d’être extrait du Web, le programme crée six nouvelles images, chacune reflétant une version de la phrase saisie. (Jusqu’à récemment, le programme produisait 10 images par invite.) Par exemple, lorsque des amis et moi avons donné à DALL-E 2 l’invite textuelle “cats in devo hats”, il a produit 10 images de styles différents.

Presque tous pourraient vraisemblablement passer pour des photographies ou des dessins professionnels. Alors que l’algorithme n’a pas tout à fait saisi le “chapeau Devo” – les étranges casques portés par le groupe New Wave Devo – le couvre-chef dans les images qu’il a produites s’en est rapproché.

Au cours des dernières années, une petite communauté d’artistes a utilisé des algorithmes de réseaux de neurones pour produire de l’art. Beaucoup de ces œuvres d’art ont des qualités distinctives qui ressemblent presque à de vraies images, mais avec d’étranges distorsions de l’espace – une sorte de cubisme cyberpunk. Les systèmes texte-image les plus récents produisent souvent des images oniriques et fantastiques qui peuvent être délicieuses mais qui semblent rarement réelles.

DALL-E 2 offre un saut significatif dans la qualité et le réalisme des images. Il peut également imiter des styles spécifiques avec une précision remarquable. Si vous voulez des images qui ressemblent à de vraies photographies, cela produira six images réalistes. Si vous voulez des peintures rupestres préhistoriques de Shrek, cela générera six images de Shrek comme si elles avaient été dessinées par un artiste préhistorique.

C’est stupéfiant qu’un algorithme puisse faire cela. Chaque ensemble d’images prend moins d’une minute à générer. Toutes les images ne seront pas agréables à regarder et ne reflètent pas nécessairement ce que vous aviez en tête. Mais, même avec la nécessité de passer au crible de nombreuses sorties ou d’essayer différentes invites de texte, il n’existe aucun autre moyen d’obtenir autant de résultats aussi rapidement, pas même en embauchant un artiste. Et, parfois, les résultats inattendus sont les meilleurs.

En principe, toute personne disposant de suffisamment de ressources et d’expertise peut créer un système comme celui-ci. Google Research a récemment annoncé un impressionnant système de conversion de texte en image similaire, et une startup, HuggingFace, développe publiquement sa propre version que tout le monde peut essayer dès maintenant sur le Web, bien qu’elle ne soit pas encore aussi bonne que DALL-E ou le système de Google. .

Il est facile d’imaginer que ces outils transforment la façon dont les gens créent des images et communiquent, que ce soit via des mèmes, des cartes de vœux, de la publicité et, oui, de l’art.

Où est l’art là-dedans ?

J’ai eu un moment au début, alors que j’utilisais DALL-E pour générer différents types de peintures, dans tous les styles différents – comme “Odilon Redon peinture de Seattle” – quand j’ai réalisé que c’était mieux que n’importe quel algorithme de peinture que j’ai jamais développé. Puis je me suis rendu compte qu’il est, d’une certaine manière, un meilleur peintre que moi.

En fait, aucun humain ne peut faire ce que DALL-E fait : créer une gamme d’images aussi variée et de haute qualité en quelques secondes seulement. Si quelqu’un vous disait qu’une personne a créé toutes ces images, vous diriez bien sûr qu’elle était créative.

Mais cela ne fait pas de DALL-E un artiste. Même si cela ressemble parfois à de la magie, sous le capot, il s’agit toujours d’un algorithme informatique, qui suit strictement les instructions des auteurs de l’algorithme chez OpenAI.

Si ces images réussissent en tant qu’art, elles sont le produit de la façon dont l’algorithme a été conçu, des images sur lesquelles il a été formé et, plus important encore, de la façon dont les artistes l’utilisent.

Vous pourriez être enclin à dire qu’il y a peu de valeur artistique dans une image produite par quelques frappes. Mais à mon avis, cette ligne de pensée fait écho à l’idée classique selon laquelle la photographie ne peut pas être un art parce qu’une machine a fait tout le travail. Aujourd’hui, la paternité humaine et l’artisanat impliqués dans la photographie artistique sont reconnus, et les critiques comprennent que la meilleure photographie implique bien plus que de simplement appuyer sur un bouton.

Même ainsi, nous discutons souvent des œuvres d’art comme si elles provenaient directement de l’intention de l’artiste. L’artiste avait l’intention de montrer une chose, ou d’exprimer une émotion, et c’est ainsi qu’il a créé cette image. DALL-E semble raccourcir entièrement ce processus : vous avez une idée, vous la saisissez et vous avez terminé.

Mais quand je peins à l’ancienne, j’ai découvert que mes peintures venaient du processus exploratoire, pas seulement de l’exécution de mes objectifs initiaux. Et cela est vrai pour de nombreux artistes.

Prenez Paul McCartney, qui a inventé le morceau “Get Back” lors d’une jam session. Il n’a pas commencé avec un plan pour la chanson; il a juste commencé à jouer du violon et à expérimenter et le groupe l’a développé à partir de là.

Picasso décrit son processus de la même manière : « Je ne sais pas à l’avance ce que je vais mettre sur la toile pas plus que je ne décide à l’avance des couleurs que je vais utiliser… Chaque fois que j’entreprends de peindre un tableau, j’ai la sensation de sursauter. dans l’espace.”

Dans mes propres explorations avec DALL-E, une idée en amenait une autre qui en amenait une autre, et finalement je me retrouvais dans un nouveau terrain complètement inattendu et magique, très loin de là où j’avais commencé.

Je dirais que l’art, en utilisant un système comme DALL-E, ne vient pas seulement de l’invite de texte finale, mais de tout le processus créatif qui a conduit à cette invite. Différents artistes suivront différents processus et aboutiront à des résultats différents qui reflètent leurs propres approches, compétences et obsessions.

J’ai commencé à voir mes expériences comme un ensemble de séries, chacune étant une plongée cohérente dans un seul thème, plutôt qu’un ensemble d’images farfelues indépendantes.

Les idées pour ces images et séries sont venues de partout, souvent liées par un ensemble de tremplins. À un moment donné, tout en réalisant des images basées sur le travail d’artistes contemporains, j’ai voulu générer une image d’art d’installation spécifique au site dans le style de l’artiste japonais contemporain Yayoi Kusama. Après avoir essayé quelques endroits insatisfaisants, j’ai eu l’idée de le placer à La Mezquita, une ancienne mosquée et église de Cordoue, en Espagne. J’ai envoyé la photo à un collègue architecte, Manuel Ladron de Guevara, qui est de Cordoue, et nous avons commencé à réfléchir ensemble sur d’autres idées architecturales.

Cela est devenu une série sur de nouveaux bâtiments imaginaires dans différents styles d’architectes.

J’ai donc commencé à considérer ce que je faisais avec DALL-E à la fois comme une forme d’exploration et comme une forme d’art, même si c’est souvent de l’art amateur comme les dessins que je fais sur mon iPad.

En effet, certains artistes, comme Ryan Murdoch, ont plaidé pour que la création d’images basée sur l’invite soit reconnue comme de l’art. Il cite en exemple l’artiste expérimentée en intelligence artificielle Helena Sarin.

“Quand je regarde la plupart des trucs de Midjourney” – un autre système de conversion texte-image populaire – “beaucoup de choses seront intéressantes ou amusantes”, m’a dit Murdoch dans une interview. “Mais avec [Sarin’s] travail, il y a une ligne directe. Il est facile de voir qu’elle y a beaucoup réfléchi et qu’elle a travaillé sur le métier, car le résultat est visuellement plus attrayant et intéressant, et suit son style de manière continue.

Travailler avec DALL-E, ou l’un des nouveaux systèmes de conversion de texte en image, signifie apprendre ses particularités et développer des stratégies pour éviter les pièges courants. Il est également important de connaître ses méfaits potentiels, tels que sa dépendance aux stéréotypes et les utilisations potentielles pour la désinformation. En utilisant DALL-E 2, vous découvrirez également des corrélations surprenantes, comme la façon dont tout devient ancien lorsque vous utilisez le style d’un ancien peintre, cinéaste ou photographe.

Quand je veux faire quelque chose de très spécifique, DALL-E ne peut souvent pas le faire. Les résultats nécessiteraient beaucoup d’édition manuelle difficile par la suite. C’est lorsque mes objectifs sont vagues que le processus est le plus agréable, offrant des surprises qui mènent à de nouvelles idées qui elles-mêmes mènent à plus d’idées et ainsi de suite.

Nouvelles réalités

Ces systèmes de conversion de texte en image peuvent également aider les utilisateurs à imaginer de nouvelles possibilités.

L’artiste-activiste Danielle Baskin m’a dit qu’elle travaillait toujours “pour montrer des réalités alternatives par des exemples ‘réels’ : soit en mettant en place des scénarios dans le monde physique, soit en faisant un travail minutieux dans Photoshop”. DALL-E, cependant, “est un raccourci incroyable car il est si bon en réalisme. Et c’est essentiel pour aider les autres à donner vie à des futurs possibles, qu’il s’agisse de satire, de rêves ou de beauté.

Elle l’a utilisé pour imaginer un système de transport alternatif et plomberie qui transporte des nouilles au lieu de l’eautous deux reflétant sa sensibilité d’artiste provocatrice.

De même, l’artiste Mario Klingemann rendus architecturaux avec les tentes des sans-abris pourrait être considérée comme une réplique à mes rendus architecturaux de maisons de rêve fantaisistes.

Il est trop tôt pour juger de l’importance de cette forme d’art. Je n’arrête pas de penser à une phrase de l’excellent livre “Art in the After-Culture”: “L’esthétique dominante de l’IA est la nouveauté”.

Ce serait sûrement vrai, dans une certaine mesure, pour toute nouvelle technologie utilisée pour l’art. Les premiers films des frères Lumière dans les années 1890 étaient des nouveautés, pas des chefs-d’œuvre cinématographiques ; cela stupéfiait les gens de voir des images bouger du tout.

Les logiciels d’art IA se développent si rapidement qu’il y a une nouveauté technique et artistique continue. C’est comme si, chaque année, il y avait une opportunité d’explorer une nouvelle technologie passionnante, chacune plus puissante que la précédente, et chacune semblant prête à transformer l’art et la société.

Aaron Hertzmann est professeur affilié d’informatique à l’Université de Washington