
En coulisse
Découvrir « DALL-E », le générateur d’images par IA
par Michelle Brändle
Alors que les modèles d’IA comme ChatGPT répondent à des textes ou, comme MidJourney, créent des images à partir de textes, MiniGPT-4 adopte une approche différente : il crée des textes à partir d’images.
GPT-4, sur lequel est également basé ChatGPT, a été présenté par OpenAI en mars 2023. Il s’agit d’un modèle multimodal qui ne se contente pas de traiter du texte. La fonction permettant de télécharger des images pour créer des textes n’est pas encore disponible. Pour tester le potentiel de l’outil, un groupe de recherche a créé une version plus petite du programme avec cette fonction d’image. C’est ainsi que MiniGPT-4 est né.
Ce programme vient combler une lacune, car les autres modèles de langage (LLM) ne traitent pas encore les images. Il offre donc un aperçu de ce qui sera possible lorsque les chatbots auront des yeux. Et cet aperçu impressionne déjà : MiniGPT-4 est capable de créer un poème à partir d’une image téléchargée, d’établir des codes HTML à partir d’esquisses pour un site web, ou encore de reconnaître pourquoi une plante est malade. Le programme est actuellement disponible à l’essai. J’en ai donc profité, et je dois dire que les résultats m’ont bien amusée.
Le fonctionnement du programme est simple : on y télécharge une image et on décrit en quelques mots ce que MiniGPT-4 doit en faire. Cette vidéo de démonstration vous montre tout ce qui est possible. Le programme peut par exemple vous donner des conseils pour soigner votre plante malade, ou encore vous créer une description détaillée d’une œuvre d’art.
Je m’imagine déjà en train de chercher des fleurs sur des chemins de randonnée et demander à MiniGPT-4 si je peux en faire une tisane contre le rhume, ou si elles risqueraient de m’empoisonner...
Mais je commence d’abord par quelque chose de plus inoffensif. En utilisant une photo de mon plat préféré, le pad thaï, je vais essayer de lui faire cracher la recette.
Le chatbot comprend et répond en anglais. J’ai donc traduit nos échanges en français.
Je lui envoie une photo de pad thaï accompagnée de la question suivante :
Quelle est la recette de ce plat ?
La réponse de MiniGPT-4, bien que concise, n’est pas vraiment celle que j’espérais :
Ce plat semble être une poêlée de poulet, de pâtes et de citron vert. Il est probablement préparé à partir d’une combinaison d’ingrédients comme le poulet, les pâtes et le citron vert. Ce plat peut également être servi avec du riz ou un autre féculent. C’est probablement un plat populaire en Asie du Sud-Est.
MiniGPT-4 formule les choses avec beaucoup de prudence. J’avoue que je m’attendais à autre chose. J’enchaîne donc directement la conversation sur du concret :
Comment le préparer ?
En récompense, je reçois une recette (j’insiste bien sur une recette) :
Pour réaliser ce plat, il vous faudra les ingrédients suivants :
Instructions :
Bon. On se retrouve avec une moitié de recette pas tout à fait correcte. Le beurre n’y a pas forcément sa place. Il manque en outre la pâte de tamarin et l’œuf. Je ne suivrais donc pas cette recette à la lettre, mais il faut avouer qu’elle n’est pas si éloignée de la réalité. Et tout ça sur la base d’une photo. Plutôt impressionnant.
Le programme doit également pouvoir composer des paroles de chansons et des poèmes à partir d’une image. J’utilise un de mes dessins pour créer quelques vers romantiques. Je demande à MiniGPT-4 :
Écris-moi un poème à partir de cette image
Voici le résultat :
The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair
The blue and white checkerboard pattern
Creates a fun and playful atmosphere
The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair
J’esquisse un sourire. Ce poème a été écrit en deux minutes. C’est fascinant de voir ce que MiniGPT-4 a su capter à partir d’une image. Il n’est toutefois pas encore au niveau de ce bon vieux Goethe.
J’aime le rock, notamment les Foo Fighters. Mais j’ai une très mauvaise mémoire des noms. À part Dave Grohl et son défunt batteur Taylor Hawkins, je n’ai aucune idée du nom des membres du groupe. L’affaire parfaite pour l’inspecteur MiniGPT-4. Je télécharge une photo du groupe, je demande son nom et je laisse le programme calculer.
Lorsque je lui demande qui est sur la photo, MiniGPT-4 reconnaît tout de suite les personnes comme étant le groupe Foo Fighters. Après d’autres questions, le programme m’indique les noms de chaque membre. Sans doute parce qu’il sait déjà qui est membre des Foo Fighters, car l’ordre des noms ne correspond pas à l’image.
Les réponses ne sont pas toujours parfaites, mais toujours impressionnantes.
Les idées se bousculent dans ma tête. Est-ce que MiniGPT-4 pourrait aussi trouver quel genre de gâteau je pourrais faire avec les ingrédients que j’ai dans mon placard ? Connaîtrait-il des anecdotes intéressantes sur des œuvres d’art que je découvre au musée ? Ou...
J’imagine que vous avez vous aussi quelques idées. Dites-moi en commentaires ce que vous avez déjà demandé à MiniGPT-4 et ce que vous avez pensé des résultats.
Dans mon monde, Super Mario chasse les Stormtroopers avec une licorne et Harley Quinn prépare des cocktails pour Eddie et Peter au bar de la plage. Là où je peux exprimer ma créativité, j'ai des fourmis dans les doigts. Mais c'est peut-être aussi parce que rien d'autre ne coule dans mes veines que du chocolat, des paillettes et du café.