En coulisse

Créer une recette à partir d’une photo ? MiniGPT-4 génère des textes à partir d’images

Alors que les modèles d’IA comme ChatGPT répondent à des textes ou, comme MidJourney, créent des images à partir de textes, MiniGPT-4 adopte une approche différente : il crée des textes à partir d’images.

GPT-4, sur lequel est également basé ChatGPT, a été présenté par OpenAI en mars 2023. Il s’agit d’un modèle multimodal qui ne se contente pas de traiter du texte. La fonction permettant de télécharger des images pour créer des textes n’est pas encore disponible. Pour tester le potentiel de l’outil, un groupe de recherche a créé une version plus petite du programme avec cette fonction d’image. C’est ainsi que MiniGPT-4 est né.

Ce programme vient combler une lacune, car les autres modèles de langage (LLM) ne traitent pas encore les images. Il offre donc un aperçu de ce qui sera possible lorsque les chatbots auront des yeux. Et cet aperçu impressionne déjà : MiniGPT-4 est capable de créer un poème à partir d’une image téléchargée, d’établir des codes HTML à partir d’esquisses pour un site web, ou encore de reconnaître pourquoi une plante est malade. Le programme est actuellement disponible à l’essai. J’en ai donc profité, et je dois dire que les résultats m’ont bien amusée.

Le fonctionnement du programme est simple : on y télécharge une image et on décrit en quelques mots ce que MiniGPT-4 doit en faire. Cette vidéo de démonstration vous montre tout ce qui est possible. Le programme peut par exemple vous donner des conseils pour soigner votre plante malade, ou encore vous créer une description détaillée d’une œuvre d’art.

Je m’imagine déjà en train de chercher des fleurs sur des chemins de randonnée et demander à MiniGPT-4 si je peux en faire une tisane contre le rhume, ou si elles risqueraient de m’empoisonner...

Mais je commence d’abord par quelque chose de plus inoffensif. En utilisant une photo de mon plat préféré, le pad thaï, je vais essayer de lui faire cracher la recette.

Recette de pad thaï à partir d’une photo

Le chatbot comprend et répond en anglais. J’ai donc traduit nos échanges en français.
Je lui envoie une photo de pad thaï accompagnée de la question suivante :
Quelle est la recette de ce plat ?

La réponse de MiniGPT-4, bien que concise, n’est pas vraiment celle que j’espérais :

Ce plat semble être une poêlée de poulet, de pâtes et de citron vert. Il est probablement préparé à partir d’une combinaison d’ingrédients comme le poulet, les pâtes et le citron vert. Ce plat peut également être servi avec du riz ou un autre féculent. C’est probablement un plat populaire en Asie du Sud-Est.

Voici à quoi ressemble ma conversation sur le pad thaï avec MiniGPT-4.
Voici à quoi ressemble ma conversation sur le pad thaï avec MiniGPT-4.
Source : Capture d’écran : Michelle Brändle

MiniGPT-4 formule les choses avec beaucoup de prudence. J’avoue que je m’attendais à autre chose. J’enchaîne donc directement la conversation sur du concret :
Comment le préparer ?

En récompense, je reçois une recette (j’insiste bien sur une recette) :
Pour réaliser ce plat, il vous faudra les ingrédients suivants :

  • 1 livre de poulet désossé et sans peau, coupé en fines lamelles
  • 1/2 tasse de sauce soja
  • 1/4 tasse de jus de citron vert
  • 2 cuillères à soupe de fécule de maïs
  • 2 cuillères à soupe d’huile végétale
  • 1/4 de tasse d’oignons verts hachés
  • 1/4 de tasse de poivron vert haché
  • 1/4 de tasse de champignons de Paris hachés
  • 1/4 de tasse de châtaignes d’eau chinoises hachées
  • 1/4 de tasse de céleri haché
  • 2 cuillères à soupe de beurre
  • Du sel et du poivre pour l’assaisonnement
  • Une cuillère en bois pour mélanger et faire cuire

Instructions :

  1. Dans une grande poêle ou un wok, faire chauffer l’huile végétale à feu moyen-élevé.
  2. Ajoutez le poulet dans la poêle et faites-le revenir en remuant pendant environ 5 minutes, jusqu’à ce qu’il soit cuit.
  3. Retirer le poulet de la poêle et réserver.
  4. Verser la sauce soja, le jus de citron vert, la fécule de maïs et le beurre dans cette même poêle. Remuer jusqu’à ce que la sauce soit lisse et bien mélangée.
  5. Ajouter les oignons verts, les poivrons, les champignons et l’eau.

Bon. On se retrouve avec une moitié de recette pas tout à fait correcte. Le beurre n’y a pas forcément sa place. Il manque en outre la pâte de tamarin et l’œuf. Je ne suivrais donc pas cette recette à la lettre, mais il faut avouer qu’elle n’est pas si éloignée de la réalité. Et tout ça sur la base d’une photo. Plutôt impressionnant.

Goethe 2.0 ? MiniGPT-4 s’avère poète

Le programme doit également pouvoir composer des paroles de chansons et des poèmes à partir d’une image. J’utilise un de mes dessins pour créer quelques vers romantiques. Je demande à MiniGPT-4 :

Écris-moi un poème à partir de cette image

Je veux que MiniGPT-4 écrive un poème à partir de mon dessin d’une fille qui écoute de la musique.
Je veux que MiniGPT-4 écrive un poème à partir de mon dessin d’une fille qui écoute de la musique.
Source : Michelle Brändle

Voici le résultat :

The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair

The blue and white checkerboard pattern
Creates a fun and playful atmosphere
The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair

J’esquisse un sourire. Ce poème a été écrit en deux minutes. C’est fascinant de voir ce que MiniGPT-4 a su capter à partir d’une image. Il n’est toutefois pas encore au niveau de ce bon vieux Goethe.

Membres des Foo Fighters

J’aime le rock, notamment les Foo Fighters. Mais j’ai une très mauvaise mémoire des noms. À part Dave Grohl et son défunt batteur Taylor Hawkins, je n’ai aucune idée du nom des membres du groupe. L’affaire parfaite pour l’inspecteur MiniGPT-4. Je télécharge une photo du groupe, je demande son nom et je laisse le programme calculer.

Lorsque je lui demande qui est sur la photo, MiniGPT-4 reconnaît tout de suite les personnes comme étant le groupe Foo Fighters. Après d’autres questions, le programme m’indique les noms de chaque membre. Sans doute parce qu’il sait déjà qui est membre des Foo Fighters, car l’ordre des noms ne correspond pas à l’image.

MiniGPT-4 connaît ce groupe mieux que moi.
MiniGPT-4 connaît ce groupe mieux que moi.
Source : Michelle Brändle

Des possibilités quasi infinies

Les réponses ne sont pas toujours parfaites, mais toujours impressionnantes.
Les idées se bousculent dans ma tête. Est-ce que MiniGPT-4 pourrait aussi trouver quel genre de gâteau je pourrais faire avec les ingrédients que j’ai dans mon placard ? Connaîtrait-il des anecdotes intéressantes sur des œuvres d’art que je découvre au musée ? Ou...

J’imagine que vous avez vous aussi quelques idées. Dites-moi en commentaires ce que vous avez déjà demandé à MiniGPT-4 et ce que vous avez pensé des résultats.

Cet article plaît à 13 personne(s)


User Avatar
User Avatar

Dans mon monde, Super Mario chasse les Stormtroopers avec une licorne et Harley Quinn prépare des cocktails pour Eddie et Peter au bar de la plage. Là où je peux exprimer ma créativité, j'ai des fourmis dans les doigts. Mais c'est peut-être aussi parce que rien d'autre ne coule dans mes veines que du chocolat, des paillettes et du café. 


Logiciels
Suivez les thèmes et restez informé dans les domaines qui vous intéressent.

Ces articles pourraient aussi vous intéresser

  • En coulisse

    Découvrir « DALL-E », le générateur d’images par IA

    par Michelle Brändle

  • En coulisse

    Où l'art numérique a ses limites : Ma fresque avec la tablette graphique Huion Kamvas Pro 27

    par Michelle Brändle

  • En coulisse

    Pas à pas vers votre premier portrait numérique

    par Michelle Brändle

5 commentaires

Avatar
later