Retroscena

Da una foto a una ricetta: MiniGPT-4 genera testi da immagini

Mentre i modelli di IA come ChatGPT rispondono a testi o creano immagini da testi come MidJourney, MiniGPT-4 adotta un approccio diverso: genera testi a partire da immagini.

OpenAI ha introdotto GPT-4 nel marzo 2023, su cui si basa anche ChatGPT. Si tratta di un modello multimodale che può gestire più di un semplice testo. La funzione di caricamento di immagini per la generazione di testi non è ancora disponibile. Per testare il potenziale dello strumento, un gruppo di ricerca ha creato una versione più piccola del programma con questa funzione di immagine: MiniGPT-4.

MiniGPT-4 colma attualmente una lacuna, perché altri modelli linguistici (LLM) non elaborano ancora immagini. A questo proposito, il programma mostra quello di cui i chatbot saranno capaciti, quando potranno anche «vedere». E saranno capaci di molto: MiniGPT-4 può creare una poesia partendo da un'immagine caricata, codici HTML da schizzi per un sito web e riconosce cosa c'è di sbagliato nella tua pianta malata. Attualmente è possibile testare il programma. Non mi sono lasciata sfuggire questa occasione e i risultati mi hanno divertita.

Il programma funziona in modo semplice: si carica un'immagine e si scrive in poche parole cosa deve farci il MiniGPT-4. Il seguente video mostra ciò che è possibile fare. Ad esempio, il programma fornisce consigli su come curare una pianta malata per farla tornare in vita. Oppure crea una descrizione dettagliata di un'opera d'arte.

Già mi immagino di voler sapere quali fiori incontro durante le mie prossime escursioni. E MiniGPT-4 mi dirà poi se potrò usarli per fare un tè freddo, o se mi avveleneranno...

Inizierò comunque con qualcosa di più innocuo. Con l'aiuto di una foto del mio piatto preferito, il Pad Thai, vorrei che il programma mi generasse la ricetta.

Ricetta Pad Thai da una foto

Il chatbot capisce e risponde in inglese. Per te ho tradotto i passaggi in italiano.
Scatto una foto al piatto di noodle e scrivo:
Qual è la ricetta di questo piatto?

La risposta di MiniGPT-4 è breve e concisa, ma non come speravo:

Questo piatto sembra essere un soffritto con pollo, noodle e lime. È probabile che si tratti di una combinazione di ingredienti come pollo, noodle e lime. Il piatto può essere servito anche con un contorno di riso o un altro amido. Probabilmente si tratta di un piatto popolare nel sud-est asiatico.

Ecco come appare il MiniGPT-4 con la mia conversazione sul Pad Thai.
Ecco come appare il MiniGPT-4 con la mia conversazione sul Pad Thai.
Fonte: Michelle Brändle

MiniGPT-4 presta molta attenzione a come formula le risposte. Ma non esattamente come mi aspettavo. Mi allaccio subito alla risposta e divento più concreta:
Come lo preparo?

E vengo premiata con una ricetta (enfasi su una ricetta):
Per questo piatto sono necessari i seguenti ingredienti:

  • 1 etto di pollo disossato e senza pelle, tagliato a strisce sottili
  • 1/2 tazza di salsa di soia
  • 1/4 tazza di succo di lime
  • 2 cucchiai di amido di mais
  • 2 cucchiai di olio vegetale
  • 1/4 tazza di cipolle verdi tritate
  • 1/4 tazza di peperoni verdi tritati
  • 1/4 tazza di funghi tritati
  • 1/4 di tazza di castagne d'acqua tritate
  • 1/4 di tazza di sedano tritato
  • 2 cucchiai di burro
  • sale e pepe a piacere
  • cucchiaio di legno per mescolare e friggere

Istruzioni:

  1. In una grande padella o wok, riscaldare l'olio vegetale a fuoco medio-alto.
  2. Aggiungere il pollo alla padella e soffriggere per circa 5 minuti fino a quando è cotto.
  3. Togliere il pollo dalla padella e metterlo da parte.
  4. Nella stessa padella aggiungere la salsa di soia, il succo di lime, l'amido di mais e il burro. Mescolare fino a ottenere una salsa omogenea e ben amalgamata.
  5. Aggiungere cipollotti, peperoni, funghi, acqua.

Bene. Un piatto finito praticamente solo a metà e non del tutto corretto. Il burro non serve necessariamente per questo piatto e manca la pasta di tamarindo. E anche un uovo. Non riuscirei quindi a rifare il piatto in modo esatto (per ora), ma la ricetta ci si avvicina molto. E questo sulla base di una foto. Davvero impressionante.

Talento come Goethe? MiniGPT-4 scrive poesie

Il programma dovrebbe anche essere in grado di scrivere versi di canzoni e poesie sulla base di un'immagine. Prendo un'immagine che ho creato io stessa e chiedo a Chat di generare qualche riga romantica. Chiedo a MiniGPT-4:

Generami una poesia a partire da questa immagine

Voglio che MiniGPT-4 mi scriva una poesia partendo dal mio disegno di una ragazza che ascolta musica.
Voglio che MiniGPT-4 mi scriva una poesia partendo dal mio disegno di una ragazza che ascolta musica.
Fonte: Michelle Brändle

Il risultato:

The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair

The blue and white checkerboard pattern
Creates a fun and playful atmosphere
The girl with blue hair and headset
Is surrounded by bubbles in the air
She listens to music on her phone
With headphones on, she’s in her own lair

Sorrido. La poesia è stata scritta in due minuti. È entusiasmante ciò che MiniGPT-4 è in grado di leggere da un'immagine. Tuttavia, il programma non compete ancora con il buon Goethe.

I membri dei Foo Fighters

Mi piace la musica rock. Ad esempio, quella dei Foo Fighters. Ma non me la cavo per niente con i nomi. A parte Dave Grohl e il suo defunto batterista Taylor Hawkins, non ho idea di come si chiamino gli altri membri della band. Un caso per il detective MiniGPT-4. Carico una foto della band, chiedo il loro nome e lascio che il programma faccia il suo lavoro.

Per prima cosa chiedo chi sono quelli nella foto e MiniGPT-4 li riconosce immediatamente come la band Foo Fighters. Dopo altre domande, il programma nomina effettivamente tutti i membri. Probabilmente, però, ciò è dovuto a una preconoscenza di chi fa parte dei Foo Fighters, dato che l'ordine dei nomi non corrisponde alla foto.

MiniGPT-4 conosce il gruppo meglio di me.
MiniGPT-4 conosce il gruppo meglio di me.
Fonte: Michelle Brändle

Le possibilità sono infinite

Le risposte non sono sempre perfette, ma sicuramente impressionanti.
Ho altre mille idee in testa. MiniGPT-4 sa anche dirmi che tipo di torta potrei preparare con gli ingredienti presenti nella mia dispensa? O raccontarmi fatti interessanti sulle opere d'arte che scopro al museo? O...

Sono sicura che anche tu hai delle idee. Fammi sapere nei commenti cosa hai chiesto a MiniGPT-4 e se ti hanno soddisfatto i risultati.

A 13 persone piace questo articolo


User Avatar
User Avatar

Nel mio mondo, Super Mario insegue gli Stormtrooper con un unicorno e Harley Quinn mescola cocktail per Eddie e Peter al bar della spiaggia. Ovunque possa dare sfogo alla mia creatività, le mie dita fremono. O forse perché nelle mie vene non scorre altro che cioccolato, brillantini e caffè. 


Software
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Potrebbero interessarti anche questi articoli

  • Retroscena

    Dal paese delle fate a quello dell'orrore con l'IA di «DALL-E»

    di Michelle Brändle

  • Retroscena

    I limiti dell'arte digitale: il mio poster con la tavoletta grafica Huion Kamvas Pro 27

    di Michelle Brändle

  • Retroscena

    Passo dopo passo verso il tuo primo ritratto digitale

    di Michelle Brändle

5 commenti

Avatar
later