Pochi mesi fa, se volevi creare un'immagine di qualcosa, dovevi essere in grado di disegnare, dipingere o utilizzare uno degli strumenti di photoshop di cui gli altri continuano a parlare. Dopo il 2022, però, tutto è cambiato, tutto grazie all'intelligenza artificiale, sì, come nell'"intelligenza artificiale".
Invece di cercare di dominare il mondo, gli strumenti di intelligenza artificiale orientati all'arte possono trasformare tutto ciò che descrivi loro in un'immagine.
Vieni con noi mentre entriamo nel mondo della visualizzazione del testo basata sull'intelligenza artificiale e scopri come puoi utilizzare tali strumenti per convertire i tuoi pensieri in immagini reali semplicemente digitando ciò che hai in mente.
Dall-E: Il lato artistico del GPT-3 di OpenAI
I primi strumenti basati sull'intelligenza artificiale che sono diventati popolari erano basati su GPT-3 di OpenAI. Uno dei motivi è stata l'apertura del progetto all'accesso esterno, che ha portato ad alcuni suggerimenti GPT-3 è il futuro del lavoro creativo.
Oggi puoi utilizzare gli strumenti ufficiali che puoi trovare su Sito beta di OpenAI o soluzioni di terze parti che sfruttano i suoi superpoteri linguistici. Ad esempio, puoi chiedere a GPT-3 di elaborare una bozza per un post, rispondere a semplici domande o persino rivedere o tradurre del testo.
Nel 2022 OpenAI ha rivelato che GPT-3 era ugualmente bravo a creare immagini. Il progetto DALL-E, una commedia sul film WALL-E della Pixar e il nome di Dali, utilizza GPT-3 non per lavorare con il testo ma come motore per la creazione di immagini.
Proprio come con GPT-3 e testo, DALL-E non è un vero genio creativo, che materializza immagini dal nulla. Invece, è stato "addestrato" su milioni di immagini che già esistono online. I suoi poteri di intelligenza artificiale risiedono nell'analizzare quelle immagini, prendere elementi da esse, modificarle, modificarle, regolarle e infine combinarle in nuove immagini.
Almeno, questa è una versione semplificata di ciò che accade in background. La maggior parte delle persone si preoccupa solo di ciò che vede davanti a sé, e questa è una casella di testo in cui puoi digitare qualcosa e vederla trasformata in un'immagine dopo pochi minuti.
La risposta immaginaria di Google
Google è uno dei primi tre "giocatori" nella ricerca sull'IA. Tuttavia, i loro progressi non sono facilmente percepibili, né le sue implementazioni nei prodotti sono accessibili come le offerte di OpenAI.
Una delle prime implementazioni ampiamente disponibili di Google AI è stata in Google Docs e Gmail, sotto forma di completamento automatico e suggerimenti più intelligenti, noti come Smart Compose. Non ci addentreremo nei dettagli poiché abbiamo già trattato in precedenza Smart Compose (e come puoi usarlo).
Quando queste funzionalità sono attive, le app Web di Google confrontano ciò che l'utente sta digitando con ciò che milioni di altri hanno scritto in passato. Quindi, suggerisce cosa hanno digitato in seguito.
È la prova che, nonostante quello che ci piace credere, non siamo così diversi. Se 99 persone su 100 digitano "più tardi" dopo "Ci vediamo", probabilmente è quello che continueremmo a digitare anche noi.
Abbiamo tutti utilizzato una qualche forma di completamento automatico, anche dal sistema di testo predittivo T9 dell'era "dumbphone". Ecco perché gli strumenti di intelligenza artificiale di Google non sembravano intelligenti come GPT-3 di OpenAI. Non si sentivano molto più in uso di un sistema T9 migliore migliorato per il 21° secolo. Ed è anche per questo che la rivelazione di Imagen è stata un po' scioccante.
Come un DALL-E sotto steroidi, Imagen è uno strumento di visualizzazione del testo. Sulla base di ciò che è oggi disponibile, Imagen può produrre immagini "più pulite" e più vivide, sapendo anche come gestire funzionalità avanzate come diffusione e trasparenza.
Sfortunatamente, al momento della scrittura, l'accesso a Imagen rimane limitato, quindi non abbiamo potuto provarlo.
DALL-E Mini and Friends: Open for Business
Non è ancora possibile accedere liberamente a DALL-E e Imagen. Tuttavia, sono già disponibili molte alternative se vuoi scherzare con la generazione di immagini testuali basata sull'intelligenza artificiale.
Tenendo presente che quelli sono i primi giorni e che i risultati o l'esperienza utente che offrono potrebbero essere tutt'altro che ottimali, vale comunque la pena dare un'occhiata ad alcuni dei seguenti.
Fare meme con Dall-E Mini
Grazie a una combinazione di risultati più che adeguati e un'interfaccia intuitiva, ma soprattutto, alla sua ampia disponibilità, DALL-E mini è diventato uno dei visualizzatori di testo AI più popolari.
Lungi dall'essere perfetti, a volte i risultati di DALL-E mini potrebbero essere più astratti del previsto.
Altre volte potrebbe non riuscire a creare ciò che avevi in mente ma può avvicinarsi abbastanza.
Dopo la sua esplosione di popolarità, i creatori di DALL-E mini lo hanno spostato in una nuova casa con un nuovo marchio. Ora puoi trovare l'ultima versione di DALL-E mini come Pastello sul proprio sito.
Usare Craiyon oggi è facile come cercare online un'immagine esistente. Puoi visitare il suo sito, digitare una descrizione della tua immagine nel campo di testo e premere Invio. Dopo un po', vedrai i risultati sullo schermo.
Ciò che colpisce è quanto siano bravi Craiyon e strumenti simili nell'imitare gli stili visivi. Ad esempio, gli abbiamo chiesto di evocare immagini di un cucciolo su uno skateboard:
Quindi, abbiamo usato la frase esatta ma abbiamo aggiunto uno "stile Pixar" dopo di essa. Dopo un po', Craiyon ha mostrato una griglia di immagini più "fumetti", più vicine a quella che percepiamo come la grafica ray-tracing della Pixar nei loro amati film.
Craiyon ci ha dato risultati ancora migliori quando abbiamo sostituito "stile Pixar" con "stile anime" nello stesso prompt.
L'anime ha un aspetto più stilizzato rispetto alle immagini più realistiche della Pixar, il che sembra aver aiutato Craiyon a produrre alcune immagini quasi pronte per l'uso.
Scherzare con la diffusione latente
Il modello Latent Diffusion addestrato sul set di dati LAION-400M è un altro interessante visualizzatore di testo AI. Tuttavia, è anche più complicato nel suo utilizzo. Devi eseguirlo online in una macchina virtuale e giocare con i suoi vari parametri invece di digitare semplicemente in un campo di testo. Tuttavia, è più facile di quanto sembri.
- Visitare il Spazio di collaborazione di Google Latent Diffusion quella è attualmente la sua casa.
- Scorri un po' verso il basso e nota il Richiesta campo sotto Parametri. Sostituisci il prompt predefinito con ciò che vuoi che la tua immagine rappresenti.
- Scegliere Esegui tutto dal Tempo di esecuzione menu o premere CTRL + F9.
- Se vuoi poter esportare le immagini prodotte direttamente dall'interno dello strumento, rispondi positivamente quando ti viene chiesto se vuoi collegarlo al tuo account Google Drive. Lo strumento impiega un po' di tempo per completare la sua configurazione e deve scaricare alcuni file durante il processo.
Aumentare i valori per Passi, Iterazioni, e Campioni_in_parallelo, può portare a risultati più dettagliati. Tuttavia, lo strumento è estremamente impegnativo in termini di risorse sui server di Google. Di conseguenza, potrebbe bloccarsi se aumenti troppo quei valori o il processo di creazione di un'immagine particolare diventa più complicato del previsto.
Interessanti alternative
Abbiamo dedicato molto tempo a testare DALL-E mini e Latent Diffusion. Il nostro metodo scientifico consisteva in due parti distinte. In primo luogo, abbiamo dovuto elaborare concetti che potrebbero essere accuratamente descritti come matti. Quindi, chiedi a quei visualizzatori di intelligenza artificiale di trasformarli in immagini. Più spesso del previsto, ci sono riusciti, avvicinandosi alla configurazione generale che avevamo immaginato.
Abbiamo anche provato alcune delle alternative disponibili per questo articolo. Stiamo ancora aspettando l'accesso ad altri. Alcuni di quelli che vale la pena controllare sono (in nessun ordine particolare):
- Metà viaggio
- MindsEye beta
- StarryAI
- Sognare
- Diffusione in discoteca
L'arte generata dall'intelligenza artificiale sostituirà le arti visive?
L'abbondanza e la popolarità in continuo aumento degli strumenti basati sull'intelligenza artificiale che generano immagini portano molti a concludere che le arti visive moriranno presto. Che senso ha investire il tempo e l'energia per imparare a disegnare o utilizzare software complicati per visualizzare le cose quando un'IA può farlo più velocemente (e presto meglio) di te?
Se hai notato, questi strumenti sono tutti "addestrati su set di dati". In parole povere, questo significa che fanno quello che fanno grazie al fatto che gli umani hanno già fatto la stessa cosa prima.
Questo è il suggerimento sul motivo per cui quegli strumenti non possono sostituire l'arte, la creatività e l'ingegnosità umana. Sono imitatori, replicatori intelligenti. Senza gli originali prodotti dall'uomo su cui sono formati, non sarebbero in grado di produrre alcun risultato.
Tuttavia, questo è l'adesso e ammettiamo di non sapere cosa riserva il futuro. Per ora, gli artisti visivi possono dormire in sicurezza. Al ritmo in cui l'IA si sta evolvendo, tuttavia, molti specialisti sull'argomento concordano sul fatto che non si tratta di sostituire davvero il lavoro di persone come la tua. È solo questione di quando.
Ma ehi, non è tutto destino e oscurità. Mentre Skynet si prepara a prendere il nostro lavoro, almeno possiamo rallegrare il nostro umore creando senza sforzo immagini di cuccioli sullo skateboard!