L'intelligenza artificiale può indurci a confondere l'arte generata con foto reali. Allora perché le mani sono una sfida così grande?
I generatori di intelligenza artificiale si evolvono davanti ai nostri occhi a un ritmo spaventoso, ma hanno ancora dei difetti. Individuare strani dettagli nelle immagini AI è in realtà piuttosto divertente. Ecco perché le lancette di Midjourney sono diventate un argomento caldo, un problema comune a molti motori.
Analizziamo perché le mani sfidano così tanto i generatori di immagini AI. I loro programmatori stanno già risolvendo questo problema degno di meme, ma è interessante pensare a come l'intelligenza artificiale impara, per non parlare di cosa si mette sulla sua strada.
Perché le mani generate dall'intelligenza artificiale hanno fatto scalpore
Chiunque utilizzi i motori di intelligenza artificiale per creare immagini potrebbe aver notato che le mani raramente escono bene, ma il problema ha fatto girare la testa quando su Twitter è apparso un mucchio di "foto".
A un esame più attento, le strane mani delle persone le hanno tradite come immagini generate dall'intelligenza artificiale. Il fatto che questo fosse il tentativo di mano di Midjourney rendeva la situazione più interessante.
Uno dei migliori motori di intelligenza artificiale in circolazione non poteva affrontare la complessità delle mani umane, quindi le capacità di Midjourney e dei suoi concorrenti sono state messe alla prova. Abbastanza vero, anche DALL-E è incline a dita e unghie irrealistiche.
L'hype era sproporzionato, considerando che le mani generate dall'intelligenza artificiale sono sempre state un problema, ma l'attenzione extra ha richiesto il rilascio di Midjourney v5 per migliorare su v4.
La nuova versione si è impegnata a migliorare il design della mano, una chiara indicazione che gli ingegneri dell'IA hanno prestato attenzione all'esilarante scalpore e hanno deciso di aggiornare le capacità del software.
Altri motori sono lenti a seguire l'esempio di Midjourney, quindi correggere l'arte AI con Photoshop rimane un'abilità inestimabile. L'ostacolo principale per i programmatori è quanto sia complicato addestrare l'intelligenza artificiale per disegnare mani convincenti.
Perché i generatori di immagini AI lottano con le mani?
I motori di intelligenza artificiale utilizzano reti generative avversarie (GAN) o Stable Diffusion per produrre immagini. Entrambe le tecnologie richiedono materiali di base estesi, formazione e potenza di elaborazione per creare anche le opere d'arte più elementari.
Poiché le immagini preesistenti sono fondamentali per l'addestramento di un'intelligenza artificiale, i programmatori devono alimentare il loro software con migliaia, se non milioni, di immagini insieme ai prompt, ripetendo il processo più e più volte finché il motore non capisce a cosa si riferisce una parola particolare e come rappresentarla oggetto.
Ma le immagini di origine da cui un'intelligenza artificiale apprende sono principalmente 2D, dove le mani sono raffigurate in una varietà di posizioni. Dritto o ricurvo, con cinque o tre dita.
Alla fine della giornata, una macchina in realtà non comprende il concetto di mani e le immagini da cui apprende non sempre mostrano le mani in modo abbastanza chiaro o coerente. Ecco perché le mani di Midjourney possono essere così brutte: confusione AI.
Valido come Le preoccupazioni di Elon Musk sullo sviluppo dell'IA può essere, alcune parti della tecnologia hanno ancora molto da imparare. E i loro ostacoli vanno oltre esempi insufficienti di mani.
Altri motivi per cui i generatori di immagini AI sono lenti a migliorare
Guardando I modelli di Midjourney, v5 offre una coerenza avanzata tra i prompt di testo e le immagini prodotte, oltre a una risoluzione più elevata e strumenti aggiuntivi. Ma tali risultati non sono economici.
Addestrare un'intelligenza artificiale a fare meglio con le mani richiede di fornirle immagini migliori, specialmente in 3D. Ciò significa che molto tempo e manodopera vengono spesi per i processi, dall'acquisizione di materiali di base al miglioramento della codifica e alla ripetizione della formazione fino a quando l'IA non lo fa bene.
Anche in questo caso, il software può commettere errori in opere d'arte altrimenti sbalorditive. Oltre ad essere un lavoro enorme e complesso, è costoso. Quindi, non aspettarti generatori di testo in immagini AI gratuiti per salire ancora al calibro di Midjourney.
In parole povere, il problema con i motori di intelligenza artificiale non riguarda solo l'incapacità di questi programmi per computer di comprendere completamente l'aspetto o il funzionamento di caratteristiche umane come mani e piedi. Dipende anche da quanto costa e dall'accesso della tecnologia alle immagini 3D e alle tecniche di apprendimento automatico che possono aiutare i generatori a ottenere una comprensione più realistica del mondo che li circonda.
I generatori di immagini AI non lotteranno per sempre
Le mani sono un concetto complicato per l'intelligenza artificiale per avvolgere la sua testa binaria, ma le soluzioni al problema sono già al lavoro. Midjourney, DALL-E 2 e altre piattaforme alla fine saranno in grado di ridurre al minimo le dita bizzarre, se non di sradicarle completamente.
I progressi in altri campi dell'IA assicurano che la tecnologia sia in continua evoluzione e che i suoi sviluppatori apprendano sempre nuovi modi per applicarla e migliorarla.