MusicLM di Google sembrava promettente con la sua capacità di generare musica da messaggi di testo. Ma dopo averlo messo alla prova, non ha funzionato del tutto.

Nel gennaio 2023, Google ha annunciato MusicLM, uno strumento di intelligenza artificiale sperimentale in grado di generare musica basata su descrizioni testuali. Oltre alla notizia, Google ha rilasciato uno straordinario documento di ricerca per MusicLM che ha lasciato molte persone abbagliate dalla capacità di evocare musica dal nulla.

Dato un suggerimento testuale, il modello prometteva di produrre musica ad alta fedeltà che fornisse ogni tipo di descrizione, dal genere allo strumento, fino a didascalie astratte che descrivessero opere d'arte famose. Ora che MusicLM è aperto al pubblico, abbiamo deciso di metterlo alla prova.

Il tentativo di Google di creare un generatore di musica AI

Trasformare un prompt di testo come "jazz rilassante" in una traccia pronta per l'esecuzione è senza dubbio il Santo Graal degli esperimenti nella musica AI. Simile ai famosi generatori di immagini AI come Dall-E o Midjourney, non è necessario avere un granello di know-how musicale per produrre una traccia che abbia una melodia e un ritmo.

instagram viewer

A maggio 2023, coloro che si sono iscritti ad AI Test Kitchen di Google hanno potuto provare la demo per la prima volta. Accolto da una pagina web di facile utilizzo e da un paio di regole guida: elettroniche e classiche gli strumenti funzionano al meglio e non dimenticare di specificare una "vibrazione": produrre un frammento di musica è inimmaginabilmente facile.

La velocità è una delle poche cose che MusicLM offre veramente, insieme a campioni di fedeltà relativamente alta. Tuttavia, il vero test non doveva essere misurato solo con un cronometro. Può MusicLM produrre musica reale e ascoltabile basata su poche parole? Non esattamente (ci arriveremo a breve).

Come utilizzare MusicLM in AI Test Kitchen di Google

Usare MusicLM è facile, puoi iscriverti alla lista d'attesa per Cucina di prova AI di Google se vuoi provarci.

Nell'app Web, vedrai una casella di testo in cui puoi comporre un prompt da poche parole a poche frasi che descrivono il tipo di musica che desideri ascoltare. Per i migliori risultati, Google ti consiglia di "essere molto descrittivo", aggiungendo che dovresti cercare di includere l'atmosfera e l'emozione della musica.

Quando sei pronto, premi Invio per avviare l'elaborazione. Entro circa 30 secondi, due frammenti audio saranno disponibili per l'audizione. Dei due, hai la possibilità di assegnare un trofeo al miglior campione che corrisponde alla tua richiesta, che a sua volta aiuta Google ad addestrare il modello e migliorarne l'output.

Come suona MusicLM

Gli esseri umani fanno musica da almeno 40.000 anni fa senza avere un'idea definitiva se la musica sia venuta prima, dopo o contemporaneamente allo sviluppo del linguaggio. Quindi, in un certo senso, non sorprende che MusicLM non abbia ancora decifrato il codice di questa antica arte universale.

Documento di ricerca MusicLM di Google ha suggerito che MusicLM potrebbe generare musica da didascalie appartenenti a opere d'arte famose e seguire istruzioni come cambiare genere o umore in modo fluido seguendo una sequenza di diversi richiede.

Prima di arrivare a ordini così alti, tuttavia, abbiamo scoperto che MusicLM aveva diversi problemi fondamentali da superare prima.

Difficoltà a rispettare il tempo

Il compito più basilare di qualsiasi musicista è semplicemente quello di suonare a tempo. In altre parole, attenersi al tempo. Sorprendentemente, questo non è qualcosa che MusicLM può fare il 100% delle volte.

Infatti, utilizzando lo stesso prompt 10 volte, che produce 20 tracce musicali, solo tre erano in tempo. I restanti 17 campioni erano più veloci o più lenti del tempo specificato che era scritto in "battiti al minuto", un termine ampiamente usato per descrivere la musica.

In questo esempio, abbiamo utilizzato il prompt "solo pianoforte classico suonato a 80 battiti al minuto, pacifico e meditativo". Ad un ascolto più attento, la musica spesso accelerava o rallentava all'interno della piccola lunghezza del campione.

Anche la musica mancava di un ritmo forte e suonava come se qualcuno avesse suonato a metà del pezzo. Indipendentemente dal fatto che ciò sia stato intenzionale o meno, è difficile giudicare se MusicLM possa effettivamente comporre un inizio o una fine adeguati per un brano musicale oltre a seguire il ritmo.

Selezione casuale dello strumento

Forse MusicLM non aveva ancora imparato a suonare con un tempismo rigoroso, quindi siamo passati a un altro parametro musicale comune. Volevamo vedere se avrebbe accolto la nostra richiesta di determinati strumenti.

Abbiamo scritto diversi suggerimenti che includevano descrizioni come "Solo sintetizzatore" e "Solo basso". Altri erano ensemble più grandi come "String quartet" o "Jazz band". Nel complesso, sembrava una probabilità del 50:50 che avresti ottenuto ciò che avevi chiesto.

Una teoria è che il modello associ alcuni strumenti a generi musicali popolari. Prendi, ad esempio, il prompt "Sintetizzatore solista, progressione di accordi. Vivace e ottimista". Invece di ottenere un suono di sintetizzatore da solo, MusicLM ha prodotto una traccia elettronica completa di batteria e basso.

È possibile che il modello non abbia dati e formazione sufficienti per comprendere la richiesta specifica di uno strumento.

Le voci sono fuori dall'equazione

Secondo le restrizioni dell'epoca, il modello non avrebbe prodotto musica contenente voci. Gli spinosi problemi di copyright di MusicLM e la voce difettosa è un probabile fattore per cui Google ha scelto di andare sul sicuro impostando questa limitazione.

Ma dopo aver sperimentato con MusicLM per un po' di tempo, ci siamo resi conto che il controllo di Google sull'output del modello non era esattamente ferreo. Stranamente, un suggerimento come "chitarra acustica" produceva una traccia che conteneva voci spettrali in sottofondo che suonavano ovattate e distanti.

Sebbene questo non sia un evento comune, in primo luogo ti lascia interrogarsi sulla capacità di MusicLM di creare voci convincenti.

Con software come VOCALOID e Synthesizer V che aprono la strada Tecnologia di sintesi vocale assistita da intelligenza artificiale, l'omissione della voce dal modello attuale ci lascia chiedersi se non sia ancora abbastanza buono per competere con la tecnologia esistente. MusicLM potrebbe avere ancora molta strada da fare prima che i musicisti cantino le sue lodi.

Il futuro dei generatori di musica AI

Mentre MusicLM ha portato avanti la tecnologia musicale basata sull'IA generativa, deve tornare a scuola e imparare alcune altre cose prima di poter svolgere un lavoro pratico nell'industria musicale.

Prima d'ora, il miglior tentativo di generare musica AI era un modello chiamato JukeboxAI di OpenAI. Non era esattamente in uno stato pronto per l'uso e ci sono volute ben nove ore per eseguire il rendering di un solo minuto di musica.

Per i tuoi sforzi, probabilmente avresti recuperato una traccia dal suono davvero alieno piena di distorsioni audio e artefatti. Il lato positivo è che non ti annoierai ascoltando le bizzarre creazioni che Jukebox evoca.

Alla luce di ciò, MusicLM ha compiuto alcuni progressi significativi verso un generatore di musica AI di facile utilizzo. Potremmo quasi perdonare il modello per i suoi output casuali quando ti fermi a pensare a quanto sia enormemente complicato generare musica in forma audio grezza.

Dopo aver messo in pratica il modello, tuttavia, MusicLM si sente mezzo cotto rispetto a quanto pubblicato da Google nel suo documento di ricerca iniziale. Raramente un generatore di immagini AI ottiene l'immagine sbagliata di una Apple, allo stesso modo un generatore di musica AI dovrebbe avere alcune nozioni di base come tempo e strumenti.

MusicLM di Google non soddisfa le aspettative

Con le aziende tecnologiche che gareggiano per competere a vicenda sul fronte dell'intelligenza artificiale, MusicLM si sente come se fosse entrato in processi pubblici prima che fosse pronto. Invece di ottenere i fondamenti giusti, il modello sembra adottare un approccio molto più vago e soggettivo alla produzione di musica.

Google potrebbe incoraggiarti a essere specifico con la tua richiesta, ma non è in grado di gestire bene il tempo e non sei sicuro di ottenere gli strumenti che hai chiesto ogni volta. MusicLM può essere interessante e una buona dimostrazione dei potenti progressi dell'IA, ma se la musica è l'obiettivo finale, ha ancora molta strada da fare.