I lettori come te aiutano a sostenere MUO. Quando effettui un acquisto utilizzando i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Per saperne di più.

Whisper di OpenAI è una nuova soluzione basata sull'intelligenza artificiale che può trasformare la tua voce in testo. Soprattutto, arriva a costo zero.

Tuttavia, c'è un problema: è più difficile da installare e utilizzare rispetto alla normale utility di Windows. Soprattutto se vuoi usare i Tensor Core della tua GPU Nvidia per dargli una bella spinta.

Non preoccuparti, però. Ecco perché siamo qui! Continua a leggere per scoprire come installarlo e usarlo, ma anche, se ne possiedi uno, per fare in modo che Whisper sfrutti la tua GPU Nvidia.

Cos'è il Whisper di OpenAI?

ChatGPT è di gran moda al giorno d'oggi e lo abbiamo già visto come puoi utilizzare ChatGPT di OpenAI. Eppure, non è l'unico progetto interessante di OpenAI.

Alimentato dal deep learning e dalle reti neurali, Whisper è un sistema di elaborazione del linguaggio naturale in grado di "capire" il parlato e trascriverlo in testo. Ma è anche la sua cosa, seduto in un posto proprio tra tutte le soluzioni simili:

instagram viewer

  • Whisper è una soluzione AI "addestrata" al linguaggio naturale. Quindi, è meglio comprendere il linguaggio umano "normale" rispetto alle soluzioni più vecchie.
  • Whisper non viene fornito con un'interfaccia, né può registrare l'audio. Può solo prendere file audio esistenti e produrre file di testo.
  • Dal momento che è bravo a "dare un senso al linguaggio", Whisper ha anche il superpotere della traduzione automatica in un solo passaggio.
  • Whisper non è un servizio online e può funzionare interamente offline.
  • Se disponi di una GPU Nvidia relativamente moderna (GTX970 o successiva), Whisper può essere eseguito in "modalità con accelerazione hardware" per aumentarne la velocità.
  • Non è necessario registrarsi, acquistare una licenza o acquistare un abbonamento.

Perché le GPU AMD non sono supportate?

Affinché le GPU siano utili per qualcosa di più della grafica, dovrebbero agire come processori completamente programmabili. Ecco perché Nvidia ha creato CUDA, ufficialmente considerato "una piattaforma di elaborazione parallela e un modello di programmazione". Per ulteriori informazioni su CUDA e sull'hardware correlato ("CUDA core"), leggi il nostro articolo su cosa sono i core CUDA e come migliorano i giochi per PC.

CUDA è una tecnologia proprietaria Nvidia, compatibile solo con le GPU Nvidia. Le alternative più vicine per l'hardware di AMD sono OpenCL e Radeon Compute Platform. Per ulteriori informazioni sul confronto tra le soluzioni di ciascuna azienda, consulta il nostro articolo su Unità di calcolo AMD vs. Nuclei Nvidia CUDA.

Rispetto alle alternative, CUDA è considerato più maturo, performante e più facile da usare. Pertanto, la maggior parte degli sviluppatori prende di mira solo CUDA, il che, a sua volta, significa che il loro software sfrutta solo le funzionalità hardware delle GPU Nvidia. E questo include Whisper.

Come scaricare e installare Whisper

Sfortunatamente, Whisper non è un'app autonoma che puoi scaricare, installare ed eseguire. Si basa su altro software, che deve essere anch'esso installato.

Per Windows, per mantenere semplice questa guida, utilizzeremo ampiamente Chocolatey per l'installazione della maggior parte delle parti software necessarie. Consulta la nostra guida su il modo più rapido per installare il software Windows per maggiori informazioni su Chocolatey.

Per Linux e Mac, il processo di installazione (esclusa la variabile del percorso di Windows e i file batch facili da usare che creeremo) dovrebbe essere simile.

  1. Per installare e utilizzare Whisper, devi avere Pitone e il suo PIP strumento installato e aggiunto alla variabile "Path" di Windows. Per informazioni su questo, controlla il nostro articolo su come installare Python PIP su Windows, Mac e Linux.
  2. Installare FFMPEG attraverso Chocolatey con questo comando:
    cioccolato installare ffmpeg
    Inoltre, installa la sua versione Python con:
    pip3 installare python-ffmpeg
  3. Infine, installa Whisper dalla sua pagina Github con:
    pip3 installa git+https://github.com/openai/whisper.git

Ottenere la versione abilitata per CUDA di Whisper

Sebbene Whisper non utilizzi le GPU Nvidia, il torcia Il pacchetto su cui si basa offre una versione con accelerazione CUDA. L'utilizzo di questo invece della versione "semplice" può aiutare Whisper a completare le sue trascrizioni molto più velocemente con l'aiuto della tua GPU Nvidia.

Per fare in modo che Whisper utilizzi i core CUDA della tua GPU Nvidia:

  1. Se hai già installato la versione "vanilla" di torch, disinstalla ed elimina i resti con:
    pip3 disinstallare torcia
    Una volta fatto, seguilo con:
    pippo cacheepurazione
  2. Installa la versione abilitata per CUDA della torcia con:
    pip3 installare torcia torcia visione torcia audio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Per verificare se Whisper può utilizzare la tua GPU Nvidia, usa:
    sussurro --aiuto | findstr -i pytorch
    Tu dovresti vedere (predefinito: cuda) invece di (predefinito: cpu).

Cosa fare se la torcia non si installa

Se riscontri l'errore "nessuna versione trovata" durante l'installazione di torch, potrebbe essere necessario installare una versione precedente di Python parallela a quella attuale.

Usa questo comando per farlo:

cioccolato installare pitone --version OLDER_VERSION --side-by-side

Sostituisci "OLDER_VERSION" con una versione, ad esempio 3.10.

Quindi, utilizza il percorso della versione secondaria per tutti i comandi Whisper "generici" (ad esempio, "c:\Python310\Scripts\pip.exe" anziché solo "pip").

Come registrare la tua voce

Puoi utilizzare qualsiasi app di registrazione audio per trasformare la tua voce in un file WAV o MP3. Windows include un'app di questo tipo: per ulteriori informazioni, vedere come utilizzare l'app Registratore vocale di Windows 10.

Per un'opzione più completa, prova Audacia. Scopri come farlo con la nostra guida su come usare Audacity per registrare audio su Windows e Mac.

Come iniziare a trascrivere con Whisper

Sebbene Whisper non sia dotato di una GUI intuitiva, il suo utilizzo è semplicissimo.

Diciamo che abbiamo il file UltimeNote.mp3 che contiene discorso in greco, in cartella c:\MyAudioFilese desideri tradurlo in inglese e trascriverlo in un file di testo.

  1. Iniziamo correndo Prompt dei comandi O PowerShell.
  2. "Cambiamo directory" in cui è memorizzato il file audio con questo comando:
    CD C:\MyAudioFiles
  3. Scateniamo Whisper sul file con:
    sussurro--modellobase--linguagr--compitotradurreUltimeNota.mp3

Una volta elaborato, il file di testo (denominato "LatestNote.mp3.txt") apparirà nella stessa cartella. Aprilo in un editor di testo come Bloc notes per visualizzare il testo tradotto.

Abbiamo utilizzato un esempio di traduzione perché la trascrizione in inglese è ancora più semplice: devi solo "perdere" i flag "--language" e "-task". Pertanto, per una semplice trascrizione, il comando precedente sarebbe:

sussurro--modellobaseUltimeNota.mp3

Il flag "modello" è necessario perché Whisper utilizza una delle varie opzioni. Espandiamoli per aiutarti a scegliere il meglio per le tue esigenze.

Quale modello scegliere?

Whisper offre vari modelli linguistici. Più grande è il modello, maggiore è la sua precisione, ma anche maggiori sono i suoi requisiti hardware. Sono:

  1. Minuscolo.
  2. Base.
  3. Piccolo.
  4. Medio.
  5. Grande.

La maggior parte dei madrelingua inglesi dovrebbe andare bene con il minuscolo O base Modelli. Gli anglofoni non madrelingua possono vedere risultati migliori con modelli più grandi, come piccolo E medio.

Nota, tuttavia, che i modelli medi e grandi richiedono oltre 8 GB di VRAM (ovvero "la memoria della tua GPU").

Per selezionarne uno, specificare il modello dopo l'opzione "--model" nel comando:

sussurro --modello piccolo/piccolo/medio/grande [file]

Per esempio:

sussurro--modellopiccoloLa mia_Voce_Nota.mp3

Come semplificare la trascrizione

Dover digitare l'intero comando Whisper ogni volta che vuoi trascrivere dell'audio può diventare rapidamente noioso. Creiamo un file batch accessibile a livello globale per semplificare il processo.

  1. Correre Windows Explorer e visita il tuo C: drive.
  2. Crea una cartella per i tuoi script e copia il suo percorso negli Appunti.
  3. Nel menu Start di Windows, cerca "percorso" e seleziona Modifica le variabili di ambiente di sistema.
  4. Trovare il Sentiero variabile sotto Variabili utente per YOUR_USERNAME. Fare doppio clic su di esso per modificarlo. Clicca su Nuovoe incolla il percorso nella cartella degli script. Clicca su OK accettare le modifiche.
  5. Torna alla cartella degli script in Esplora risorse. Crea un nuovo file batch chiamato "wht.bat". "Dentro", inserisci questo comando:
    sussurro --model tiny --language it %1
  6. Crea altri due file batch, "whs" e "whm".
  7. Metti questo all'interno del primo script:
    sussurro --model small --language it %1
  8. Inserisci questo all'interno del secondo:
    sussurro --model medium --language it %1

Congratulazioni, ora hai tre script per utilizzare facilmente i modelli piccoli, piccoli e medi di Whisper con i tuoi file audio! Per trascrivere qualsiasi file audio in testo:

  1. Individua il file con Esplora file di Windows.
  2. Fare clic con il pulsante destro del mouse su un punto vuoto e scegli Apri nel terminale.
  3. Digita questo comando, sostituendo "wht" con "whs" o "whm" per utilizzare i modelli di linguaggio piccolo o medio:
    whtIL TUO_FILE_AUDIO.mp3

Digitando alla velocità del suono con Whisper

Anche i dattilografi più veloci non possono eguagliare la velocità con cui parliamo. Tuttavia, fino a poco tempo fa, parlare invece di digitare non era ottimale per la creazione di documenti.

La maggior parte delle soluzioni voice-to-text ha prodotto risultati mediocri. Potresti trovare alcune soluzioni che vale la pena provare, ma erano complicate da usare o costose. Per fortuna, Whisper ha cambiato tutto questo.

Dopo i passaggi precedenti, dovresti essere pronto a trascrivere o tradurre la tua voce con elevata precisione, utilizzando un solo comando.