Come trasformare la tua voce in testo in tempo reale con Whisper Desktop

I creatori di ChatGPT hanno un altro strumento che mira a toglierti il carico dalle dita.

Le stesse persone dietro ChatGPT hanno creato un altro strumento basato sull'intelligenza artificiale che puoi utilizzare oggi per aumentare la tua produttività. Ci riferiamo a Whisper, una soluzione voice-to-text che ha eclissato tutte le soluzioni simili che l'hanno preceduta.

Puoi usare Whisper nei tuoi programmi o nella riga di comando. Eppure, questo vanifica il suo vero scopo: digitare senza tastiera. Se devi digitare per usarlo, perché usarlo per evitare di digitare? Per fortuna, ora puoi utilizzare Whisper tramite una GUI desktop. Ancora meglio, può anche trascrivere la tua voce quasi in tempo reale. Vediamo come puoi digitare con la tua voce usando Whisper Desktop.

Cos'è il Whisper di OpenAI?

Whisper di OpenAI è un sistema di riconoscimento vocale automatico (ASR in breve) o, per dirla semplicemente, è una soluzione per convertire la lingua parlata in testo.

Tuttavia, a differenza dei vecchi sistemi di dettatura e trascrizione, Whisper è una soluzione AI addestrata su oltre 680.000 ore di parlato in varie lingue. Whisper offre una precisione senza precedenti e, cosa piuttosto impressionante, non solo è multilingue, ma può anche tradurre tra lingue diverse.

instagram viewer

Ancora più importante, è gratuito e disponibile come open source. Grazie a ciò, molti sviluppatori hanno inserito il codice nei propri progetti o creato app che si basano su di esso, come Whisper Desktop.

Se preferisci la versione "vanilla" di Whisper e la versatilità del terminale invece di GUI goffe, controlla il nostro articolo su come trasformare la tua voce in testo con Whisper per Windows di OpenAI.

Whisper e Whisper Desktop sono uguali?

Nonostante il suo nome dal suono ufficiale, Whisper Desktop è una GUI di terze parti per Whisper, creata per tutti coloro che preferiscono fare clic sui pulsanti invece di digitare i comandi.

Whisper Desktop è una soluzione autonoma che non si basa su un'installazione esistente di Whisper. Come bonus, utilizza una versione alternativa e ottimizzata di Whisper, quindi dovrebbe funzionare meglio della versione standalone.

Sei dall'altra parte dello spettro e invece di cercare un modo più semplice per utilizzare Whisper rispetto al terminale, stai cercando modi per implementarlo nelle tue soluzioni? Rallegrati, per OpenAI ha aperto l'accesso alle API ChatGPT e Whisper.

Scarica e installa Whisper Desktop

Sebbene Whisper Desktop sia più facile da usare rispetto a Whisper standalone, la sua installazione è più contorta rispetto a fare ripetutamente clic su Avanti in una procedura guidata.

Visita Pagina Github ufficiale di Whisper Desktop. Guarda a destra e fai clic sull'ultima versione sotto Rilasci.
Sotto Risorse, fare clic WhisperDesktop.zip e scaricalo sul tuo PC.
Estrai l'archivio scaricato in una cartella e usa il tuo file manager per visitarlo. All'interno troverai l'applicazione Whisper Desktop. Fare doppio clic su di esso per eseguirlo.
Hai anche bisogno di un modello di linguaggio Whisper GCML formato binario. Whisper Desktop ti fornirà due link per acquistarne uno. Salta il secondo collegamento per generare il tuo modello poiché è un processo più complicato. Clicca su Volto che abbraccia per aprire quella pagina nel tuo browser predefinito, da dove puoi scaricare un file pronto per l'uso.
La versione di Whisper Desktop che abbiamo utilizzato durante la stesura di questo articolo ha fornito un collegamento a un repository obsoleto su Hugging Face. Se riscontri lo stesso problema, nota un collegamento a a nuova sede. Fare clic su di esso per visitare il nuovo repository.
Clicca sul link che ti porterà alla disponibilità Modelli.
Da tale elenco, fare clic su uno dei due ggml-medium.bin O ggml-medium.en.bin, a seconda se si desidera il supporto multilingue o solo in inglese in Whisper.
Alla fine, dovresti aver raggiunto la tua destinazione. Nota la riga che indica che questo file è archiviato con Git LFS ed è troppo grande per essere visualizzato, ma puoi comunque scaricarlo. Clicca su scaricamento per fare esattamente questo.
Al termine del download del file, utilizzare il file manager preferito (File Explorer lo farà) per spostare il file del modello di lingua scaricato nella stessa cartella di Whisper Desktop.

Trascrivere con Whisper Desktop

La trascrizione con Whisper Desktop è facile, ma potresti comunque aver bisogno di uno o due clic per utilizzare l'app.

Riavvia Whisper Desktop. Manca (ancora) il percorso corretto al modello linguistico scaricato? Clicca sul pulsante con i tre punti a destra del campo e seleziona manualmente il file che hai scaricato da Hugging Face.

Da questo punto, puoi anche utilizzare il menu a discesa accanto a Implementazione del modello per scegliere se vuoi eseguire Whisper sulla tua GPU (GPU), sia sulla CPU che sulla GPU (Ibrido), o solo sulla CPU (Riferimento).

IL Avanzate pulsante porta a più opzioni che influenzano il modo in cui Whisper verrà eseguito sul tuo hardware. Tuttavia, poiché il pulsante indica chiaramente che sono avanzati, ti suggeriamo di modificarli solo se stai risolvendo problemi o sai cosa stai facendo. L'impostazione di valori di opzioni errati qui può imporre una riduzione delle prestazioni o rendere l'app inutilizzabile.

Fare clic su OK per passare all'interfaccia principale dell'app.

Se hai già una registrazione della tua voce che vuoi trasformare in testo scritto, clicca su Trascrivi file e selezionalo. Tuttavia, utilizzeremo Whisper Desktop per la trascrizione live di questo articolo.

Le opzioni offerte sono semplici. Puoi selezionare il lingua Whisper userà, scegli se vuoi tradurre tra le lingue e abilitare l'app Console di debug.

La maggior parte degli utenti di lingua inglese può tranquillamente saltare queste opzioni e assicurarsi solo che l'ingresso audio corretto sia selezionato dal menu a discesa accanto a Dispositivo di acquisizione.

Assicurarsi Salva in file di testo E Aggiungi a quel file sono abilitati a fare in modo che Whisper Desktop salvi il proprio output in un file senza sovrascriverne il contenuto. Usa il pulsante con i tre punti a destra del campo del percorso del file per definire tale file di testo.

Clicca su Catturare per iniziare a trascrivere il tuo discorso in testo.

Whisper Desktop ti mostrerà tre indicatori per quando rileva l'attività vocale, quando sta trascrivendo attivamente e quando il processo è bloccato.

Puoi continuare a parlare per tutto il tempo che desideri e di tanto in tanto dovresti vedere lampeggiare i primi due indicatori mentre l'app trasforma la tua voce in testo. Clic Fermare quando fatto.

Il file di testo che hai selezionato dovrebbe aprirsi nel tuo editor di testo predefinito, contenente in forma scritta tutto ciò che hai detto fino a quando non hai fatto clic Fermare.

Dovremmo notare che puoi anche fare l'opposto di quello che abbiamo visto qui: convertire qualsiasi testo in voce. In questo modo puoi ascoltare qualsiasi cosa come se fosse un podcast invece di stancarti gli occhi strizzando gli occhi agli schermi. Per maggiori informazioni su questo, controlla il nostro articolo su alcuni dei migliori strumenti online gratuiti per scaricare sintesi vocale come audio MP3.

Suggerimenti per la digitazione vocale di Whisper Desktop

Sebbene Whisper Desktop possa essere un vero toccasana, consentendoti di scrivere con la tua voce molto più velocemente di quanto potresti digitare, è tutt'altro che perfetto.

Durante i nostri test, abbiamo scoperto che occasionalmente potrebbe balbettare, saltare alcune parole, non riuscire a trascrivere fino a te arrestare e riavviare manualmente il processo o rimanere bloccati in un loop e continuare a ritrascrivere la stessa frase ripetutamente.

Riteniamo che si tratti di problemi temporanei che verranno risolti poiché Whisper standalone non presenta gli stessi problemi.

A parte quei piccoli urti, trasformare la tua voce in testo dovrebbe essere semplice con Whisper Desktop. Tuttavia, durante i nostri test, abbiamo scoperto che può funzionare ancora meglio se...

Invece di pronunciare solo due o tre parole e poi fare una pausa, Whisper può capirti meglio se vai avanti più a lungo. Cerca di dargli almeno un'intera frase alla volta.
Per lo stesso motivo, evita di avviare e interrompere ripetutamente il processo di trascrizione.
Ogni volta che ti rendi conto di aver commesso un errore, ignoralo e vai avanti. Il caricamento e lo scaricamento del modello linguistico sembra essere la parte più dispendiosa in termini di tempo del processo con lo stato attuale di Whisper e il nostro hardware disponibile. Quindi, è più veloce continuare a parlare e poi correggere i tuoi errori in seguito.
Come con la versione standalone di Whisper, è meglio utilizzare il modello di linguaggio ottimale per l'hardware disponibile. Puoi utilizzare fino a medio model se la tua GPU ha 8 GB di VRAM. Per meno VRAM, scegli i modelli più piccoli. Scegli solo quelli leggermente più precisi ma anche molto più esigenti grande modello se utilizzi una GPU con almeno 16 GB di VRAM.
Ricorda che più grande è il modello linguistico, più lento è il processo di trascrizione. Non scegliere un modello più grande del necessario. Probabilmente scoprirai che Whisper Desktop può già "capirti" la maggior parte delle volte con i modelli medi o più piccoli, con solo uno o due errori per paragrafo.

Stai ancora scrivendo? Usa la tua voce con Whisper

Nonostante richieda un po' di tempo per la configurazione, come vedrai quando lo proverai, Whisper Desktop funziona molto meglio della maggior parte delle alternative, con una precisione molto maggiore e una velocità migliore.

Dopo aver iniziato a usarlo per digitare con la tua voce, la tua tastiera potrebbe sembrare una reliquia di tempi antichi ormai lontani.

About Technology - denizatm.com

Come trasformare la tua voce in testo in tempo reale con Whisper Desktop

Cos'è il Whisper di OpenAI?

Whisper e Whisper Desktop sono uguali?

Scarica e installa Whisper Desktop

Trascrivere con Whisper Desktop

Suggerimenti per la digitazione vocale di Whisper Desktop

Stai ancora scrivendo? Usa la tua voce con Whisper

Categorie

Recent Post

Abbiamo dato un'occhiata a ogni desktop, monitor e router di gioco MSI rivelato al CES 2023

Canvà vs. Adobe Express: qual è lo strumento di progettazione grafica gratuito migliore?

I 7 migliori giochi di simulazione di guida per iPhone