Annuncio pubblicitario
Ora possiamo parlare con quasi tutti i nostri gadget, ma esattamente come funziona? Quando chiedi "Che canzone è questa?" o dire "Chiama mamma", sta accadendo un miracolo della tecnologia moderna. E mentre sembra di essere all'avanguardia, questa idea di parlare con i dispositivi risale a decenni fa, quasi quanto i jetpack nella fantascienza!
Oggi, gran parte dell'attenzione prestata all'elaborazione vocale è rivolta agli smartphone. Apple, Amazon, Microsoft e Google sono i vertici della catena, ognuno dei quali offre il proprio modo di parlare con l'elettronica. Sapevi chi sono: Siri, Alexa, Cortana e l'essere senza nome "Ok, Google". Il che solleva una grande domanda ...
In che modo un dispositivo accetta le parole pronunciate e le trasforma in comandi che può comprendere? In sostanza, si riduce alla corrispondenza dei modelli e alla previsione basata su tali modelli. Più specificamente, il riconoscimento vocale è un'attività complessa da cui proviene Modellazione acustica e Modellistica linguistica.
Modellazione acustica: forme d'onda e telefoni
La modellazione acustica è il processo per prendere una forma d'onda del parlato e analizzarla usando modelli statistici. Il metodo più comune per questo è Modellazione nascosta di Markov, che viene utilizzato in quello che viene chiamato modellazione della pronuncia scomporre il parlato in parti componenti chiamate telefoni (da non confondere con i dispositivi telefonici effettivi). Microsoft è stata una ricercatrice leader in questo campo per molti anni.
Modellazione nascosta di Markov: Stati di probabilità
La modellazione nascosta di Markov è un modello matematico predittivo in cui lo stato corrente viene determinato analizzando l'output. Wikipedia ha un ottimo esempio usando due amici.
Immagina due amici - Local Friend e Remote Friend - che vivono in diverse città. Local Friend vuole capire come è il tempo in cui abita Remote Friend, ma Remote Friend vuole solo parlare di ciò che ha fatto quel giorno: camminare, fare acquisti o pulire. La probabilità di ogni attività a seconda del tempo della giornata.
Fai finta che questa sia l'unica informazione disponibile. Con esso, Local Friend può trovare tendenze su come il tempo è cambiato di giorno in giorno, e usando queste tendenze, lei può iniziare a fare ipotesi ponderate su che tempo farà oggi basandosi sull'attività della sua amica ieri. (Puoi vedere un diagramma del sistema sopra.)
Se vuoi un esempio più complesso, dai un'occhiata questo esempio su Matlab. Nel riconoscimento vocale, questo modello confronta essenzialmente ogni parte della forma d'onda con ciò che viene prima e ciò che viene dopo e con un dizionario di forme d'onda per capire cosa viene detto.
In sostanza, se emetti un suono "th", controllerà quel suono rispetto ai suoni più probabili che di solito vengono prima e dopo di esso. Forse questo significa controllare il suono "e", il suono "at" e così via. Quando il modello si abbina correttamente, allora ha tutta la tua parola. Questa è una semplificazione eccessiva, ma puoi vedere L'intera spiegazione di Microsoft qui.
Modellazione linguistica: più del suono
La modellazione acustica aiuta molto a comprendere il tuo computer, ma che dire degli omonimi e delle variazioni regionali nella pronuncia? È qui che entra in gioco la modellazione linguistica. Google ha guidato molte ricerche in questo settore, principalmente attraverso l'uso di Modellazione N-gram.
Quando Google cerca di capire il tuo discorso, lo fa in base a modelli derivati dalla sua enorme banca di ricerche vocali e trascrizioni di YouTube. Tutte queste didascalie video esilaranti hanno effettivamente aiutato Google a evolvere i loro dizionari. Inoltre, hanno usato i defunti GOOG-411 per raccogliere informazioni su come le persone parlano.
Tutta questa raccolta linguistica ha creato una vasta gamma di pronunce e dialetti, che hanno reso un robusto dizionario di parole e il modo in cui suonano. Ciò consente di ottenere corrispondenze con un tasso di errore notevolmente ridotto rispetto alla corrispondenza della forza bruta in base a probabilità non elaborate. Puoi leggere un breve documento descrivendo qui i loro metodi.
Mentre Google è leader in questo campo, ci sono altri modelli matematici in fase di sviluppo, incluso lo spazio continuo modelli e modelli linguistici posizionali, che sono tecniche più avanzate nate dalla ricerca nell'intelligenza artificiale. Questi metodi si basano sulla replica del tipo di ragionamento che gli umani fanno quando si ascoltano a vicenda. Questi sono molto più avanzati sia in termini di tecnologia alla base di essi, ma anche la matematica e la programmazione necessarie per mappare questi modelli.
Modellazione N-Gram: la probabilità incontra la memoria
N-gram Modeling funziona in base alle probabilità, ma utilizza un dizionario di parole esistente per creare un albero ramificato di possibilità, che viene quindi appianato per motivi di efficienza. In un certo senso, ciò significa che N-gram Modeling elimina molta incertezza nel già citato Hidden Markov Modeling.
Come notato sopra, la forza di questo metodo deriva dall'avere un ampio dizionario di parole e uso, non solo primitivo suoni. Questo dà al programma la possibilità di dire la differenza tra omofoni, come "beat" e "barbabietola". È contestuale, il che significa che quando parli dei punteggi della scorsa notte, il programma non sta tirando su le parole sul borscht.
Ma questi modelli in realtà non sono i migliori per la lingua, principalmente a causa di problemi con le probabilità di parole in frasi più lunghe. Man mano che aggiungi più parole a una frase, questo modello diminuisce un po 'poiché è improbabile che le tue prime parole abbiano caricato tutto il necessario per il tuo pensiero completo.
Tuttavia, è semplice e facile da implementare, il che lo rende ideale per un'azienda come Google che ama lanciare server a problemi computazionali. Puoi fare ulteriori letture su N-gram Modelieng al Università di Washington, oppure puoi guardare a conferenza a Coursera.
Gridare alle nuvole: app e dispositivi
Chiunque abbia utilizzato Siri conosce la frustrazione di una connessione di rete lenta. Questo perché i tuoi comandi a Siri vengono inviati sulla rete per essere decodificati da Apple. Cortana per Windows Phone richiede inoltre una connessione di rete per funzionare correttamente. Al contrario, tuttavia, Echo di Amazon è solo un altoparlante Bluetooth senza Internet.
Perché la differenza Perché Siri e Cortana hanno bisogno di server pesanti per decodificare il tuo discorso. Potrebbe essere fatto sul tuo telefono o tablet? Certo, ma uccidere le prestazioni e la durata della batteria nel processo. Ha semplicemente più senso scaricare l'elaborazione su macchine dedicate.
Pensala in questo modo: il tuo comando è un'auto bloccata nel fango. Probabilmente potresti spingerlo fuori da solo con abbastanza tempo e fatica, ma ci vorranno ore e ti lasceranno esausto. Invece, chiamate l'assistenza stradale e tirano fuori la macchina in pochi minuti. L'aspetto negativo è che devi effettuare la chiamata e aspettarla, ma è ancora più veloce e meno faticoso.
I modelli desktop come Nuance tendono a utilizzare le risorse locali a causa dell'hardware più potente. Dopotutto, nelle parole di Steve Jobs, il tuo il desktop è un camion. (Il che rende un po 'sciocco l'utilizzo di OS X. server per la sua elaborazione.) Quindi, quando è necessario elaborare la lingua e la voce, è già sufficientemente attrezzato per gestirlo da solo.
D'altra parte, Android consente agli sviluppatori di includere il riconoscimento vocale offline nelle loro app. A Google piace anticipare la tecnologia e puoi scommettere che le altre piattaforme acquisiranno questa capacità man mano che il loro hardware diventa più potente. A nessuno piace quando una scarsa copertura o una cattiva ricezione lobotomizzano il proprio dispositivo.
Inizia a usare i comandi vocali ora
Ora che conosci i concetti fondamentali, dovresti giocare con i tuoi vari dispositivi. Prova il nuovo digitazione vocale in Google Documenti Come la digitazione vocale è la nuova migliore caratteristica di Google DocumentiIl riconoscimento vocale è migliorato a passi da gigante negli ultimi anni. All'inizio di questa settimana, Google ha finalmente introdotto la digitazione vocale in Google Documenti. Ma va bene? Scopriamolo! Leggi di più . Come se la suite per ufficio Web non fosse già abbastanza potente, il controllo vocale ti consente di dettare e formattare completamente i tuoi documenti. Questo si espande sulla potente tecnologia che hanno già progettato per Chrome e Android.
Altre idee includono l'impostazione di Mac per usare i comandi vocali Come utilizzare i comandi vocali sul tuo Mac Leggi di più e impostare il tuo Amazon Echo con checkout automatico In che modo Amazon Echo può rendere la tua casa una casa intelligenteLa tecnologia per la casa intelligente è ancora agli inizi, ma un nuovo prodotto di Amazon chiamato "Echo" potrebbe contribuire a portarlo nel mainstream. Leggi di più . Vivi nel futuro e abbracciati parlando con i tuoi gadget, anche se stai solo ordinando più asciugamani di carta. Se sei un drogato di smartphone, abbiamo anche tutorial per Siri 8 cose che probabilmente non hai realizzato Siri potrebbe fareSiri è diventata una delle caratteristiche distintive dell'iPhone, ma per molte persone non è sempre la più utile. Mentre alcuni di questi sono dovuti alle limitazioni del riconoscimento vocale, la stranezza dell'uso ... Leggi di più , Cortana 6 cose più interessanti che puoi controllare con Cortana in Windows 10Cortana può aiutarti a mani libere su Windows 10. Puoi lasciarle cercare nei tuoi file e sul Web, fare calcoli o recuperare le previsioni del tempo. Qui copriamo alcune delle sue abilità più interessanti. Leggi di più , e androide OK, Google: 20 cose utili che puoi dire sul tuo telefono AndroidGoogle Assistant può aiutarti a fare molto sul tuo telefono. Ecco un sacco di semplici ma utili comandi di Google OK da provare. Leggi di più .
Qual è il tuo uso preferito del controllo vocale? Fateci sapere nei commenti.
Crediti immagine: T-flex tramite Shutterstock, Terencehonles tramite Wikimedia Foundation, Arizona State, Cienpies Design tramite Shutterstock
Michael non usava un Mac quando erano condannati, ma può scrivere il codice in Applescript. Ha una laurea in Informatica e inglese; da un po 'scrive di Mac, iOS e videogiochi; ed è stato una scimmia IT diurna per oltre un decennio, specializzato in scripting e virtualizzazione.