Il rilevamento delle frasi è solo una parte del processo.
Gridare "Ok Google" dall'altra parte della stanza per cambiare la musica o spegnere le luci in una stanza è sicuramente una sensazione incredibile, ma questo processo apparentemente semplice è alimentato da una complicata rete di tecnologie che lavorano dietro il scene.
Quasi tutti i principali assistenti virtuali sul mercato hanno una frase di chiamata che usi per riattivare l'assistente e conversare. Ma come fanno gli assistenti vocali a sapere quando parli con loro?
Come funziona il rilevamento delle frasi?
Come accennato in precedenza, ogni assistente vocale ha una "frase di attivazione" o parola di attivazione che usi per riattivare l'assistente e impartire ulteriori comandi. Il processo di individuazione di questa frase è più o meno lo stesso con ogni assistente, ad eccezione di piccole sfumature. Detto questo, queste sfumature possono significare la differenza tra pronunciare casualmente il comando wake e gridarlo più volte volte solo per l'assistente per continuare a dormire, qualcosa che a volte può essere davvero fastidioso, specialmente se lo sei
usando il tuo assistente vocale per calmarti.In generale, la maggior parte degli altoparlanti "intelligenti" ha un piccolo circuito il cui unico compito è rilevare il comando di riattivazione e quindi mettere in azione il resto dell'hardware. La maggior parte dell'elaborazione viene eseguita nel cloud, ma il rilevamento della frase è sul dispositivo per ovvi motivi di privacy. Il rilevamento delle frasi sui telefoni funziona più o meno allo stesso modo.
Le specifiche sono per lo più nascoste, ma questi sistemi di rilevamento utilizzano l'apprendimento automatico e le reti neurali profonde (DNN) per addestrare i modelli di intelligenza artificiale per rilevare la tua voce e formare una chiave. Questa chiave viene quindi utilizzata per verificare quando hai pronunciato una particolare frase e tutto il resto viene inviato al cloud per un'ulteriore elaborazione.
Assistente Google
I telefoni che supportano il rilevamento "OK Google" di solito sono dotati di un sistema di individuazione delle parole chiave (KWS) che rileva la frase e quindi applica il resto della query al cloud. Poiché i dispositivi mobili hanno una potenza di calcolo limitata e limiti di durata della batteria, questi sistemi di solito non sono buoni come quelli che potresti trovare sugli altoparlanti Google Nest.
Questo sistema KWS sul dispositivo rileva continuamente l'audio dai microfoni del dispositivo e avvia una connessione al server quando rileva una frase di attivazione. Google utilizza anche il riconoscimento vocale contestuale automatico (ASR) lato server per migliorare la precisione complessiva del suo sistema KWS. Puoi leggere di più a riguardo in Il documento di ricerca di Google [PDF].
Siri
Siri funziona allo stesso modo dell'Assistente Google per quanto riguarda il rilevamento di "Hey Siri". Apple è stata sorprendentemente aperta su come funziona il sistema, che prevede un riconoscimento vocale "molto piccolo" che viene eseguito in background e ascolta solo quelle due parole. Questo rilevatore utilizza un DNN per convertire il modello acustico della tua voce registrato su ogni istanza in una distribuzione di probabilità sui suoni del parlato, generando essenzialmente un punteggio di confidenza.
Il tuo iPhone o Apple Watch lo fa trasformando la tua voce in un flusso di campioni di forme d'onda a una velocità di 16.000 al secondo. Questo viene quindi ridotto a una sequenza di fotogrammi che coprono uno spettro sonoro di circa 0,01 secondi. Quindi, un totale di 20 di questi frame viene inviato al modello di rilevamento, che converte questi modelli in una probabilità.
Se il sistema determina con sufficiente sicurezza che hai detto "Ehi Siri", Siri si sveglia e invia il resto della query al cloud, dove vengono eseguite ulteriori analisi e viene eseguita qualsiasi azione richiesta eseguita.
Ci sono, ovviamente, ulteriori misure aggiunte per garantire l'efficienza della memoria e della batteria. L'Always On Processor (AOP) del tuo iPhone ha accesso ai microfoni del dispositivo (su iPhone 6S e versioni successive) proprio per questo motivo e una piccola parte della sua potenza di elaborazione è riservata per eseguire il DNN. Apple approfondisce l'intero sistema sul suo sito web di machine learning, machinelearning.apple.
Alexa
Proprio come Google Assistant e Siri, anche Alexa non ospita la maggior parte della sua potenza di elaborazione su nessuno degli altoparlanti Echo che puoi acquistare. Invece, gli oratori usano quello che Amazon chiama Automatic Speech Recognition (ASR) che essenzialmente converte le parole pronunciate in testo, consentendo al sistema sottostante di interpretarle e agire di conseguenza.
ASR costituisce la base di base del funzionamento di Alexa. Ancora una volta, c'è un sistema di bordo che ascolta le parole di attivazione, in questo caso "Alexa", "Amazon", "Eco" o "Computer" e attiva il resto del sistema quando la parola di attivazione predeterminata dall'utente viene rilevato. Puoi persino riattiva il tuo dispositivo Alexa usando "Hey Disney" se vuoi.
Come l'Assistente Google, puoi addestrare il modello AI sottostante di Alexa per rilevare meglio la tua voce. Questo processo prevede la creazione di una "chiave" di riferimento con cui viene confrontata la parola sveglia pronunciata e, quando viene trovata una corrispondenza, il dispositivo risponde di conseguenza.
Gli assistenti vocali sono sempre in ascolto?
Come probabilmente puoi già intuire, sì, lo sono. Altrimenti non sarebbero in grado di rilevare le parole di attivazione. Tuttavia, non è ancora necessario eliminare tutti i tuoi altoparlanti intelligenti a causa di problemi di privacy.
Ascoltare tutto ciò che dicono gli utenti, inviarlo a un server remoto e analizzarlo (o memorizzarlo). richiede enormi risorse hardware e finanziarie al punto in cui non ha senso da un punto di vista pratico prospettiva. Aggiungete a ciò le enormi preoccupazioni sulla privacy che aziende come Google, Apple e Amazon stanno già affrontando e l'idea non ha senso.
Ciò ha anche un impatto enorme sulle prestazioni e sulla durata della batteria dei telefoni con funzionalità di rilevamento delle parole di attivazione, in particolare Google Pixel e iPhone. Se il tuo telefono ascolta continuamente ciò che stai dicendo e invia l'audio a un server remoto, caricherà la batteria e colpirà le prestazioni del dispositivo.
Chi ha il rilevamento delle frasi più efficiente e perché?
Non è facile confrontare obiettivamente quale assistente virtuale ha il miglior rilevamento delle frasi in modo oggettivo poiché tutti utilizzano implementazioni leggermente diverse dello stesso concetto generale. Tuttavia, Google sembra avere un rilevamento delle frasi più coerente grazie al vantaggio di Google Assistant rispetto a Siri e Alexa.
Nonostante le app che utilizzano modelli linguistici di grandi dimensioni (LLM) come ChatGPT e Bing Chat stiano diventando mainstream, l'Assistente Google mantiene la sua posizione come uno dei più popolari assistenti virtuali semplicemente perché è a portata di tocco su ogni dispositivo Android, dalle smart TV ai sistemi stereo per auto e, naturalmente, agli smartphone.
Siri e Alexa hanno qualcosa da recuperare in quel reparto, ma per quanto riguarda il rilevamento delle frasi, non sono poi così lontani. Tuttavia, avrai maggiori possibilità di riattivare l'Assistente Google sul tuo Pixel dall'altra parte della stanza rispetto a Siri sul tuo iPhone, anche se puoi potenzia le capacità di Siri con la modalità Super Siri. Poiché Alexa è utilizzato principalmente sulla linea di altoparlanti Echo di Amazon, qui ha un leggero vantaggio, considerando che questi altoparlanti sono progettati per essere in grado di captare la voce dell'utente.
L'intelligenza artificiale è tanto spettrale quanto comoda
Convocare il tuo assistente AI solo con la tua voce può tornare molto utile. Per una funzionalità che si integra perfettamente nelle nostre vite, dietro le quinte succedono molte cose a cui la maggior parte di noi spesso non pensa.
Detto questo, questa comodità porta con sé anche il disagio del tuo dispositivo che ascolta sempre quello che stai dicendo. Finora, i riconoscitori vocali sul dispositivo e le parole di attivazione si frappongono tra ciò che il tuo assistente virtuale sente e ciò che dici.