La quarta edizione di Infomobility
Telematics Forum verrà ospitata insieme al VETIS all'interno
dell'AUTOMOTIVE WEEK, promossa dalla Camera di
commercio di Torino in collaborazione con la Regione Piemonte e
l'Istituto per il Commercio Estero, in accordo con il Ministero
per le Attività Produttive.
La stretta sinergia che si
viene a instaurare con la settimana dedicata al mondo
automotive che ha lo scopo di promuovere nuovi
contatti professionali tra compratori e fornitori del settore
automobilistico, accresce dunque
ancor di più il prestigio e l'interesse di ITF
2005.
_________________________________________________________________________________
C’è un futuro per la voce nei veicoli?
Oggi le tecnologie di riconoscimento vocale stanno diventando
importanti nel rapporto tra l’uomo e l’automobile. Offrono
infatti interfacce naturali per accedere ai sistemi di
navigazione di bordo, ai media, alle informazioni ed alle
funzioni di comunicazione a distanza. Tuttavia, ci sono sfide
importanti che devono essere affrontate e vinte per fornire
soluzioni di riconoscimento vocale di qualità che arricchiscano
veramente i servizi telematici del veicolo e le soluzioni a
valore aggiunto
Molti associano il riconoscimento vocale alle situazioni dei
film di fantascienza e degli show televisivi dove le automobili
si comportano come i robot R2D2 su rotelle. Nella realtà il
motivo principale delle tecnologie vocali è meno Hollywoodiano e
più pragmatico. Solitamente vengono adottate per puri motivi di
sicurezza.
Qualunque costruttore automobilistico vi dirà che migliorare
la sicurezza è in gran parte far diminuire il livello di
distrazione del guidatore e aumentare la consistenza ed il
controllo di guida. Si è trovato che un buon contributo può
essere dato dall'uso "intelligente" della tecnologia di
riconoscimento vocale. L'enfasi è su "intelligente". Mettere
alcuni dispositivi in un’automobile per ottenere il "gee-whiz
factor" ( sensazionale ) non è funzionale all’aumento della
sicurezza . Questa si ottiene scegliendo il modo più corretto di
inserire funzioni vocali affidabili ed utili a mantenere la
concentrazione dei guidatori sulla strada e preservare i
passeggeri da danni. Dati questi obiettivi, non sorprende che il
" voice dialing"sia il catalizzatore predominante per introdurre
il riconoscimento vocale nelle automobili; comporre un numero
telefonico vocalmente ( "hands-free") è infatti una delle
applicazioni più importanti ed è già obbligatoria in molti stati
negli Stati Uniti e nel mondo. Facendo un passo avanti, si trova
l’esempio di OnStar - un servizio disegnato per aiutare i
guidatori in modo completo dall’assistenza in emergenza ai
consigli e dove il riconoscimento vocale può essere usato per
controllare le funzioni base dell'automobile - controllo della
navigazione (per esempio scelta della destinazione ), controllo
del clima, comandi di radio/CD – in pratica qualunque cosa che
possa distrarre gli occhi della strada o le mani dal volante può
essere fatta con ordini vocali.
La sicurezza è preminente ma una volta che i produttori
automobilistici ritengano di aver soddisfatto questa esigenza
possono operare con i loro partner tecnologici, ISVs e
sviluppatori per rilasciare nuove applicazioni che assicurino
facilità d’uso e nuovi servizi. Le odierne vetture possono
mettersi in contatto con service providers e in caso di
emergenza consentono ai guidatori di ottenere assistenza veloce
e mirata.
Un'indagine recente di JD Power & Associates, mirante a
misurare la soddisfazione dei clienti sui sistemi di navigazione
, ha trovato che tre delle cinque automobili top erano di Honda
ed Acura e tutte contenevano tecnologia di riconoscimento
vocale.
Le sfide dei riconoscitori vocali nelle auto.
L'automobile rappresenta un ambiente molto "challenging" per
le tecnologie vocali. Le sfide vanno dall’ottenere prestazioni
ottimali in un ambiente imprevedibile e rumoroso all’utilizzo di
risorse di sistema molto limitate, quali memoria e CPU. Trovare
un compromesso tra i pesanti requisiti delle tecnologie vocali e
la limitata capacità del sistema veicolo è molto complesso.
Inoltre, i guidatori passano lunghe ore nelle loro automobili e
la qualità della conversazione con il cruscotto è un elemento
critico nell'accettabilità da parte degli utenti. Una voce
spiacevole o una ripetizione di richiami può portare il cliente
alla richiesta di disabilitare la voce "fastidiosa" .
Un fattore primario per un buon riconoscimento della parola è
il rapporto segnale /rumore dell’audio in ingresso cioè il
signal-to-noise ratio (SNR) . In un’automobile ci sono molti
attributi ambientali che possono interessare negativamente la
qualità dell'audio in input. In questo caso, "il segnale" è il
discorso dell'utente e lo SNR è l'energia del discorso
rapportato all’energia del rumore di fondo dell'audio ricevuto.
Un alto SNR è la cosa migliore, quando cioè il segnale del
discorso è chiaramente più potente del rumore di fondo, ma
questo raramente si verifica nell'ambiente automobilistico. Il
rumore (din ) in un veicolo - causato dalla strada, dal vento,
dall'aria condizionata (velocità del ventilatore di A/c), dalle
finestre, ecc. – è molto dinamico e intenso. Inoltre, alcuni
altoparlanti o microfoni sono deboli, aumentando la difficoltà
di riconoscimento in un ambiente così difficile.
La natura variabile del rumore in un ambiente automobilistico
(tipo ed intensità) rende difficile il processo di addestramento
del modello acustico (dati e procedure) ed il sistema di
riconoscimento non potendo presupporre un singolo stato di
rumore deve prevedere una vasta gamma di possibilità. Un altro
aspetto di cui tenere conto sono i rumori saltuari. Questi sono
in genere bruschi nella durata e alti di energia e possono
essere confusi con i suoni di un discorso. Per esempio, scatti,
urti, clacson, tergicristalli , ecc. sono esempi di rumori
transitori che sono difficilmente discriminabili dal sistema
vocale durante il processo di riconoscimento. Tutti questi
componenti ambientali contribuiscono a ridurre lo SNR del
segnale in ingresso e influenzano negativamente le prestazioni
di riconoscimento del parlato.
Un modo in cui le influenze ambientali possono essere
controllate è l’uso di microfoni direzionali a riduzione del
rumore, posizionati vicino a chi parla. La progettazione dei
microfoni consente di renderli più sensibili ai suoni
all'interno di una zona limitata scelta dai progettisti,
riducendo così i suoni fuori di questa zona. Quando questi
microfoni sono posizionati in modo ottimale, chi parla è situato
in una zona più sensibile ed i rumori generati all'esterno di
esso sono minimizzati, con conseguente SNR più alto per il
segnale audio in ingresso. Purtroppo, le caratteristiche che
migliorano lo SNR di questi microfoni non sempre possono essere
sfruttate completamente. Per il disegno della struttura del
veicolo, per le limitazioni di produzione e per il costo, il
microfono non sempre può avere le caratteristiche ideali o
essere disposto vicino all'utente , con conseguente SNR più
basso.
Oltre al rumore, la popolazione degli utenti del veicolo è
molto varia ed offre il proprio insieme di sfide specifiche. Le
applicazioni di riconoscimento vocale nel passato sono state
generate per dei target di popolazione piccoli e specifici, ma
le applicazioni per un’automobile si rivolgono ad una
popolazione di utenti molto grande e varia rendendo
particolarmente gravosi i test di riconoscimento. La grande
varietà di dialetti ed accenti così come gli stili del parlato
(alto, tenue, lento, veloce, ecc.) mettono a dura prova i
modelli acustici ed il disegno del motore di riconoscimento
vocale. La gente non è in genere capace o disposta a cambiare il
proprio parlato quindi devono essere i sistemi di riconoscimento
ad adattarsi ad una voce ed alle caratteristiche audio
dell'automobile.
Come ulteriore sfida vi sono le aspettative dell'utente. Dai
film di Hollywood come 2001:Odissea nello spazio, Star Trek e
molti altri, gli utenti sono stati portati a credere che parlare
ai calcolatori sia facile e si aspettano venga gestito un alto
livello di complessità ed accuratezza. Per questo insieme di
fattori influenzanti - stili variegati del parlato e esperienze
preesistenti di qualità del riconoscimento - gli utenti hanno
aspettative estremamente alte che devono essere tenute ben
presenti ed indirizzate da ogni sviluppatore o fornitore di
sistemi di applicazioni vocali.
Superare le sfide.
Molte di queste criticità possono essere indirizzate facendo
precedere elaborazioni avanzate del segnale audio all’intervento
del motore di riconoscimento. Gli esempi sono: microfoni
avanzati, procedure di pretrattamento del segnale audio, aumento
della complessità degli algoritmi del sistema di riconoscimento
ed aumento della dimensione del modello acustico. Queste
tecniche possono migliorare l’accuratezza del riconoscimento ma
si scontrano con i vincoli del sistema automobile. Le
piattaforme di calcolo nei veicoli hanno limiti di costo,
dimensione ed affidabilità. Come conseguenza, in molti casi non
è possibile ad esempio utilizzare microfoni a più elementi e con
tecnologia direzionale o procedure più complesse che aumentano
le capacità di ricerca dinamica del motore vocale o ancora
modelli acustici più grandi addestrati su insiemi più
diversificati di dati. Le applicazioni vocali e gli sviluppatori
dei motori di riconoscimento combattono per raggiungere quell’equilibrio
fra requisiti disponibili del sistema e complessità delle
soluzioni che possa ottenere il più elevato livello di
accuratezza nel riconoscimento vocale su una popolazione più
ampia possibile.
Un metodo per raggiungere un buon compromesso è un attento
disegno dell’applicazione vocale che può migliorare anche
notevolmente l'esattezza percepita dal riconoscimento. Dialoghi
specifici e l'uso di un contesto possono limitare la variabilità
dei comandi. Inoltre possono essere usate richieste di conferma
da parte del sistema che, imitando il dialogo umano, limitano ed
indirizzano le scelte per i comandi ( ad esempio se non si è
ottenuta una comprensione al 100%, si possono presentare per
conferma i 3 brani che con maggiore probabilità l’utente ha
richiesto).
Rendendo i sistemi più intuitivi, è possibile risparmiare ai
guidatori la frustrazione di dovere memorizzare frasi rigide
consentendo loro di esprimere liberamente cosa desiderano. Se
chiedono la direzione del ristorante messicano più vicino o di
cambiare la stazione radiofonica, il guidatore dovrebbe essere
capito immediatamente e potere ottenere l’azione desiderata. Ciò
può essere realizzato più facilmente aggiungendo una soluzione
vocale biometrica che consenta di riconoscere il guidatore,
identificarlo e ripristinare automaticamente le sue preferenze
come i canali radio preferiti, le regolazioni del sedile o gli
angoli dello specchio.
Per migliorare l’esperienza del guidatore è inoltre
importante che venga proposto dal sistema l'accesso a nuovi
servizi senza richiedere l’uso di nuovi tasti sul cruscotto.
Questi servizi potrebbero includere le offerte location-based,
come una notifica per l'offerta di un coupon quando il guidatore
si avvicina ad un esercizio commerciale che è fra quelli di suo
gradimento. L'interfaccia vocale dovrebbe anche potere imparare
le preferenze del guidatore. Per esempio, se il guidatore chiede
costantemente una stazione radiofonica, il sistema dovrebbe
capirlo e chiedere se deve memorizzarla.
Forse una delle innovazioni più grandi in telematica per
quanto concerne facilità d’uso e sicurezza è lo sviluppo della
telematica colloquiale e la Conversational Interface for
Telematics (CIT) è un esempio primario. La CIT è un sistema
vocale interattivo a bordo macchina che usa la lingua
colloquiale per le comunicazioni guidatore-calcolatore.
Il sistema permette il funzionamento hands-free delle
funzioni del veicolo, quale controllo della posta elettronica,
navigazione, variazione audio e clima, e minimizza la
distrazione del guidatore. La tecnologia inoltre è disegnata per
contribuire a rilevare gli stati di sonnolenza del guidatore ed
a rispondere ingaggiando il driver in discussioni o in giochi
interattivi. In più, il sistema permette servizi web quali
allarmi del traffico, le condizioni meteorologiche o le
informazioni di volo. Il progetto audiovisivo di riconoscimento
della parola Audio Visual Speech Recognition (AVSR) dà un nuovo
significato alla frase, "leggere le labbra." Se è una
informazione relativa a navigazione, fax, telefono, o internet
che un guidatore richiede, AVSR migliorerà l'esattezza del
motore di riconoscimento vocale e contribuirà ad eliminare la
necessità di ripetere le informazioni. Infatti, le telecamere
messe a fuoco sulle bocche dei guidatori e "addestrate" per
leggere le labbra miglioreranno notevolmente l'esattezza di
riconoscimento delle parole negli ambienti rumorosi: chiaramente
una sfida per i più avanzati sistemi correnti. Questa tecnologia
aumenterà significativamente la probabilità che il guidatore sia
capito quando dà un comando vocale alla propria automobile,
persino quando il rumore di fondo è notevole. AVSR inoltre può
rilevare la sonnolenza - per esempio monitorando il rapporto fra
il tempo con gli occhi aperti e chiusi - ed innescando procedure
per aiutare il guidatore a superare la crisi.
Cosa ci aspettiamo di vedere in circolazione:
- sistemi di navigazione di bordo che usano il riconoscimento
vocale avanzato in modo che i guidatori possano richiedere a
voce l'indirizzo della via e ricevere di ritorno la guida vocale
per raggiungere la loro destinazione. Questo nuovo tipo di
sintesi del parlato imita le caratteristiche della voce umana –
risultato di un intenso lavoro di campionatura delle voci e
separazione digitale del parlato e delle intonazioni- di modo
che un veicolo possa comunicare naturalmente con un guidatore.
Così si aprono le possibilità di colorare la voce, mimare un
utente nel modo di parlare ( per es. piano o veloce) gestire
dinamicamente il dialogo riconoscendo l’umore del guidatore.
- Ricevere le informazioni per pranzare selezionando il
ristorante da guide specializzate in modo che non soltanto il
guidatore chieda e riceva il nome ed il percorso da fare per il
ristorante, ma anche un resoconto del ristorante incluso nella
guida.
- Sistemi di navigazione/traffico in tempo reale che
integrano immediatamente i dati di traffico sul display di
navigazione con relativi consigli vocali.
Ulteriori dispositivi consentiranno la comunicazione fra il
concessionario ed il guidatore; ed altri che usando la
tecnologia BlueTooth™ per sincronizzare i dati personali del
cellulare con il sistema automobile per comporre vocalmente e
hands-free un numero telefonico (sui telefoni con possibilità
incorporata di BlueTooth).
Con l'aumento dei componenti auto e di dispositivi che
incorporano chips, le odierne automobili stanno telefonando più
frequentemente alla casa madre, ai fornitori ed al terziario
auto. Ciò, a sua volta, si traduce in nuove offerte per i
guidatori da una varietà di provider. Le tecnologie vocali
stanno imponendosi e guadagnando l'accettazione da parte del
consumatore attraverso l'innovazione e la qualità tecnica.
Data la vasta e crescente gamma di applicazioni di bordo ove
il riconoscimento vocale è installato, avere una conversazione
con la vostra automobile dovrebbe sembrare naturale.
Dr. Ing Sergio Strata