Il riconoscimento vocale di Microsoft raggiunge l’affidabilità di un essere umano – Hardware upgrade.it

Gli algoritmi di IA sono efficaci al pari dell’uomo nei lavori di trascrizione. Un traguardo storico, così lo ha annunciato Microsoft sul blog ufficiale, che vede i robot raggiungerci in una delle competenze più distintive fra quelle maturate dall’uomo nel corso della sua evoluzione. Su un documento pubblicato recentemente gli ingegneri Microsoft della divisione Artificial Intelligence and Research scrivono che il loro sistema ha raggiunto una percentuale d’errore paragonabile a quella umana.

In questo caso il WER (Word Error Rate) è stato del 5,9%, cifra che sottolinea come gli algoritmi di Redmond facciano “gli stessi errori, o un numero inferiore di errori, rispetto ai trascrittori professionali”. Negli ultimi 30 giorni il team di ricercatori è riuscito ad abbassare leggermente il tasso di errori in modo da raggiungere il risultato umano: attraverso l’ultima evoluzione si è passati nella fattispecie dal 6,3% al 5,9%, il valore più basso mai fatto registrare da un algoritmo informatico.

Microsoft, gruppo di ricercatori del team Speech & Dialog

“Abbiamo raggiunto la parità con gli esseri umani”, sono state le parole utilizzate dal Chief Speech Scientist di Microsoft Xuedong Huang. “È un risultato storico”. Il risultato arriva dopo decenni di test sulle tecnologie di riconoscimento vocale e sulla scia dell’ottimo 6,3% fatto registrare il mese scorso. Un tasso d’errore così basso può rappresentare un aspetto determinante nella lotta fra assistenti virtuali in atto negli ultimi anni, che non vede ancora in Microsoft una favorita.

Per raggiungere tali livelli di accuratezza i ricercatori hanno impiegato reti neurali profonde per raccogliere un ammontare significativo di dati, chiamati training set, che hanno un ruolo di fondamentale importanza nel riconoscimento delle parole provenienti da uomini e donne. Suoni e immagini sono stati utilizzati insieme per “allenare” gli algoritmi di apprendimento profondo per far sì che la rete possa utilizzare i dati immagazzinati in maniera più rapida ed efficiente.

Raggiungere la parità con gli esseri umani è un risultato lontano dalla perfezione, secondo gli stessi ricercatori che hanno rilasciato il documento. Prendere come punto di riferimento l’essere umano per un algoritmo di intelligenza artificiale, infatti, può essere un buon punto di partenza, ma non un punto di arrivo. Nello studio si parte dall’assunto che l’essere umano è imperfetto e impreciso e per il futuro i ricercatori puntano a raggiungere livelli di accuratezza ancora superiori.

Questo per garantire agli algoritmi di funzionare in maniera più accurata nelle situazioni reali in cui vengono applicati, come ad esempio ristoranti affollati, strade rumorose o in condizioni meteorologiche avverse. In aggiunta, Microsoft sta cercando di allenare gli algoritmi non solo per permetter loro di riconoscere il parlato, ma anche di capire il contenuto e il contesto in maniera profonda in modo da rendere le tecnologie sempre più intuitive da utilizzare.

Insomma, siamo ancora ben distanti da questo traguardo ma nel futuro non saremo noi a doverci sforzare di capire i computer, ma saranno loro che capiranno noi e le nostre intenzioni.

Corriere NET

Il riconoscimento vocale di Microsoft raggiunge l’affidabilità di un essere umano – Hardware upgrade.it

Articoli correlati

Perché ridiamo? Una risposta e un nuovo libro

Perché se la rettrice entra in Coldiretti è la Sapienza a perderci

Tecnologie del futuro

You missed

Strage di Bologna, la città si prepara alla commemorazione

Parigi 2024, la cerimonia d’apertura raccontata dalle immagini

Siccità al Sud, la Calabria in stato di emergenza

Parigi 2024, finali e azzurri. Il programma del 27 luglio

Contattaci

Corriere NET