Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Diagram hybridní architektury systému CD-DNN-HMM

Diagram hybridní architektury systému CD-DNN-HMM Zdroj: Zive.cz

Ovládání hlasem a jeho přepis do psaného textu je cílem již několik desetiletí. Technologie je stále lepší a Microsoft oznámil významný pokrok v úspěšnosti porozumění.

Když v roce 1982 představil Kurzweil AI a Dragon Systems první systém, který byl schopen ve velmi malém rozsahu (pouze 1 000 slov o tři roky později) a nepříliš dobře rozeznat některá mluvená slova a spojit je s uloženými vzorky v databázi, bylo jasné, že hlasové ovládání jednou bude realitou.

Zatímco ve vědeckofantastických filmech se hlasové ovládání používá takřka vždy a funguje bez nejmenších problémů, v případě reálného nasazení tato technologie trápí vědce a inženýry již více než třicet let. S rostoucím výkonem se podařilo již v roce 1987 dosáhnout databáze s 20 000 slovy, posléze až s 150 000 slovy. Problémem je ale především chybovost a přesnost rozpoznání, která byla i v roce 1993 stále na hranici 10 procent.

Tento trend příliš nezlepšila ani databáze Brown s milionem slov, ani samotný Google, který představil databázi o několik řádů větší. Hlavním a důležitým prvkem jsou totiž učící se algoritmy, a jak Microsoft ukázal v případě zařízení Kinect, na tuto technologii má k dispozici poměrně kvalitní tým inženýrů.

Microsoft si před pěti lety udělal ostudu v oblasti rozpoznávání hlasu v operačním systému Windows Vista, jak ale ukazuje celé video z prezentace, problém byl pouze při hlasitém okolí a na druhý pokus již přepis fungoval dobře.

A právě Microsoft před pár dny oficiálně oznámil významný pokrok a zlepšení v oblasti technologie rozpoznávání řeči.

Bez umělé inteligence a neuronové sítě to nejde

Tak jako u všech technologií ve kterých vyniká člověk a jeho neuronová síť v mozku, je nutné i v tomto případě napodobit miliony let vylepšovaný systém učení organické hmoty. Pro srovnání, typickému lidskému mozku trvá naučení rozpoznávání hlasu a slov několik let. Za tu dobu je jedinec vystaven neustálému opakování slov v různých variacích, kombinacích a tónech od rodičů, dalších dětí a osob v okolí.

V případě umělé inteligence a její neuronové sítě však máme výhodu toho, že tyto procesy lze zrychlit, přičemž vše je samozřejmě závislé na výkonu zpracování takových dat a složitosti neuronové sítě. Základní principy umělých neuronových sítí a spojených matematických modelů jednodušších částí mozku byly zkoumány již od roku 1950, stejný systém se tak používá i u strojového rozpoznávání hlasu.

V devadesátých letech se objevil takzvaný ANN-HMM model (Artificial Neural Networks- Hidden Markov Model), který byl přizpůsoben na velké databáze slov. V té době ale nebyl k dispozici takový výkon, aby bylo možné tuto techniku používat. Začaly se tak používat CD-GMM-HMM modely (Context-Dependent Gaussian Mixture Hidden Markov Model), které byly v té době méně náročné na výpočetní výkon a pro základní používání stačily.

Tento systém má však řadu omezení a tak se i Microsoft začal zajímat o opětovné používání pokročilejších umělých neuronových sítí, které slouží pro učení a zlepšování systému. S příchodem mobilních zařízení je totiž zapotřebí, aby byl takový systém schopen rozumět řeči a převést ji do podoby textu již od prvního spuštění a dokázal se přizpůsobit velké spoustě uživatelů pokud možno co nejrychleji.

Microsoft vyvinul pokročilejší systém CD-DNN-HMM (CD-Deep Neural Networks-HMM), který poskytuje výrazně lepší výsledky v rámci základního učení velkého počtu slov při jeho vývoji. Microsoftu se proces učení navíc podařilo velmi urychlit díky využití moderních grafických čipů, které mají obrovský paralelní výkon. Algoritmy a výpočty jsou totiž podobné zpracování trojrozměrné grafiky, grafický čip (konkrétně grafická karta Nvidia Tesla C1060 ) tak zvládne i 500 takových výpočtů současně. A výpočtů je v učící fázi opravdu hodně. Inženýři vytvořili největší umělou neuronovou síť pro rozpoznávání hlasu, kterou tvoří 66 milionů umělých neuronových spojení.

Zlepšení až o třetinu

Nové modely byly testovány na benchmarku Switchboard, který slouží pro měření chybovosti a tím i úspěšnosti daného systému. S 309 hodinami hlasových dat se jim podařilo nečekané – chyby v rozpoznávání slov klesly na hodnotu 18,5 procenta, což přestavuje o 33 procent lepší výsledek než při použití konvenčních systémů.

Diagram hybridní architektury systému CD-DNN-HMM

Diagram hybridní architektury systému CD-DNN-HMMDiagram hybridní architektury systému CD-DNN-HMM|Zive.cz

Do současné doby zatím nebyl v oblasti rozpoznávání hlasu učiněn tak velký pokrok ve snížení chyb, jako v tomto případě. Své nadšení neskrývá ani jeden z vývojářů - Frank Seide: „Když jsme začali s benchmarkem, jehož součástí je i učení a celý zabere 20 dní výpočtů na našem zkušebním počítači, čekali jsme zlepšení mezi 16 až 20 %. Při kontrole modelů v průběhu učení a testů bylo však obrovským překvapením, že již přesáhl 20 % a nakonec se dostal přes 30 %“.

Podrobné informace a výsledky si můžete prohlédnout v tomto PDF.
Použitelný přepis řeči brzy realitou

Tento pokrok znamená další velký milník v oblasti kvalitní a skutečně použitelné technologie pro rozpoznávání hlasu, a její využití nejen na jednoduché příkazy, které Microsoft již částečně využívá například u Xboxu 360 ve s pojení s Kinectem, ale také přepisem mluvené řeči, a to v různých jazycích.

V dnešní době navíc nejsou problémem databáze slov, kterých je dostatek, a to i včetně nahraných vzorků jednotlivých slov. Důležitým prvkem jsou právě tyto učící se modely spoléhající na pokročilé umělé neuronové sítě. Ty lze totiž již ve výrobě naučit porozumění řeči a uživatel tak nemusí procházet žádným dodatečným učením a přizpůsobováním, které je navíc spojeno s řadou negativních vlivů.

Jak bylo zmíněno, v současnosti byly tyto systémy vystaveny stovkám hodin trénovacích dat, které obsahují namluvená slova v různé kvalitě i variacích. To je však pouze z důvodu prvotního zkoušení. Další fází je totiž přizpůsobení systému na mnohem větší objemy dat k učení, které budou obsahovat desítky tisíc hodin nahraného hlasu. Stejně jako u člověka, více dat povede k lepšímu výsledku a lepšími rozpoznávání.

Stejně jako u jiných technologií, dokonalosti nelze dosáhnout okamžitě, jak ale ukazuje i tento významný pokrok, vše je pouze otázku času. Možnosti využití této technologii jsou obrovské, a kdo ví, třeba se možná jednou dočkáme i jisté podoby Babylonské rybky do ucha, která zajistí okamžitý překlad mluvené slova v reálném čase do řeči, které rozumíte zrovna vy.