Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Diagram hybridní architektury systému CD-DNN-HMM • Zdroj: Zive.cz

2. září 2011 · 20:34

Ovládání hlasem a jeho přepis do psaného textu je cílem již několik desetiletí. Technologie je stále lepší a Microsoft oznámil významný pokrok v úspěšnosti porozumění.

Když v roce 1982 představil Kurzweil AI a Dragon Systems první systém, který byl schopen ve velmi malém rozsahu (pouze 1 000 slov o tři roky později) a nepříliš dobře rozeznat některá mluvená slova a spojit je s uloženými vzorky v databázi, bylo jasné, že hlasové ovládání jednou bude realitou.

Zatímco ve vědeckofantastických filmech se hlasové ovládání používá takřka vždy a funguje bez nejmenších problémů, v případě reálného nasazení tato technologie trápí vědce a inženýry již více než třicet let. S rostoucím výkonem se podařilo již v roce 1987 dosáhnout databáze s 20 000 slovy, posléze až s 150 000 slovy. Problémem je ale především chybovost a přesnost rozpoznání, která byla i v roce 1993 stále na hranici 10 procent.

Tento trend příliš nezlepšila ani databáze Brown s milionem slov, ani samotný Google, který představil databázi o několik řádů větší. Hlavním a důležitým prvkem jsou totiž učící se algoritmy, a jak Microsoft ukázal v případě zařízení Kinect, na tuto technologii má k dispozici poměrně kvalitní tým inženýrů.

Microsoft si před pěti lety udělal ostudu v oblasti rozpoznávání hlasu v operačním systému Windows Vista, jak ale ukazuje celé video z prezentace, problém byl pouze při hlasitém okolí a na druhý pokus již přepis fungoval dobře.

A právě Microsoft před pár dny oficiálně oznámil významný pokrok a zlepšení v oblasti technologie rozpoznávání řeči.

Bez umělé inteligence a neuronové sítě to nejde

Tak jako u všech technologií ve kterých vyniká člověk a jeho neuronová síť v mozku, je nutné i v tomto případě napodobit miliony let vylepšovaný systém učení organické hmoty. Pro srovnání, typickému lidskému mozku trvá naučení rozpoznávání hlasu a slov několik let. Za tu dobu je jedinec vystaven neustálému opakování slov v různých variacích, kombinacích a tónech od rodičů, dalších dětí a osob v okolí.

V případě umělé inteligence a její neuronové sítě však máme výhodu toho, že tyto procesy lze zrychlit, přičemž vše je samozřejmě závislé na výkonu zpracování takových dat a složitosti neuronové sítě. Základní principy umělých neuronových sítí a spojených matematických modelů jednodušších částí mozku byly zkoumány již od roku 1950, stejný systém se tak používá i u strojového rozpoznávání hlasu.

V devadesátých letech se objevil takzvaný ANN-HMM model (Artificial Neural Networks- Hidden Markov Model), který byl přizpůsoben na velké databáze slov. V té době ale nebyl k dispozici takový výkon, aby bylo možné tuto techniku používat. Začaly se tak používat CD-GMM-HMM modely (Context-Dependent Gaussian Mixture Hidden Markov Model), které byly v té době méně náročné na výpočetní výkon a pro základní používání stačily.

Tento systém má však řadu omezení a tak se i Microsoft začal zajímat o opětovné používání pokročilejších umělých neuronových sítí, které slouží pro učení a zlepšování systému. S příchodem mobilních zařízení je totiž zapotřebí, aby byl takový systém schopen rozumět řeči a převést ji do podoby textu již od prvního spuštění a dokázal se přizpůsobit velké spoustě uživatelů pokud možno co nejrychleji.

Microsoft vyvinul pokročilejší systém CD-DNN-HMM (CD-Deep Neural Networks-HMM), který poskytuje výrazně lepší výsledky v rámci základního učení velkého počtu slov při jeho vývoji. Microsoftu se proces učení navíc podařilo velmi urychlit díky využití moderních grafických čipů, které mají obrovský paralelní výkon. Algoritmy a výpočty jsou totiž podobné zpracování trojrozměrné grafiky, grafický čip (konkrétně grafická karta Nvidia Tesla C1060 ) tak zvládne i 500 takových výpočtů současně. A výpočtů je v učící fázi opravdu hodně. Inženýři vytvořili největší umělou neuronovou síť pro rozpoznávání hlasu, kterou tvoří 66 milionů umělých neuronových spojení.

Zlepšení až o třetinu

Nové modely byly testovány na benchmarku Switchboard, který slouží pro měření chybovosti a tím i úspěšnosti daného systému. S 309 hodinami hlasových dat se jim podařilo nečekané – chyby v rozpoznávání slov klesly na hodnotu 18,5 procenta, což přestavuje o 33 procent lepší výsledek než při použití konvenčních systémů.

Diagram hybridní architektury systému CD-DNN-HMM

Diagram hybridní architektury systému CD-DNN-HMM | Zdroj: Zive.cz

Do současné doby zatím nebyl v oblasti rozpoznávání hlasu učiněn tak velký pokrok ve snížení chyb, jako v tomto případě. Své nadšení neskrývá ani jeden z vývojářů - Frank Seide: „Když jsme začali s benchmarkem, jehož součástí je i učení a celý zabere 20 dní výpočtů na našem zkušebním počítači, čekali jsme zlepšení mezi 16 až 20 %. Při kontrole modelů v průběhu učení a testů bylo však obrovským překvapením, že již přesáhl 20 % a nakonec se dostal přes 30 %“.

Podrobné informace a výsledky si můžete prohlédnout v tomto PDF.
Použitelný přepis řeči brzy realitou

Tento pokrok znamená další velký milník v oblasti kvalitní a skutečně použitelné technologie pro rozpoznávání hlasu, a její využití nejen na jednoduché příkazy, které Microsoft již částečně využívá například u Xboxu 360 ve s pojení s Kinectem, ale také přepisem mluvené řeči, a to v různých jazycích.

V dnešní době navíc nejsou problémem databáze slov, kterých je dostatek, a to i včetně nahraných vzorků jednotlivých slov. Důležitým prvkem jsou právě tyto učící se modely spoléhající na pokročilé umělé neuronové sítě. Ty lze totiž již ve výrobě naučit porozumění řeči a uživatel tak nemusí procházet žádným dodatečným učením a přizpůsobováním, které je navíc spojeno s řadou negativních vlivů.

Jak bylo zmíněno, v současnosti byly tyto systémy vystaveny stovkám hodin trénovacích dat, které obsahují namluvená slova v různé kvalitě i variacích. To je však pouze z důvodu prvotního zkoušení. Další fází je totiž přizpůsobení systému na mnohem větší objemy dat k učení, které budou obsahovat desítky tisíc hodin nahraného hlasu. Stejně jako u člověka, více dat povede k lepšímu výsledku a lepšími rozpoznávání.

Stejně jako u jiných technologií, dokonalosti nelze dosáhnout okamžitě, jak ale ukazuje i tento významný pokrok, vše je pouze otázku času. Možnosti využití této technologii jsou obrovské, a kdo ví, třeba se možná jednou dočkáme i jisté podoby Babylonské rybky do ucha, která zajistí okamžitý překlad mluvené slova v reálném čase do řeči, které rozumíte zrovna vy.

Microsoft oznámil průlom v oblasti rozpoznávání hlasu

Bez umělé inteligence a neuronové sítě to nejde

Zlepšení až o třetinu

Diagram hybridní architektury systému CD-DNN-HMM

Doporučujeme

Nový žebříček ekonomik světa ukazuje pád tradičních velmocí. Vítězstvím překvapil soused Česka

Konec výhodných emisních výpočtů: elektromobily už nebudou mít nabušená čísla

Nejdražší dům v Praze má po osmi letech majitele. Počkal si na slevu 200 milionů

Zotavující se Nike překonal odhady, investory ale děsí propad prodejů v Číně

Milionový brouk. Čeští vědci zkoumají, jak může larva změnit byznys s recyklací plastů

recombeePatternTitle

150 tisíc lidí v Česku dělá před Vánoci tuto finanční chybu

Články z jiných titulů

Investice do AI se firmám nevracejí. Ztráty dosahují stovky miliard dolarů ročně

Skleněná koule přežila války, znárodnění i trendy. V Ozdobě jich ročně vyrobí 200 tisíc

Půl miliardy korun. Nenápadná ruská softwarová firma patří v Česku mezi největší plátce daně

Americký investor byl letos za Midase, ruský za Joba. Na Česko by měl Trump složit burzovní ódu

Sankce zabírají. Cena ruské ropy klesla na polovinu oproti začátku roku

recombeePatternTitle

Kolik utratí průměrný Čech za Vánoce? Schválně, jestli vás stojí víc, nebo míň