Jako Siri a Google. VUT patří ke světové špičce v rozpoznávání řeči

VUT Brno

VUT Brno Zdroj: vut

„Tak to vážně nevím. Každopádně je zvláštní, že se to děje zrovna v takovéto malé zemi,“ zamýšlí se s úsměvem Igor Szöke z Fakulty informatiky na VUT v Brně nad tím, proč zrovna Česko plodí tolik výzkumníků a projektů souvisejících s rozpoznávání mluveného slova. Při rozhovoru v kavárně naproti škole se jen tak mimochodem zmiňuje o tom, že je teď zrovna u nich „někdo z Microsoft Research“ a ukazuje na kolegu, který „byl také na Stanfordu a pracoval pro tu firmu, která udělala Siri“.

Naučit stroje, aby uměly rozpoznávat lidskou řeč, a na základě toho vykonávaly zadané úkoly, je v současné době velikým trendem. Viditelné je to zejména u firem jako Apple, Google a Microsoft, jež své „umělé inteligence“ integrují přímo do mobilních operačních systémů (Siri a další), ale možnosti reálného využití jsou ještě daleko větší – zajímají se třeba armády, call centra a podobně. A právě Česko patří mezi velké tahouny celého oboru. Kromě VUT se výzkumy zabývají také na univerzitách v Liberci a Plzni a IBM v Praze provozuje vlastní výzkumnou laboratoř.

Mladý výzkumník působí velice skromně a namísto toho, aby okamžitě začal oslňovat úspěchy jednotlivých projektů, na kterých se podílel, se nejdříve novinářské návštěvy začne vyptávat na to, zda by žurnalisté dokázali v praxi využívat technologii automatického přepisu mluveného slova na text. Pečlivě si zapisuje zpětnou vazbu a prosí o šíření mezi kolegy.

To, co dělá Google

Igor Szöke se totiž společně se svými kolegy snaží o to, o co se příliš zdejších akademických výzkumníků nesnaží – přenést na univerzitě vytvořené technologie do reálného prostředí a vytvořit z nich produkt, o něhož budou mít zákazníci zájem. Takzvaný transfer technologií byl při jeho začátcích hodně velká životní zkušenost. „Vymysleli jsme si hromadu funkcí, o kterých jsme si mysleli, že je lidé budou chtít. Obrovsky jsme narazili a teď postupně zjišťujeme, že je lepší přijít s méně funkcemi, jednoduchým ovládáním a postupně pak dodělávat zbytek,“ popisuje Szöke svá zjištění.

„To, co teď děláme, je v podstatě to samé, co dělá Google. Učíme se na obrovském množství uživatelských a specifických dat tak, aby se technologie mohla co nejlépe adaptovat,“ vysvětluje Szöke. To už popisuje projekt, který má být právě přenesením výzkumu na reálný trh. Během podzimu by měla být k dispozici aktualizovaná verze služby SpokenData.com, jejíž vize je jednoduchá: lidé si budou moci přes webový prohlížeč nahrát libovolné video či zvukový soubor a během chvilky dostat co možná nejlepší přepis textu. Vše půjde ovládat v jednoduchém editoru, a pokud na něco nebudou stačit stroje, postarají se o to najatí editoři.

SpokenData v současné době zvládá kromě angličtiny také češtinu, prozatím se však musí počítat s tím, že musí být pořízen kvalitní záznam zvuku – například přepis rozhovoru z hlučné kavárny je prozatím problém. Právě o tom je ono zmiňované učení se na specifických datech. „Můžeme tu technologii postupně naučit například na specifické vlastnosti diktafonů v mobilních telefonech, takže pak automaticky dojde k jejich rozpoznání a co nejlepší detekci zvuku,“ nastiňuje Igor Szöke.

Igor Szöke, SpokenData, SuperLectures, ReplayWell, VUT FITIgor Szöke, SpokenData, SuperLectures, ReplayWell, VUT FIT | Jan Sedlak

Učení stroje takovýmto „kouzlům“ je poměrně náročná věc, zejména co se výpočetního výkonu týče. Na VUT nevytváří žádnou umělou inteligenci, která by jednoduše byla schopná, podobně jako lidský mozek, naučit se nové věci bez nějakého základu „tvrdých“ dat a informací. Ty se musí dodat a vše tedy funguje na principu „machine learning“.

Na VUT vyvinutý systém tak pracujeme s velkými databázemi zvukových .wav souborů, které jsou porovnávány s frázemi v textových .txt souborech. Tedy žádné in-memory databáze, Hadoop a další moderní vymoženosti, prostě adresáře se soubory. To všechno se děje na serverovém clusteru s 2500 procesorovými jádry, který na brněnské univerzitě postavili z velké části právě „řečaři“ za pomocí financování z fondů EU a akademického CESNETu.

Náročná čeština

Bez tohoto clusteru by údajně nebylo možné takto náročný výzkum provádět. „Světovou konkurenci jsme schopní překonat hrubým výpočetním výkonem,“ vysvětluje Szöke a poukazuje na to, že 120TB diskové pole je možné díky různým zvukovým vzorkům zaplnit během velice krátké chvilky. K trénování a cvičení stroje se navíc používají neuronové sítě. „Myslím si, že malá laboratoř s pár počítači a lidmi z tohoto důvodu nemá šanci,“ věří Szöke. Pronajímat si například cloud od Amazonu by bylo finančně rovněž velice náročné.

Jenže zatímco škola disponuje chytrými vědeckými mozky a technologiemi, s přenosem technologií do komerčního prostředí tradičně bývá problém. Je to dáno i tím, že v Česku ještě nestihla vyrůst potřebná kultura propojení akademického a komerčního světa, což vede například k legislativním starostem, či prostě střetem dvou odlišných myšlení. Na VUT proto z tohoto důvodu před několika lety vznikl prostředník, který začal výzkum do byznysu přenášet.

Výzkumná řečová skupina na brněnské škole vznikla zhruba před 10 lety a zprvu se soustředila na různé evropské projekty, třeba přepis mluveného slova na text ze zaznamenávaných schůzek a kulatých stolů. VUT na projektu spolupracovalo s univerzitou v britském Sheffieldu a postupně se začal formovat tým se specializací na takzvané složité prostředí – tedy žádné čisté zvukové záznamy ze studia, ale rušné nahrávky z veřejného prostředí a podobně.

Následně se výzkum rozšířil o další projekty. S velkým přišlo tuzemské ministerstvo obrany, které velice zajímaly telefonní hovory. Výzkumníci z VUT tak dostali zakázky, na základě kterých vytvořili technologii na rozpoznávání jazyků. Ministerstvo tak mohlo automaticky poznat, v jaké řeči se vede sledovaný hovor.

Díky tomu pak výzkumníci z VUT založili společnost Phonexia, jejíž hlavní úkolem bylo „vzít na škole vytvořené technologie, vytvořit z nich spustitelný a upravený program a ten následně přenést do komerčního prostředí“. Phonexia za užívání technologií platila licenční poplatky a škola tento projekt dodnes považuje za ukázku praktické přenosu technologií. Firma ostatně funguje do dneška a produkty na rozpoznávání řeči dodává například americkým tajným službám.

Na VUT se mezitím dostali k dalšímu projektu – ministerstvo vnitra potřebovalo technologii pro identifikaci řečníka. Díky tomu se na škole dostali k práci s českým jazykem. „Do té doby prakticky nebylo možné češtinou se zabývat. Potřebovali jsme projekt, který by se zaplatil, protože jenom nákup databáze jazykových vzorků vyjde i na milion korun,“ vzpomíná Szöke. „Čeština je navíc hodně náročná. Zatímco v angličtině stačí pracovat s 50 až 100 tisíci slovy, v naší mateřštině jsou to miliony.“

Lepší než Google

Na Fakultě informatiky už se tou dobou spustilo nahrávání přednášek, které si pak studenti mohli zpětně prohlížet online. Zvukoví výzkumníci proto své výzkumy češtiny aplikovali právě na tyto záznamy, díky čemuž dokázali automaticky přepsat text z přednášek a umožnit v něm vyhledávání.

Igor Szöke se postupně dal do spolupráce s Janem Všianským, jež založil a prodal úspěšnou společnost Lingea a nyní působí jako andělský investor. Vznikla tak firma ReplayWell, která funguje dodnes a provozuje projekt SuperLectures. Technologie umožňuje přepis řeči, vyhledávání v textu, synchronizaci „slajdů“ s přednáškami a tak dále. Typickým zákazníkem jsou různé konference, díky nimž SuperLectures vydělává a dokáže zaplatit start SpokenData, na němž se pracuje od letošního ledna.

SpokenData v současné době prochází zejména laděním a hledají se nejlepší možné obchodní modely. Igor Szöke a jeho tým spolupracují například s portálem mojemedicina.cz (a dalšími pilotními zákazníky). Tam je k dispozici velká databáze přednášek z různých zdravotnických akcí. Redakční systém portálu je přes aplikační rozhraní (API) napojený na SpokenData a jakmile se přidá nové video, SpokenData ho automaticky přeloží a vloží do databáze.

Vstup VUT FIT a ReplayWell do oblasti těchto služeb rozhodně nebude úplně jednoduchý. Podobná konkurence už totiž ve světě existuje a automatické titulkování videí nabízí na YouTube i Google. „Byla doba, kdy jsme YouTube rozpoznávali lépe, než samotný Google. Uměli bychom to i dnes, ale aktuálně se soustředíme na to najít ve SpokenData obchodní modely,“ věří si Szöke.

Zatímco Phonexia a ReplayWell nadále slouží jako „nástroje“ pro transfer z univerzitního prostředí do světa byznysu, na VUT se i nadále do práce s řečí zapojují noví studenti a pracuje se na projektech světového významu. „Aktuálně jsme se zapojili do projektu DARPA, což je agentura amerického ministerstva obrany,“ popisuje Szöke. „Pracujeme na technologiích pro identifikaci řečníka a řeči ve velmi těžkém prostředí,“ uzavírá.