Brněnská firma zdokonaluje rozpoznávání hlasu, využívá už i prvky umělé inteligence

Ilustrační foto

Ilustrační foto Zdroj: Phonexia

Rozpoznávání hlasu je zase o něco pokročilejší. Brněnská firma Phonexia představila novou verzi technologie, která je výrazně rychlejší a přesnější oproti svému předchůdci. Využití nachází zejména u bezpečnostních složek, uplatnit se může ale i u bank.

Brněnská technologická firma Phonexia, která dodává technologii na rozpoznávání hlasu i zahraničním bezpečnostním složkám, loni dosáhla zisku před zdaněním 7,5 milionu korun. Tržby se oproti minulému roku téměř zdvojnásobily na zhruba 50 milionů korun. V letošním roce Phonexia plánuje růst tržeb o dalších 60 procent a rozšířit svůj tým na 60 zaměstnanců.

Pomoci k tomu má nová technologie Deep Embeddings, která jako údajně první na světě pro identifikaci hlasu využívá výhradně neuronové sítě. Ty využívají strojového učení k tomu, aby rozpoznávaly unikátní prvky hlasu každé osoby, což podle firmy pomáhá zásadně zvýšit přesnost a rychlost identifikace osoby. Hlavním přínosem uvedené metody je její efektivita, algoritmy se v konečném důsledku v podstatě učí identifikovat konkrétní hlasy „samy“. 

Firma přitom technologii pouze vyvíjí, ke klientům se dostává až prostřednictvím partnerů, kteří ji pro ně nastaví tak, aby pro ně byla co nejužitečnější.    

Technologie Deep Embeddings, která byla představena na konci března, ovšem zatím nemá žádného koncového uživatele, u řady klientů ale partneři technologii již ladí pro konkrétní použití.

Jinak to je u starší verze, která se už využívá jak v komerčním sektoru, tak v oblasti bezpečnostních složek. Mezi uživateli nechybí ani forenzní laboratoř Spolkového kriminálního úřadu.

Pro bezpečnostní složky je zajímavá zejména schopnost rozpoznat řečníka, jeho pohlaví nebo dokonce i přibližný věk. „Technologii tak lze využít například při identifikaci pachatelů trestných činů nebo odhalování možných teroristických hrozeb. V komerčním sektoru ji lze uplatnit například při hlasové autorizaci úkonů v bankách,” vyjmenovává potenciál nové technologie Michal Hrabí, výkonný ředitel společnosti Phonexia.

Využití je ale širší, neuronové síťě umožňují vyhledávat v nahrávkách řeči stejně snadno, jako lidé vyhledávají hesla na internetu. Otevírá se tak další zdroj informací, jako například vyhledávání v přednáškách, hlasových poznámkách a podobně.

Firmu Phonexia, která na vývoji spolupracovala s Fakultou informačních technologií VUT, založilo v roce 2006 šest vědců. Nyní poskytuje služby pro kontaktní centra, finanční instituce a organizace bojující s kriminalitou ve více než 60 zemích. Právě ze zahraničí loni pocházely čtyři pětiny všech tržeb.

V tuzemsku jsou ale i další vývojová centra, která se zaměřují na analýzu mluveného slova. Například na Technické univerzitě v Liberci se specializují na rozpoznávání a diktování češtiny, na Západočeské univerzitě zase vyvinuli systém schopný titulkovat živé pořady.