Kdy vyzrají strojové překladače na babylónský trest?

Podle Bible se stavbou Babylónské věže chtěli lidé vyvýšit nad Boha, který je ztrestal zmatením jazyků

Podle Bible se stavbou Babylónské věže chtěli lidé vyvýšit nad Boha, který je ztrestal zmatením jazyků

Slovní spojení „drahoušek zákazník“ je do jisté míry symbolem strojového překladače a strojově překládaného spamu v poště. Proč strojové překladače občas překládají nesmysly? Pokaždé, když přijdu do styku se strojovými překlady, nestačím se divit, jaké nesmysly a iracionální patvary dokáže Google nebo Microsoft stvořit. Občas je to slovy internetového diskutéra skutečně „jedno velké WTF!“. Jak to, že jsou překladače tak neschopné, když je vyvíjejí firmy s miliardovými rozpočty?

Pokud se může anglicky naučit Pepa z Uničova, proč to dělá takové obtíže službě Bing Translator a Google Translate? Možná je to jednodušší, než si myslíte. Zatímco Pepa z Uničova se anglicky naučil díky pedantskému přístupu středoškolské profesorky a po večerech se při svitu luny „bifloval“ slovíčka, pravidla a gramatiku, Google i Microsoft si zvolily úplně jinou cestu – nabiflovaly se různé jazykové verze jednoho a téhož textového dokumentu.

Jedná se o takzvané statistické strojové překlady – v anglické terminologii statistical machine translation a předpokládá se u nich, že když se nazpaměť naučíte dvě identické knihy v různých jazycích, věta na 34. straně z knihy A bude odpovídat větě na 34. straně z knihy B. Pokud se takových knih naučíte desítky a stovky, statisticky už budete moci odhadnout, kterému slovnímu spojení jednoho jazyka bude odpovídat spojení z druhého jazyka. Prostě vyberete to, které se v překladu a v daném kontextu vyskytuje nejčastěji.

Čím více bilingválních textů, tím přesnější překlad

Aby to fungovalo co nejlépe, je třeba, aby si byly oba jazyky vnitřně co nejpodobnější (angličtina, němčina aj.) a abyste těch knih nastudovali co nejvíce. Podle inženýra Franze Josefa Ocha budete pro základní a alespoň částečně funkční statistický strojový překladač potřebovat dva stejné texty v různých jazycích, které se skládají alespoň z jednoho milionu slov. Pro pochopení každého z dílčích jazyků pak potřebujete pro každý ještě text alespoň s miliardou slov. Pokud byste tedy na světě našli dvě zcela identické univerzitní knihovny, ale jedna by obsahovala knihy v české verzi a druhá v anglické, pravděpodobnostní statistika by vám dala odpověď na jakýkoliv překlad. I k tomu nejzvláštnějšímu anglickému spojení byste totiž našli nejpravděpodobnější českou verzi.

A to se už dostáváme k jádru věci. Takové naklonované knihovny prostě neexistují, a proto jsou statistické strojové překlady nepřesné a občas se do nich dostane i nějaký ten nesmysl, který by u strojového překladu na bázi známých pravidel jazyka nepřišel v úvahu. Jednou z takových úsměvných chyb je třeba slovo „brno“ s malým „B“. Při překladu z češtiny do angličtiny jej Google přeloží jako Chicago. Brno s velkým „B“ už ale problémy nedělá. Pokud by se Google učil překládat dva jazyky na základě bilingvální knihy, kde v české verzi použije autor jméno Pepa a v anglické Karel, naučí se Google překládat Pepu na Karla.

Dobrý zdroj – dokumenty OSN

Statistické překlady z angličtiny do češtiny jsou chybové, jelikož Google nemá po ruce dostatek bilingválních knih, dokumentů a dalších zdrojů. Naopak u jazykové dvojice španělština – angličtina bude situace úplně jiná, jelikož takových bilingválních textů existuje nepřeberné množství nejen díky této nejčastější jazykové „menšině“ v USA.
Ideálním zdrojem bilingválních textů pro Bing Translator a Google Translate jsou třeba dokumenty OSN (i zde ale chybí čeština), dokumenty EU, na jejichž indexování se dohodl Google s evropskými úřady relativně nedávno, Bible jakožto nejpřekládanější kniha světa, anebo různé jazykové verze dokumentace a lokalizace třeba k Windows.Tlačítko XYZ ve Windows 7 má několik desítek jazykových verzí, takže tato obrovská multilingvální báze může Microsoftu skutečně pomoci.

Čeština „ve stroji“ stále drhne, ale překladače se lepší

Google a Bing by měly teoreticky disponovat nejlepšími statistickými strojovými překladači, jelikož mají nejvíce zkušeností s řazením a analýzou textové informace. Strojové překladače pro ně tedy mohou být dalším vedlejším produktem, který přirozeně vzniká na datech z vyhledávače.
Na kvalitní a bez problému srozumitelné strojové překlady do češtiny si tedy budeme muset ještě nějaký pátek počkat. Pokud se ale (nejlépe) v angličtině vyznáte a ovládáte ji přinejmenším pasivně, statistické překladače vám mohou skutečně velmi pomoci. Američané totiž překládají texty nejvíce ze všech (nejméně ovládají jiné jazyky) a tudíž disponují největším počtem textových jazykových dvojic, které lze analyzovat. Lze předpokládat, že zvláště dvojice angličtina – španělština nebo třeba angličtina – němčina bude v obou směrech fungovat docela slušně. Více o strojových překladačích čtěte v článku na .