Pokud se může anglicky naučit Pepa z Uničova, proč to dělá takové obtíže službě Bing Translator a Google Translate? Možná je to jednodušší, než si myslíte. Zatímco Pepa z Uničova se anglicky naučil díky pedantskému přístupu středoškolské profesorky a po večerech se při svitu luny „bifloval“ slovíčka, pravidla a gramatiku, Google i Microsoft si zvolily úplně jinou cestu – nabiflovaly se různé jazykové verze jednoho a téhož textového dokumentu.
Jedná se o takzvané statistické strojové překlady – v anglické terminologii statistical machine translation a předpokládá se u nich, že když se nazpaměť naučíte dvě identické knihy v různých jazycích, věta na 34. straně z knihy A bude odpovídat větě na 34. straně z knihy B. Pokud se takových knih naučíte desítky a stovky, statisticky už budete moci odhadnout, kterému slovnímu spojení jednoho jazyka bude odpovídat spojení z druhého jazyka. Prostě vyberete to, které se v překladu a v daném kontextu vyskytuje nejčastěji.
Čím více bilingválních textů, tím přesnější překlad
Aby to fungovalo co nejlépe, je třeba, aby si byly oba jazyky vnitřně co nejpodobnější (angličtina, němčina aj.) a abyste těch knih nastudovali co nejvíce. Podle inženýra Franze Josefa Ocha budete pro základní a alespoň částečně funkční statistický strojový překladač potřebovat dva stejné texty v různých jazycích, které se skládají alespoň z jednoho milionu slov. Pro pochopení každého z dílčích jazyků pak potřebujete pro každý ještě text alespoň s miliardou slov. Pokud byste tedy na světě našli dvě zcela identické univerzitní knihovny, ale jedna by obsahovala knihy v české verzi a druhá v anglické, pravděpodobnostní statistika by vám dala odpověď na jakýkoliv překlad. I k tomu nejzvláštnějšímu anglickému spojení byste totiž našli nejpravděpodobnější českou verzi.
A to se už dostáváme k jádru věci. Takové naklonované knihovny prostě neexistují, a proto jsou statistické strojové překlady nepřesné a občas se do nich dostane i nějaký ten nesmysl, který by u strojového překladu na bázi známých pravidel jazyka nepřišel v úvahu. Jednou z takových úsměvných chyb je třeba slovo „brno“ s malým „B“. Při překladu z češtiny do angličtiny jej Google přeloží jako Chicago. Brno s velkým „B“ už ale problémy nedělá. Pokud by se Google učil překládat dva jazyky na základě bilingvální knihy, kde v české verzi použije autor jméno Pepa a v anglické Karel, naučí se Google překládat Pepu na Karla.
Dobrý zdroj – dokumenty OSN
Statistické překlady z angličtiny do češtiny jsou chybové, jelikož Google nemá po ruce dostatek bilingválních knih, dokumentů a dalších zdrojů. Naopak u jazykové dvojice španělština – angličtina bude situace úplně jiná, jelikož takových bilingválních textů existuje nepřeberné množství nejen díky této nejčastější jazykové „menšině“ v USA.
Ideálním zdrojem bilingválních textů pro Bing Translator a Google Translate jsou třeba dokumenty OSN (i zde ale chybí čeština), dokumenty EU, na jejichž indexování se dohodl Google s evropskými úřady relativně nedávno, Bible jakožto nejpřekládanější kniha světa, anebo různé jazykové verze dokumentace a lokalizace třeba k Windows.Tlačítko XYZ ve Windows 7 má několik desítek jazykových verzí, takže tato obrovská multilingvální báze může Microsoftu skutečně pomoci.
Čeština „ve stroji“ stále drhne, ale překladače se lepší
Google a Bing by měly teoreticky disponovat nejlepšími statistickými strojovými překladači, jelikož mají nejvíce zkušeností s řazením a analýzou textové informace. Strojové překladače pro ně tedy mohou být dalším vedlejším produktem, který přirozeně vzniká na datech z vyhledávače.
Na kvalitní a bez problému srozumitelné strojové překlady do češtiny si tedy budeme muset ještě nějaký pátek počkat. Pokud se ale (nejlépe) v angličtině vyznáte a ovládáte ji přinejmenším pasivně, statistické překladače vám mohou skutečně velmi pomoci. Američané totiž překládají texty nejvíce ze všech (nejméně ovládají jiné jazyky) a tudíž disponují největším počtem textových jazykových dvojic, které lze analyzovat. Lze předpokládat, že zvláště dvojice angličtina – španělština nebo třeba angličtina – němčina bude v obou směrech fungovat docela slušně. Více o strojových překladačích čtěte v článku na .