Kdy vyzrají strojové překladače na babylónský trest?

Podle Bible se stavbou Babylónské věže chtěli lidé vyvýšit nad Boha, který je ztrestal zmatením jazyků

Živě.cz , Jakub Čížek

20. července 2011 · 13:07

Slovní spojení „drahoušek zákazník“ je do jisté míry symbolem strojového překladače a strojově překládaného spamu v poště. Proč strojové překladače občas překládají nesmysly? Pokaždé, když přijdu do styku se strojovými překlady, nestačím se divit, jaké nesmysly a iracionální patvary dokáže Google nebo Microsoft stvořit. Občas je to slovy internetového diskutéra skutečně „jedno velké WTF!“. Jak to, že jsou překladače tak neschopné, když je vyvíjejí firmy s miliardovými rozpočty?

Pokud se může anglicky naučit Pepa z Uničova, proč to dělá takové obtíže službě Bing Translator a Google Translate? Možná je to jednodušší, než si myslíte. Zatímco Pepa z Uničova se anglicky naučil díky pedantskému přístupu středoškolské profesorky a po večerech se při svitu luny „bifloval“ slovíčka, pravidla a gramatiku, Google i Microsoft si zvolily úplně jinou cestu – nabiflovaly se různé jazykové verze jednoho a téhož textového dokumentu.

Jedná se o takzvané statistické strojové překlady – v anglické terminologii statistical machine translation a předpokládá se u nich, že když se nazpaměť naučíte dvě identické knihy v různých jazycích, věta na 34. straně z knihy A bude odpovídat větě na 34. straně z knihy B. Pokud se takových knih naučíte desítky a stovky, statisticky už budete moci odhadnout, kterému slovnímu spojení jednoho jazyka bude odpovídat spojení z druhého jazyka. Prostě vyberete to, které se v překladu a v daném kontextu vyskytuje nejčastěji.

Čím více bilingválních textů, tím přesnější překlad

Aby to fungovalo co nejlépe, je třeba, aby si byly oba jazyky vnitřně co nejpodobnější (angličtina, němčina aj.) a abyste těch knih nastudovali co nejvíce. Podle inženýra Franze Josefa Ocha budete pro základní a alespoň částečně funkční statistický strojový překladač potřebovat dva stejné texty v různých jazycích, které se skládají alespoň z jednoho milionu slov. Pro pochopení každého z dílčích jazyků pak potřebujete pro každý ještě text alespoň s miliardou slov. Pokud byste tedy na světě našli dvě zcela identické univerzitní knihovny, ale jedna by obsahovala knihy v české verzi a druhá v anglické, pravděpodobnostní statistika by vám dala odpověď na jakýkoliv překlad. I k tomu nejzvláštnějšímu anglickému spojení byste totiž našli nejpravděpodobnější českou verzi.

A to se už dostáváme k jádru věci. Takové naklonované knihovny prostě neexistují, a proto jsou statistické strojové překlady nepřesné a občas se do nich dostane i nějaký ten nesmysl, který by u strojového překladu na bázi známých pravidel jazyka nepřišel v úvahu. Jednou z takových úsměvných chyb je třeba slovo „brno“ s malým „B“. Při překladu z češtiny do angličtiny jej Google přeloží jako Chicago. Brno s velkým „B“ už ale problémy nedělá. Pokud by se Google učil překládat dva jazyky na základě bilingvální knihy, kde v české verzi použije autor jméno Pepa a v anglické Karel, naučí se Google překládat Pepu na Karla.

Dobrý zdroj – dokumenty OSN

Statistické překlady z angličtiny do češtiny jsou chybové, jelikož Google nemá po ruce dostatek bilingválních knih, dokumentů a dalších zdrojů. Naopak u jazykové dvojice španělština – angličtina bude situace úplně jiná, jelikož takových bilingválních textů existuje nepřeberné množství nejen díky této nejčastější jazykové „menšině“ v USA.
Ideálním zdrojem bilingválních textů pro Bing Translator a Google Translate jsou třeba dokumenty OSN (i zde ale chybí čeština), dokumenty EU, na jejichž indexování se dohodl Google s evropskými úřady relativně nedávno, Bible jakožto nejpřekládanější kniha světa, anebo různé jazykové verze dokumentace a lokalizace třeba k Windows.Tlačítko XYZ ve Windows 7 má několik desítek jazykových verzí, takže tato obrovská multilingvální báze může Microsoftu skutečně pomoci.

Čeština „ve stroji“ stále drhne, ale překladače se lepší

Google a Bing by měly teoreticky disponovat nejlepšími statistickými strojovými překladači, jelikož mají nejvíce zkušeností s řazením a analýzou textové informace. Strojové překladače pro ně tedy mohou být dalším vedlejším produktem, který přirozeně vzniká na datech z vyhledávače.
Na kvalitní a bez problému srozumitelné strojové překlady do češtiny si tedy budeme muset ještě nějaký pátek počkat. Pokud se ale (nejlépe) v angličtině vyznáte a ovládáte ji přinejmenším pasivně, statistické překladače vám mohou skutečně velmi pomoci. Američané totiž překládají texty nejvíce ze všech (nejméně ovládají jiné jazyky) a tudíž disponují největším počtem textových jazykových dvojic, které lze analyzovat. Lze předpokládat, že zvláště dvojice angličtina – španělština nebo třeba angličtina – němčina bude v obou směrech fungovat docela slušně. Více o strojových překladačích čtěte v článku na .

Kdy vyzrají strojové překladače na babylónský trest?

Čím více bilingválních textů, tím přesnější překlad

Dobrý zdroj – dokumenty OSN

Čeština „ve stroji“ stále drhne, ale překladače se lepší

Doporučujeme

Výlučnost Ameriky? Wall Street ji nikdy neztratila. Vítězi se stanou současní poražení

Konec skládání několika jízdenek. Cestování vlakem po Evropě čeká revoluce známá z letadel

IBM nalije deset miliard dolarů do vývoje kvantových počítačů. Technologickou revoluci podpoří i vláda

Bývalý šéf Volkswagenu Herbert Diess chystá elektrický traktor

V ateliéru na pražských Vinohradech vyrábí šperky. Jsou na pomezí umění a designu a nejsou bez rizika

Zapomenuté kouty Chorvatska, kde budete úplně sami

Články z jiných titulů

Nedělní hádky politiků kvůli premiérovi a jeho střetu zájmů. Slova o Babišismu i zamáčknutých slzičkách

Herecký talent Antonio Šoposki: Sexuální scéna není nic jiného než choreografie

Mototest Honda SH125i Smart Top Box: Cestou postupného růstu

Spálená pokožka, zraněná pokožka: Vyhledejte stín, správné produkty a buďte nazí

Starbucks po devíti měsících odstavil AI systém na počítání zásob. Zaměstnanci to zvládají přesněji a spolehlivěji

Největší past moderní dovolené? Tohle všichni dělají, pak toho litují

Tohle béčku Sparty chybělo. Druholigový Haaland o mentorství: V týmu potřebujete zkušené

Zaklínač 4 bez velkých DLC? CD Projekt RED údajně mění strategii pro novou trilogii

Pavlovi v helmách mezi záchranáři. První dáma Eva s prezidentem sledovali závody hasičů i policistů

Stále patřím mezi nejlepší piloty v F1, tvrdí Pérez

Pavel pro Blesk: Velice škodlivý krok Zemana! Co říká na tlak na ČT či náčelníka Hlaváče?