Nejlepší stratég na světě? Samouk AlphaGo Zero!

Tensor Processing Unit je vysoce specializovaná výpočetní jednotka, která namísto běžného procesoru obsahuje TPU – Tensor Processing Unit pro strojové učení.

Tensor Processing Unit je vysoce specializovaná výpočetní jednotka, která namísto běžného procesoru obsahuje TPU – Tensor Processing Unit pro strojové učení. Zdroj: DeepMind

Tensor Processing Unit je vysoce specializovaná výpočetní jednotka, která namísto běžného procesoru obsahuje TPU – Tensor Processing Unit pro strojové učení.
Superpočítač AlphaGo sestavený z procesorů Google Tensor Processing Unit pro strojové učení.
Světová jednička ve hře go, Kche Ťie, se třikrát utkal s Alpha go a pokaždé prohrál
Loňský souboj špičkových hráčů s AlphaGo
Garry Kasparov a souboj s počítačem Deep Blue v roce 1997
10
Fotogalerie

Umělá inteligence AlphaGo Zero je nejlepším hráčem asijské deskové hry go na světě. Nikdo ji hrát neučil – mistrovství se dopracovala sama, bez cizí pomoci. Nejlepší hráči světa proti ní nemají nejmenší šanci.

 

Pro dva a půl tisíciletí starou deskovou hru go má hráč má k dispozici 181 černých kamenů a jeho protivník 180 bílých kamenů. Střídavě je kladou na průsečíky devatenácti vodorovných a devatenácti svislých linek. Cílem je obklíčit soupeřovy kameny souvislou linií vlastních kamenů a „zajmout nepřítele“.

Vyhrává ten, kdo na desce kontroluje rozsáhlejší „území“. K vyčíslení počtu všech možných postavení kamenů na desce pro go je zapotřebí číslo, kde za jedničkou následuje 761 nul. Pro celkový počet situací při šachových partiích vystačíme „jen“ s jedničkou následovanou 120 nulami.

Jedničku na světovém žebříčku šachistů Gariho Kasparova porazil počítač Deep Blue už v roce 1997. V té době však prohrávaly nejlepší počítače v partiích go i se začátečníkem s týdnem hrací praxe. I proto byli vědci přesvědčeni, že počítače se nejlepším hráčům go v blízké budoucnosti nevyrovnají.

Jenže před dvěma roky představili počítačoví experti z londýnské firmy Google DeepMind umělou inteligenci AlphaGo, která porazila v pěti partiích mistra Evropy Fan Huie přesvědčivě 5 : 0. Vylepšené verze AlphaGo pak vypráskaly v go celou světovou špičku včetně tehdejší světové jedničky Korejce Lee Sedola.

Základem úspěchu AlphaGo byla schopnost učit se z odehraných partií. Vědci krmili počítač ohromnými kvanty dat a AlphaGo se jejich „studiem“ neustále zlepšovala. Nyní prolomila umělá inteligence další pomyslnou hranici. Dopracovala se mistrovství vlastními silami.

Vědci zadali do počítače jen pravidla go a nechali umělou inteligenci, aby si sama hledala optimální tahy a strategie. AlphaGo Zero začínala skutečně od nuly naprosto náhodnými tahy a hrála sama proti sobě. Po čtyřiceti dnech a 30 milionech odehraných partií byla připravená čelit úřadujícímu nejlepšímu světovému hráči.

Tím není nikdo jiný než umělá inteligence AlphaGo Master. A výsledek tohoto souboje titánů? 100 : 0 pro samouka! AlphaGo Zero přitom měla k dispozici čtyři supervýkonné čipy v ceně asi 25 milionů dolarů. Jeho soupeř – starší verze AlphaGo – pracoval dokonce se 48 čipy. Ale nebylo mu to nic platné.

Jakou revoluci AlphaGo Zero přináší? Verze programu, která porazila Lee Sedola, podávala výkon na úrovni 3739 bodů v koeficientu Elo. Pro srovnání, momentální lidská světová jednička v go Číňan Ke Jie má v koeficientu Elo 3668 bodů. AlphaGo Zero dosáhl úrovně 3739 bodů po 36 hodinách samoučení. Jeho současná výkonnost se pohybuje na 5185 bodech. Není divu, že AlphaGo Zero odhalila tahy a strategie, jaké zatím „lidské“ go neznalo.

K čemu je nám počítač, s kterým si nikdo z obyčejných smrtelníků go nezahraje, protože by dostal velmi rychle napráskáno? Vědci plánují využití těchto umělých inteligencí například k hledání optimálních konfigurací atomů v nových materiálech. Slibují si od nich například výrazný pokrok při hledání nových supravodičů pracujících při pokojových teplotách.