Po Googlu by rád předpovídal budoucnost i Microsoft

Věštecká koule, ilustrační foto

Věštecká koule, ilustrační foto Zdroj: Profimedia.cz

Nejprve jsme internet jen plnili daty, teď se jejich analýzou pokoušíme předpovědět budoucnost. Ale nebojte se, žádné sci-fi se zatím nekoná, současná věda je totiž v plenkách.

Na internetu je všechno. Vypusťte do něj nějakého velmi výkonného robota, který si na rozdíl od člověka složí všechna drobná fakta dohromady, a v předstihu zjistíte, že se v příštích několika měsících výrazně zvýší cena dolaru. No, a jelikož jste jediní, kteří to ví, rychle proměníte veškeré své úspory za dolar a budete čekat na ten kýžený okamžik, kdy se z vás stanou boháči.

Předpověď Googlu: V zimě se šíří chřipka

Nutno podotknout, že ani v roce 2013 žádný podobný systém neexistuje, nebo se o něm alespoň neví. Google, který by mohl mít pravděpodobně nejucelenější znalost toho, co si myslíme a co děláme, poněvadž ví, co jako lidstvo hledáme na internetu skrze jeho nejrozšířenější vyhledávač, nabídl po letech vývoje leda předpovědní mapu chřipky, která vám sdělí, že v zimě trpí chřipkou nejčastěji lidé na severní polokouli, no a v létě zase ti na jihu. To je jistě úctyhodné zjištění, nicméně byste se k němu dobrali i bez analýzy miliard dotazů do vyhledávače.

Google Flu TrendsGoogle Flu Trends | Repro Zive.czGoogle Flu Trends by měl odhalit nástup chřipkové epidemie ve chvíli, kdy ještě oficiálně nepropukla, sleduje totiž, jestli v Googlu hledáme třeba léky proti rýmě. V praxi ale systém odhalil jen to, že v zimě trpí chřipkou více lidí než v létě. To není nic nepředvídatelného

Pokud se chcete dnes z internetu dozvědět něco o své vlastní budoucnosti, s trochou nadsázky bude nejkonkrétnější asi Death Clock.

Předpověď Microsoftu: Po záplavách přichází cholera

Vědci to nicméně nevzdávají a studují nové způsoby, jak se na základě dnešních a včerejších dat dozvědět, jak bude zítra – tedy běžná empirie, která se v předpovědích počasí používá odjakživa. Podobných studií existuje hromada, na začátku února však internetem prolétl dokument (PDF), který se od ostatních přeci jen lišil, na svědomí ho totiž má fundovaná analytička Kira Radinská z izraelského technologického institutu a Eric Horvitz. Zatímco Kira v minulosti dostala výzkumné granty od Googlu, Facebooku, Yahoo a dalších, Eric je pro změnu jedním z šéfů výzkumné divize Microsoft Research. Budoucnost tedy nehodlá předvídat pouze Google, ale i jeho úhlavní konkurent.

Dvojice na to šla trošku jinak než Google. Namísto toho, aby vědci předpovídali budoucnost na základě toho, co se zrovna nejčastěji vyhledává v Bingu, vypůjčili si všechna vydání The New York Times mezi lety 1986 až 2008 a strojově zpracovali texty všech článků. Tento postup pro ověření kvality jejich předpovědního modelu má totiž jednu výhodu – mohli v praxi ověřit, jestli se předpověď opravdu uskutečnila.

Vědci nejprve získali ohromné množství textových dat, která analyzovali pomocí obrovských databází souvislostí jako WordNet nebo třeba DBpedia. Podobný systém buduje i Google (Knowledge Graph) a je to vlastně relativně jednoduchá databáze, která dává slovům význam. Popisuje, že Praha je hlavní město České republiky, že slon je zvíře z Afriky a tak dále. Bez těchto souvislostí není Praha pro počítač ničím jiným než jen slovem o pěti znacích, u kterého můžeme měřit leda tak četnost výskytu.

Po zpracování tisíců titulků článků a identifikaci slov pomocí těchto databází souvislostí mohli Horvitz a Radinská konečně začít předpovídat. Podobně jako Google se zaměřili na nemoci a dále také na úmrtí a nepokoje. Důvod je zřejmý – o všech těchto událostech se běžné v novinách píše, a jelikož jsou to masové a dostatečně obecné události, lze je rámcově předpovídat.

Po afrických záplavách se začne šířit choleraPo afrických záplavách se začne šířit cholera | Repro Zive.czMicrosoft po analýze tisíců článků The New York Times zjistil, že když v horké Africe propuknou záplavy, do několika měsíců se začne šířit cholera

Výsledkem jejich snahy je algoritmus, který u těchto typů předpovědí dosahuje úspěšnosti někde mezi 70 až 90 procenty. Vědci třeba správně odhalili epidemii cholery v africké Angole, která nastala po záplavách a vlně dešťů, nebo nepokoje v Bronxu. Každá z těchto událostí měla svou příčinu, která se odehrála třeba i o několik měsíců dříve a média o každé z těchto příčin referovala jen útržkovitě na poslední straně – tehdy to ještě nebylo čtenářsky vděčné téma, v počítači však už přesto začal bzučet varovný majáček.

Microsoft prý zatím sice neuvažuje o nasazení této technologie do nějakého konkrétního komerčního produktu, divize Research ale bude závěry studie nadále rozvíjet a vylepšovat. V další fázi tedy začne systém předpovídat události už na základě současných informací a s mnohem větším zdrojem dat.

Nicméně ani v tomto případě se nejedná o žádnou zázračnou technologii s neskutečnými výsledky, která na základě analýzy internetu změní svět. K čemu vlastně vědci došli při testování? Že když dojde na africkém kontinentu k záplavám a dlouhým dešťům, hrozí riziko vypuknutí cholery, které je mnohem vyšší, než když dojde k záplavám v Argentině. Opravdu je třeba pro tento závěr analyzovat miliony slov v The New York Times?

Tak kde jsou tedy všechny ty futuristické programy, které o nás ví naprosto všechno? Možná je mají k dispozici vládní agentury USA. Dobře tedy, podívejme se, do čeho v minulosti investovala třeba CIA.

Recorded Future

Jde o několik let starý startup Recorded Future, jehož název napovídá, že tady bychom si už mohli konečně vyzkoušet něco hmatatelnějšího, nejen jakousi studii na papíře. Recorded Future je služba, kterou si omezeně může vyzkoušet každý zájemce zcela zdarma. Má jediný úkol, indexuje vše, co se děje na Twitteru a některých dalších zdrojích. Tyto informace se snaží pochopit, takže při zadání jména nadcházejícího českého prezidenta vám služba zprávičky o Miloši Zemanovi rozdělí do nejrůznějších skupin a vztahů.

Miloš Zeman na Recorded FutureMiloš Zeman na Recorded Future | Repro Zive.czMiloš Zeman na Recorded Future

Pokud tedy prolétne Twitterem zprávička o tom, že se na březen plánuje velká demonstrace v Káhiře, při vyhledání slov Egypt byste na časové ose viděli zmínku právě v březnu. Ovšem pouze v tom případě, že o demonstraci psalo více lidí a má tedy dostatečnou váhu na to, aby ji Recorded Future vůbec vzal na vědomí.

Recorded Future sám o sobě budoucnost nepředpovídá, nicméně zkušenému uživateli dává možnost tuto budoucnost odhalit, poněvadž mu neservíruje kontextová data. Můžete je srovnat třeba s výsledky hledání přímo na Twitteru. Tam získáte jen proud milionů zpráviček. Recorded Future určí jejich důležitost podle toho, jak často se jejich téma opakuje, pokusí se je podle obsahu rozdělit do různých skupin a vynést na časovou osu.

Síť vztahů iPhonu jak ji vidí Recorded FutureSíť vztahů iPhonu jak ji vidí Recorded Future | Repro Zive.czSíť vztahů iPhonu jak ji vidí Recorded Future

Předpověď PredPolu: V rizikových oblastech se krade

Další experimentální vědmou, o které jsme na Živě.cz už také psali, je americký policejní systém PredPol, který tak trochu připomíná děj filmu Minority Report. PredPol totiž dokáže předpovědět místo a typický čas trestného činu. Nevyužívá k tomu nicméně mutanty ležící ve sladkokyselém nálevu, ale opět empirii, tedy historická data. Pokud jsou některé části Los Angeles v určitou hodinu nebezpečnější než druhé, PredPol v kriticky okamžik upozorní policisty, že je momentálně velmi vysoká pravděpodobnost páchání trestného činu v sektoru XYZ.

PredPol vytipuje místa, kde se dnes uskuteční zločinPredPol vytipuje místa, kde se dnes uskuteční zločin | Repro Zive.czPredPol vytipuje místa, kde se dnes uskuteční zločin

Předpověď Googlu: Když lidé hledají Toyotu, kupují ji

A to jsou momentálně pravděpodobně ty nejznámější úspěchy předpovídání budoucnosti na základě dat z internetu. Výzkumníci Googlu občas napíšou také nějakou tu studii o tom, jak se jim podařilo předpovědět, kam pojedou Američané na dovolenou na základě nejhledanějších destinaci v době letních prázdnin a také prodeje automobilů podle nejhledanějších značek, ale nic konkrétnějšího očividně zatím nedokážeme. Skoro byt se dalo napsat naštěstí.

Zájem o značky aut v Googlu v průběhu času a korelace se skutečnými prodejiZájem o značky aut v Googlu v průběhu času a korelace se skutečnými prodeji | Repro Zive.czZájem o značky aut v Googlu v průběhu času a korelace se skutečnými prodeji

Nejspíš tam někde na internetu leží všechny potřebné informace, ale zatím nikdo nevymyslel software, který by to opravdu dokázal všechno propojit a dát tomu smysl. S jistým klidem v duši tedy můžeme konstatovat, že jsme i v roce 2013 pány své budoucnosti. Tedy prozatím.

V odhadování budoucnosti a dávání smyslu nestrukturovaným datům jsou nicméně hodně vepředu například HP a SAP. HP díky Autonomy například může analyzovat data na sociálních sítích a webu a předpovídat tak chřipkové epidemie v daných lokalitách. Podle SAPu jsou zase data v reálném čase začátek nové éry, který mimo jiné umožní předvídat chování zákazníků a trhů.

Zdroj: Živě.cz