Lesk a bída velkých dat

Google

Google Zdroj: profimedia

Konference společnosti Facebook
Facebook
Akcie Facebooku
Nový český start-up Datawall ze sféry sdílení dat.
Uber, ilustrační foto
20
Fotogalerie

Pojem Big data, ještě před pár lety používaný spíše v odborné sféře informačních technologií, se v posledních pár letech stává téměř celospolečenským tématem. Kromě momentů, kdy se velké firmy, fungující právě na těchto datech (Google, Facebook a další), chlubí novými funkcemi, se objevují také cílené snahy téma otevřít širší veřejnosti. Pražská galerie DOX například nedávno spustila výstavu Big Bang Data, která se právě fenoménem „velkých dat“ zabývá.

Když se mluví o „velkých datech“, nejčastěji se člověku vybaví právě zmiňované firmy, sbírající osobní údaje uživatelů. Data jsou ovšem sbírána i jinde, někdy i v mnohem větší míře. Může jít o medicínu a farmacii, měření údajů z vozů Formule, data potřebná pro fungování „smart cities“, tedy chytrých (zpracujících data pro efektivní fungování dopravy a podobně) měst nebo informace z urychlovače částic v CERNu.


Jak je ze zmíněných příkladů využití dat zřejmé, pomáhají s výzkumem a pokrokem, který by jinak nebyl možný. Můžeme se dozvědět věci o světě i o sobě - “datafikací” našeho zdraví, spánku, stravování, pohybu a chování obecně. A v budoucnu nám otevřou mnoho dalších možností, ať jsou to právě vyvíjená a testovaná samořídící vozidla, program Watson od IBM, zaměřující se na pomoc lékařů s rozhodováním díky znalosti právě vydaných lékařských výzkumů a příbalových letáků léků, nebo chytřejší systémy navádění vesmírných raket, které umožnily firmě SpaceX snížit náklady na start díky znovupoužitelnosti části rakety s nádrží.

Je však potřeba se podívat i na druhou stranu věci, tedy na to, v čem jsou “velká data” problematická. Jeden ze základních příslibů “velkých dat”, potažmo celé informační doby, je schopnost objektivně, kompetentně a bez předsudků vyhodnocovat situace či problémy a dospět k jejich řešení. Jsme přesvědčeni, že algoritmus s přístupem k dostatečnému množství dat bude schopen dojít k nejlepšímu možnému a současně nejobjektivnějšímu řešení.


Může nás to vést ke dvěma (mylným) závěrům:
Začínáme věřit, že všechno se dá převést na data, roztřídit a zpracovat.
A věříme, že výsledky získané počítačem jsou důvěryhodné a máme se podle nich řídit.

Když se však na data a jejich zpracování podíváme pořádně, zjistíme, že takhle jednoduché to není. Problém nastává už v získávání dat, které je (ač většinou ne cíleně) ovlivněné minimálně dostupností technologií a v tuto chvíli je centralizováno zejména v USA a Evropě. Zároveň i v těchto oblastech se při sběru dat snadno upevňují společenské stereotypy. Příkladem může být výše platů. V současnosti se objevuje zřejmý problém s takzvaným gender pay gap, neboli rozdílem mezi platy mužů a žen. Pokud aktuální data předáme algoritmu pro určování platů jednotlivých zaměstnanců, výsledkem bude upevnění současného stavu. Stejná situace může nastat například i u přijímání nových zaměstnanců.

Další problém je samotné zpracování dat. To se s rostoucí komplexností stává nečitelné i pro samotné tvůrce. Dobrým příkladem může být program AlphaGo od Google, ten opakovaně vyhrával v turnaji Go proti nejlepším hráčům světa takovými tahy, které nepředpokládal nejen jeho protihráč, ale ani sami programátoři, co se na vytvoření programu podíleli.

Fakt, že pro běžné uživatele je v podstatě nemožné mít představu, jak se data zpracovávají, nám často nedává jinou možnost, než jim prostě věřit bez pochybování. Zároveň také komplikuje rozhodnutí, kdo nese odpovědnost (ať už právní, nebo morální) za to, co algoritmus udělá.

Debata o odpovědnosti za tato rozhodnutí se pomalu začíná vést, jedním z nejviditelnějších témat jsou samořídící vozidla, jejichž rozhodování v kritických situacích může vést ke zranění, či dokonce smrti osob. S ohledem na to, že legislativa v této oblasti právě vzniká, nebo nejspíš v nejbližších letech bude (ve Spojených státech je v některých zemích používání vozidla povoleno s tím, že zatím schválené zákony nechávají odpovědnost za nehody na výrobci, což zajišťuje autonomnost vozidla), se v Česku můžeme stát přímými účastníky diskuze, jejíž výsledek může mít pro naši zemi velký, zejména ekonomický, dopad.

Jak je vidět, velká data jsou tématem, se nímž se v nejbližší budoucnosti budeme nejspíše setkávat stále častěji a bude se prohlubovat jejich vliv na fungování světa. To je jistě pozitivní zpráva, neboť pomáhají neobyčejnému pokroku a mohou nám pomoci lépe poznat svět, společnost i sebe. Je však potřeba vnímat i to, že velká data mají své limity a jejich zpracování má rizika. Stejně tak je jen na nás, nakolik budeme získaným výsledkům věřit.