Česká věda patří v umělé inteligenci k evropské špičce, říká vědec oceněný prestižním grantem
Je jedním z mála českých vědců, který získal prestižní ocenění ERC Advanced Grant. Odborník na umělou inteligenci z ČVUT Josef Šivic získal z evropských fondů 2,5 milionu eur, téměř 60 milionů korun, aby naučil roboty sdílet své zkušenosti. „Umělá inteligence je motor, který žene vpřed řadu oblastí. A jestliže nechceme zůstat pozadu, musíme tomuto motoru velmi dobře rozumět a také umět tento motor vyvíjet,“ říká v rozhovoru pro E15.
Na co použijete grant?
Umělá inteligence umí řešit pro člověka těžko zvladatelné úkoly, jako jsou generování počítačových programů nebo kreativních obrázků. Naopak jiné úlohy, které lidé považují za triviální a všední, jako je vnímání okolního prostředí a interakce s ním, zvládají stroje velmi obtížně. Běžně využívané průmyslové roboty jsou předprogramované na jednu konkrétní úlohu a nedokážou řešit jiné úlohy v měnícím se trojrozměrném světě. Pokud je člověk přemístí do jiného prostředí, v lepším případě neudělají nic a v horším něco rozbijí.
ERC Projekt Frontier spojuje počítačové vidění, strojové učení a robotiku a jeho cílem je vyvinout neurální architekturu, která kombinuje rozsáhlé neuronové sítě s učícími se fyzikálními simulačními komponenty. Vyvineme také nové algoritmy, které umožní učení složitých vícekrokových úkolů jen z několika málo příkladů – podobně jako se umí učit člověk. Nejambicióznějším cílem je vyvinout algoritmy, které by strojům umožňovaly navzájem sdílet nabyté zkušenosti a tím se lépe a rychleji učit fungovat s okolním světem. To je ale velmi těžké, protože jednotlivé stroje budou řešit různé úkoly v rozdílných prostředích.
Vzájemné sdílení zkušeností si máme představit jako nějaké kolektivní vědomí?
Současné velké neuronové modely se mohou učit z velkého množství dat. Můžete si představit, že „přečtou“ stovky milionů stran textu. Docílit podobného množství trénovacích dat u stroje, který musí interagovat s okolním prostředím, aby data získal, je mnohem těžší. Interakce s fyzickým okolním prostředím je omezující prvek, a proto podobné škálování dat na jednom stroji není jednoduché. Nasnímat na jednom stroji takové obří množství dat prostě nelze. Klíčovým krokem tedy je umožnit jednotlivým strojům důležité zkušenosti vzájemně sdílet. Nemusejí to přímo být nasnímaná data, ale například parametry lokálně trénovaných modelů strojového učení. A právě tuto oblast budeme v projektu rozvíjet.
Jak velký je váš tým?
Má teď patnáct lidí včetně studentů. ERC projekt ho výrazně podpoří.
Jaký výsledek grant vyžaduje?
Hlavním výstupem budou vědecké publikace, ale typicky i vědecký software, který umožní dosažené výsledky jednoduše zreprodukovat, a to v neposlední řadě natrénované modely. Cílem je všechny výsledky zpřístupnit ostatním vědcům v rámci otevřené vědy.
Průlomový pokrok v těchto problémech by měl velký dopad na náš každodenní život a ekonomiku. Výstupy z tohoto výzkumu by například mohly vést k bezpečnějším automobilům, které navzájem sdílejí své zkušenosti, inteligentním výrobním linkám, jež se spolu přizpůsobují novým pracovním postupům, nebo k nové generaci inteligentních asistenčních robotů, které se automaticky učí novým dovednostem z internetu a jeden od druhého.
To, že implementace algoritmů, které případně vzejdou z vašeho bádání, budou open source, je podmínkou grantu?
Podmínka to není, jen vědecké publikace musejí být veřejně dostupné. Nicméně v komunitě počítačového vidění, strojového učení a obecněji umělé inteligence jsou i implementace vyvinutých algoritmů, natrénované modely a použité datové sady běžně otevřené. Záleží na konkrétní licenci, která je někdy omezená jen na nekomerční, tedy výzkumné účely. Důležité je, že výsledky jsou tak snadno reprodukovatelné dalšími vědci, což obrovsky zrychluje pokrok.
Právě princip open source je záležitost, která se v případě AI systémů hodné řeší, jak se na to díváte vy?
Je to důležité. V případě velkých neuronových modelů to umožňuje celé vědecké komunitě AI systémy dále zkoumat, vylepšovat je a také studovat jejich limity a dopady. Ukazuje se, že velké neuronové modely je možné pomocí takzvaných adaptivních vrstev s řádově menšími výpočetními náklady a datovými nároky adaptovat na další úlohy, dále rozšiřovat a vylepšovat, což otevírá velmi zajímavé možnosti pro celou vědeckou komunitu.
Snažíte se tedy naučit roboty vidět, chápat a interagovat s okolním světem?
Ano, lze to také tak říci. Naší výzvou je vyvinout neuronové modely pro systémy s fyzickým tělem, které zohlední fyzikální a geometrickou strukturu světa a umožní sdílet a zobecňovat nabyté zkušenosti napříč různými systémy, úkoly, situacemi a prostředími. Příkladem může být nejen robot jako domácí asistent, robot v továrně, samořiditelné auto, ale i robot-chirurg. Všechny tyto systémy mají nějaké fyzické tělo, proto potřebují vnímat okolní svět, uvažovat o něm a interagovat s ním. Současné velké neuronové modely to ale nedokážou nebo mají v tomto směru jen velmi omezené schopnosti.
Jak naučíte roboty uvažovat o čemkoli kolem?
Současné úspěchy umělé inteligence jsou založeny na učení z obrovského množství dat na mnoha vzájemně propojených počítačích. Současné velké neuronové modely se trénují na textech a obrázcích z celého internetu. Takové množství dat ale třeba s jedním robotem ve své továrně jen těžko získáte. Ani během deseti let to nenasnímá. Proto se zaměříme na metody, které nedostatek učících dat nahradí – protože budou umět agregovat zkušenosti z interakcí s prostředím z různých systémů a zobecňovat je.
Teoreticky tedy vrcholovým cílem vašeho snažení je vytvořit systém, který uvidí třeba poprvé v životě Rubikovu kostku a pochopí, k čemu je?
Mohl by například sám umět zjistit, jak se s ní manipuluje. Nicméně velkým úspěchem by bylo, kdyby mu člověk mohl jednoduše vysvětlit, jaký je cíl, a on by dokázal nalézt strategie složení. Případně by se dokázal nejúspěšnější strategie naučit jen z několika málo příkladů, které uvidí na internetu.
Když mluvíte o robotech, jak si je představujete? Ve vývoji jsou roboty humanoidního typu, může to být jedna ze správných cest?
Humanoid je jedna možná cesta. Jeho výhoda je, že zapadá do našeho prostředí, může fungovat jako my a používat tytéž nástroje. Pokud by šlo o nespecializovaného robota, který není určen ke konkrétní činnosti, humanoid je jedna z forem, jak by mohl vypadat. Roboty v továrnách ale nemusejí mít nohy, ale třeba kola. Samotná chůze humanoidního robotu představuje těžký problém. Lidská chůze je dynamický pohyb. Kdybyste se měl zastavit během chůze v jakékoli poloze, bude to obtížné. Lidskou chůzi není lehké na dvounohém robotu reprodukovat a udržet rovnováhu. Ukazuje se, že u robotů se čtyřmi nohami je to mnohem jednodušší, jak ukazuje například „robotický pes“ Spot od Boston Dynamics, kterého si už můžete koupit.
Josef Šivic |
Po absolvování ČVUT strávil patnáct let v zahraničí. Doktorát získal na University of Oxford, poté se vydal na MIT a zahraniční angažmá zakončil v Paříži na Národním výzkumném institutu informatiky. Podílel se na více než stovce odborných publikací, byl oceněn vědeckými cenami. Teď vede skupiny zkoumající inteligentní strojové vnímání na Českém institutu informatiky, robotiky a kybernetiky na ČVUT v Praze. Je ředitelem ELLIS Unit Prague. |
Kde berete data, kterými krmíte vaše modely?
Pracujeme hodně s instruktážními videi z internetu. Představují pro nás obrovský repozitář vícekrokových úloh, kde člověk interaguje s okolním prostředím, aby docílil nějakého složitějšího úkolu, a zároveň o tom mluví v přirozeném jazyce. Například vymění pneumatiku nebo uvaří nějaké jídlo. Na internetu jsou miliony takových videí pro desetitisíce různých úloh. Tato data mohou tvořit určitý základ, nicméně robotu úplně nenahradí možnost si interakci vyzkoušet. Typicky například neobsahují žádné chyby. Proto tato data doplňujeme experimenty v simulovaných prostředích a samozřejmě také experimenty na reálných robotech. Ty je ale drahé a pomalé provozovat ve velkém množství, proto je důležité vyvinout metody, které umožní strojům tyto zkušenosti s interakcemi s různými prostředími efektivně sdílet.
Každý člověk svůj náhled na svět skládá z unikátního souboru dat, tedy zkušeností. Daří se přístup co nejrozmanitějších základních dat aplikovat také u AI systémů?
Síla systémů založených na strojovém učení je právě v tom, že se učí z velkého množství dat nebo, chcete-li, „kombinují zkušenosti“ z obrovského množství dat. Příkladem je diagnostika v medicíně, například v radiologii. Systémy založené na strojovém učení mohou kombinovat zkušenosti mnoha expertů-doktorů, a tudíž být v důsledku lepší než jednotliví experti. Klíčem je ale získat právě dostatečně velké množství dobře připravených dat. To si myslím pro důležité aplikace jako například radiologii bude možné dosáhnout, i když to může nějakou dobu trvat.
Velké neuronové modely trénované z nefiltrovaných nebo jen minimálně filtrovaných dat z internetu se z těchto dat mohou naučit „biases“ čili určitá zkreslení. Například v případě instruktážních videí se mohou naučit, že určité jídlo se připravuje jen jedním způsobem, který má v datech dominantní zastoupení, protože jsou data například primárně z anglicky mluvících zemí. Je tedy důležité vyvíjet metody, které tomu budou moci předcházet a dokážou reprezentovat i koncepty, které jsou v datech méně zastoupené. Také je důležité připravovat co nejvyváženější data, která zahrnují i minoritní koncepty, byť ne třeba v takovém množství.
Josef Šivic, vědec z ČVUT, který se zabývá počítačovým viděním a na jeho zkoumání získal ERC Advanced Grant.|
Jaké má inteligentní strojové vnímání limity?
Jmenoval bych dva. Prvním jsou právě velmi omezené možnosti agregovat zkušenosti z různých systémů a z různých prostředí. Druhým je hardware pro manipulaci a interakci s okolním prostředím. Současná robotika nedisponuje podobně kvalitními a robustními manipulátory, které by se schopnostmi blížily lidským rukám. V obou směrech je třeba další výzkum.
Jaký další vývoj odhadujete?
Vše se vyvíjí velmi rychle, těžko se předvídá dopředu. Kvůli zmíněným limitům si ale myslím, že na průlomové pokroky podobné těm, které teď vidíme v oblasti zpracování a generování přirozeného jazyka, si ještě počkáme. Nicméně si myslím, že budeme vidět zajímavé aplikace, které budou řešit určitý dobře definovaný a vymezený problém. Příkladem mohou být různí asistenti například v rozšířené realitě, kteří pomohou něco opravit nebo efektivně zaškolí nového technika ve výrobě, případně roboty, kteří ho časem u některých úkolů nahradí.
Mluvíte o možnosti nahrazení člověka strojem. Zamýšlíte se nad tím z etického hlediska?
Je to důležitý aspekt, zvlášť ve světle posledních výsledků je třeba se tomu mnohem více věnovat. Dříve si lidé mysleli, že první na řadě budou pozice v továrnách, nyní se ukazuje, že v bezpečí nejsou ani kancelářské profese. Naopak přibývá důkazů, že zvýšená úroveň automatizace zaměstnanost spíše zvýší, než sníží. Nicméně je potřeba kvalifikovaná pracovní síla.
Nejde tedy jen o etické ohledy, ale také o to, jak na to společnost připravit. Je to podobné, jako kdybyste někomu v osmdesátých letech dali do rukou chytrý telefon s internetem, také by to nebyl schopen hned pochopit. V tomto ohledu funguje například velmi dobře organizace prg.ai, která míří na širokou veřejnost, což je potřeba, aby se na to společnosti připravila. Příkladem kroku tímto směrem je česká verze online kurzu Elements of AI (https://www.elementsofai.cz/), který míří na širokou veřejnost a připravuje ji právě prg.ai ve spolupráci s českými univerzitami.
V Česku je hned několik viditelných vědců v oblasti AI stejně jako je tu spousta firem, vláda má i AI strategii. Jak čitelným písmem je Česko zapsané na AI mapě?
Výrazně pozitivní dopad měla podpora výzkumu prostřednictvím velkých projektů financovaných z Evropských strukturálních zdrojů. Ukázalo se, že má smysl pomocí dlouhodobých grantů výzkum podporovat. Díky programu OP VVV jsem se do Česka mohl vrátit. Podobné projekty zajistily příchod i dalších vědců ze zahraničí. Sám ve svém okolí vidím, jak příchod těchto výzkumníků českou vědeckou AI komunitu oživil a posílil. I díky těmto posilám tak má Česko pracoviště, která v některých oblastech umělé inteligence patří mezi vedoucí v Evropě podle počtu publikací ve špičkových vědeckých konferencích v dané oblasti.
Jsou nějaké oblasti AI, ve kterých je Česko napřed, například strojové vidění?
Ano, jednou z těchto oblastí je strojové vidění. Dalšími jsou robotika nebo zpracování přirozené řeči a jazyka. Špičkových výsledků dosahujeme i ve strojovém uvažování, kde se tři z pěti nejlepších systémů na světě spoluvyvíjejí v České republice. Dynamicky se u nás rozvíjejí oblasti optimalizace pro umělou inteligenci, plánování a teorie her. Příkladem vynikajícího vědeckého úspěchu jsou například výsledky kolegy Tomáše Pajdly.
V rozpětí posledních čtyř let získal tři prestižní ocenění na předních konferencích počítačového vidění, což jsou něco jako olympijské medaile oboru. Loni se mu podařilo získat hlavní cenu za nejlepší článek vybraný programovým výborem konference z více než osmi tisíc podaných příspěvků. To jsou naprosto skvělé úspěchy ve světovém měřítku.
Spolupracujeme také s dalšími předními pracovišti v Evropě a na světě. Příkladem je doktorský a postdoktorandský program Evropské laboratoře inteligentních a učících se systémů (ELLIS), který sdružuje přední pracoviště v této oblasti v Evropě. Program umožňuje mladým vědcům pracovat se dvěma opravdu dobrými školiteli ze dvou různých zemí, a tak poznat dvě různá pracoviště.
Mohla by ta odbornost v AI být jednou podobně důležitá pro Česko, jako je v současnosti kyberbezpečnost?
Určitě ano, a možná ještě důležitější. Umělá inteligence je jednou z nejrychleji rostoucích oblastí výzkumu a má obrovský transformační potenciál pro ekonomiku, vědu a pro společnost. Pohání dopředu nebo přímo transformuje mnoho oblastí včetně kyberbezpečnosti. Vedle už zmíněné kyberbezpečnosti nebo robotiky, jsou dalšími oblastmi, kde začíná mít AI transformační potenciál, biologie a chemie. Začínají se tu objevovat první průlomové výsledky a brzy mohou přijít objevy úplně nových léků a materiálů. Zjednodušeně: umělá inteligence je motor, který pohání řadu oblastí dopředu. A jestliže nechceme zůstat pozadu, musíme tomuto motoru velmi dobře rozumět a také umět tyto motory i vyvíjet.
Je tady i dostatečná podpora ze strany státu? Například v USA oznámili velké investice na podporu výzkumu v AI, mají národní centra…
Jak jsem zmiňoval výše, také díky podpoře z Evropských strukturálních fondů se tu podařilo vybudovat vynikající pracoviště a přitáhnout vědce ze zahraničí. Pokud ale chce být Česká republika v oblasti umělé inteligence skutečným a uznávaným hráčem na mezinárodní úrovni, je důležité s investicemi do výzkumu pokračovat a výrazně je i navýšit. A to dlouhodobě.
Výzkum pohání pokrok a inovace a je základem pro navazující aplikace. Bez silných výzkumných výsledků není nebo v budoucnu nebude co převádět do praxe. Bez silného AI výzkumu hrozí nebezpečí, že Česko bude zaostávat v této technologické revoluci za ostatními zeměmi v Evropě a ve světě. Konkurence v oboru je vysoká, o špičkové vědce se jiné státy a univerzity doslova přetahují a dokážou nabídnout dobré podmínky. Byla by velká škoda, aby o takové vědce Česká republika přišla. Tito vědci fungují jako „multiplikátor“ – magnet na špičkové studenty nebo firmy a dokážou sehnat další peníze.
Například už i Bulharsko nedávno založilo výzkumný institut umělé inteligence (insait.ai) s investicí sto milionů dolarů na deset let. Česká republika má národní AI strategii. Implementace této národní AI strategie se bude letos revidovat. Je to skvělá příležitost reflektovat dynamický vývoj posledních let a zahrnout do její implementace výrazné investice do AI výzkumu. Výzkum je potřeba brát jako investici do budoucnosti. Ta se vrátí třeba v horizontu pěti či deseti let v podobě inovativních startupů, nových pracovních pozic, inovativních technologií a firem. Jde o dlouhodobou konkurenceschopnost ekonomiky, průmyslu a společnosti.
V Česku je velký problém přetavit akademický úspěch do byznysové sféry. Co představuje tu bariéru?
Budu čerpat z vlastní zkušenosti z Francie, kde dva mí studenti spoluzaložili dva startupy. První v oblasti automatické organizace fotografií během prvního roku koupila firma Apple. Druhý také v oblasti počítačového vidění získal investice přes 17 milionů eur. V obou případech můj student měl roli technologického ředitele. CEO byl jeho kamarád, který měl obchodní background. Myslím, že v českém akademickém prostředí bude důležitým krokem osvěta a propojení talentu mezi technickým a obchodním světem. Tady by mohly sehrát vedle škol samotných důležitou roli iniciativy jako prg.ai nebo brno.ai, které by pomohly oba světy propojit. Bude například důležité prezentovat „role models“ a „success stories“, které budou ukazovat vědce a Ph.D. studenty úspěšné v byznysu.
Dalším mechanismem, který se v případě mého studenta osvědčil, byla první podpora ze strany samotné výzkumné instituce. Ta studentovi, který chce založit startup, poskytne první financování ve formě jeho platu a stolu na půl roku nebo rok na vývoj prvního prototypu. Takový mechanismus by měl být velmi snadno dostupný a měl by mít velmi příhodné podmínky, které by nezamezily dalšímu rozvoji firmy, pokud se nápad dále osvědčí.
Třetím úspěšným příkladem je takzvaný průmyslový doktorát, kde Ph.D. student spolupracuje s firmou na otevřených vědeckých problémech, které mají významný potenciál aplikovaného dopadu. Výše zmíněný ELLIS Ph.D. program má také průmyslový track zaměřený na spolupráci s firmami. Dlouhodobým cílem ELLIS je vedle silné celoevropské vědecké AI komunity vybudovat i silnou celoevropskou AI komunitu zaměřenou na inovace a transfer výsledků do aplikací s výrazným dopadem.
V ČR se průmyslový doktorát už také připravuje. Ve větším měřítku mohou pak vzniknout společné laboratoře s firmami. Úspěšným příkladem je Toyota Research Lab na ČVUT. Model společných laboratoří s firmami se velmi osvědčil například v Nizozemsku.
Považujete za jednu z možností dovést svůjvýzkum ke komerčnímu využití?
Určitě. Už teď spolupracujeme s Testbedem pro průmysl, který je u nás na CIIRC ČVUT a spolupracuje právě s firmami v průmyslové výrobě na možné komercializaci metod strojového vidění, které vyvíjíme. Příklady v robotice a strojovém vidění, o nichž jsem doposud mluvil, jsou příklady z makrosvěta. Potenciál velkých neuronových modelů je velký a některé techniky bude možné přenést i do mikrosvěta – například do oblasti molekulární biologie, kde výsledné modely také musejí respektovat fyzikální, chemické a biologické zákony.
To mě také hodně zajímá a jsem rád, že v této oblasti spolupracujeme s týmy Jiřího Damborského z Masarykovy univerzity a Tomáše Pluskala z ÚOCHB. Chceme například vyvinout techniky pro modelování dynamiky a funkce proteinů, což může mít dopad na vývoj léků. Zabýváme se například proteiny souvisejícími s Alzheimerovou chorobou, kde je potenciál opravdu obrovský.