Česko otevřelo zdarma světu databázi, která může urychlit hledání nových léků
Svět je blíže k vývoji nových léčiv nebo dalšímu rozvoji umělé inteligence v oblasti biomedicíny. Tým Ústavu organické chemie a biochemie Akademie věd ČR pod vedením Tomáše Pluskala vyvinul obrovskou databázi spekter dosud neznámých látek, největší svého druhu na světě, a zpřístupnil ji vědecké komunitě k volnému použití. O tomto počinu informoval prestižní vědecký časopis Nature Methods.
Příběh Tomáše Pluskala je příběhem vědce moderního střihu, který coby milovník karate odjel po škole do Japonska, kde se z vystudovaného informatika stal molekulárním biologem. A nyní ve své práci obě disciplíny spojil. Významně posunul kupředu obor takzvaných spektrálních knihoven.
V době, kdy se svým týmem zpracoval svou studii pro Nature Methods, dali dohromady katalog třiceti tisíc malých molekul. K nim naměřili dva miliony velmi kvalitních spekter, a nespokojili se přitom jen s hrubým obrázkem. Vícestupňovou fragmentací, tedy opakovaným rozbíjením molekul, získali detailnější obraz o jejich vnitřní stavbě.
Takto komplexní soubor dat má vědecký svět k dispozici poprvé. „Během dvaceti let, kdy se pohybuji v oboru, se knihovny spekter příliš nerozrůstaly. Tuhle praxi jsme dokázali změnit až my a vytvořili jsme dosud největší databázi, která v současnosti existuje. Navíc jsme ji zpřístupnili světové vědecké komunitě k volnému využití,“ vysvětluje vědec.
Vědci také podstatně urychlili samotnou analýzu látek. Dokážou měřit vždy deset látek najednou a celý proces zabere pouhou minutu a půl. Věc funguje tak, že pro měření dat do spektrální knihovny se používá pipetovací robot, který připraví směsi deseti látek do destiček. Hmotnostní spektrometr potom analyzuje každou směs zhruba 90 vteřin. Během této doby spektrometr nasbírá všechna potřebná spektra a analýza se může posunout k další směsi látek. Tímto efektivním postupem je možné nasbírat spektra kolem 3000 látek za den.
Protože je Pluskalův tým ve světové vědecké komunitě mimořádně známý a aktivní, získal od různých firem a institucí darem tisíce různých látek. „Od sepsání článku v Nature Methods jsme se posunuli zase o kus dál. Dosud jsme zpracovali na 70 tisíc látek a dalších 150 tisíc jich čeká na analýzu. Data dál nahráváme na internet a do konce roku bychom se chtěli dostat na 200 tisíc naměřených látek. To je zhruba desetkrát víc, než bylo k dispozici za posledních 20 let,“ říká první autorka článku, Corinna Brungsová, která nyní působí jako vedoucí servisní skupiny na Vídeňské univerzitě.
Složení chemických látek se odhaluje díky hmotnostní spektrometrii. Ta je klíčovým nástrojem v medicíně, farmacii nebo při výzkumu životního prostředí. Výzkum funguje tak, že speciální přístroj dokáže rozdělit neznámou látku na menší části a z těchto fragmentů odvodit, jak vypadala původní molekula. Spektra fragmentů, která si můžeme představit jako otisk prstu jedinečný pro každou látku, se pak porovnávají s už známými spektry uloženými právě v knihovnách, jako je ta od týmu Tomáše Pluskala.
Tomáš Pluskal s kolegy využívají obrovské množství nových dat také k tomu, aby vylepšili algoritmy AI, které samostatně rozeznávají neznámé chemické látky od metabolitů v lidském těle až po látky v rostlinách či mikroorganismech. Vědci „nakrmí“ chytrý model strojového učení daty z knihovny chemických látek a díky větší datové základně dokáže jejich model na základě dodaného spektra přesněji popsat, jak by mohla vypadat molekula, která použité spektrum obsahuje.
Knihovnu spekter podporuje open source software MZmine, za jehož rozvojem stojí rovněž tým kolem Tomáše Pluskala umožňující automatizované zpracování obrovského množství měření. Díky tomu vznikl zdroj, který je nejen rozsáhlý, ale i snadno použitelný pro další vědecké projekty po celém světě.