Jan Mottl: Mezi digitalizovanými fondy knihoven chybějí chytré nitky

Jan Mottl

Jan Mottl Zdroj: E15 Michael Tomes

Na podzim uplynou dvě desítky let od zahájení prací na digitalizaci rukopisů a následně periodik a monografií v Národní knihovně ČR. Podle kybernetika Jana Mottla je škoda, že digitalizované dokumenty nejsou propojovány do společného informačního prostoru, v němž by se současní i budoucí badatelé a čtenáři mohli jednoduše a efektivně pohybovat.

„V papírové podobě něco takového vzniknout nemůže, ale v digitalizované ano. Když to neuděláme, zanecháme potomkům obrovské množství nepříliš přehledných informací,“ říká Mottl.

* E15: Proč se fondy Národní knihovny, Moravské zemské knihovny a dalších podobných institucí u nás i v zahraničí digitalizují? Některé rukopisy a tisky jsou staré stovky let a bez větší újmy přežily až do dneška.

Důvody jsou dva. Ochrana a zpřístupnění. Třeba u části periodik jde o jejich záchranu, protože novinový papír podléhá zkáze. A co se týká rukopisů, tam je to jasné. Jsou sice pečlivě schraňovány v trezorech, a poškození jim proto nehrozí, ale nejsou jednoduše dostupné. Digitalizace je umožnila zpřístupnit široké badatelské obci a veřejnosti. Digitalizace je celosvětový trend. Nyní se masově skenuje a ukládá tak, aby uložené informace byly použitelné a dostupné i za stovky let.

* E15: Kolik svazků Národní knihovny se už digitalizovalo?

Jde zhruba o 10 milionů stran. V rámci projektu Národní digitální knihovna bude zdigitalizováno dalších 26 milionů stran. Nemůžeme ale hovořit jen o Národní knihovně. Digitalizace už dlouho probíhá v mnoha paměťových institucích, tedy knihovnách, archivech, muzeích, výzkumných ústavech či univerzitách. Jejím cílem je ochrana a zpřístupňování kulturního dědictví. A připravují se v dalších. Například pro Okresní knihovnu v Chrudimi jsme monografie a periodika digitalizovali již před patnácti lety.

* E15: Jak dlouho s Národní knihovnou spolupracujete?

Od roku 1992, kdy ji oslovilo UNESCO s projektem Paměť světa. Knihovna se poté obrátila na naši tehdejší firmu. Následující rok na jaře pak vyšel první CD-ROM Paměť světa s digitalizovanými ukázkami z několika desítek rukopisů. Výsledek byl hodnocen velmi pozitivně a díky tomu začala úspěšná spolupráce mezi UNESCO, Národní knihovnou a námi.

* E15: Je možné si část digitalizovaného fondu prohlížet na dnešních tabletech nebo čtečkách?

V tomto směru fungují na internetu dvě hlavní větve pro periodika a rukopisy, kde si můžete informace vyhledávat a dále s nimi pracovat. Rukopisy naleznete na stránkách manuscriptorium. com, což je celoevropský projekt, který vede naše sesterská společnost spolu s Národní knihovnou. Mimo to by měly být dokumenty v rámci Národní digitální knihovny k dispozici i ve formátu PDF/A, který tablety a čtečky běžně podporují. Vybraná díla si mohou uživatelé také prohlédnout prostřednictvím aplikace pro chytré mobilní telefony PoNaK (Poklady Národní knihovny).

* E15: Jak je to s autorskými právy?

To je velká komplikace, protože se vztahují na potomky autora ještě 75 let po jeho smrti. Informace o nich je potřeba do digitálního archivu ukládat. A při požadavku na poskytnutí daného záznamu musí správce zjišťovat, zda je možné žadateli vyhovět. Tato problematika by vydala na obsáhlý článek. Naštěstí alespoň v oblasti rukopisů a starých tisků se jí není potřeba zabývat.

* E15: Národní knihovna shromažďuje veškeré vydané knihy a tiskoviny na základě takzvaného povinného výtisku. Má smysl digitalizovat třeba staré kuchařky?

Víte, to je právě rozdíl mezi papírovou a digitální informací – o kuchařku z roku 1842 už skutečně bude mít zájem jen nadšenec nebo badatel, ale kdyby jednotlivé recepty byly dostupné na internetu, mohou stále sloužit jako zdroj inspirace pro dnešní kuchaře. Uživatel v tomto případě totiž nebude mít zájem o publikace, ale o informaci, jak lze připravit třeba husu po staročesku.

* E15: Jak se liší digitalizace v soukromé a státní sféře?

Soukromé organizace digitalizují své archivy především kvůli vyšší efektivitě práce. Máme zkušenosti z bank nebo pojišťoven. V některých z nich to již funguje tak, že veškeré papírové dokumenty jsou uloženy v šanonech a pracuje se výhradně s jejich digitální podobou. Kvůli identifikaci má každý dokument svůj vlastní popis, takzvaný metadatový záznam. Nad databází s mnoha miliony dokumentů je už potřebné vytvářet takzvaný informační prostor, nestačí jen najít dokument a zobrazit ho.

Systém musí podle požadovaného úkonu s dokumentem zobrazit relevantní informace a odkazy v souvislostech. Uvedu příklad: Zpracovává se faktura. Když si ji uživatel zobrazí, systém mu přehledně nabídne odkaz či náhled na příslušný dodací list, smlouvu, korespondenci, informace z účetnictví či informaci o dané firmě. A tady je paralela s badatelským prostředím knihoven. Nad digitalizovanými fondy paměťových institucí by měl rovněž vzniknout informační prostor.

Stejně jako by nyní museli pracovníci banky či pojišťovny složitě listovat v šanonech, mohou tak za 100 či 200 let dopadnout naši potomci. Bez informačního prostoru se budou ztrácet v milionech digitalizovaných dokumentů, mezi kterými nebudou existovat žádná logické propojení. Tyto chytré nitky je třeba začít vytvářet.

* E15: Proč se tento prostor nevytváří?

V současnosti se paměťové instituce zaměřují na vlastní digitalizaci a dlouhodobé uchování. Úkolem projektu, na němž se podílíme, je fondy naskenovat, opatřit popisnými metadaty podle definovaných pravidel, pomocí technologie OCR (Optical Character Recognition) získat digitální texty a výsledné soubory uložit do digitálního repozitáře k dlouhodobému uložení. Přidanou hodnotou je fulltextové vyhledávání nad obsahem. To je ale teprve potřebný základ pro možnost vytváření souvislostí, tedy onoho informačního prostoru.

* E15: Pokud se vrátím k receptu na staročeskou husu, podobné kuchařské návody by se vzhledem k neexistenci onoho propojení hledaly obtížně.

Existuje názor, že vše vyřeší fulltextové vyhledávání. Obecně s ním nesouhlasím, ale v tomto konkrétním případě by to asi jakž takž stačilo. Myšlenku na badatelské prostředí mám od doby, kdy jsme byli zhruba v polovině devadesátých let u počátků digitalizace periodik a monografií v Národní knihovně.

Když chcete pochopit v historických souvislostech článek ve starých novinách, tak si jen s fulltextovým vyhledáváním nevystačíte. Nyní máme šanci připravit pro naše potomky informace tak, aby mohli dnešek chápat v provázanosti témat a souvislostí. Představte si, že byste si chtěl za sto let udělat obrázek o tom, jak probíhalo rozdělení bývalého Československa.

Badatelské prostředí umožní, aby ti, kteří začnou něco zjišťovat, začali získané informace interaktivně spojovat. Badatel tak bude moci sledovat konkrétní událost v souvislostech, v delším období, bez toho, aby musel obíhat archivy a knihovny. Samozřejmě tato činnost musí mít určitý řád a hierarchii, musí být někdo, kdo ji koordinuje a kontroluje.

Výsledek práce badatele slouží k vytvoření informačního prostoru. Ten studentům žurnalistiky za sto let poskytne nejen zdigitalizované noviny z konce minulého tisíciletí, ve kterých se dočtou o konkrétní události, ale díky práci současného badatele budou mít i odkazy na relevantní články, publikace, webové stránky a například i soudní rozhodnutí.

* E15: Kdo by měl propojování digitalizovaných textů definovat a řídit?

Je to určitá vize. Nyní je třeba definovat, jak by ono informační prostředí fungovalo, a vytvořit zadání pro budoucnost. Nemohou to ale dělat jen IT firmy, to hlavní zadání musí dát ministerstvo kultury ve spolupráci s paměťovými institucemi. Cílem je vytvořit ony chytré nitky od nějaké části jedné knihy k související pasáži v jiné knize či novinách nebo rukopisech.

Čtěte také:

Böhm oficiálně převzal Národní knihovnu, s Kaplického blobem nepočítá

Digitalizace sbírek je běh na dlouhou trať

Kvalitní digitalizace se výrazně projeví i v následném tisku

Spousta věcí by tak byla pro badatele, školy nebo třeba i zpracování statistických údajů už předpřipravená a nemusela by se složitě a zdlouhavě vyhledávat. V papírové podobě něco takového vzniknout nemůže, ale v digitalizované ano. V komerční sféře to už deset let bez problémů funguje, podobný model by proto mohl fungovat také v paměťových institucích.

Jan Mottl (52)

Vystudoval ČVUT v Praze obor technická kybernetika. V roce 1991 byl jedním ze zakladatelů společnosti Icome, která byla zaměřena na zavedení technologie CD-ROM na tehdejší československý trh. Po transformaci ve společnost Albertina Icome Praha v roce 1995 se stal jejím finančním ředitelem. Z ní byla v roce 1999 vyčleněna samostatná společnost AiP Safe, jejímž je výkonným ředitelem a jednatelem. Podílel se na zavádění systémů správy dokumentů pro řadu českých i nadnárodních firem, jako Stavební spořitelna ČS, Axa, Česká kancelář pojistitelů, Deloitte či VZP. Je ženatý, má dvě děti. Ve volném čase rád čte a plave.