Digitalizace a digitální zpřístupnění dokumentů

Digitalizace a digitální zpřístupnění dokumentů

Digitalizace knižních dokumentů může sloužit pro vytváření kopií dokumentů, které nejsou bezprostředně ohroženy degradací papíru ale které je třeba nahradit v přímých službách uživatelům, nebo v těch případech, kdy není možné dokument v původní podobě bezpečně zpřístupnit (např. v případě map). Spojením mikrofilmu a digitálního záznamu se vytváří tzv. hybridní technologie, využívající předností obou formátů. Mikrofilm zajišťuje trvalé dochování obsahu dokumentu, digitální záznam jeho snadné zpřístupnění uživatelům. Hybridní technologie je vhodná pro reformátování dokumentů ohrožených degradací s limitovanou životností.

NK ČR provozuje dvě pracoviště digitalizace. Prvním je pracoviště přímé digitalizace rukopisů a vzácných dokumentů, které vzniklo na základě aktivit soustředěných kolem programu Paměť světa, a které NK ČR provozuje ve spolupráci s firmou Albertina icome Praha

Druhým pracovištěm je pracoviště digitalizace mikrofilmů, které bylo vybudováno díky realizaci projektu ”Digitalizace mikromédií” v letech 1997 až 1999. Pracoviště zajišťuje přípravu dokumentů pro mikrofilmování a digitalizaci včetně tvorby metadat, skenování mikrofilmů, spojování indexních údajů s obrazovými soubory a zpřístupňování dokumentů prostřednictvím internetu, lokální sítě NK ČR a CD-R médií.

Příprava dokumentů a tvorba metadat

Digitální obrazové soubory je možné zpřístupňovat pouze prostřednictvím indexních dat (metadat) sestávajících z bibliografického záznamu a popisu struktury dokumentu. NK ČR má v současné době k dispozici několik nástrojů kterými může vytvářet metadata jednak ve starším formátu DOBM/SGML, jednak v nové struktuře založené na XML. Systém Sírius např. využívá již zónové rozpoznávání pro poloautomatizovanou tvorbu metadat. Obdobně jako v případě mikrofilmování spočívá příprava pro hybridní zpracování v kompletaci dokumentu za pomoci všech dostupných exemplářů a zjištění potřebných údajů včetně všech nepravidelností. Součástí povinných popisných údajů je i ISSN, které musí být přiděleno i starším titulům. Používání metadat hraje klíčovou roli pro dlouhodobé zachování přístupu k digitálním dokumentům.

Skenování mikrofilmů a úpravy obrazových dat

Pro skenování mikrofilmů NK ČR používá skenery SunRise a Wick and Wilson, které umožňují skenovat svitkové mikrofilmy 35 a 16mm a mikrofiše. Výstupem jsou obrazové soubory v 16 bitové šedé škále, ve formátech TIFF, JPEG a GIF. Kromě uvedených skenerů disponuje NK ČR také hybridní kamerou, která umožňuje vytvářet v jednom procesu mikrofilm i digitální záznam. Obrazové soubory vyžadují následné úpravy, zejména pootočení a ořez, převzorkování ve formátu JPEG, konverzi do formátu DjVu. U vybraných titulů jsou obrazové soubory zpracovávány technologií OCR pro získání textového formátu. Textový formát však neslouží pro zpřístupnění uživatelům, ale pouze pro vyhledávání pomocí nástroje CONVERA Retrieval Ware. Obrazový formát považujeme za základní, protože zachovává původní grafickou podobu dokumentu a zabezpečuje vyšší úroveň autenticity. Pro úpravy obrazových dat používá NK ČR systém Sírius.

Zpřístupňování digitálních dokumentů

Pro zpřístupňování dokumentů slouží Systém Kramerius obsahující kopie všech obrazových souborů ve formátu DjVu, který má výhodnější kompresní parametry a jehož plug-in je podporovým operačním systémem Windows a metadata ve struktuře založené na XML. Pomocí systému lze provádět jednoduché operace s dokumenty jako spojování, nahrazování, mazání a replikace. Součástí systému jsou i externí moduly pro tvorbu metadat v XML a pro řízenou konverzi jak obrazových souborů tak metadat.

Archivace a zálohování digitálních dokumentů

Pro archivaci digitálních dokumentů NK ČR používá dva nezávislé systémy. První využívá CD-R médií a slouží pro menší objemy dat (rukopisy). Vzhledem k tomu, že CD-R média podléhají degradaci, bylo třeba vyvinout systém kontroly založený na měření chybovosti, díky kterému lze určit dobu, kdy je nutné data přepsat na jiný nosič. Dokumenty se uchovávají na dvou archivních médiích. Druhý systém využívá magnetopáskovou robotickou knihovnu, která eviduje expirační lhůty pásek a automaticky provádí kompletní recyklaci médií (dekompresi dat, dopočítání, kompresi a přepis na nové médium) bez zásahu pracovníka. Všechny obrazové soubory jsou v knihovně 2x na dvou identických médiích (on-line), třetí je uložena na jiném místě (off-line). Archivační systém sestává z magnetopáskové robotické knihovny ADIC Scalar 1000, diskového subsystému, souborového systému SAM FS a programové aplikaci AIP Safe. Všechna metadata jsou uložena na diskovém poli, stejně jako část nejžádanějších obrazových souborů. Všechny obrazové soubory jsou umístěny v robotické magnetopáskové knihovně. Celý systém je možné dynamicky podle potřeby rozvíjet jak v diskové části, tak i magnetopáskové a to do značných paměťových kapacit. Zařízení se využívá pro archivování digitalizovaných dokumentů nejen NK ČR ale i ostatních veřejných knihoven a dalších institucí účastnících se národního programu VISK 7 Kramerius.

Hybridní technologie reformátování

Řada knihoven či informačních pracovišť dává přednost digitalizaci před mikrofilmováním - z důvodů progresivity, ale také atraktivnosti nových informačních technologií, snadnému zpřístupnění pomocí CD-ROM (CD-R) nebo síťového přenosu, i kvůli většímu uživatelskému komfortu. Výpočetní technika, hardware i software procházejí bouřlivým vývojem, a není tedy možno zajistit dlouhodobou trvanlivost strojem čitelných nosičů. Nevýhoda technické nestability a doposud omezená životnost nových médií podmiňují údržbu obsahu jeho následným kopírováním.

Zpřístupnění vzácného nebo ohroženého dokumentu je však jen jednou stranou mince. Tou druhou je záruka jeho dochování pro příští generace. To zvláště platí u dokumentů vytištěných na kyselém papíru, které časem ztrácejí své fyzikální vlastnosti a při pokračující degradaci se mohou dostat až na samou hranici své fyzické existence. V případě zničení či ztráty dat to může znamenat ztrátu absolutní. Původní dokument, z kterého byl digitální záznam pořízen, již nemusí existovat.

Porovnání digitalizace a mikrofilmování

Porovnáme-li obě metody reformátování z hlediska jejich slabin a předností, a zvážíme požadavky na přenesení dokumentu, zjistíme, že si nemusí konkurovat, ale naopak se velmi dobře doplňují. V knihovnách má reformátování ve své záchranné funkci zachovat pro budoucnost obsah dokumentu tištěného/psaného na dřevitém papíře - nosiči, který nevyhnutelně podléhá degradačním procesům a mechanismům rozpadu celulózy.

Archivním médiem by proto jednoznačně měl být mikrofilm, respektive mikrofiše, zatímco flexibilní zpřístupnění čtenáři zajistí digitalizace. Podle konkrétních podmínek, a především podle charakteristiky daného dokumentu, pak uvažme, zda použít metodu přímého skenování - pro knihy nejlépe na planetovém knižním) skeneru, nebo digitalizovat primárně pořízený mikrofilm, a v tzv. hybridním systému tak spojit pouze výhody obou metod.

Hybridní technologii využíváme zejména v případě dokumentů, jejichž životnost je výrazně limitována stupněm degradace. Platí, že přednostně reformátujeme těmito metodami noviny a časopisy tištěné na kyselý dřevitý papír, které v horizontu 80 až 100 již nebudou existovat. Hlavním strategickým cílem je zde dochování původních dokumentů; reformátování by se mělo realizovat společně, nebo následně po vytvoření optimálních podmínek pro jejich uložení.

Autorské právo

Zpřístupňování digitalizovaných periodických dokumentů je limitováno nejednotností právních stanovisek, týkajících se výkladu autorského zákona (zákon č. 121/2000 Sb.) Přitom potenciální výhodou elektronických dokumentů je právě skutečnost, že mohou být dostupné všem uživatelům připojeným na internet bez ohledu na to, zda jsou momentálně v knihovně, doma nebo na pracovišti. Cílem a strategií ochranného reformátování je zpřístupnit co největší objem digitalizovaných dokumentů Zatím je možné vystavit pouze dokumenty, na které se nevztahuje ochrana autorského zákona, především rukopisy a staré tisky.

Koordinace a kooperace v oblasti ochranného reformátování

Veřejné knihovny, muzea, knihovny vysokých škol a vědeckých ústavů by měly své plány koordinovat, aby nedocházelo k neekonomickému reformátování, aby nebyly vybírány tytéž tituly a aby výsledky digitalizace nebyly nepoužitelné pro případ dalších projektů.

Rovněž hrozí nebezpečí, že nebyly dodrženy zásady archivace a daný originální dokument bude znovu vystaven procesu reformátování, pokud ovšem jeho současný stav už pořízení mikrofilmové anebo digitální faksimile nevylučuje.

Hrozba, že dokumenty budou chátrat rychleji, než je stačíme převést na náhradní médium, jejich stále rostoucí počet jsou nesporně alarmujícími skutečnostmi, které by měly vést kulturní instituce k účinné spolupráci na záchraně národního literárního bohatství.

Pracovní skupina CASLIN pro ochranné reformátování

- PSpOR vznikla v roce 1992 jako česko-slovenská pracovní skupinou zabývající se koncepčními a dlouhodobými otázkami mikrofilmování a digitalizace. Po roce 1996 došlo k vyčlenění národních sekcí této skupiny, které převzaly těžiště aktivity. Ústřední mezinárodní sekce PSpOR se nadále zabývá strategickými postupy ochranného reformátování a česko-slovenskou spoluprací v této oblasti.

Česká sekce PSpOR sdružuje dvě desítky knihoven různého typu, odlišného zaměření, z různých míst republiky. Mezi hlavní aktivity patří koordinace programů mikrofilmování a digitalizace, návrhy a realizace projektů, optimalizace a standardizace technologií, vytváření kooperačního systému knihoven v rámci národního programu ochrany knihovních fondů. V ohnisku zájmu PSpOR jsou sbírky bohemikálních periodik, unikátní a historické materiály z hlediska kulturního a historického významu daného titulu v kontextu národního knižního bohatství.

Cílem úsilí české sekce PSpOR je vytvořit fond archivních mikrokopií ohrožených důležitých dokumentů a zpřístupnit je uživatelům formou pozitivních mikrofilmů nebo v podobě elektronických informací, získaných digitalizací mikromédií. S podporou české sekce PSpOR se uskutečňují projekty ochranného mikrofilmování a digitalizace mikromédií zejména v rámci programu KRAMERIUS.

Národní program ochranného reformátování Kramerius

Určitým iniciátorem a garantem péče o národní knižní bohatství jsou v mnoha státech národní programy ochrany knihovních fondů (NPKO). Koncepce NPKO při Národní knihovně ČR předpokládá využití alternativních technologií, resp. jejich kombinaci: digitální skenování, mikrofilmování, různé metody konzervace, program ochranných obalů. aj.

Kramerius je označení pro národní program ochranného mikrofilmování a digitálního zpřístupňování dokumentů ohrožených degradací kyselého papíru, který započal v roce 1997 pilotním projektem výzkumu a vývoje, při němž byla převedena na mikrofilm část kriticky poškozených, významných bohemikálních periodik. V roce 2000 byl Kramerius zařazen jako podprogram VISK 7 do programu Veřejné informační služby knihoven (VISK).

Na výběru předkládaných projektů se podílejí členové české sekce PSpOR CASLIN a žadatelé se musí zavázat ke splnění koncepčních podmínek: respektovat normy a doporučení, koordinovat svoji práci s činností ostatních pracovišť, poskytovat bibliografické záznamy do společné centrální databáze záznamů reformátovaných dokumentů, zpřístupňovat uživatelské kopie reformátovaných dokumentů a zajišťovat služby, napomáhat při ochranném reformátování ohrožených titulů např. zápůjčkami dokumentů nebo poskytnutím bibliografických informací, dlouhodobě uchovávat archivní kopie reformátovaných dokumentů v souladu s doporučeními normy ISO.

Základní financování projektů v oblasti ochranného reformátování bylo dosud hrazeno z prostředků grantových projektů Ministerstva kultury ČR, dále z programu VISK 7 Kramerius. Značný počet dokumentů byl reformátován v rámci programu nápravy škod způsobených záplavami v roce 2002.

V r. 1999 se Česká republika zastupovaná Národní knihovnou ČR stala členem evropského sdružení knihoven EROMM (European Register of Microform Masters), které v programu spolupráce a koordinace v oblasti mikrofilmování buduje databázi záznamů mikrofilmovaných dokumentů. Připojila se rovněž k programu DIEPER - Digitised European PERiodicals., který je soustředěn na digitalizaci periodik.

Systém pro tvorbu a zpřístupnění digitalizovaných dokumentů

Veřejně přístupná aplikace provozovaná na adresách http://kramerius.nkp.cz

Systém Kramerius představuje specifický typ CMS (Content Management System), jehož primárním účelem je zpřístupnění archivních a cenných dokumentů široké veřejnosti v souladu s autorským zákonem.

Systém Kramerius je součástí širšího systému sestávajícího z více provázaných aplikací, které tvoří "výrobní linku"

V jejím rámci je realizována digitalizace dokumentů, vytváření primárních metadat pomocí OCR, následná úprava metadat a obrazových podkladů a finální zpřístupnění dokumentů pomocí WWW prohlížeče jako uživatelského rozhraní.

Systém Kramerius umožňuje využívat pro prezentaci archivních a vzácných dokumentů Internet, takže tyto dokumenty mohou být zpřístupněny rychle a na více místech najednou. Systém Kramerius byl realizován v souladu s potřebou standardizace metadat pro potřeby knihoven, archivů a dalších paměťových institucí. Struktury metadat pro další typy dokumentů (muzejní objekty, zvukové a archivní dokumenty) jsou nebo mohou být navrženy a jejich začlenění do systému Kramerius je plánováno.

Aplikace i externí moduly pro tvorbu metadat i pro řízenou konverzi byly vytvořeny na základě licence GNU GPL a využívá volně dostupné komponenty. Zdrojové kódy i dokumentace umožňující instalaci aplikace jsou na adrese:

Uživatelé, kteří budou potřebovat modul pro tvorbu metadat si musí pouze zakoupit licenci pro Corel XMetaL Author.

  • Na vlastní realizaci projektu se kromě partnerů a subdodavatelů řešení, jimž byli IBM, s.r.o. Elsyst Engineering a INCAD, s.r.o. podílel primárně tým odborníků společnosti Qbizm technologies.

Pro realizaci aplikace bylo navrženo použití otevřených standardů:

  • J2SE (Java 2 Standard Edition)

poskytuje základní prostředí pro běh aplikací založených na programovacím jazyce Java.

  • J2EE (Java 2 Enterprise Edition)

poskytuje služby pro provoz robustních a škálovatelných aplikací založených na jazyce Java.

  • Databáze kompatibilní se standardem SQL

  • Operační systém na bázi UNIXu

Použité technologie:

  • server IBM xSeries 235 s diskovou kapacitou 3TB

  • Linux Debian

  • WWW server Apache

  • aplikační server Apache Tomcat

  • databázový server PostgreSQL

  • XML editor XMetaL Author

01.12.12