Programové projekty výzkumu a vývoje
Mezinárodní projekty
LiWA (Living Web Archives)
Doba řešení: 2008–2011
Hlavní řešitel: Claudia Niederee, Gottfried Wilhelm Leibnitz
Universität, Hannover, Německo
Řešitel za Národní knihovnu ČR: Libor Coufal
Finanční podpora: 7. rámcový program EU
URL: http://liwa-project.eu/
Living Web Archives (LiWA) je tříletý výzkumný projekt
financovaný EU, zaměřený na oblast archivace webu. Současné nástroje pro
archivaci webu dosahují díky prudkému rozvoji webových technologií hranice svých
možností. Cílem LiWA je navrhnout a otestovat nové postupy, které umožní zlepšit
kvalitu obsahu webových archivů a jejich dlouhodobou hodnotu pro uživatele a
“vdechnou” webovým archivům život. Výstupem projektu bude nová generace nástrojů
pro sklízení, uchování, analýzu a obohacení obsahu webových archivů, které
umožní dlouhodobou interpretovatelnost tak, jak se archivy budou vyvíjet, lepší
věrnost obsahu archivu filtrováním nepodstatného šumu a zachycení rozmanitého
obsahu (multimédia, sociální web aj.). V roce 2010 byl dokončen vývoj nástrojů
pro extrakci komplexních odkazů, filtraci spamu, zajištění temporální koherence
archivů a mapování sémantického vývoje, včetně dvou aplikací pro archivaci
streamovaných médií a sociálního webu. Probíhala rovněž integrace a testování
těchto nástrojů.
IMPACT (Improving Access to Text)
Doba řešení: 1. 1. 2008 – 31. 12. 2011; Národní knihovna ČR
členem od 1. 4. 2010
Hlavní řešitel: Hidelies Balk, Koninklijke Bibliotheek /
Nationale bibliotheek van Nederland, Haag, Nizozemsko
Řešitel za Národní knihovnu ČR: Tomáš Foltýn
Finanční podpora: 7. rámcový program EU
URL: http://www.impact-project.eu/
Mezinárodní projekt IMPACT sdružuje 26 partnerských institucí
z celé Evropy. V projektu jsou zastoupeny knihovny (národní či velké
univerzitní), jazykovědná výzkumná centra a dále technologická centra
zabezpečující vývoj. Základními cíli projektu je zdokonalit uživatelský přístup
k historickým textům díky zlepšování výsledků OCR, sdílet informace o průběhu
masové digitalizace, definovat “best practices” pro jednotlivé typy dokumentů a
vytvářet nástroje, které by tento proces zefektivnily, či vybudovat
metodologické centrum, které by v budoucnosti poskytovalo konzultace pro proces
digitalizace a zároveň definovalo mezinárodně platné strategie. Národní knihovna
ČR je zodpovědná za tvorbu stoprocentně opravených OCR dokumentů ve formátu
PAGExml v českém jazyce, testování některých nástrojů, spolupráci s jazykovým
partnerem na vytváření slovníků pro starší češtinu nebo prezentování výsledků
projektu. Kromě plnění těchto základních úkolů se podílí i na vybudování
metodologického centra. V roce 2010 splnila Národní knihovna ČR všechny své
dílčí cíle. Kladně byly hodnoceny zejména aktivity spojené s vytvářením OCR a
propojení řešení na vývoj provedený v rámci projektu Optimalizace nástrojů
pro digitalizaci tištěných dokumentů ohrožených degradací kyselého papíru. V
mnoha ohledech tak Národní knihovna ČR předstihla ostatní partnerské instituce,
čímž významně obohatila naplňování cílů projektu.