Oddělení analytického zpracování | Báze ANL | ANL FULL | Koop. systém článkové bibliografie | Granty | Metodika popisu článků | English



PROPOJENÍ ANALYTICKÝCH ZÁZNAMŮ S PLNÝMI TEXTY
A OPTIMALIZACE ZPŘÍSTUPNĚNÍ PLNÝCH TEXTŮ

Závěrečná zpráva za rok 1999-2003




B Analytická část

B.1 Vlastní řešení


B. 1.1 Vlastní řešení v komplexním pohledu

Cíle projektu byly realizovány ve dvou základních liniích:

a) propojení analytických záznamů zpracovávaných v kooperačním systému článkové bibliografie
b) optimalizace zpřístupnění plných textů.

Cílem výzkumného záměru je především propojení analytických, resp. bibliografických záznamů zpracovávaných v Kooperačním systému článkové bibliografie s plnými texty článků v periodikách vydávaných na územní České republiky. Toto propojení bude základem optimalizace přístupu k plným textům českých periodik. Základem je propojení bibliografických záznamů s plnými texty dostupnými volně a/nebo za úplatu dostupnými na webu, které budou částečně umístěny serveru Národní knihovny. Základní typy propojení: statické, dynamické, uzavřené, otevřené. Toto propojení bude základem optimalizace přístupu k plným textům českých periodik.
Součástí optimalizace zpřístupnění plných textů je též zajištění přístupu k českým plným textů v rámci konzorciální multilicence.

Základní oblasti či rámce, ve kterých se základní linie naplňovaly

1. Základní výchozí materiály- strategické materiály a zákony, některé projekty, systém knihoven v ČR jako základní východisko řešení projektu

2. Průběžné průzkumové práce týkající se hlavních trendů ve zpřístupňování elektronických zdrojů a plných textů (globální pohled s ohledem na vývoj zpřístupňování plných textů v ČR),

3. Průběžné průzkumové a rešeršní práce týkající se zdrojů a systémů zpřístupňování a propojování plných textů, jejich organizace, používaných standardů atd. - globální pohled s ohledem na předešlé body a na současný a budoucí vývoj zpřístupňování plných textů v ČR.

4. Výběr vhodného partnera k realizaci projektu a systému pro zpřístupňování plných textů článkových informací v kooperačním systému z hlediska excerpční základny a plnotextové technologie v souvislosti s projektem Souborná databáze Kooperačního systému článkové bibliografie; výběr partnera pro realizaci multilicenčního zpřístupnění českých plných textů v rámci konzorcia

5. Analýza excerpční základny kooperačního systému versus elektronické plné texty na internetu a propojení analytických záznamů s plnými texty, vytvoření základní, ale flexibilní koncepce zpřístupnění plných textů ve vazbě na Kooperační systém článkové bibliografie z hlediska zpracovávaných titulů v kooperačním systému, standardizace a nástroje

6. Dílčí koncepční řešení a dílčí praktické aplikace a realizace, které doplňují programový projekt Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat

7. Zakoupení licence pro ultranet a internet pro TOPIC (Vis), technické podpory.

8. Návrhy optimalizace zpřístupnění plných textů v ČR

Tyto jednotlivé linie navzájem souvisejí a prolínají se.

Základní teze: optimalizovat zpřístupnění plných textů znamená je propojovat s ostatními zdroji a službami. Úspěch propojení závisí na standardech a nástrojích používaných ve všech fázích informačního procesu. Týká se organizace informačního systému a legislativně právních otázek zpřístupnění elektronických zdrojů.
Základním předpokladem optimalizace zpřístupnění plných textů je nutnost nových modelů získávání, zpracování a zpřístupňování bibliografických informací a nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování , které se týká autorů, nakladatelů, vydavatelů a knihovníků.

1. Základní výchozí materiály- strategické materiály a zákony, některé projekty, systém knihoven v ČR jako základní východisko řešení projektu

Strategie a zákony

Strategie knihoven v České republice 1999-2003 ( též http://daidalos.ff.cuni.cz/docs/strategie99_03.php)
Návrh nové Strategie rozvoje knihoven 2003-2005
Informace pro knihovny a vydavatele : Knihovní zákon 53/1959 Sb. "O jednotné soustavě knihoven" a jeho novela, zákon o povinném výtisku, Autorský zákon 121/2000 Sb. (půjčování a poskytování kopií pro osobní potřebu), Zákon 106/1999 Sb. "O svobodném přístupu k informacím".

Problematika zákonů

Autorský zákon: nutnost sladění zájmu autora, vydavatele, veřejnosti (přístup k informačním zdrojům) a knihoven (úspěšnost informačních služeb). Zákon umožňuje půjčování, zhotovování rozmnoženin a poskytnutí přístupu za úplatu a v rámci licenčních smluv. V autorském zákoně je třeba kodifikovat možnost poskytovat kopie elektronickou cestou (v minulosti snahy SKIPu v rámci RISKu). Zákon nereflektuje dostatečně moderní technologie a možnost zpřístupňování elektronických zdrojů. Zákon o povinném výtisku se netýká elektronických informačních zdrojů.

Projekty

Základní související programy a projekty, v rámci kterých jsou řešeny otázky získávání, zpracování a zpřístupňování plných textů (** označeno financování projektů NKČR týkajících se zpřístupnění českých článků).

Programy VaV - MŠMT

Informační zdroje pro vědu a výzkum - Program LI (MŠMT): týká se zejména zpřístupňování zahraničních plnotextových zdrojů a systému dodávání dokumentů (dokument delivery) - r. 2000-2003 (poměrně velké finanční prostředky na nákup zahraničních zdrojů, poměrně dost knihoven).

Informační infrastruktura výzkum - Program 1 N (MŠMT) : podprogramy Informační zdroje pro výzkum, Infrastruktura výzkumu a Zvýšení hospodárnosti ve využívání veřejných prostředků na informační zdroje a infrastrukturu - r. 2004-2008 - přijaté projekty.

Programy VaV - MKČR (řešené v NKČR)

Záměry v NKČR

Digitální knihovna - produkce, ochrana a zpřístupnění digitálních dokumentů (1999-2003)
Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (1999-2003) **
Rozšiřování možností rozvoje Caslin - Souborného katalogu ČR (1999-2003)

Budování vzájemně kompatibilních informačních systémů pro přístup k heterogenním informačním zdrojům a jejich zastřešení prostřednictvím Jednotné informační brány (2004-2010)

Některé programové projekty

Jednotná informační brána pro hybridní knihovny (2001-2002)
OCLC First Search Service (2000-2003)
Optimalizace archivace a zpřístupnění digitálních dat (2000-2001)
Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet (2000-2001)
Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (2000-2004) **
Referenční centrum NK ČR - brána do světa informací (2000-2003)
VICODI - Visual Contextualisation of Digital Content (2002-2004)
Zpřístupnění plnotextových databází odborných zahraničních periodik na základě programu Open Society Institute EIFL Direkt (2000-2003)

Programy VISK (MKČR) - průběžný program - Téměř všechny podprogramy VISK nějakým způsobem souvisejí se zpřístupňováním plných textů. Některé dílčí cíle: umožnit přístup místních i vzdálených uživatelů k informačním zdrojům v ČR a v zahraničí, zlepšit kooperaci knihoven při získávání, zpracování a zpřístupňování zdrojů, redukovat objem primární katalogizace, pomocí digitalizace ochránit a zpřístupnit vzácné knihovní dokumenty, vybudovat digitální knihovnu a archiv pro dlouhodobé uchovávání a zpřístupňování elektronických dokumentů.

V těchto programech jde o podprogramy:
VISK 2 Vzdělávání
VISK 3 Informační centra veřejných knihoven
VISK 4 Digitální knihovna (přímo)
VISK 5 Retrokon
VISK 6 Memoriae Mundi
VISK 7 Kramerius
VISK 8 Informační zdroje
- Linie A Zajištění dostupnosti informačních zdrojů formou multilicencí (zaměřen na zpřístupnění zdrojů české provenience - databáze TamTam fy Anopress, databáze ČTK)
- Linie B Zpřístupňování informačních zdrojů prostřednictvím JIB (integrace informačních zdrojů v jednotném rozhraní, osobní brány, reduplikace výsledků vyhledávání, jednotný formát vstupu, sdílená katalogizace)
VISK 9 Souborný ka talog - Rozvoj souborného katalogu Caslin a souboru národních autorit

Systém knihoven v ČR

- veřejné ústřední knihovny (NKČR, MZK), státní vědecké (krajské) knihovny, městské, obecní ..
- ústřední specializované (STK, NLK, ÚZPI …)
- vysokoškolské
- podnikové aj.
- archivní a muzejní knihovny

2. Průběžné průzkumové práce týkající se hlavních trendů ve zpřístupňování elektronických zdrojů a plných textů (globální pohled s ohledem na vývoj zpřístupňování plných textů v ČR).

Během řešení projektu byly analyzovány následující oblasti a stanoveny následující trendy v získávání, zpracování a zpřístupňování plných textů:

    Typy elektronických dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu - různá hlediska dělení; způsob a úroveň vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části.
  • Získávání - zdroje plných textů : plné texty přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting).
  • Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (ALEPH apod.); v lince automatické indexace bibliografických záznamů z plných textů, které obsahují metadata (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická) za současného generování URL a metadat ve formě UNIMARC (perspektivně MARC 21), DC, XHTML, XML/RDF - vlastně on line analogie formuláře pro generování metadat z plných textů ; formulář pro generování DC, XML/RDF
  • o Metadata : bibliografický záznam (MARC), DC - metadatový formát pro www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků, kvalifikované atributem či nekvalifikované.
  • Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy).
  • Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě.
  • XML/RDF: popis systému značek DTD (Document Type Description) tvoří tzv. RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky.
  • Identifikace plných textů: URL , PURL (databáze, PURL je přiřazeno danému URL), URN , SICI (pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv).
  • Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené; statická adresa, dynamicky generovaná adresa a OpenURL.
  • Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways", konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC, Excalibur) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback); metatagy DC v HTML, XHTML, XML/RDF.
  • Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny).
  • Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů (formát text, RTF, HTML, XML, též UNICODE).
  • Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.
  • Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny.
  • Zpřístupnění plných textů z hlediska institucionálního (zdroje): autoři, prostřednictvím nakladatelství/vydavatelství, distributorský firem, knihoven/informačních institucí.
  • Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné - fixed-fee, platby za uskutečněné operace - pay-as-you-go), přes IP, login, heslo, proxy server, volně.
  • Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR - Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) - 4 úrovňový model manifestace díla, nutnost existence mezinárodních katalogizačních pravidel a eventuelní participace na jejich vzniku), norma pro citování dokumentů ČSN Bibliografické citace, věcný popis - autority, předmětová kategorizace, konspekt.
  • Zákony: nutná změna autorského zákona, zákona o povinném výtisku, vysokoškolského zákona

3. Průběžné průzkumové a rešeršní práce týkající se zdrojů a systémů zpřístupňování a propojování plných textů, jejich organizace, používaných standardů, legislativně právní problematika atd. - globální pohled s ohledem na předešlé body a na budoucí vývoj zpřístupňování plných textů v ČR (tento materiál je také součástí projektu Souborná databáze a je s ním komplementární).

Některé zdroje přístupné na českém Internetu, digitální knihovny, služby a projekty zabývající se zpřístupněním sekundárních informací o článcích a zpřístupněním plných textů.

Během pětiletého řešení projektu nastal poměrně rychlý vývoj ve zpřístupnění plných textů na českém internetu co do forem a organizace. Změříme se na některé instituce, zdroje a projekty, které ovlivnily, uvlivňují nebo budou mít vliv na zpřístupnění plných textů v systému článkové bibliografie.

Plné texty jsou organizovány na Internetu do tematicky, regionálně nebo jinak utříděných služeb. Jsou přístupné přes vyhledavače, jsou utříděny do kategorií, zpřístupněny na různých portálech a zpravodajských serverech, v informačních branách, digitálních a virtuálních knihovnách v rámci kooperace příslušných institucí. Některé knihovny a instituce vytvářejí soupisy volných českých zdrojů plných textů na Internetu a zdrojů, které vydávají. Jsou zpřístupněny licencované zdroje zahraničních plnotextových databáz a je založeno konsorcium Anopress pro multilicenční přístup k českým plným textům. V ČR jsou přístupné i zahraniční tzv. alerting services. V řadě knihoven je funkční elektronické dodávání dokumentů.
Zdroje se propojují staticky, dynamicky, pomocí OpenURL a SFX.

Nabídka českých novinových a časopiseckých elektronických zdrojů je relativně velká - jsou vystaveny deníky, týdeníky a časopisy . Vystavené texty jsou zachyceny s různou hloubkou retrospektivity (aktuální číslo, poslední čísla či roky), objevují se archivy volně dostupné či pouze registrovaným uživatelům. Některé zdroje obsahují citaci , abstrakt, objevují se current contents. Někdy lze vyhledávat podle základních formálních údajů, kombinovat dotazy pomocí logických operátorů, vyhledávat plnotextově (České noviny , IDNES , Lidové noviny, iHNed, Právo, Mojenoviny).

Na české Internetu se objevují nakladatelské elektronické zdroje. Vztahy mezi uživateli, knihovnami a vydavateli/nakladateli a knihovnami či bibliografickými agenturami nejsou dosud jasné z hlediska právního i obchodního, v budoucnu lze předpokládat v tomto směru vznik nových iniciativ.

Např. nakladatelství Vydavatelství Economia nakladatelství ekonomické literatury vystavuje na Internetu plné texty produkce tohoto nakladatelství. Server IHNED nabízí pokročilé vyhledávání ve zdrojích i řazení výsledku podle relevance. Pro předplatitele periodik je možný zdarma přístup do archívů.Čtenáři mají také možnost zaplatit si přístup k online archívům tištěných periodik vydavatelství ECONOMIA nebo si mohou zakoupit prostřednictvím tzv. iKreditů pouze jednotlivé články. Sagit (elektronické nakladatelství - právní texty), Tigis (časopisy pro lékařskou odbornou veřejnost a edukační časopisy pro veřejnost), Nakladatelství Muzikus - hudební tematika, Nakladatelství Portál (pedagogika, psychologie).

Informační agentury

Albertina icome
Albertina icome Praha je česká soukromá společnost zaměřená na zpřístupnění profesionálních informačních zdrojů v elektronické formě a jejich využití v praxi. AiP nabízí elektronické tituly předních světových vydavatelství. Elektronické vydavatelství spolupracuje na vydávání ČNB na CD-ROM. V tomto roce byl zpřístupněn projekt Infozdroje.cz.
Cíle projektu: zpřehlednit přístup k informačním zdrojům z jednotlivých institucí, usnadnit zveřejňování informací o konzorciálních projektech, informovat uživatele o novinkách a pomůckách k jednotlivým informačním zdrojům, usnadnit správu rozsáhlých konzorciálních licencí, sdružit informace o IP adresách , usnadnit zpětnou vazbu mezi uživateli, koordinátory na úrovni jednotlivých institucí, technickou podporou AiP a vydavateli.

ČTK

ČTK nabízí kromě vlastního zpravodajství i plné texty několika desítek nejvýznamnějších tuzemských novin, týdeníků a jiných odborných titulů. V elektronické formě dává k dispozici plné texty bez reklamních a inzertních stránek, bez fotografií a grafů. Stejně tak jsou k dispozici přepisy nejdůležitějších zpravodajských a publicistických pořadů významných domácích rozhlasových a TV stanic. Infobanka poskytuje informace vybrané informace o zemích světa včetně politických, makroekonomických, historických a geografických údajů o každém státě. Databáze přináší podrobný přehled o domácím politickém, hospodářském a kulturním životě, včetně vývojových materiálů, jež průběžně sledují všechny klíčové události ve společnosti. INFOBANKA ČTK obsahuje také biografie známých osobností z celého světa, sportovní databázi s výsledky a životopisnými údaji významných sportovců a přehledy výročí a událostí očekávaných doma i v zahraničí v příštích měsících a letech.

Newton I.T.

Agentura vytváří elektronický archiv zpráv z domácích i zahraničních tištěných médií, plných přepisů zpravodajských, publicistických i diskusních pořadů z televize a rozhlasu, agenturního zpravodajství a zpravodajských internetových serverů (až od roku 1993). Z toho archivu poskytuje monitoring podle individuálních potřeb. Nabízí jednotlivým redakcím tvorbu elektronických archívu. Elektronické archivy dostupné přes standardní webové rozhraní či na CD jsou určeny pro vnitřní potřeby samotného vydavatele, tak pro nejširší veřejnost (Právo, Mladá fronta Dnes, 100+1 zahraničních zajímavostí, Respekt (po registraci dostupné i volně).

Anopress IT, a.s.

Informační agentura, která v současnosti poskytuje následující služby: On-line monitoring vyhledávání na Internetu (on-line fulltextové prohledávání obsáhlé mediální a vědomostní databáze), Off-line monitoring elektronická výstřižková služba (pravidelná dodávka monitoringu médií podle individuálních požadavků), Informační servis Anopress (ISA) (vyhodnocovací software pro další práci s dodanými nebo vyhledanými daty), Quick monitoring (jednoduchá on-line služba umožňující fulltextové vyhledávání v médiích pomocí více jak 200 předdefinovaných témat, Mediální analýzy, Archívy zdrojů (dodávka nebo přístup do kompletních zdrojů), E-noviny informace na míru do vašeho mobilu (vyhledávání v celostátním a regionálním denním tisku z Vašeho mobilu - realizovaná v r. 2003), Sbírka zákonů ČR on-line . V roce 2003 je také zpřístupněna služba významná hlavně pro střední školy Brána vědění.

Hlavním produkty jsou: on-line databanka novin a časopisů celostátních a regionálních, monitoring na zakázku, vědomostní databáze, archívy zdrojů. Anopress IT, a.s. umožňuje on-line přístup do databanky plných textů TamTam, na jejíž bázi poskytuje následné služby. Společnost Anopress je výhradním zpracovatelem elektronické podoby většiny českých regionálních titulů (nakladatelství Bohemia). Pro zpřístupnění plných textů ve veřejných knihovnách bylo založeno v r. 2000 Konzorcium Anopress. Společnost je výhradním zástupcem slovenské firmy SLOVAKIA ONLINE v ČR, která zpracovává elektronickou podobu slovenských tištěných médii. Kromě mediální části obsahuje databanka TAMTAM i část vědomostní, v níž jsou k dispozici pro fulltextové vyhledávání různé encyklopedie, příručky a další knihy referenčního charakteru. Databanka v současné době obsahuje texty článků a zpráv všech celostátních deníků, dále pak regionální deníky, celostátní a regionální časopisy, dále i textové záznamy zpravodajských, publicistických a diskusních pořadů rozhlasu a televize. V roce 2002 byly zpřístupněny archívy zdrojů od r 1996.
Společnost vyvinula vlastní software ISA, který umožňuje všechna data dále analyticky zpracovávat, exportovat je v několika formátech, včetně HTML a XML, pro Internet či Intranet.
Vyhledávací systém TOPIC, který Anopress používá k monitoringu a analýze informačních zdrojů, je v současnosti jediným interaktivním systémem na českém trhu.
Anopress zpracovává zatím cca 35 titulů, které odpovídají excerpční základně Kooperačního systému článkové bibliografie. V databance TamTam je obsaženo cca 200 informačních zdrojů.

V únoru 2002 byla agentura vydražena v dobrovolné dražbě, v dubnu 2002 zaregistrována jako nový podnikatelský subjekt s názvem Anopress IT, a.s. Zpráva o Anopressu byla dle dohody podána řešitelkou předkládaného projektu na MKČR koncem května 2002. Agentura plní své dosavadní závazky a smlouvy. podprogram VISK8 - Informační zdroje - linie A je zaměřen na zajištění dostupnosti elektronických informačních zdrojů formou multilicencí z domácí, české provenience. V září 2002 byla schválena dotace MKČR pro multilicenční zpřístupnění databází TamTam a ČTK v rámci VISK 8 v r. 2003. Analogicky vyplývá: v budoucnu podobné zpřístupnění báze ANL FULL a licence resp. multilicence pro přístup do báze TamTam pro linku zpracování bibliografických záznamů z plných textů.

Právní informační systém ASPI (Automatizovaný systém právních informací).
Digitální knihovna Český parlament a Dokumenty Senátu.
Digitální knihovna v NKČR obsahuje vzácné a ohrožené dokumenty digitalizované v národních programech Memoriae Mundi Series Bohemica (převážně rukopisy, staré tisky a perspektivně další dokumenty) a Kramerius (starší noviny a časopisy a další vzácné dokumenty tištěné na kyselém papíře). Pro projekt Memoriae mundi series Bohemica bylo vytvořeno DTD na základě struktury Master. V koncem roku 2003 byla zpřístupněna aplikace Manuscriptorium, postupně se zpřístupňuje aplikace Kramerius . Sám digitální archív nebude po internetu přístupný.

V NKČR se dále používá RetrievalWare Excalibur k indexaci zatím webových stránek distribuovaný firmou Incad (umí překonat chybovost technologie OCR). Excalibur je intuitivní vyhledávací systém společnosti Excalibur Technologies založený na technologii APRP a sémantické sítě (slovní výrazy, spojení idiomy). Adaptive Pattern Recognition Precessing je technologe založena na indexování na bipolární úrovni, jazykově nezávislá, má toleranci chybovosti dat na vstupu. Pomocí tohoto systému se indexují www stránky NKČR , krajské knihovny v Olomouci.

V r. 2002 byla zpřístupněna digitální knihovna rukopisů, prvotisků a starých tisků v krajské knihovně v Olomouci.

Akademie věd a vysoké školy

AVČR

Katalog elektronických zdrojů AVČR KEZ obsahuje zdroje vznikající či využívané v rámci AV ČR (automatické generování deskriptorů i manuální). Je určen k dispozici on-line vědecké obci i široké odborné veřejnosti a to nejen pro vyhledávání, ale i pro pořizování záznamů. KEZ využívá systém Convera Retrieval Ware (Excalibur). Akademie věd ČR zpřístupňuje publikační činnost pracovníků v Ústavní bibliografii ASEP do r. 1993 a Ústavní bibliografii ASEP od r. 1993. Některé časopisy vydávané AVČR jsou vybaveny abstraktem a plným textem, někde jsou pouze obsahy časopisů. Jednotlivé obory jsou sledovány v příslušných sekcích AV - Organizační schéma AV ČR.

Vysoké školy

V současné době jsou aktuální otázky zpřístupňování vysokoškolských prací - elektronizace a digitalizace, legislativní souvislosti a role knihoven při jejich zpřístupňování (Zákon 111/1998 Sb. - "Vysoko-školský zákon"a Zákon 121/2000 Sb. - "Autorský zákon" a jejich novela). Aktuální je též zpřístupňování dalších elektronických zdrojů a prací vznikajících v rámci vysokých škol. Je nutný konsensus týkající se publikování na vysokých školách mezi jednotlivými subjekty (fakulty, ústavy). Přehled o vysokých školách poskytuje Adresář vysokoškolských knihoven nebo Katalog vysokých škol v ČR. Organizace zabývající se otázkami týkající se vysokých škol je Asociace knihoven vysokých škol. V rámci vysokých škol a univerzit existují virtuální a souborné katalogy, např. Virtuální Souborný katalog Univerzity Karlovy. Elektronické informační zdroje zpřístupňuje portál PEC. Nakladatelství Karolinum - vydávání učebních textů, vědeckých monografií, sborníků vědeckých prací, slovníků a vědeckých časopisů - current contents.Na webových stránkách vysokých škol se objevují plné texty dokumentů, které tyto vydávají.
Plné texty jsou zpřístupňovány v rámci Českého národního korpusu. Český národní korpus je rozsáhlá databáze textů sloužících ke zkoumání v rámci oboru počítačová lingvistika, literární věda apod. Obsahuje plné texty některých deníků, periodik aj. dokumentů. Je analyzován pracovišti FFUK, MU v Brně a ČVUT. Služby virtuální ekonomické knihovny Econlib jsou zajišťovány Centrem informačních a knihovnických služeb VŠE v Praze (CIKS) a knihovnou CERGE-EI.

Národní lékařská knihovna

Vydává BMČ a CR-CZ (viz dále), též katalogizuje elektronická periodika dostupná v rámci licencí. Některé záznamy elektronických zahraničních časopisů byly předány do STK v rámci projektu Portál STM a měly by být zahrnuty do terciální databáze. Dále by měla být zahrnuta česká elektronická periodika online. Knihovna by měla také katalogizovat internetové domácí zdroje z oblasti lékařství a zdravotnictví. NLK řeší projekt Medicínská virtuální knihovna - MEDVIK, sdílení informačních zdrojů pro vědu a výzkum. V rámci Medviku je zabudováno i elektronické dodávání dokumentů.

Státní technická knihovna

Elektronické časopisy se katalogizují v terciální databázi v rámci projektu LI01018 z oblasti STM. Na stránkách knihovny je databáze on-line časopisů podle oborů a databáze českých ISSN. Provozuje Portál STM . V Potrál STM (Science, Technology, Medicine) jsou zpřístupňované zdroje z oblasti STM zakoupené z veřejných prostředků v ČR a z prostředků LI ze všech oborů (Program LI MŠMT - program pro nákup licencí elektronických zdrojů v r. 2000-2003). Portál používá zejména SFX jako zvláštní databázi, která po vyhledání v JIB nebo v TB k nalezenému EIZ nabídne několik služeb k hledanému EIZ. Přístup do database je realizován pomocí OpenURL. Elektronické dodávání dokumentů se realizuje prostřednictvím VPK .

Př.
Poskytovatel/Vydavatel: Státní technická knihovna
Název: Virtuální polytechnická knihovna
Zkrácený název: VPK
URL: http://www.vpk.cz/
Nosič: Služba dodávání dokumentů
Nositel: Státní technická knihovna
Řešitel: Žižková, Štěpánka
E-mail řešitele: s.zizkova@stk.cz
Označení projektu: LI00028
Charakteristika: elektronické i tradiční dodávání dokumentů ze souborného katalogu časopisů VPK
Kontaktní osoba: Hejná, Lucie <L.Hejna@stk.cz>
Poznámka: technika a související přírodní vědy
Typ: Plnotextová databáze
Věcný profil: Biologické vědy; Technika, technologie
Zdroje: seznam

WebArchiv

Je vytvářen v rámci programového projektu výzkumu a vývoje "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet". Jeho cílem je připravit podmínky pro zpracování české národní bibliografie elektronických zdrojů, se zaměřením zejména na zdroje dálkově přístupné a zajistit dlouhodobé uchování domácích elektronických zdrojů. Do češtiny byla přeložena nejnovější verze standardu Dublin Core Metadata Element Set, Version 1.1 proběhla lokalizace metadatového formuláře převzatého od Helsinské univerzitní knihovny z projektu Nordic Metadata. V rámci popisu elektronických zdrojů NK se zatím popisují vybrané servery "národní produkce" (doména cz), výběr zdrojů je podle obsahu (odborné, umělecké), typu (seriály, konferenční příspěvky, výzkumné zprávy, dokumenty veřejné správy, formy (pouze elektronická forma), přístupu, formátů (všeobecně podporované) s ohledem na automatické získávání elektronických zdrojů (volně přístupné zdroje). V ALEPHu by měly být záznamy ukládány ve formátech MARC a DC (konverze generátor DC). Uložení v digitálním archivu.Počítá se s popisem seriálových zdrojů (periodika publikovaná v elektronické formě, webové stránky) a jejich zpřístupněním v JIB. Předpokládá se spolupráce s knihovnami v JIB. V roce 2003 byla zpřístupněna báze bibliografická WEB, obsahující některé on line elektronické zdroje. Cílem je, aby ze záznamů v databázi byl současně umožňován přístup do digitálního archivu (WebArchiv). Protože platná česká legislativa neumožňuje v současné době zdroje zpřístupňovat, řeší se situace uzavíráním smluv s autory/vydavateli internetových zdrojů. Na projektu Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet spolupracuje Ústav výpočetní techniky Masarykovy univerzity v Brně. Předběžně byla dohodnuta spolupráce při testování využití metadatového schématu Dublin Core s několika informačními a dalšími institucemi, které působí současně jako vydavatelé elektronických zdrojů.

Dublin Core Metadata Generator je nástroj umožňující autorům webových stránek poloautomaticky nebo ručně vytvořit, editovat, konvertovat a ve zvolené syntaxi uložit metadata respektující pravidla kvalifikovaného Dublin Core. Přidělení jednoznačného identifikátoru je umožněno propojením Dublin Core generátoru s generátorem URN. Připravuje se úprava systému přidělování URN tak, aby program přidělující URN fungoval jako samostatný URN server s možností integrace této funkce do publikačních systémů vydavatelů online zdrojů. Díky tomu by se přidělování URN mělo stát zcela automatickým procesem.

V rámci projektu byl lokalizován nástroj Harvester z projektu NEDLIB, a kalkulátor MD5 pro výpočet kontrolního součtu dokumentu. Sklízená data se budou ukládat pomocí páskového robota.

Zpřístupnění archivu se má realizovat pomocí technologie fulltextového indexování a automatizované extrakce autorem vytvořených metadat. Na MFF UK vypsán ročníkový týmový projekt na vytvoření indexační a vyhledávací aplikace pro Webarchiv. Tato aplikace by měla zpřístupnit stažené dokumenty v jejich kontextu, tedy s vloženou grafikou ze stejné doby a s odkazy vedoucími primárně opět do archivu. Vyhledávání v archivu by mělo být umožněno nejen na základě URL nebo kontrolního součtu dokumentu, ale i na základě z dokumentu extrahovaných metadat nebo fulltextového vyhledávání. Tato aplikace by měla být navržena tak, aby bylo možné k ní kdykoli připojit moduly pro indexování jiných, než textových typů souborů.

Jedním z dalších cílů projektu bude proto pokus o využití systému Convera Retrieval Ware pro indexování některých typů souborů obsažených v archívu.

Z dokumentů, které obsahují metadata podle DC by se mohla vybudovat menší bibliografická báze. Aplikace vyvíjená v rámci projektech týkajících se článkových informací by se eventuelně dala upravit pro přijímání dokumentů z Webarchivu. V budoucnu by šlo hypoteticky oba systémy propojit. V roce 2000 byla vypracována příručka Katalogizace elektronických zdrojů.

Jednotná informační brána

Projekty JIB:
Součástí projektu JIB je:
Portál STM
Jednotná informační brána
Česko - slovenský virtuální katalog Caslin.

JIB umožňuje základní prohledávání informačních zdrojů, jejich tematický výběr, stahování záznamů.

Zdroje jsou volně přístupné a licencované, jsou zpřístupněné v JIB k vyhledávání nebo jako odkazy.

Základním nástrojem JIB je Metalib a SFX.

Metalib je paralelní prohledávač heterogenních zdrojů (plné texty, databáze, archivy, katalogy aj.), komunikuje především prostřednictvím protokolu Z39.50 nebo HTTP. Služby jsou personifikované (autorizace a autentifikace uživatele je předpokladem pro přihlášení a nastávaní práv uživatele). Zpřístupňované zdroje jsou volné a licencované/placené. Přístup: pro registrované a neregistrované uživatele. Vyhledávání je možné podle autor, názvu, předmětu, roku vydání, ISBN/ISSN. Metalib má znalostní bázi (informace o zdrojích a uživatelích).

Propojování - Metalib a SFX

SFX je standard pro propojení dokumentů a je využíván v Metalib k vytváření vazeb. SFX je nástroj k nabízení přidaných služeb. Po vyhledání příslušného pramene informací tento nabídne další - přidané služby.Cíl je místo, kde se přidané služby realizují. SFX zajišťuje spolupráci pramenů s cíli. Prostřednictvím tlačítka SFX se vygeneruje zdroj požadavek v podobě OpenURL obsahující metadata záznamu, identifikaci uživatele a identifikaci zdroje. Neobsahuje informace o cílech. SFX nabídne na základě údajů v OpenURL konkrétní přidané služby.a uživatel aktivuje službu, kterou si vybere, např. služby OPAC, databáze plných textů, služby dodávání dokumentů, MVS, služby vyhledávačů na WWW. SFX je aplikace OpenURL.

OpenURL umožňuje přenášet metadata z informačního zdroje na SFX server, Musí být implementováno poskytovateli informační služby, aby informační zdroj mohl být SFX zdrojem

Př.: http://sfx.aaa.edu/menu?genre=article&issn=1234-5678&volume=12&issue=3
&spage=1&epage=8&date=1998&aulast=Smith

SFX zdroj je databáze, v níž uživatel začíná prohledávání a slouží jako východisko ke službám, které uživatele přivedou k dalším službám. SFX zdroji mohou být A&I (abstraktové a indexové) databáze, knihovní OPAC, e-časopisy, e-print archivy. Seznam databází, které jsou pro SFX server (projektu JIB) konfigurovány jako zdrojové databáze, je uveden na stránce SFX - Zdroje (např. Metalib, TinWeb, VPK). OpenURL musí být implementováno poskytovatelem informační služby, aby informační zdroj mohl být SFX zdrojem.

SFX cíl se označuje databáze, na kterou odkazuje SFX. Cílem může být například elektronický katalog knihovny, služba dodávání dokumentů, internetové knihkupectví či webovský prohledávač. Seznam databází, které jsou pro SFX server projektu JIB konfigurovány jako cílové databáze, je uveden na stránce SFX - Cíle (např. souborné katalogy - knižníc SR, UK, knihoven T-Series, SKAT, AMU, NKC, krajských knihoven v Liberci, Ostravě, Brně, Ústí nad Labem, Plzni, Olomouci, Slovanské knihovny, KKL - knihovnická literatura NK; elektronické dodávání dokumentů - VPK, DODO NKČR; plný text - EBSCO, PCI Full Text, ProQuest, ScienceDirect na úroveň stránky v tištěné formě, abstraktu nebo plného textu; Recenze - Amazon.com (recenze vyhledaných knih); informace o autorovi a jeho pracích Encyclopedia Britanica, Coto.je obsahuje Ottův slovník naučný, Encyklopedii Universum, Malou československou encyklopedii, katalog Library of Kongress). Všechny zdroje, které jsou využívány jako SFX cíle musí mít definovanou tzv. link-to syntaxi, která umožňuje strojové generování odkazů vedoucích na konkrétní dokument.


Článkové databáze přístupné v JIB

Báze ANL a ANAL (Olomouc) zpřístupněna v JIB pro vyhledávání. Báze ANL FULL a články krajské knihovny v Liberci zpřístupněny v JIB jako odkaz. Plné texty báze ANL FULL jsou přes bázi ANL přístupné v JIB pro externí uživatele na 1 den. V řešení jsou připojení dalších institucí a zdrojů, např. Anopress. Pro lokalizaci časopisů či článků se nabízí také EZB.

Nástroje použité v Jednotná informační bráně (JIB) nabízí další možností linkování na přidané služby k vyhledaným bibliografickým dokumentům. Nabídku odkazů na relevantní služby v rámci JIB zajišťuje výše uvedený SFX server. Pro snadné vyvolání SFX nabídky je k dispozici Citation linker.

Využítí pole 856 pro přímé linkování na záznam v OPACu a na plný text.

V poli 856, podpoli $u bibliografického záznamu ve formátu UNIMARC může být uvedena URL. Tuto URL pak MetaLib JIB uživateli nabízí jako aktivní odkaz na externí objekt, např. přímý odkaz na záznam v OPAC , na plný text, či na jinou službu typu přebírání záznamu V poli 856 záznamů ze SKAT je uvedena adresa na OPAC SKAT, kde se čtenář dozví, ve kterých z městských knihoven vlastní výtisk žádaného dokumentu. Souborný katalog Univerzity Karlovy v Praze (SKUK) uvádí v tomto poli dvě adresy. První odkazuje přímo na OPAC knihovny Univerzity Karlovy, která žádaný výtisk vlastní a druhý odkazuje na službu pro přebírání záznamů. Pole 856 je využito také v záznamech článková bibliografické databáze ANL k propojení na plný text báze - ANL FULL.

Využití proxy pro přístup k licencovaným zdrojům mimo rozsah IP adres

Výhoda připojení přes proxy server je pro uživatele pracující mimo domovský rozsah IP adres. Při připojení přes proxy server uživatel může přistupovat ke všem službám a databázím s přístupem omezeným, licencovaným na použití v rámci domovské instituce - knihovny, univerzity, apod.V lednu 2004 bylo instalováno připojení přes proxy např. pro přístup do Anopressu v rámci konsorcia Anopress.

Předpoklady pro fungování JIB: jednotné věcné zpracování (překlad změn MDT, tvorba záznamů věcných autorit, aktualizace notací MDT v záznamech věcných autorit, příprava harmonizace věcných autorit a Polytematický strukturovaný heslář, konkordance MDT s DDC. Soubor věcných autorit je nástroj nástroj standardizace a unifikace věcných selekčních prvků na národní úrovni a sdílenou katalogizaci. Soubor věcných autorit obsahuje tematické termíny, geografické a formální. Věcné termíny jsou propojeny s notacemi MDT a anglickými ekvivalenty a vazbou na konspekt. Skupiny konspektu obsahují název skupiny a přidělený znak MDT plus anglický ekvivalent. Soubory autorit jsou přístupné na adrese http://wwwold.nkp.cz z nabídky Katalogy a databáze - báze AUT. Na adrese http://aip.nkp.cz/mdt/ je publikován překlad UDC MRF.

Aplikace metody konspektu (Cit. Balíková, 2001-2003) umožní kooperaci knihoven při budování fondů. Přehled předmětových kategorií je aplikován v JIB jako základní tematické rozcestí (1. úroveň třídění), skupiny konspektu jsou obsaženy v bázi AUT. Skupiny konspektu se přidělují při popisu dokumentů v bázi NKC.

Plánuje se jejich aplikace i v článkové bibliografii. Zde budou používány navíc detailnější předmětové kategorie, které je třeba v bázi ANL sjednotit. Budou uváděny v jiném poli M21, než skupiny konspektu.

Pro JIB byl vypracován Návrh požadavků na metadata používaná pro provoz oborových informačních bran v České republice. Standardy používané v JIB jsou užívány nebo se aplikují postupně v ČR.

Předmětová kategorizace - konspekt (mezinárodní standard)

Č Předmětové kategorie       Poznámka 
1 Antropologie       
2 Biologické vědy        
3 Divadlo, film, tanec       
4 Ekonomické vědy. Obchod       
5 Filozofie a náboženství       
6 Fyzika a příbuzné vědy       
7/td> Geografie. Geologie. Vědy o zemi       
8 Historie a pomocné historické vědy       
9 Hudba       
10 Chemie. Krystalografie. Mineralogické vědy       
11 Jazyk, lingvistika a literatura       
12 Knihovnictví a informatika - všeobecné, referenční literatura       
13 Matematika       
14 Lékařství       
15 Politické vědy       
16 Právo       
17 Psychologie       
18 Sociologie       
19 Technika. Technologie. Inženýrství       
20 Tělesná výchova a sport. Rekreace       
21 Umění a architektura, muzeologie       
22 Výchova a vzdělávání       
23 Výpočetní technika       
24 Zemědělství       

Postupně by mělo dojít k aplikaci konspektu a kooperaci a koordinaci mezi českými knihovnami .

Předpokladem pro aplikaci tohoto mezinárodního standardu v ČR bylo vytvoření konkordančních tabulek DDC a MDT a zohlednění některých témat, které nebyly v původní předloze této metody obsaženy.

Pro zápis údaje skupina Konspektu v rámci bibliografického záznamu bylo zvoleno pole 615 UNIMARC.

615 |n klasifikační znak MDT|a verbální termín v češtině
615 |n 316.7 |a Sociologie kultury

Autoritní záznam skupiny Konspektu

FMT SK LDR -----nx 22----- 45
001 sk*********
005
100 |a 20010813aczey0103 ba
290 |n klasifikační znak MDT|a verbální termín v češtině
3309 |a Poznámka
490 0 |n klasifikační znak DDC|a verbální termín v angličtině |8 eng
590 9 |k pořadové číslo předmětové skupiny |a verbální termín označující předmětovou skupinu v češtině |5 g
801 0 |a CZ |b ABA001 |c 20010813

Autoritní záznam předmětové kategorie

Předmětová kategorie v poli 290 a skupiny konspektu v 590 (s MDT.).

FMT SK
LDR -----nx 22----- 45
001 sk133275
005 20021203122947.0
100 |a 20021129cczey0103 ba
290 |k 18 |a *Sociologie
590 1 |n 30 |a Teorie, metodologie společenských věd |5 h
590 1 |n 316 |a Sociologie |5 h
590 1 |n 308 |a Sociografie |5 h
590 1 |n 316.4/.7 |a Sociální interakce |5 h
590 1 |n 316.4 |a Sociální procesy |5 h
590 1 |n 314 |a Demografie |5 h
590 1 |n 316.3 |a Globální společnosti. Sociální struktura. Sociální skupiny |5 h
590 1 |n 316.33 |a Ekonomická sociologie. Sociologie institucí, lidských sídel a komunit |5 h
590 1 |n 326 |a Otroctví |5 h
590 1 |n 36 |a Zajištění duševních a materiálních potřeb |5 h
590 1 |n 364 |a Sociální problémy vyžadující podporu a pomoc. Sociální zabezpečení |5 h
590 1 |n 364-1/-7 |a Druhy sociální pomoci a služeb |5 h
590 1 |n 364.3 |a Sociální pojištění. Zdravotní pojištění |5 h
590 1 |n 365 |a Požadavky na bydlení a jejich uspokojování |5 h
590 1 |n 366 |a Ochrana spotřebitele. Chování spotřebitele |5 h
590 1 |n 343.97 |a Kriminologie |5 h
590 1 |n 343.8 |a Vězeňství |5 h
590 1 |n 061.23 |a Organizace se specializovaným zaměřením a činnostmi |5 h
590 1 |n 649 |a Domácí péče o děti, nemocné a hosty |5 h
801 0 |a CZ |b ABA001 |c 20021129
SYS 00013327
5

Aplikace metody pro popis zdrojů umožňuje paralelní vyhledávání záznamů o dokumentech i na úrovni sbírek, integrovaný přístup k heterogenním zdrojům ve vícejazyčném prostředí.

Metalib a SFX je produktem fy Exlibris. V České republice bylo založeno konsorcium knihoven, které ALEPH používají. Dalšími produkty této firmy kromě ALEPHU je nástroj pro zpracování, archivaci a zpřístupnění elektronických sbírek DigiTool. Umožňuje i fulltextové vyhledávání.

Souborný katalog CASLIN se v počátcích řešení vyvíjel na základě vlastní aplikace s využitím databázového systému ORACLE. Později bylo rozhodnuto o přechodu pod systém ALEPH s tím, že nadále bude fungovat jako systém CUBUS a bude zajištěna vazba mezi Souborným katalogem SK ČR pod ALEPHEM a systémem CUBUS (dávkové importy z Cubusu do ALEPHu). Toto rozhodnutí bylo učiněno vzhledem k nutnosti zpracování souborů autorit v jednotném prostředí systému ALEPH na základě kooperace.

Automatická či poloautomatická indexace (J. Schwarz, 2002)

V bývalém Československu začal rozvíjet výzkum a vývoj v oblasti automatizovaného zpracování textu až od konce 60. a začátku 70. let 20. století.Vznikla řada nejen regionálně, ale i mezinárodně jedinečných systémů, které byly určeny k automatizovanému zpracování textu především v oblasti automatické indexace, automatické tvorby tezauru a automatického překladu. Na světové úrovni, zejména zásluhou P. Sgalla, se v Česku rozvinula také matematická lingvistika, označovaná také jako komputační lingvistika, a zejména v druhé polovině 90. let 20. století rovněž i korpusová lingvistika. Většina uvedených systémů dnes slouží k výzkumných účelům, ale některé z nich jsou částečně dostupné i komerčně (týká se to např. systému LEGSYS).

Již od začátku 70. let byly vyvíjeny i systémy SEMAN (V. Smetáček) a MOZAIKA (Z. Kirschner). 70. a 80. léta představovala také období rozvoje matematické, komputační a korpusové lingvistiky pod vedením P. Sgalla; vzniklo specializované pracoviště (dnes Ústav formální a aplikované lingvistiky/Centrum komputační lingvistiky na MFF UK), znalosti a zkušenosti jeho pracovníků byly zúročeny i v současném projektu Pražského závislostního korpusu, resp. Českého národního korpusu.

Automatická indexace sněmovních tisků v KPS PČR

Parlamentní knihovna jako odbor Kanceláře Poslanecké sněmovny Parlamentu ČR od r. 2000 indexuje v testovacím provozu sněmovní tisky, od 4. volebního období (červen 2002) přešla indexace sněmovních tisků do rutinního provozu. V rámci indexace sněmovních tisků byla ve spolupráci s Odborem informatiky KPS PČR a diplomantem M. Urbanem (VŠE Praha) implementována automatická indexace založená na automatické extrakci slov a sousloví z textu dokumentu za podpory lematizátoru, frekvenční analýzy, rozpoznávání víceslovných výrazů, negativního slovníku a komparace slov z textu s lexikálními jednotkami tezauru EUROVOC. Výsledkem je frekvenčně uspořádaný seznam deskriptorů, který je určen pro další intelektuální zpracování. Automatická indexace je stále pouze v testovacím provozu z důvodů omezené využitelnosti jejích výsledků.

Moderní vyhledávací metody se zkoumají v rámci projektu Inteligentní vyhledávání v dokumentografických informačních systémech, který řeší MFF UK ve spolupráci s KPS PČR. Projekt má za cíl pomocí standardních metodik otestovat vyhledávací techniky založené na statistickém přístupu (např. vektorové vyhledávání, latentní sémantické indexování, pojmové shlukování).

Bibliografické zpracování článků v ČR

Bibliografické zpracování článků v ČR je poměrně rozsáhlé co do zdrojů, které se analyticky zpracovávají, tak co do typů institucí, které tuto činnost provozují.
Národní knihovna ČR zpracovává výběrově bibliografické záznamy článků ze všech druhů seriálů (noviny, časopisy, odborná periodika, sborníky) v rámci Kooperačního systému článkové bibliografie(KOSABI) , ve kterém spolupracuje v současnosti 8 krajských knihoven a MZK, specializované odborné knihovny (STK, ÚZPI, SPKK-ÚIV, ČSAV, experimentálně ČGÚ). Spolupráce je navázána se 4 novými krajskými knihovnami. Na základě této spolupráce vzniká souborná databáze ANL. V systému LANIUS, resp. Clavius se zpracovávají bibliografické záznamy článků v knihovnách veřejných knihoven. V budoucnu je třeba sladit systém KOSABI a LANIUS tak, aby nedocházelo k duplicitnímu zpracování. Instituce spolupracující v rámci KOSABI přecházejí na nové SW vyšší generace. V krajských knihovnách v Kladně a Liberci se články popisují v systému RAPID, resp ARL, v MZK v Brně v ALEPH, v Olomouci též. V Ostravě, v Českých Budějovicích a Ústí nad Labem v systému T-Series. V Hradci Králové, ÚZPI, STK, SPKK-ÚIV přetrvává ISIS. V krajské knihovně v Plzni se v r. 2003 rok instaloval ALEPH (články dříve zpracovávány v KIMS). V nově konstituovaných rajských knihovnách v Pardubicích a Zlíně se používá KP-Sys, resp KP-Win, v Karlových Varech a Havlíčkově Brodě systém LANIUS, resp. Clavius.
Knihovny pracující v ALEPHu přešly na verzi 14.2.4. Data jsou zpracovávána ve nebo konvertována do formátu UNIMARC, respektují se pravidla popisu AACR2, ISBDs, Guidelines for the application of the ISBDs to the description of Component Parts s respektováním mezinárodních standardů věcného popisu - MDT-MRF pro oblast systematické indexace. V oblasti verbální věcné indexace se kombinují klíčová slova, věcné obecné kategorie a předmětová hesla a kontrolují se proti souborům autorit (v některých knihovnách) . Vyváženost vazby mezi jednotlivými vrstvami popisu je klíčovým momentem. V rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce - tituly regionální a celostátní provenience a dále pak na základě odborného zaměření). V rámci KOSABI jsou stanoveny zásady výběru článků co do úplnosti i co typů. V roce 2003 probíhaly v NKČR práce na konverzi UNIMARC a MARC 21.

Zpracovávané typy titulů a výběr článků z hlediska úplnosti: v kooperačním systému jsou zpracovávány články a statě české novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol, muzeí, archivů, materiály z konferencí, ročenky, odborné i polytematické časopisy, kulturně-politické časopisy a populárně-naučné časopisy). Jsou určeny kategorie A-D zdrojů z hlediska obsahu a formy vydávání a těmto kategoriím je stanovena úplnost excerpce (viz dále).

Báze ANL - obsahuje kategorie A-D, báze ANL FULL zatím kategorie C, z kategorie B periodikum Národní knihovna (též samostatná aplikace ve formátech HTML, PDF).

Typy článků: faktograficky přínosné články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze jsou výběrové.

  • Počet záznamů k lednu 2004: ANL cca 820 000 bibliografických záznamů, ANL FULL cca 118 000 plných textů s metadaty
  • počet zpracovávaných titulů: ANL - cca 212 v NKČR, 208 v regionech, 122 v odborných knihovnách, celkem cca 542 titulů; ANL FULL 30 titulů, běžně zpracovávaných zatím 17 v NKČR; cca 26 titulů propojováno na volné texty; cca 176 titulů (malé procento titulů momentálně nefunkčních) zpřístupněno v portálu WWW periodika
  • Časové pokrytí: ANL 1990/91 -, ANL FULL 1997-.


Záznamy NKČR tvoří 79,5 procent báze ANL. Záznamy regionů tvoří 14,1 procent. Záznamy specializovaných knihoven tvoří 6,4 procent. (Podíl v procentech souhlasí zhruba s údaji z r.1999).

Statistiky využívání: poměrně hojně užívaná v regionech i na vysokých školách. Statistiky vstupů:

Období 2003 ANL Počet vstupů z ANL na
plné texty ANL FULL
ANL FULL ANL FULL počet všech vstupů
(na plné texty, včetně
metadat a různých formátů)
září 3629     12713
říjen 5878     25480*
listopad 5339     2222
prosinec 4042     2074
Období 2001-2003 4042   22 500  

* velký počet dán testováním v rámci projektu

V posledních letech vzniklo několik projektů, zabývajících se zpřístupněním analytických záznamů v kooperaci s ostatními knihovnami, jejich prezentací na Internetu a propojením těchto záznamů s plnými texty. Zpřístupnění výsledků analytického zpracování prostřednictvím Internetu (r. 1998) - projekt řešil zejména konverzi článků do UNIMARCu.V rámci průzkumu Internetu se ukázalo, že postupné propojení článků s některými plnými texty již vystavovanými na Internetu na různých serverech je krajně nespolehlivé (různá retrospektiva a úplnost vystavovaných plných textů, různá strategie vystavovatelů ). Výběr spolehlivých zdrojů plných textů je možné řešení.

Výzkumný záměr NK Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, r. 1999-2003) - je projekt analyticko-koncepční a připravuje půdu pro praktickou realizaci účelového projektu popisovaném v této zprávě a dalších projektů. Cílem výzkumného záměru je optimalizace přístupu uživatelů k plným textům dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty. V rámci projektu v r. 1999 proběhlo v NK výběrové řízení a na základě výše uvedených faktů byla vypracována výzva k podání nabídky pro společnost Anopress. V rámci projektu bylo vyvinuta iniciativa k vytvoření Konzorcia Anopress, která byla podepsána mezi SKIP a Anopressem v r. 2000. V rámci projektu bylo periodikum Národní knihovna v Anopressu převedeno do digitální formy a zpřístupněno na Internetu (v r. 1999 pouze technikou OCR, v r. 2000 se přistoupilo i k prezentaci obrázků). V současné době je zpřístupňováno v podobě html na serveru full.nkp.cz (do r. 2001). Zároveň je r. 1999-2003 vystavován ve formátu html a pdf ve speciální webovské aplikaci pro toto periodikum. Speciální aplikace pro Národní knihovnu se bude integrovat s bází ANL FULL pomocí jednotného interface. V rámci projektu je též částečně koncepčně řešena aplikace pro management KOSABI a provádějí se analyticko koncepční práce týkající se metod automatické indexace, zpřístupňování plných textů (topiky) a je z části saturován další vývoj aplikace v systému TOPIC a linky zpracování bibliografických záznamů z plných textů (TTDE).

Projekt Západočeský ANAL - Kooperativní zpracování periodické produkce západních Čech se zabýval odstraněním duplicit při zpracování, metodikou excerpce titulů a zpracování záznamů v jednotlivých okresech západočeského regionu.

Projekt Zavedení automatizovaného zpracování článkové bibliografie v systému T-Series řešený v r. 2000-2001 se zabýval řešil problematikou bibliografického zpracování článků v tomto systému.

Velmi významný je z hlediska tvorby a rozvoje regionálních faktografických databází a souborů autorit je projekt Rozvoj regionálních databází na základě retrospektivní konverze článkové bibliografie řešený v letech 2000-2002 v SVK Kladno.

Zpracování a zpřístupnění článků moderními metodami řeší projekt Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (2000-2004).

Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie (KOSABI) - bibliografické báze ANL (ALEPH) a plnotextové báze ANL FULL budované v systému TOPIC. Bibliografické záznamy článků, publikovaných v českém periodickém tisku jsou postupně propojované s elektronickou podobou článku a metadata jsou uložena ve zdrojových kódech plných textů báze ANL FULL. Současně jsou metadata přístupná v podobě bibliografického záznamu v bázi ANL. Vývoj, správa a údržba plnotextové databáze probíhá ve spolupráci s firmou Anopress. Z databanky TamTam se získávají plné texty se základními metadaty, která jsou vložena v hlavičce plného textu. Ta se dále doplňují v lince zpracování bibliografických záznamů z plných text - - v lince poloautomatické indexace/extrakce (TTDE - Tamtam Data Extraktor) o údaje věcného popisu,generuje se formát UNIMARC (klasický i pro ALEPH) a Dublin Core. Tyto údaje jsou uloženy v plných textech. Zpracovaný plný text se importuje do báze ANL FULL v systému TOPIC a do bibliografické báze ANL, ze které je bibliografický záznam propojen na plný text báze ANL FULL automaticky generovaným linkem v lince poloautomatické indexace/extrakce. V bázi ANL je tento link uložen v poli 856 a má statickou podobu. V bázi ANL FULL je link na příslušené plné texty při vyhledávání generován dynamicky. Jsou v ní generována metadata DC ve formátu HTML, XHTML a XML v kvalifikované a nekvalifikované formě. Vyhledávat lze pomocí jednoduchého formuláře (klíčová slova), rozšířeného formuláře (strukturovaná část databáze - metadata) a rozšířeného formuláře se topiky (strukturovaná témata, pojmy). Přístup do databáze je přes IP.
Báze ANL FULL je koncipována v asp rozhraní, přístup uživatelů přes login a heslo. Funkční aplikace je vyvinuta pro stahování záznamů z databáze a pro zasílání e-mailem. Plné texty jsou zpřístupňovány zatím v Národní knihovně jako koncovému uživateli Anopress, mohou se prohlížet, zatím je nepovoleno kopírovat plné texty přímo z databáze. Po zkušební registraci je povolen přístup k plným textům do databáze po registraci na jeden den externím uživatelům. Snahy budou směřovat ke zpřístupnění báze ANL FULL v rámci konzorcia Anorpess (přístup cca 70 knihoven do databáze TamTam). Jsou v ní generována metadata DC ve formátu HTML, XHTML a XML v kvalifikované a nekvalifikované formě. Linka TTDE je v rutinním provozu na lokálních pracovních stanicích, momentálně probíhají práce ne vývoje její internetové verze s možností napojení na autority (Z39.50 toolkit klient, fy Cosmostron) a s možností extrahovat data z plných textů obecně na Internetu z libovolné URL adresy s i bez stažení plného textu. Internetovou verzi je třeba důkladně otestovat eventuelně rozšířit mezi některé spolupracující instituce.
Analytické záznamy zpracovávané v rámci KOSABI jsou zpřístupňované také na CD-ROM vydávaném AIP icome v rámci ČNB jako řada Články v českých novinách, časopisech a sbornících, od června v 2000 v UNIMARCu. CD-ROM je vydáván ve čtvrtletních aktualizacích, každý měsíc je bibliografie aktualizována na Internetu. Záznamy KOSABI jsou zpřístupňované v JIB.
V JIB jsou přístupné plné texty báze ANL FULL (propojení z ANL na ANL FULL) v NKČR, pro externí uživatele pouze na 1 den po registraci.

Projekt navázal na know how společnosti Anopress a spojil s ním know how "knihovnické". V projektu je také funkční portálek WWW periodik strukturovaný oborově a regionálně.

V projektu jde zároveň o jde o vývoj manažerského systému pro příjem, správu a údržbu dat spolupracujících institucí v rámci kooperačního systému - MNG KOSABI. Jde po příjem přes FTP či upload, jejich import do přechodné báze (ORACLE) s kontrolou na formální chyby a UNMARC a s možností oprav záznamů. Data lze přijímat v různých formátech a kódech a po uložení do příslušného adresáře budou exportovatelná do ALEPHu. Vyvíjejí se nástroje pro opravu dat (JDeveloper Oracle) a administraci báze titulů. V projektu je vyvinut program na kontrolu platnosti url adres. Aplikace navázala na některé výsledky projektu týkajícího se Souborného katalogu Caslin, dnes Souborný katalog ČR.
Aplikace je ve stádiu částečného vývoje a ladění, poloprovozně byla odzkoušena v NKČR.
Koncepčně je tento projekt saturován v rámci předkládaného záměru. V záměru se vyvíjejí dílčí agendy či komponenty projektu Souborná databáze.
Výsledky projektu jsou přístupné na adrese http://full.nkp.cz v podobě báze ANL FULL, portálku a dokumentů vzniklých v rámci řešení projektů (záměr i účelový projekt) z nabídky Co je nového….

Výsledky projektů týkajících se zpřístupnění plných textů a kooperačního systému jsou prezentované na konferencích a seminářích (Inforum, Infos, SDRUK, Knihovny současnosti. Informace o projektu ANL FULL a kooperačním systému jsou uvedeny na stránkách projektů DC, na základě výsledku projektů bylo řešitelce nabídnuto členství v Sekci IFLA pro noviny (IFLA Section for Newspapers) na zasedání IFLA, Berlin 2003.

Na základě průzkumu v rámci TEL (CENL) zaměřeného na kooperaci institucí a na přístup ke sbírkám dokumentů bylo zjištěno , že pouze několik Národních knihoven, včetně NKČR , je schopno denně aktualizovat data v rámci on line pracovní linky.

Výsledky projektu a prezentace jsou přístupné na adrese http://full.nkp.cz v podobě báze ANL FULL, portálku a dokumentů vzniklých v rámci řešení projektů (záměr i účelový projekt) z nabídky Co je nového… .

Dosavadní vybavení fulltextového zpřístupněn článků v NKČR - báze ANL FULL (server FULL, WIN NT, TOPIC-POrtal One-VIS)

Power Edge 6300 - Pentium III Xeon, 500 Mhz/512
RAM 1 GB
SCSI disky - 5x18 GB SCSI LVD 7200 1"
Řadič pole RAID 5 - řadič PERC2/SC, 1xLVD, 16MB cache
Síťová karta Intel Pro 100+RJ45
Zálohovacé zařízení DAR 12/24 GB SCSI DDS
Search Verity Information Server (TOPIC) v. 3.7 - Portal One, neomezená licence
Windows 2000, Windows NT (30 licencí)
ScanJet+OCR
VIS - internetová a intranetová licence

Pro management Kooperačního systému článkové bibliografie MNG KOSABI - báze ANL KOSABI (server ANL, Oracle, Linux)
PC Pentium III - 700 Mhz
RAM 512 MB
HDD 27 GB
VGA S3 Trio 3D 4 MB
Siťová karta 10/100
APC Smart UPS 420i NET
ORACLE 9.2,Linux SuSE 7.3, Windows 98
(5 licencí)
Jdeveloper 1 licence

V r. 2003 vypracován nový pokračující projekt týkající se zpřístupnění odborných zdrojů v kooperačním systému a zapojení báze ANL FULL do JIB v rámci programu 1N MŠMT "Informační zdroje pro vědu a výzkum" (nebyl přijat z formálních důvodů, zde zejména zpracování odborných zdrojů, implementace Z39.50 a OpenURL, implementace analyzátoru pro český jazyk, migrace na K2 aj.) a komplexní záměr v rámci NKČR (byl přijat, MKČR), který se týká zejména věcného zpracování v systému ALEPH v rámci kooperačního systému.
V NK ČR v rámci běžících projektů týkajících zpracování v rámci linky TTDE a zpřístupnění plných textů v ANL FULL bude zajištěna internetová verze linky a vazba linky na autority, použitelnost linky nejen pro vstupy z Anopressu. Linku je třeba odzkoušet.

Znalostní systémy v ČR

Znalostní systémy - v ČR distrubované společností TOVEK (fulltextová technologie Verity - TOPI, Verity Portal ONE, Verity K2 katalog) a INCAD (systém Convera RetrievalWare). Problematikou znalostních systémů a vytěžováním informací, vyhledáváním v plnotextových databázích aj. se zabývají projekty a renomované konference jako je Datakon a Znalosti.

V knihovnické sféře se aplikací systému, který umožňuje pojmové vyhledávání (concept based retrieval), neostré (fuzzy) vyhledávání a interaktivní vyhledávání s ohledem na relevanci (recall) pertinenci (precision) vyhledaných dokumentů a který kombinuje plnotextové vyhledávání s vyhledáváním pomocí řízených slovníků zabývají výše popsané projekty. Jde o aplikaci systému TOPIC (Báze ANL FULL v sytému TOPIC).

Systém TOPIC je distribuován firmou TOVEK. Jedním z projektů je projekt tzv. konkurenčního zpravodajství. Konkurenční zpravodajství je důležitý faktor konkurenceschopnosti firem a ozdravění nejen podnikatelského prostředí.





Projekt by pomohl přiblížit sféru knihoven, vědeckovýzkumnou sféru jak na vysokých školách tak v Akademii věd se sférou knihoven a umožnit koloběh informací mezi těmito oblastmi. Budoucí projekt by se měl týkat též zpracování odborných informačních zdrojů informačních zdrojů a spolupráce odborných knihoven. Týká se i spolupráce s NLK, která je součástí širšího kooperačního systému.

V ČR NLK se zpracovává databáze BMČ. Je třeba optimalizovat dosavadní způsob zpracování zdrojové báze Bibliografia Medica Čechoslovaka (BMČ) a Českého citačního rejstříku (CR-CZ) základě technologické linky s využitím formátu XML, zprovoznit databázi BMČ a CZ-CR v systému WEB Tornado, zapojit obě databáze přes Z39.50 do JIB, zajistit propojení na plné texty.

V ÚZPI ze zpracovává Zemědělská a potravinářská bibliografie. V budoucnu je třeba převést také zde zpracování článků do formátu UNIMARC/M21. Má být umožněno propojení záznamů na plný text v rámci technologické linky zpracování bibliografických záznamů z plných textů přes formát XML v návaznosti na existující redakční systém za účelem importu do bibliografické báze. Agronavigator je moderní technologie zpřístupnění zemědělských informací aplikovaná na webu UZPI.

V ČGS jsou záznamy zpracovávané v systému Win ISIS ve struktuře MAKS, vystavovány jako Česká geologická bibliografie. Zpracování článků je třeba převést na strukturu dle aktuální specifikace pro analytický popis z r. 1993 (aktual. 1997) s respektováním standardů a autorit.

V ÚIV - SPKK jsou články zpracovávané v systému CDS ISIS. Zpracování článků je třeba převést na zpracování v systému KP Win (UNIMARC, event MARC 21). Na internetu je vystavována Pedagogická bibliografická databáze.

Ve STK jsou články zpracovávané v systému CDS ISIS. Zpracování článků je třeba převést na zpracování v systému KP Win (UNIMARC, event MARC 21).

Autorskoprávní a legislativní problematika - viz dále.

4. Výběr vhodného partnera k realizaci projektu a systému pro zpřístupňování plných textů článkových informací v kooperačním systému z hlediska excerpční základny a plnotextové technologie v souvislosti s projektem Souborná databáze Kooperačního systému článkové bibliografie; výběr partnera pro realizaci multilicenčního zpřístupnění českých plných textů v rámci konzorcia

Po analýze dostupných zdrojů na internetu bylo jednáno se společností Anopress a společností Newton. Společnost Anopress nabídla přístup do své databáze a on-line přebírání plných textů s poměrně podrobnými metadaty v nich vnořenými. Profil databáze TamTam z hlediska zdrojů odpovídal kategorii C a částečně B excerpční základny kooperačního systému.Databanka obsahuje i část vědomostní. Firma byla ochotna dát částečně své knot how dispozici. Dále byly firma ochotna zpřístupnit plné texty v rámci konzorcia.
Společnost Newton nebyla ochotna zpřístupnit svůj archiv a nabídla zasílání svých záznamů. Tento způsob spolupráce byl pro rutinní chod zpracování článků nepřijatelný. Rovněž cenové podmínky mluvily pro Anopress. Profil databanky z hlediska koperačního systému je obdobný. Jednat s jednotlivými vydavateli deníků a periodik by bylo neefektivní z časového důvodu, navíc zdroje obsahují z metadata většinou jen název článku a autora. Jednání proběhla zatím s nakladatelstvím Economia On Line. Myslím, že spolupráce s tímto nakladatelstvím by byla v zásadě za určitých podmínek možná.
Z možných dostupných plnotextových systému by vybrán systém TOPIC jednak proto, že NKČR mohla při jeho zprovoznění navázat na zkušenosti z rutinního chodu tohoto systému v Anopressu, jednak pro jeho interaktivní vlastnosti a schopnost pojmově vyhledávat na základě topiků. Ve svých vlastnostech se může ideálně doplňovat se systémem Convera Retrieval Ware vhodný zejména pro texty snímané OCR technikou.
V r. 1999. před zahájením projektu Souborná databáze bylo vyspáno výběrové řízení pro na základě výzvy k podání nabídky pro poskytnutí přístupu do mediální a vědomostní databanky a na vývoj aplikace pro vyhledávání v plných textech a správu plných textů.

5. Analýza excerpční základny kooperačního systému versus elektronické plné texty na internetu a propojení analytických záznamů s plnými texty, vytvoření základní, ale flexibilní koncepce zpřístupnění plných textů ve vazbě na Kooperační systém článkové bibliografie z hlediska zpracovávaných titulů v kooperačním systému, standardizace a nástroje

Analýza excerpční základny a plné texty na českém webu
Zpracovávané typy titulů a výběr článků z hlediska úplnosti
: v kooperačním systému jsou zpracovávány články a statě české novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol, muzeí, archivů, materiály z konferencí, ročenky, odborné i polytematické časopisy, kulturně-politické časopisy a populárně-naučné časopisy).

A: Seriály vydávané AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)
B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny (ústřední i regionální) a kulturně-polické časopisy
D: Populárně-naučné časopisy

1=excerpce je prováděna v úplnosti (100-80% počtu článků)
2=excerpce je prováděna částečně (80-25% počtu článků)
3=excerpce je prováděna výběrově (25%- počtu článků)

A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3

Typy článků: faktograficky přínosné články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze jsou výběrové.

Analýza excerpční základny kooperačního systému:

Národní knihovna České republiky (ALEPH) - Oddělení analytického zpracování: celkem 195 seriálů z toho 6 deníků, cca 11 týdeníků, 6 čtrnáctideníků, 31 dvouměsíčníků, 4 čtvrtletníky, ostatní periodika s menší periodicitou ; dále nepravá periodika - ročenky, nepravidelně vycházející periodika, sborníky - počet pohyblivý (5 titulů převzala STK).
NKČR - Odbor knihovnictví: 17 titulů.
Moravská zemská knihovna v Brně (ALEPH): celkem cca 49 titulů, 1 deník, vlastivědné časopisy, zpravodaje, sborníky a nepravá periodika, část excerpce převzala Krajská knihovna Vysočiny (cca 4 tituly postupně přebere krajská knihovna Vysočiny, Brno přestalo excerpovat).
Jihočeská vědecká knihovna v Českých Budějovicích (Tinlib): celkem 23 titulů, 3 deníky z toho 2 přílohy regionální deníků, periodika s menší periodicitou a nepravá periodika.
Studijní a vědecká knihovna v Hradci Králové (ISIS) : celkem cca 17 titulů, z toho 7 deníků, postupně delimitace titulů po dohodě s Krajskou knihovnou v Pardubicích, Krajskou knihovnou Vysočiny, Krajskou knihovnou v Liberci (4 tituly přešly na Krajskou knihovnu Vysočiny).
Středočeská vědecká knihovna v Kladně (Rapid): celkem 37 titulů, z toho 12 deníků.
Krajská vědecká knihovna v Liberci (Rapid, resp. Arev): celkem 11 titulů, z toho 2 deníky.
Vědecká knihovna v Olomouc (ALEPH): celkem 17 seriálů: 2 deníky - pouze regionální přílohy, 6 týdeníků, nepravá periodika. Delimitace titulů s MVKOS.
Moravskoslezská vědecká knihovna v Ostravě (Tinlib, resp. T-Series): celkem 16 titulů, z toho 1 deník, 1 týdeník, 4 čtvrtletníky, ostatní nepravá periodika a sborníky.
Studijní a vědecká knihovna v Plzni (ALEPH)): celkem 22 titulů, z toho 5 deníků, 5 týdeníků, 6 měsíčníků a další periodika (zatím neposílá).
Severočeská vědecká knihovna v Ústí nad Labem (Tinlib): celkem16 titulů, z toho 7 deníků.

Nově konstituované krajské knihovny - příprava kooperace
Krajská knihovna Františka Josefa Bartoše ve Zlíně
(KP-sys): pro ANL cca 15 titulů, jinak cca 67 periodik, duplicita s celostátními deníky a časopisy, do její báze přispívají městské knihovny okresu Zlín, nutná delimitace s titulů s MZK, VKOL, MVKOS . Stanovena excerpční základna s ohledem na nové státoprávní uspořádání: cca 2 deníky, 1 týdeník, 2 měsíčníky, 2 ročenky, 7 dalších seriálů.
Krajská knihovna Karlovy Vary (LANius): celkem cca 16 titulů, 5 deníků, 3 týdeníky, další seriály, zpracovává články pro LANius.
Krajská knihovna v Pardubicích (KP-sys): celkem cca 9 titulů, výběrově vlastivědné a místní zpravodaje.
Krajská knihovna Vysočiny (Havlíčkův v Brod, Clavius): celkem cca 15 titulů, 4 deníky, doporučeno nejdříve zpracovávat tituly týkající se Havlíčkobrodska, postupně přibrat další, nutná delimitace s MZK , krajskou knihovnou v Budějovicích a Hradci Králové, nedostatečné personální obsazení.

Kooperující specializované knihovny
Státní technická knihovna
(ISIS): celkem 47 odborných titulů (některé tituly převzala od NKČR, která po redukcích nemůže zpracovávat)
Ústav zemědělských a potravinářských informací (ISIS) : celkem 25 odborných titulů
Ústav pro informace ve vzdělávání - Státní vědecká knihovna Komenského (ISIS) : celkem cca 50 titulů
Česká geologická služba (ISIS): odborná periodika v rámci experimentu

Excerpční základna reálně kooperujících institucí je vystavena na adrese http://wwwold.nkp.cz (Odborné činnosti, Odbor zpracování fondů).
V rámci řešení projektu byla vyvinuta aplikace pro aktualizaci excerpční základny v dialogovém režimu s názvem Báze titulů v rámci Managementu KOSABI. aplikace se ještě musí testovat.

Po analýze základny a zdroji na WWW bylo rozhodnuto:

  • deníky a některé odborné časopisy zpracovávat v lince TTDE
  • odborná voně dostupná periodika propojovat zatím staticky na WWW z báze ANL
  • vytvořit portál WWW periodik ve struktuře regionální a odborné

Globální počty:

  • počet zpracovávaných titulů: ANL - cca 212 v NKČR, 208 v regionech, 122 v odborných knihovnách, celkem cca 542 titulů; ANL FULL 30 titulů, běžně zpracovávaných zatím 17 v lince poloautomatické indexace/extrakce TTDE v NKČR; cca 26 titulů propojováno na volné texty v NK; cca 176 titulů (malé procento titulů momentálně nefunkčních) zpřístupněno v portálu WWW periodika v NK.
  • Časové pokrytí: ANL 1990/91 -, ANL FULL 1997- .

V době zahájení projektu i v současné době jsou poměrně dobře zpřístupňovány plné texty z deníků a časopisů. Většinou však neobsahují důležitá detailnější metadata nutná pro popis článků a k propojení bibliografických záznamů s plnými texty.
Obsah databáze TamTam obsahuje regionální a celostátní deníky a časopisy zpracované v jednotné struktuře a odpovídá převážně kategorii C. Deníky a časopisy zpřístupňované Anopressem v sobě obsahují metadata, která jsou do plných textů vkládána na základě speciálních postupů vypracovaných v Anopressu. Obsah databáze TamTam obsahuje regionální a celostátní deníky a časopisy zpracované v jednotné struktuře a odpovídá kategorii C. Databáze Anopressu obsahuje cca 30 titulů regionálních, které by bylo možno eventuelně zpracovávat.v lince.
Excerpční základna Národní knihovny obsahuje cca 40 titulů zpracovávaných vydaných v AV a cca 10 titulů vydávaných UK - tj. kategorie A.. Obsahuje 162 titulů ostatních, z toho 5 deníků (celostátní vydání, regiony popisují mutace a regionální přílohy k těmto deníkům) - kategorie C, 156 titulů vydaných převážně odbornými nakladatelstvími a vydavatelstvími - převážně kategorie B.
V lince TTDE zpracováváno 17 titulů - převážně kategorie C a méně B, statické propojení z báze ANL - 26 titulů převážně kategorie B a A, Portál WWW periodik - cca ,176 titulů převážně kategorie C a B.

V současné době se objevují ve větší míře odborné tituly. Dá se předpokládat rozvoj a nárůst elektronického publikování na vysokých školách a v jiných odborných institucích, tituly vydávané AV jsou již poměrně dobře vystaveny v plnotextové formě. V budoucnu lze předpokládat poměrně velkou možnost propojení s těmito tituly pomocí SFX.

Přehled propojovaných titulů:

Linka TTDE Bankovnictví, Ekonom, Haló noviny, Hospodářské noviny, Kapitál, Lidové noviny, Magazín Práva, Mladá fronta Dnes, Pátek magazín LN, Právo, Profit, Reflex, Respekt, Týden, Kapitál,Večerník Praha, Euro - celkem 17.

Statické linky z báze ANL odborná knihovnická periodika - Ikaros, U nás, Bulletin SKIP, Národní knihovna - celkem 4; další odborová periodika - Veřejná správa, Vesmír, Lesnická práce, Literární noviny, Psychologie Dnes, Harmonie, Psychiatrie, Jezuité, Collection of Czechoslovak Chemical Communications, Kriminalistika, Bulletin advokacie, Souvislosti, Moderní řízení, Československý časopis pro fyziku, Chemické listy, HOST, Odpady, Tvar, Země Světa, Revue církevního práva, Obec a finance, Právní rádce - u tohoto časopisu připojené plné texty některých zákonů, Národní knihovna, U nás, Ikaros, Bulletin SKIP - celkem počet 22.

Portál www periodik

Regionální periodika


BudNEWS, Jihočeské týdeníky, Jindřichohradecký zpravodaj, Kaplické listy, Písecký servis , E-metro, Hodonín, Kult, Naše noviny, Region , Slavkovský zpravodaj aj. celkem 98 titulů.
Oborová periodika
Čas videa, Harmonie, Hudební rozhledy, Opus Musicum, Divadelní noviny aj. celekem 76 titulů.

Koncepce propojování

1. Deníky a některé tituly zpracovávat v lince poloautomatické indexace/extrakce TTDE za - extrakce dat z plných textů a doplnění věcným popisem, později propojení na autority nejdříve ručně a dále v internetové verzi pomocí interface.

2. Odborné časopisy propojovat staticky z báze ANL, později, podle vývoje SFX, pomocí SFX se zabudovaným systémem DOI (ne v tomto projektu), resp. Gross Ref.

3. Regionální tituly a některé odborná periodika zpřístupnit ve strukturovaném portálu.

Metody propojování

1. V době neexistence linky TTDE vkládat částečnou adresu do bibliografických záznamů a následně propojovat s plnými texty neimportovanými do ANL FULL.

2. Zpětný import plných textů do báze ANL FULL (vytvořen program pro vyhledání plných textů v bázi TamTam na základě údajů uložených v bázi ANL).

3. Od poloviny r. 2000 zpracovávat vybrané tituly v lince TTDE.

4. Odborné tituly staticky propojovat z báze ANL.

Některé tituly propojované staticky z báze ANL (kromě titulů zpracovávaných v lince TTDE v současné době i v budoucnu) mohou být zpřístupněny pomocí OpenUrl a SFX služeb. Závisí na dalším vývoji..

Standardizace
Výběr prvků DC pro záznam článku, definice pracovního listu, konverze do UNIMARcu, XHTML, XML. Do linky zabudovat generátor SICI a URN, též pole LKR pro propojení se zdrojovým dokumentem. Později propojení přes SFX.
Definice topiků - podkud možno na základě lexiky MDT. Koncepce věcného popisu: analytické předmětové kategorie, předmětová hesla, omezeně klíčová slova, MDT. Později (ne v tomto projektu) konspekt, anglické ekvivalenty). Konverze UNIMARC M21 a její průběžné ladění.

Linka TTDE
Vytvořit nástroj pro extrakci metadat z plných textů generovaným UNIMARCem a DC. Export bibliografických záznamů v URF-8 do báze ANL a plných textů s metadaty do ANL FULL
Znamená zvláštní přístup do báze TamTam pro stahování záznamů, vytvoření aplikace pro zpracování ve formuláři na lokálních pracovních stanicích, program pro odeslání do báze ANL a ANL FULL. Později kompletní internetová verze linky s napojením na autority a možností oprav metadat.

Plnotexové zpřístupnění v bázi ANL FULL v NKČR - server FULL

Instalace funkčního plnotextového systému s možností pojmového vyhledávání, definice vyhledávání a zpřístupnění, její správa a údržba.
Generování DC v HTML, XHTML, definice tří formulářů pro vyhledávání (základní, rozšířený pro strukturovaná data), rozšířený formulář pro s topiky. Vyhledávání podle 17 rejstříků.
Zobrazení výsledku dotazu s automaticky generovaným souhrnem článku, řazení podle relevance plus různé způsoby zobrazení výsledků dotazu.
Fromáty zobrazení: uživatelské - jen metadata se souhrnem a s hypertextem odkazů, metadat s odkazy a s plným textem, metadata DC; pracovní - DC/HTML, UNIMARC, XHTML a XML + a -.
Aplikace pro autorizaci a autentifikaci uživatelů, přístup přes login, heslo, později.(ne v tomto projektu) přes proxy server.
Administrace báze (statistiky uživatelů a přístupů), prozatímní opravy, administrace portálu www periodik. Zálohování báze ANL FULL (páska, zrcadlo, DVD).

Báze ANL a ANL FULL, JIB
Jsou v komplementárním vztahu, ANL propojena na ANL FULL, zpřístupnění v JIB (ANL pro vyhledávání, ANL FULL prozatím jako odkaz (později, ne v tomto projektu, připojit přes Z39.50 a Open URL, resp. SFX; propojení eventuelně dotáhnout až do plných textů; sbližování předmětových kategorií s topiky, vztah předmětových kategorií konspektu, skupin konspektu a analytických předmětových kategorií - nutnost sjednocení v bázi ANL).
Zaměřit se na opravy báze ANL, zejména autoritní tvary a zdrojový dokument (sjednotit názvy a ISSN event. ISBN) vzhledem k propojování přes Open URL a SFX (propojení na zdrojový dokument přes ISSN/ISBN/název, ID; propojení věcných údajů; propojení s ostatními bázemi a zdroji).

Periodikum Národní knihovna
Digitalizace periodika v Anopressu (do r. vydání 2001), od r. 1999 samostatná aplikace ve formátu html, pdf, rejstříky, current contetn, příprava předmětových hesel pro toto periodikum.
Zpřístupnění části digitalizované v Anopressu d bázi ANL FULL.
V budoucnu (ne v tomto projektu) plnotextové vyhledávání všech ročníků a metadata DC.

Spolupráce
Vytvořit aplikaci pro Management kooperačního systému na základě vyvinutých aplikaci CASLIN (upload záznamů, import do báze SKA, resp. ANL KOSABI (různé kódy a formáty), kontrola na formální chyby a UNIMARC, export do ALEPHu nebo k dalším opravám, možnost exportu s kritickými chybami a/nebo jen chybami UNIMARC, možnost editace záznamů, aplikace pro titulovou základnu a on line dialog). V budoucnu eventuelně sdílená katalogizace (ne v tomto projektu).
Spolupráce s institucemi v rámci KOSABI: zapojení nových krajských knihoven do systému, průběžné ladění výstupu v UNIMARCu.
Spolupráce s distributore/agragátorem plných textů v tomto projektu, s vydavateli/nakladateli ne v tomto projektu. vydavateli/nakladateli.
V budoucnu přichází v úvahu spolupráce s odd. elektronických zdrojů NK, odd. věcných autorit, jinými institucemi, virtuálními knihovnami a digitálními knihovnami, branami.

Mezinárodní spolupráce
Ne v tomto projektu - hledání možného partnera.

Návaznosti
Na referenční služby a dokument delivery, odd. zpracování elektronických zdrojů, oddělení autorit, oddělení věcného popisu Národní knihovny (v referenčním oddělení zprovoznit elektronické dodávání dokumentů a stanovit ekonomické relace), pravidla pro katalogizaci elektronických zdrojů, DC pro JIB, předmětová kategorizace popisu zdrojů a fondů, autority). Odbor vydavatelský.
V budoucnu propojení s Digitální knihovnou (ne v tomto projektu).

Zpřístupnění a autorskoprávní problematika
Zpřístupnit plné texty pouze NK a to pouze prohlížet a omezeně kopírovat, externí uživatele omezeně (v současnosti 1 den se stejnými možnostmi) v tomto projektu vzhledem k absenci legislativy v této oblasti. Eventuelní návrh zpřístupnění báze ANL FULL v rámci konsorcia knihoven, v rámci projektu Souborná databáze v r. 2004, externím uživatelům ne v tomto projektu.
Založení konsorcia po multilicenční zpřístupnění plných textů.

6. Dílčí koncepční řešení a dílčí praktické aplikace a realizace, které doplňují programový projekt Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat a jiné projekty.

Dílčí koncepční práce se týkaly několika základních oblastí:

  • koncepce spolupráce s producenty elektronických zdrojů na internetu (Anopress, Newton, Economia on line, AV ČR, potenciálně UK
  • autorská práva, posouzení možností získat plné texty přímo od nakladatele/vydavatele a práva s nimi disponovat nebo zhotovovovat elektronické kopie a práva s nimi disponovat
  • stanovení titulů, jejichž plné texty budou umístěné na interním serveru NK - v bázi ANL FULL; stanovení volně dostupných titulů, na které se budou bibliografické záznamy odkazovat z báze ANL; doplnění obého ve strukturovaném portálku dle oborů a regionů
  • propojování bibliografických záznamů s plnými texty on-line, off line, staticky a dynamicky, SFX, propojení na volně přístupné zdroje z CD-ROM ČNB (vývoj plnotextového CD ROM během projektu nepřicházel v úvahu vzhledem ke komplikovanému řešení zejména z hlediska autorskoprávního a ekonomického)
  • propojení na zdrojový dokument v bázi NKC event. Souborný katalog seriálů
  • rychlé získání metadat z plných textů a propojení bibliografických záznamů z plnými texty - koncepce řešení linky poloautomatické indexace/extrakce bibliografických záznamů z plných textů a propojení metadat s plnými texty uloženými přímo v plných textech
  • báze ANL FULL a kvalitní plnotextové zpřístupnění a kombinace pojmového vyhledávání s řízeným vyhledáváním v plných textech dle rejstříků, autorizace a autentifikace uživatelů, zpřístupnění plných textů interním a externím uživatelům
  • portálek Periodika na WWW, resp. plné texty na www se strukturou regionální a oborovou
  • aplikace pro plnotextové zpřístupnění periodika Národní knihovna na internetu
  • konsorcium
  • koncepce věcného popisu (klíčová slova, předmětová hesla, MDT, kategorie, konspekt, topiky)
  • management a aplikace pro management Kooperačního systému článkové bibliografie, perspektivy kooperačního systému
  • indexace vybraného titulu vydaného před r. 1945
  • úpravy struktury i obsahu bibliografické báze ANL vzhledem k propojování s plnými texty a zdrojovým dokumentem v bázi seriálů (NKC event. SKČR)
  • zálohování, jištění a archivace dat ANL FULL
  • zahraničními plnotextovými databázemi se projekt nezabýval, vzhledem k zahájenému programu LI MŠMT, někde se jimi inspiroval
  • návaznost problematiky propojení analytických záznamů s plnými texty a optimalizaci zpřístupnění na činnosti v NK a Kooperační systém článkové bibliografie
  • zakoupení autorských práv, zakoupení autorských práv pro plné texty vydávána na CD-ROM, zhotovování plných textů z tištěných předloh a autorské právo, výhody a nevýhody zhotovování elektronických kopií z tištěných předloh, možnosti získat texty přímo od nakladatelů a práva s nimi disponovat
  • služební cesty

Popis jednotlivých oblastí

  • koncepce spolupráce s producenty elektronických zdrojů na internetu (Anopress, Newton, Economia on line, AV ČR, potenciálně UK

Jak již bylo předesláno, ochota firmy Anopress spolupracovat a dát své know how částečně k dispozici a hlavně existence metadat v plných textech vedla k výběru databáze TamTam jako vhodného zdroje pro zamýšlenou linku zpracování plných textů a bázi ANL FULL prakticky vyvíjenou především v projektu Souborná databáze odstartovaného v r. 2000. Možnosti spolupráce se společností Newton a Economia On Line v byly nastíněny výše. Na UK nebyly v době zahájení projektu plné texty akademické provenience přístupné ani nebyla naděje, že brzké době dojde ke koncensu mezi akademickými subjekty plné texty zpřístupňovat. ÚVT UK byl poskytnut základní souvis metadat DC pro plné texty vhodný pro vkládání autory do svých plných textů a základní metoda.

1. Název (title)
2. Tvůrce (creator) , ve formě Příjmení, Jméno
3. Předmět (subject) ve formě klíčových slov
4. Popis(description) ve formě abstraktu
5. Nakladatel (publisher)
6. Práva (rights)


<meta name="DC.Creator.corporateName" content="Příjmení, Jméno" />
<meta name="DC.Subject" content="klíčové slovo" />
<meta name="DC.Subject" content="klíčové slovo" />
<meta name="DC.Subject" content="klíčové slovo" />
<meta name="DC.Description.abstract" content="abtrakt/anotace" />
<meta name="DC.Publisher" content="Nakladatel" />
<meta name="DC.Rights" content="Vlastník autorských práv" />

Pro konverzi údajů obsažených v hlavičce textu dokumentu je možno použít schéma definované na základě pokynů pro přispěvatele do časopisů:

Např. ve Wordu Nz: Název nebo Nz#Název (jakýkoli jiný znak určující následující řetězec, jehož znaky budou předmětem konverze do metadat Dublin Coru) Podobně u ostatních údajů. V rámci linky zpracování se potom údaje mohou dále editovat a následně konvertovat do html podoby nebo konvertovat do html podoby a následně editovat. Postupem doby byly stanoveny tituly vydávané AV ČR ke statickému propojení s bází ANL.

  • autorská práva, posouzení možností získat plné texty přímo od nakladatele/vydavatele a práva s nimi disponovat nebo zhotovovovat elektronické kopie a práva s nimi disponovat, zakoupení autorských práv na plné texty, zakoupení autorských práv pro plné texty vydávána na CD-ROM, zhotovování plných textů z tištěných předloh a autorské právo, výhody a nevýhody zhotovování elektronických kopií z tištěných předloh

Autorskoprávní a legislativně právní problematika zpřístupňování elektronických dokumentů velmi nepokročila. V ČR je třeba aktualizovat zákon č. 37/1995 Sb. O neperiodických publikacích, zákon č. 46/2000 Sb. Tiskový zákon, zákon č. 121/2000 Sb. Autorský zákon. První lze aplikovat pro elektronické publikace. Tiskový zákon se elektronických publikací netýká. Autorský zákon umožňuje knihovně vytvořit rozmnoženinu díla pro konzervační a archivní účely, neumožňuje veřejné zpřístupnění. Elektronické dodávání dokumentů je řešeno v některých systémech příslušných knihoven. Je třeba ho zákonně legalizovat.

Zpřístupnění díla o line spadá pod taková užití, ke kterým je nutný souhlas autora, tj. uzavření licenční smlouvy. Licenční smlouvu lze uzavřít i bezúplatně. Ve smlouvě je třeba vymezit účel smlouvy popř. způsoby užití. Smlouvy jsou hromadné a kolektivní. V hromadné smlouvy poskytuje kolektivní správce nabyvateli oprávnění k užití nikoli individuálních děl, ale děl vymezených hromadně. Kolektivní smlouvy uzavírá kolektivní správce se sdružením (např. SKIP). U nás oprávnění k výkonu kolektivní správy pro zpřístupňování lit. děl uměleckých a vědeckých přes internet má DILIA. Otázkou je, zda kolektivní správu pro díla on line bude vykonávat. Pokud by došlo ke změně autorského zákona, že by se princip hromadných smluv vztahoval i na on-line služby knihoven, mohla by tak vzniknou platforma pro poskytování těchto služeb.

Povinný výtisk elektronických publikací je předpokladem jejich uchovávání a zpřístupnění. Prozatím je třeba v budoucnu uzavírat dohody mezi knihovnami a příslušnými nakladateli a vydavateli, které se týkají jednak zpřístupnění elektronických dokumentů, jednak spolupráce. Některé dohody byly uzavřeny v rámci projektu Webarchiv (viz výše). Pro projekt Souborná databáze a pro tento záměr bylo schůdnější jít cestou přes Anopress a být v pozici koncového uživatele (i když ne bez problémů). V projektu Souborná databáze v rámci Smlouvy o dílo je třeba v r. 2004 doplnit dodatek přesně specifikující podmínky poskytování plných texty z báze ANL FULL interním uživatelům a externím uživatelů v závislosti na účelu a formě (nebo alespoň návrh, pokud se vyskytnou komplikace). V rámci uvedené smlouvy jsme plné texty zakoupily v rámci speciálního přístupu do databanky TamTam nebo zakoupily v rámci off line doplňování.

Problematikou poskytování tištěných kopií a dodáváním dokumentů se zabývá oddělení referenčních služeb NK, zde jsou stanoveny cenové relace. Elektronická kopie levnější než tištěná, i když se objevují opačné názory. Zcela jistě je operativnější.

V rámci projektu jsme zhotovovali elektronické kopie pro current kontent Periodika Národní knihovna zatím v malé míře.Právo na zhotovování elektronických kopií spolu s právem disponovat s nimi má autor svého díla, patrně by ho měl mít i vydavatel, pokud má uzavřenou smlouvu s autorem v tomto smyslu.

Na problematiku zhotovování elektronických kopií z tištěných (just-in-time) narazily projekty elektronického dodávání dokumentů , např.VPK aj.

Na zakoupení autorských práv pro vydávání plnotextového CD-ROM nedošlo - je to otázka dohody mezi vydavatelem, distributorem/agregátorem, knihovnou a tím, kdo vydává CD-ROM a je komplikovaná. Navíc se není o co opřít z hlediska zákonů.Alespoň byla implementována funkce hypertextových odkazů z CD-ROM na volná www periodika. K dohodě k propojení z CD-ROM na texty báze ANL FULL, resp. Anopress nedošlo, jednání však proběhla.

Na problematiku autorského práva nejsem odborník, výše uvedený komentář je jistě nezasvěcený. Jedno je jisté, bez právní kodifikaci on-line elektronických služeb a záležitostí týkajících se zhotovování elektronických kopií z tištěných, se budeme vždy pohybovat na tenkém ledě.

V roce 2000 bylo uzavřeno konsorcium Anopress pro přístup do databanky TamTam. V roce 2003 mělo kolem 60-70 členů.

  • stanovení titulů, jejichž plné texty budou umístěné na interním serveru NK - v bázi ANL FULL; stanovení volně dostupných titulů, na které se budou bibliografické záznamy odkazovat z báze ANL; doplnění obého ve strukturovaném portálku dle oborů a regionů; vztah báze ANL ANL FULL a ostatních databází v kooperačním systému s výhledem

Vztah bází v kooperačním systému s výhledem na spolupráci

V JIB jsou zatím připojeny pro vyhledávání báze ANL NKČR a ANAL Olomouc, báze ANL FULL a článková databáze Liberec jako odkaz.

Důvody pro budování báze ANL FULL přímo v NK.

Texty je třeba zpracovávat co nejrychleji, deníky v den vydání - aktuální texty jsou v Anopressu po zhruba po 14 dnech přesouvány na jiné místo databáze.
Napojovat bibliografické záznamy na index databáze není možné z důvodu autorských práv - vzhledem ke smlouvám Anopressu s vydavateli.
Důvod pro budování databáze jsou samotné typy dokumentů - deníky a některé časopisy. Excerpce článků z deníků je velmi výběrová vzhledem k efemérnosti některých článků publikovaných v těchto dokumentech. V databázi Anopress je velké množství plných textů, v databázi ANL FULL je články s trvalou hodnotou.
Vyhledávání v plnotextové databázi Anopress je efektivní, zná-li uživatel název a autora. Hledá-li podle klíčového slova v plných textech, je nepřesné. Řešením je integrace řízených slovníků do pojmového vyhledávání.

Stanovení titulů (viz dříve)

Během doby bylo určeno 26 titulů ke statickému propojení s volně přístupnými texty na internetu. Jedná se o odborné tituly, některé vydávané AV a odbornými nakladatelstvími. V současné době je propojeno přes cca 6 500 plných textů (během řešení některé linky přestaly být funkční). Tyto tituly lze zařadit především do kategorie C, některé z nich do kategorie A.
Zpřístupňované plné texty prostřednictvím propojení bibliografický záznamů s plnými texty doplňuje portál volných www periodik na serveru http://full.nkp.cz ve struktuře regionální a oborové (98 regionálních periodik, 76 oborových periodik. V současné době je rutinně zpracováváno z databáze TamTam 17 titulů v lince poloautomatické indexace TTDE a báze ANL FULL obsahuje cca 118 000 plných textů s metadaty.

  • propojování bibliografických záznamů s plnými texty on-line, off line, staticky a dynamicky, SFX, propojení na volně přístupné zdroje z CD-ROM ČNB (vývoj plnotextového CD ROM během projektu nepřicházel v úvahu vzhledem ke komplikovanému řešení zejména z hlediska autorskoprávního a ekonomického)

Propojení metadat s plnými texty je v zásadě dvojím způsobem: uložení metadat v plných textech nebo propojení metadat s plným textem, který existuje separátně.

V lince poloautomatické indexace je generován link, který je v podobě statického linku ukládán do metadat a takto veden v databázi ANL. Pokud uživatel přistupuje k plným textů z databáze ANL FULL, tvoří se dynamická URL adresa na plné texty.
Důvody pro budování databáze ANL FULL jsou uvedeny výše. ANL FULL tvoří velmi malou část databáze ANOPRESS.
Lze předpokládat integraci databází Anopress do JIB. Možností, jak zpřístupnit TamTam v JIB je několik. Jistě i přes SFX a metadata v plných textech Anopressu. To však nebude jednoduchá cesta vzhledem k autorskoprávním otázkám. V budoucnu lze předpokládat zapojení báze TamTam do JIB pro vyhledávání v plných textech na základě dotazu vyjádřeného v Open URL, pravděpodobně též báze ANL FULL (předpoklad: další projekt). Pro bázi ANL FULL též aplikace protokolu Z39.50.

Vyhledávání a propojování přes SFX by zkvalitnila aplikace lematizátoru v těchto bázích. Předpokládá to však jednání s Anopressem a s vydavateli. Dá se předpokládat, že propojování na bázi Anopress bude efektivní, zná-li uživatel název a autora, propojení na hledání v plných textech přes klíčová slova je nepřesné. Propojení by zpřesnil již zmíněný lematizáor a aplikace topiků ve větší míře.
Lze hypoteticky předpokládat i propojení na topiky.

Dosud statické linkování na volně přístupné texty na internetu (ne těch zpracovávaných v lince TTDE) lze postupně nahradit linkováním přes SFX. Rovněž tak lze jednat s nakladateli/vydavateli o přístupu do archívu a napojovat plné texty na bibliografické záznamy přes SFX. Jednání však vyžaduje poměrně velké časové kapacity.

  • propojení na zdrojový dokument v bázi NKC event. Souborný katalog seriálů

Propojení na zdrojový dokument bylo v době neexistence propojení přes SFX řešeno přes propojovací pole LKR v ALEPHu. Toto pole je automaticky generované u některých titulů zpracovávaných v lince. Propojení na zdrojový dokument v příslušných bázích, katalozích aj. zdrojích na www umožňuje SFX.
Propojení lze realizovat přes číslo záznamu nebo přes ISSN/ISBN, eventuelně název.

  • rychlé získání metadat z plných textů a propojení bibliografických záznamů z plnými texty - koncepce řešení linky poloautomatické indexace/extrakce bibliografických záznamů z plných textů a propojení metadat s plnými texty uloženými přímo v plných textech

Vzhledem k tomu, že bylo potřeba rutinně rychle poloautomatizovaně editovat bibliografické záznamy vzniklé přebíráním metadat z příslušných plných textů ve velmi krátké době, bylo rozhodnuto vytvořit on line aplikaci pro stahování a editování bibliografických záznamů z plných textů s následným generováním příslušných metadat a formátů, s importem metadat do báze ANL a plných textů s metadaty do báze ANL FULL. V bázi ANL FULL je třeba plné texty indexovat pro plnotextové vyhledávání, pro vyhledávání v metadatech a vyhledávání podle topiků.

Po stažení plných textů z báze TamTam a extrahování metadat do pracovního formuláře se tato doplňují o věcný popis. Umožnilo to mimo jiné zpřístupňovat dále deníky a některé časopisy v článkové bibliografii v době velkých redukcí v oddělení (během projektu oddělení redukováno o 5 pracovních míst).

Zpracování bibliografických záznamů z plných textů v lince poloautomatické indexace TTDE (TamTam Data Extractor) ve svých počátcích urychlilo zpracování bibliografických záznamů - přetahují se de facto údaje pro minimální záznamu článku. Z těchto údajů se generuje DC a UNIMARC. Plné texty s metadaty se importují do ANL FULL a bibliografické záznamy s vygenerovaným linkem v poli 856 se importují do ANL. Rutinně je v provozu aplikace na lokálních pracovních stanicích.

Příklad článku z oboru literatury, stažení článku, extrakce dat do formuláře pro editaci , import do ANL a zobrazení plného textu











Vyhledání článků z ekonomických oborů v JIB a bázi ANL a NKC (příklad zpracovaných článků v lince s propojením na plný text a SFX služby předmět , tj. heslo burzy, předmět tj. předmětové kategorie ANL kapitálový trh




V r. 2003 byla upřesněna koncepce internetové verze linky: možnost stahovat data z plných textů z libovolných plných textů ve formátu HTML. Byla vypracován koncepce napojení linky na bázi autorit pomocí Z39.50 toolkit klienta.



  • činnosti v oblasti jmenného a věcného zpracování (koncepce věcného popisu, klíčová slova předmětová hesla, kategorie, konspekt, topiky
  • )
Byly definovány prvky pro DC s příslušnými kvalifikátory hodnoty i prvku, převod UNIMARC DC. Údaje pro DC vychází z minimálního záznamu pro soubornou databázi pro nesamostatné části dokumentů (článků) a z nutné přítomnosti prvků věcného popisu v záznamech. Pro články bylo využito zatím 14 prvků z 15 a 14 prvků ANL CORE definovaných pro vyhledávání a užívaných v popisu článku. Bylo nadefinováno 17 rejstříků.

Konverze UNIMARC, DC, M21

UNI
M označuje minimální záznam. W - pole používaná v lince poloautomatické indexace - lokální stanice, WI - internetová verze linky.
Tučně pole užívaná v současnosti v analytickém popisu. Zahrnuta též pole s ohledem na elektronické zdroje.
Opakovatelnost:
Opakovatelný O
Neopakovatelný NO


Povinnost:
Povinný P
Doporučený D
Volitelný V
DC - elementy. W - DC generované v lince poloautomatické indexace - lokální stanice, WI- internetová verze linky
XML a XHTML kvalifikovaný a nekvalifikovaný
M21 (OCLC)
DC - elementy
Poznámka

Návěští
P, NO
Type W,WI
ano

návěští
Type


001 M,W,WI
P, NO


001


005 M,W, WI
P, NO
Date
ano
005


010 v 461/463 M,W,WI
P, O
Source W,WI
ano


011 v 461/463 M,W,WI
P, O
Source W,WI
ano


014 M,W,WI
D, NO
Identifier W,WI
ano
024
Identifier
V lince generováno SICI


020


010/015

Zatím se neužívá

? W,WI
D
Identifier W,WI
ano


V lince generované URN, zatím nepřeváděno do UNIMARCu

100 M,W,WI
P, NO
Date
ano

008 a 044
Date


101 M,W,WI
P, NO
Language W,WI
ano
008 a 041


102 M,W,WI
P, NO


008 a 044
Language
Též M21 546

105 W,WI
D, NO

008


106


008

Zatím se neužívá

110


008

Zatím se neužívá

135


008

Zatím se neužívá


200 též v 461/463, M,W,WI; též 470 viz dále
P,NO
Title též Source W,WI;
ano

245
Title


205 též v 461/463M; též 470 viz dále
V, NO/p>

210 v 461/463, M,W,WI; 470 viz dále
V, NO
Source W,WI;


215 M; též 470 viz dále
Uvádí se u analytické jednotky, pokud není již uveden v poli 461/463 v podpoli 1200v
V, NO


300
Format
Též M21 533, 340

225 M
Uvádí se u analytické jednotky, pokud není již uveden v poli 200
V, NO


440/490
Relation


230


256


300 M
V, O


500
Description


500
Description


302
V, O


500
Description


304
V, O


500
Description


305
V, O


500
Description


307
V, O


500
Description


311
V, O


580
Description


312
V, O


500
Description


313
V, O


500
Description

314
V, O


500
Description


320
V, O


504
Description


321
V, O


510
Relation
?


327
V, NO


505
Description


330 W,WI
V, NO/O
Description W,WI
ano

520
Description


336


516
Description
Zatím se neužívá


337


538
Description
Zatím se neužívá


423


700, 710, 711, 730, 777
Creator
Title


451
V, O


775


452
V, O


776


453
V, O


767


454
V, O


765


461 vzestupné propojení na seriál dle doporučení UNIMARC 1994 Component Parts
M,W,WI
P, O

Source
Date
Identifier
M,W,WI
ano

773 /787 Nonspecific Relation Entry (OCLC)
Relation/?
Rozdíly v převodu


462 vzetstupně na podsoubor vyšší úrovně(též sestupně ze souboru na podsoubor)


787

Neužívá se


463 vzestupné propojení na monografii dle doporučení UNIMARC 1994 Component Parts
M,W,WI
P, O

Source
Date
Ientifier
M,W,WI
ano

773/787 Nonspecific Relation Entry (OCLC)
Relation/?
Rozdíly v převodu



464 sestupné propojení z jednotky na analytickou jednotku


773 Host term entry

Rozdíly v převodu, neužívá se

?


772 Parent record entry

Neužívá se


470 V, O


787
Relation
?


786
Source


488
V, O


787
Relation


500
D, O


130/240/630/730
Title
Subject
DC Alternativní název


501
V, O


243


503
V, O


886


512
V, O


246
Title
DC Alternativní název


513
V, O


346
Title
DC Alternativní název


514 V, O


246
Title
DC Alternativní název


515
V, O


246
Title
DC Alternativní název


517
V, O


246
Title
DC Alternativní název


540
V, O


246
Title


541
V, O


242
Title
DC Alternativní název


545 W,WI
V, O


246
Title
DC Alternativní název


600 W,WI
V, O
Subject
ano

600
Subject


601 W,WI
V, O
Subject
ano

610/611
Subject


602
V, O
Subject


600
Subject


604 WI
V, O
Subject

Zatím ne
600,610/611
Subject


605 W,WI
V, O
Subject
ano
630
Subject


606 W,WI
V, O
Subject
ano
650
Subject


607 W,WI
V, O
Subject, Coverage
ano
651
Coverage
Též M21 522,255,044,752


608 W,WI
V, O
Subject
/Type
ano
655
Type
?


610 W,WI
V, O
Subject
ano

653


615 /615 9 W,WI kategorie
D, O
Subject
ano

654/696
Subject
?


615 WI konspekt
D, O
Subject


695
Subject
?Zatím se neužívá


6159 WI konspekt ekvivalent
D, O
Subject


695
Subject
?Zatím se neužívá


620
V


752

?


660 W,WI
V, O
Coverage
ano

043
Coverage
Též M21 513, 033


661 W,WI
V, O
Coverage


045
Coverage


675 M,W,WI
P, O
Subject
ano

080


676 WI
D, O
Subject


082


680
V, O
Subject


050


686
V, O
Subject


060,070/084


700 M,W,WI
P, NO
Creator
ano

100
Creator


701 M,W,WI
P, O
Creator
ano

700
Creator


702 M,W,WI
P, O
Contributor
ano

700
Creator


710 M,W,WI
P, NO
Creator
ano

110/111
Creator


711 M,W,WI
P, O
Creator
ano

710/711
Creator


712 M,W,WI
P, O
Contributor
ano

710/711
Creator


720
P,NO
Creator


100
Creator


721
P, O
Creator


100
Creator


722
P, O
Contributor


700
Creator


801 M,W,WI
P, O
Date,
Country?
ano
040

Zatím ne v DC


856 W,WI
D, O
Identifier W,WI

Format WI
ano


Identifier, Format
Do UNIMARCu doplnit 856q pro Format


910 M,W,WI
P, NO


911
V, O


Používané pouze v konverzi z ISIS

912
V, O


Používané pouze v konverzi z ISIS

930 D, O Rights W,WI


506, 540


Doplnit do UNIMARCu a WI 930


940
V, O
WI


Do UNIMARCu a WI doplnit 940

942
V, O
WI


Do UNIMARCu a WI doplnit 940


975
V, O


975

976
V, O


976

ZAZ M,W,WI
P, O


ZAZ

ZAR
V, O


ZAR

STZ D, O


STZ

LKR W,WI
V


LKR

PJM W,WI

PJM

Pro napojení linky na autority přes Z39.50 toolkit klient byly stanoveny atributy dle instrukce pro Z39.50 pro bázi AUT zveřejněné na http://wwwold.nkp.cz. Dále byly doplněny údaje pro analytický popis v rámci mapování atributů Bib-1 USE na pole UNIMARC pro BATH. Byl zprovozněn Z39.50 toolkit klient a rozhraní pro napojení linky zpracování na autority je realizováno, třeba ladit.
V projektu bylo částečně vypracování zadání pro konverzi UNIMARC M21, práce na aplikaci řešící konverzi budou probíhat i v r. 2004.

Byla stanovena koncepce věcného popisu: klíčová slova (velmi omezeně), předmětová hesla (konkrétní téma), předmětové kategorie (zařazení tematiky obecněji), skupina konspektu (ještě se nepoužívá), topiky. V budoucích letech je třeba definovat poměr mezi skupinami konspektu a analytickými předmětovými kategoriemi.

Při věcném popisu báze ANL se užívají analytické předmětové kategorie) určené pro zařazení článků do hrubých oborů či témat pro zpřehlednění báze. Tyto kategorie vyžadují důkladnou redakci.Jsou jsou podrobnější než skupiny konspektu. V M21 budou převedeny do jiného pole.

Přehled věcných polí UNIMARC v ANL
Pole 600 - osobní jméno použité jako předmět
Pole 601 - jméno korporace použité jako předmět
Pole 602 - jméno rodiny (rodu) použité jako předmět
Pole 604 - jméno/název použité jako předmět
Pole 605 - název použitý jako předmět
Pole 606 - věcné téma použité jako předmět
Pole 607 - geografické jméno použité jako předmět
Pole 608 - forma, žánr či fyzické vlastnosti dokumentu použité jako předmět
Pole 610 - volně tvořené předmětové termíny
Pole 615 - předmětová kategorie analytické (nikoli skupiny konspektu)
Pole 660 - geografický kód
Pole 675 - MDT

Perspektivně konspekt, DDC, anglické ekvivalenty.

Pojmové vyhledávání

Pro pojmové vyhledávání byly definovány topiky na základě lexiky MDT, nedodržují ale příslušnou statickou strukturu MDT.

Byly nadefinovány tři úrovně topiků: základní tematické oblasti (8), skupiny témat (28), detailní témata (197). Hypoteticky se mohou sbližovat s předmětovými kategoriemi konspektu (24), skupinami konspektu (500) a jednotlivými tématy (4000).

V rámci projektu byly prováděny rozsáhle komparativní analýzy vyhledávání pomocí topiků ve srovnání s předmětovými hesly cekem ve dvou etapách. Byla zjištěna zhruba 80% úplnost vyhledávání podle topiků, což je celkem přijatelný a očekávaný výsledek. Topik lze ještě více upřesňovat. Zatím byly definovány oborově, jsou všech primárně určeny na hledání podle konkrétních témat. Dále je třeba postupovat tímto směrem.

1. úroveň  2. úroveň  3. úroveň   
Tematická oblast  Skupiny témat  Detailní témata  Poznámka
Ekonomika, obchod, finance  Ekonomika, ekonomie
> Ekonomika, ekonomie
> Makroekonomika
> Pozemky, nemovitosti, byt
> Regionální hospodářství 
 
  Finance  > Bankovnictví   
    > Daně   
    > Finance   
    > Investice   
    > Kapitálový trh   
    > Měna   
  > Obchod     
  > Práce     
Geografie  Ostatní země světa  Filipíny   
    Malajsie   
    Srí Lanka   
    USA   
  Evropa  Albánie   
    Andora   
    Arménie   
    Azerbajdžán   
    Belgie   
    další země (celkem 49)   
  Geografie     
Hospodářství, výroba  Doprava, spoje   > Doprava
> Letecká doprava
> MHD
Pošta, filatelie
Silniční doprava
Taxislužba
Telekomunikace
Vodní doprava
Železniční doprava 
 
  Energetika   > Energetika
> Hornictví, těžební průmysl
> Jaderná energetika
> Plynárenství 
 
  > Metrologie, normy, standardy     
  > Průmysl  > Automobilový
> Dřevozpracující
> Elektrotechnika
> Farmaceutický
> Hutnictví
> Chemický
> Papírenství
> Petrochemie
> Polygrafie, tiskařský
> Stavebnictví
> Strojírenství
> Textilní
> Zbrojní 
 
  > Výpočetní technika     
  Zemědělství  > Lesnictví, myslivectví
> Mlékárenství
> Pivovarnictví
> Potravinářství
> Zemědělství 
 
Kultura, umění  Kultura     
  Literatura, písemnictví  > Písmo
> Literatura
> Tisk
> Vzácné tisky 
 
  Umění   > Architektura
> Divadlo
> Film, kinematografie
> Fotografie
> Hudba
> Urbanismus
> Výtvarné umění  
 
Přírodní a matematické obory  Matematika, fyzika   > Astronomie, astrofyzika
> Fyzika
> Kybernetika, robotika
> Matematika
> Statistika
? Umělá inteligence 
 
  Přírodověda  > Biologie
> Botanika
> Ekologie, životní prostředí
> Genetika
> Geodézie, kartografie
> Geografie
> Geologie
> Chemie
> Mykologie
> Příroda obecně
> Veterinářství
> Zoologie 
 
Společenské a humanitní obory  Humanitní obory  > Archeologie
> Demografie
> Etika
> Etnografie
> Filozofie
> Historie
> Jazykověda, lingvistika
> Psychologie
> Sociologie, společnost
> Společ. vědy obecně
 
  Knihovnictví a informační věda  > Autority
> Bibliografie
> Databáze
> Dokumentace
> Knihovnictví
> Knihovny
> Informační služby
> Jmenný popis
> Písmo
> Příručky
> Seriály
> Standardizace
> Věcný popis
> Zpracování dokumentů
 
Tyto topiky jsou provizorní. Pro periodikum Národní knihovna se počítá s tvorbou tezauru/řízeného hesláře, který bude podkladem topiku pro periodikum Národní knihovna
  Společnost  > Feminismus
> Náboženství
> Politika
> Právo
> Sociální zabezpečení
> Školství
> Věda a technika
> Veřejná správa
> Vojenství, vojenská technika 
 
Sport, volný čas  > Společenské a lidové zábavy     
  Sport   > Atletika
> Basketbal
> Cyklistika
> Fotbal
> Gymnastika
> Lední hokej
> Motorismus
> Tenis
> Volejbal  
 
  > Volný čas     
Zdravotnictví, lékařství
(bude lépe specifikováno a rozpracováno) 
Zdravotnictví   Červený kříž
Léčitelství
Terapie
Toxikologie
Úrazy
Vitamíny
Zdravotnická zařízení
Zdravotnictví 
Bude rozpracováno 
  Farmacie, farmakologie  Totéž   
  Lékařské obory  Cestovní medicína 
Gynekologie, porodnictví
Kardiologie
Neurologie
Oční
Ortopedie
Stomatologie
Urologie
Ušní, nosní, krční
 
  Nemoci a onemocnění  AIDS
Alergie
Cukrovka
Encefalitida
Epilepsie
Hepatitida
Chřipka
Mozková mrtvice
Pohlavní choroby
Rakovina
Salmonelóza
Vzteklina  
 
  • báze ANL FULL a kvalitní plnotextové zpřístupnění a kombinace pojmového vyhledávání s řízeným vyhledáváním v plných textech dle rejstříků, autorizace a autentifikace uživatelů, zpřístupnění plných textů interním a externím uživatelům, tisk stahování a export metadat a plných textů, administrace báze

Byla stanovena základní koncepce vyhledávání v bázi ANL FULL: vyhledávání pomocí klíčových slov v základním formuláři, pro rozšířený formát byly nadefinovány základní položky dle strukturovaných dat, byla stanovena koncepce rozšířeného formuláře s tématy.
Byly stanoveny tři formáty zobrazení pro uživatele: pouze citace článku, citace článku s hypertextovým propojením údajů jmenného a věcného popisu a s plným textem, zobrazení v DC. V bázi ANL FULL se generuje též formát DC/HTML, XML a XHTML v kvalifikované a nekvalifikované formě.
K vyhledávání pomocí strukturovaných dat bylo definováno 17 rejstříků.
Přístup uživatelů je definován podle login hesla, registrovaný i neregistrovaný. Interní uživatelé NK mohou plné texty prohlížet, z databáze není možno přímo povoleno kopírovat, stahovat a exportovat. Externí uživatelé mají přístup do báze povolen po registraci a přihlášení na jeden den.
Národní knihovna je vzhledem k Anopressu v pozici koncového uživatele, od kterého koupila plné texty a může je tedy zpřístupňovat ve své instituci (smlouva mezi Anopress a NKČR v rámci řešení projektu Souborná databáze, smlouvy Anopressu s příslušnými vydavateli). Přesto jsme narazili v době řešení na určité nejasnosti. V následujícím roce a dále se budeme snažit navrhnout ošetření přístup uživatelů do databáze z hlediska formy (prohlížení textů, kopírování a stahování textů, export textů) i z hlediska ekonomického. Budeme usilovat o zpřístupnění báze ANL FULL v rámci konsorcia Anopress.
V administraci báze lze sledovat statistiky, uživatelů a přístupů, provádět úpravy záznamů a údržbu portálu WWW periodika.



Formáty


- DC/HTML


- Text článku s odkazy










Článek vyhledaný na základě topiku s vyznačením indexů v plném textu



  • portálek Periodika na WWW, resp. plné texty na www se strukturou regionální a oborovou

Portál je koncipován do oborové a regionální struktury dle počtu krajů. Obory byly stanoveny na základě průzkumu na internetu: Kultura a umění (film, televize, hudba, divadlo, literatura), odborná periodika (12 oborů), společnost (náboženství, životní styl, politika), zahraniční zajímavosti a cestování, ostatní. Byly nadefinovány údaje pro popis zdrojů v tomto portálu.





  • aplikace pro plnotextové zpřístupnění periodika Národní knihovna na internetu

Zpřístupnění periodika Národní knihovna na webu. Postupně vytvořen archiv textů, do r. vydání 2001 digitalizováno Anopressem a následně převedeno do báze ANL FULL. Od r. vydání 1999 je zpřístupňován s samostatné aplikaci ve formátu pdf a html, doplněn autorským a předmětovým rejstříkem, current content s abstrakty od roku 1999. Pro vyhledávání v TOPICu vypracován soubor předmětových hesel. Hodnocení je na adrese http://www.cuni.cz/ brt/dk/dkcascz.htm.









  • Konsorcium Anopress

V roce 2000 byla podepsána smlouva týkající se Konzorcia Anopress mezi SKIPem. a Anopressem. Konsorcium má v současné době asi 70 knihoven. Přístup do databanky je typu Standard.

  • aplikace pro management Kooperačního systému článkové bibliografie, perspektivy kooperačního systému

V projektu byly koncipována některá dílčí řešení pro aplikaci pro management kooperačního systému (MNG KOSABI) a navržen částečně interface pro tento systém. Hlavní vývoj této aplikace probíhal v rámci projektu souborná databáze. V tomto projektu byla vyvinuta aplikace pro evidenci a aktualizaci titulů v systému Oracle. Údaje do báze seriálů nebyly zapisovány vzhledem k větší operativnosti zatím evidovat excerpční základnu odděleně. Kromě toho je pravidelně aktualizovaná excerpční základna na stránkách http://wwwold.nkp.cz.

KOSABI a jeho hypotetické subsystémy z hlediska typů a formy titulů

  • I. Zpracování sborníků a nepravých periodik (zatím nedostupných v elektronické formě) ručně v tradičních systémech
  • II. Zpracování deníků a časopisů a dalších seriálů (v elektronické formě, na www) v rámci linky zpracování bibliografických záznamů z plných textů se spolehlivým napojením na plné texty, nutná intelektuální indexace věcná, v budoucnu hypoteticky možná automatizovaná tvorba kategorií automaticky či poloautomaticky
  • III. Zpracování plných textů volně přístupných na www na základě automatického sběru dat - pouze vytypované spolehlivé seriálové zdroje - za spolupráce s Webarchivem?
  • Předpoklad: dodržování zásad výběru článků a titulů
  • Cíl (II.+III.): automatické či poloautomatické zpracování bibliografických záznamů z plných textů - pouze výběr titulů ke zpracování a korekce dat

Jednotné rozhraní na serveru full.nkp.cz pro přístup do aplikace pro MNG KOSABI na serveru ANL





MNG KOSABI a perspektivy



Vstup do aplikace MNG KOSABI



Báze titulů


Zobrazení konkrétního titulu


Upload záznamů


Export dat do ALEPHu nebo k dalším opravám


Test URL adres


  • indexace vybraného titulu vydaného před r. 1945

Analyticky byl popsán titul Red,, ročník 1, výtisk 7-16 v rámci projektu Digitalizace Mikronésií ve formátu DOMB za účelem posouzení dosavadní metody popisu a navržení struktury dle UNIMARCu a AACR2 ((M. Balíková, I. Anděrová). Popis prováděli pracovníci oddělení.

  • úpravy struktury i obsahu bibliografické báze ANL vzhledem k propojování s plnými texty

Během řešení projektu byly průběžně určovány údaje, které je třena opravit v bázi ANL vzhledem k napojování přes OpenURL (zejména zdrojový dokument, ISSN). V článkové databázi je mnoho chyb a nejednotností. Problematika napojování přes název zdrojového dokumentu je složitá zejména u nepravých periodik. V bázích, se kterými se má článková báze propojovat, nejsou jednotné názvy, rovněž tak panují neshody v ISSN mezi příslušnými bázemi (báze ISSN, ISSN v bázi NKC a Souborného katalogu).

  • zálohování, jištění a archivace dat ANL FULL
Byly stanoveno de facto tři druhy jištění a archivace dat. Zrcadlení báze, magnetická páska, DVD. Aktualizace zálohy se provádí každý týden. Archivace na DVD zatím 2 krát ročně (nemáme mechaniku, je třeba řešit složitě). Záloha na magnetickou pásku jednou měsíčně.
  • zahraničními plnotextovými databázemi se projekt nezabýval, vzhledem k zahájenému programu LI MŠMT, někde se jimi inspiroval

  • · návaznost problematiky propojení analytických záznamů s plnými texty a optimalizaci zpřístupnění na činnosti v NK a Kooperační systém článkové bibliografie

Zpřístupňováním plných textů se také zabývali částečně pracovníci referenčního centra NK - informace o zdrojích plných textů na www a spuštění aplikace document delivery v NK, napojování analytických záznamů na soubory autorit zejména věcných autorit znamenalo vypracování těchto souborů v příslušných odděleních - aplikace metody konspektu zvýší přesnost propojování záznamů s plnými texty (zde návaznost na oddělení věcného zpracování).

Poměrně rozsáhlé globální opravy databáze v oddělení automatizace zvýší šanci lépe propojovat přes OpenURL a poskytovat služby SFX. Při doplnění údajů pro popis článků je návaznost na Katalogizační pravidla elektronických zdrojů. Problematika Dublin Core byla dobře teoreticky rozpracována v rámci Webarchivu.

Hlavní řešitelka vykonávala poměrně detailní činnosti týkající se ladění výstupu v UNIMARCu v rámci systému institucí spolupracujících v kooperaci (Tinlib a nově přistupující instituce s Laniem a KPSysem resp. KPWinem). Tyto činnosti přispějí k rychlejšímu a kvalitnějšímu zapojení článkových databází do JIB a k propojení bibliografických záznamů s plnými texty přes OpenUrl a SFX.

Práce oddělení článkové bibliografie musela být reorganizována vzhledem k řešení projektu a redukcím v oddělení. Poměrně velké pracovní kapacity byly věnovány na opravy databáze ANL (ještě nutno opravovat, poměrně stále chybovost bázi - dána přechodem na ALEPH až v r. 2000, do té doby byly články ukládány v ISISu. Popis deníků je redukován na menší počet úvazků aj.

Při řešení www aplikace Národní knihovna byla úzká spolupráce s Odborem vydavatelským NKČR. Agenda kolem konsorcia Anopress je vykonávána od podpisu smlouvy v oddělení periodik.

  • služební cesty

V roce 2003 byla realizována služební cesta na Infos 2003 (Slovensko) a IFLu 2003, Berlín.

Článek o IFLe: Problematika novin a World Library and Information Congress : 69th IFLA General Conference and Council. Media - Information - Culture . Ikaros [online]. 2003, č. 11 [cit. 2003-11-01].
Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200311005 . ISSN 1212-5075.

Zpráva Infos 2003
Pořadatel: Spolok slovenských knihovníkov
  Ústredná knižnica Slovenskej akadémie věd
  Ministersvto kultúry SR
Garanti: SUWECO CZ, s.r.o. - SEFIRA CZ - Britsh Council
 Zpráva ze služební cesty
Účastníci cesty: PhDr. Ivana Anděrová, PhDr. Z. Bartl,
Mgr. Ludmila Celbová, Karolína Košťálová, PhDr. Hana Nová,
Mgr. Petra Pěnkavová, Jindřiška Pospíšilová, PhDr. Vít Richter,
PhDr. Zdeněk Uhlíř
Za zúčastněné předkládá: Ivana Anděrová, vedoucí Oddělení analytického zpracování
(Odobor zpracování fondů NKČR)
Účel cesty 
Přednesení referátů v jednotlivých sekcích sympózia  
Plnění cesty  

Sympozium se konalo v situaci, kdy na Slovensku je žhavá poblematika elektronizace slovenských knihoven ( viz " Stratégia rozvoja slovenského knihovníctva do roku 2006" a - "Program elektronizácia knižníc v SR schválený vládou SR") a výběr jednotného knihovního systému. Hlavním favoritem je tzv. finský model vzhledem k analogickému počtu obyvatel Slovenska a Finska. Informační technologie a vybavení knihoven ve Finsku je však ne vyšší úrovni než na Slovensku. Kolem programu, výběru systému a digitalizace obecně proběhla poměrně živá a otevřená diskuze zejména mezi slovenskými kolegy. Do diskuze přispěli i někteří kolegové z České republiky. O problematice výběru systému též články:
1.Celbová, Ludmila. Sympozium INFOS 2003. Ikaros [online]. 2003, č. 05 [cit. 2003-05-01]. Dostupný na World Wide Web: http://www.ikaros.cz/Clanek.asp?ID=200305001. ISSN 1212-5075. ).
2. Jauhianen, Annu. A new library system for Finnish research libraries chosen. In: Helsinki University Library Bulletin. Roč. 2000, s. 12-19. ISSN 1456-1034.
3. Bartošek, M.: Systémový pohled na výběr knihovního systému nové generace a "finský model". Automatizace knihovnických procesů 8. Praha : ČVUT, 2001. S. 39-46.

Většina materiálů přednesených na sympoziu je obsažena ve sborníku:
Infos 2003. Sborník z 32. medzinárodného informatického sympózia, ktoré se konalo v dňoch 7.-10. apríla 2003 s Starej Lesnej. Centrum VTI SR : Bratislava, 2003. 246 s.

Referáty přednesené v rámci jednotlivých sekcích pracovníky Národní knihovny ČR

Plenární sekce "Knižničné zabezpečenie rozvoja informačnej spoločnosti" - 7.4.2003 Uhlíř, Zdeněk: Informační technologie, paměťové instituce a otázky kontextualizace kulturního dědictví

Příspěvek se soustředí na novou roli paměťových institucí a jejich pracovníků v oblasti přípravy, zpracování a zpřístupňování dat s důrazem na znalostní složku informační práce a interdisciplinární přístup, na uživatelskou integraci a obsahovou kontextualizaci infomačních zdrojů.

Richter, Vít: Knihovny a veřejně dostupný internet
Příspěvek se soustředí na problematiku veřejně přístupného internetu a knihoven a stavem nabídky v České republice. Příspěvek je zpracován na základě průzkumu veřejného mínění fy DEMA a informačních zdrojů Koordinačního centra VISK v NKČR.

Plenární sekce "Knižničné a informačné technológie pro informačnů spoločnost" - 8.4.2003

Celbová, Ludmila - Žabička, Petr: WebArchiv - digitální knihovna českého webu
Příspěvek informuje o projektu WebArchiv. Zmiňuje se o problematice výběru zdrojů k archivaci, jejich zpracování, zpřístupnění. Reálné fungování WebArchivu závisí kromě jiného též na vyřešení autroskoprávní problematiky související s tvorbou a provozem archivu.

Pospíšilová, Jindřiška - Košťálová, Karolína: Jednotná informační brána
Příspěvek informuje o projektu Jednotná informační brána s praktickými ukázkami. JIB umožňuje jednotný přístup k fondům klasickým i elektronickým. Projekt je svým charakterem národním (zapojena i oblast STM) i mezinárodním (zapojena Slovenská národní knihovna a Univerzitní knihovna v Bratislavě).

Plenární sekce "Knižničné prameny a služby pro informačnú spoločnosť" - 9.4.2003

Nová, Hana: Elektronické informačné zdroje v knihovnách ČR letech 2000-2002
Příspěvek se zobecňuje zkušenosti při využívání zahraničních odborných databází získaných v rámci programu Informační zdroje pro výzkum a vývoj (specializované i multioborové databáze). Popisuje metody hodnocení těchto zdrojů, zdůrazňuje význam národních licencí a konzorcií. Projekt je propojen s českými i mezinárodními projekty.

Košťálová, Karolína - Pěnkavová, Petra: Zapojení Národní knihovny ČR do projektu Elektronické knihovny časopisů (EZB)
Elektronische Zeitschriftbibliothek (projekt Regensburgské univerzitní knihovny) umožňuje z jednotného rozhraní přístup k elektronickým odborným časopisům, které má daná knihovna dostupné v rámci individuálního předplatného nebo přes plnotextové databáze vydyvatelů (agergátorů). NKČR se do projektu zapojila koncem r. 2002.

Plenární sekce "Bibliografická podpora rozvoja informačnej spoločnosti - 9.4.2003

Bartl, Zdeněk: Český projekt kooperativní tvorby národních autorit on-line aneb Jak to funguje v praxi
Příspěvek informuje o projektu "Kooperativní tvorba a využívání souborů autorit". Charakterizuje mechanizmus fungování spolupráce knihoven v rámci systému na celostátní úrovni a zdůrazňuje význam národních autorit pro běžnou katalogizaci .

Anděrová, Ivana: Kooperační systém článkové bibliografie a báze ANL, ANL FULL
Příspěvek sumarizuje vývoj a současný stav zpřístupnění informací o článcích zejména v rámci Kooperačního systému článkové bibliografie. Charakterizuje mechanizmus vzniku báze ANL (biblografická databáze) a báze ANL FULL (plnotextová databáze, DC, XML).

Příspěvky pracovníků přehledně informovaly o dosažených výsledcích týkajících se zejména zpracování a zpřístupňování informací na jedné straně, na straně druhé naznačily některé možné trendy a nová paradigmata týkající se těchto oblastí. V každém případě byly příspěvky pracovníků NKČR pro slovenské kolegy zajímavé a možná i inspirativní. Na druhé straně otevřenost slovenských kolegů při diskuzi na vetším fóru působila velmi "demokraticky".


B.1.2. Plnění úkolů v jednotlivých letech

Plnění úkolů se váže na poskytnuté finanční prostředky, které se během záměru měnily.V počátcích byly plánovány velké finanční prostředky, již běhěm roku 1999 sníženy, opět v r. 2001 navýšeny.

Všechny úkoly, kromě některých výjimek byly splněny, harmonogram řešení se prolínal, takže něco bylo řešeno dříve, něco později něco průběžně. V problematice pojmového vyhledávání v plných textech a v lince TTDE byl vytyčený limit několikanásobně překročen zejména díky možné realizaci projektu Souborná databáze. Některé původně plánované činnosti musely být sladěny časově i obsahově s projektem Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat.

Vždy původní zadání v jednotlivých letech a komentář zda dodrženo ano, ne a proč a výsledky řešení publikované v jednotlivých letech.

Zadání záměru
Ve všech obdobích půjde o nákup licencí a služeb, dále o úpravy báze po stránce obsahové i strukturální. Dodrženo, ano.

Rok 1999

Specifikace v záměru

V roce 1999 půjde především o analyticko-koncepční práce, nákup licencí na plné texty a obsahové a strukturální úpravy báze. Dodrženo ano, průběžně.
Bude navržen program, realizováno a experimentálně odzkoušeno propojení záznamů s plnými texty, navržena a experimentálně odzkoušena technologie spolupráce mezi NKČR a ostatními institucemi. Dodrženo ano (Anopress, UK)
Půjde o stanovení výchozí koncepce a o analýzu plných textů na Internetu zejména české provenience a o porovnání existujících titulů plných textů na Internetu a titulové základny článkové bibliografie s se seznamem titulů zpřístupňovaných na externích serverech (ANOPRESS, Newton). Dodrženo ano, průběžně. Bude navržen mechanismus programového propojení záznamů o článcích s plnými texty na základě URL (Uniform Resource Locator) adres doplňovaných programem dávkově či na základě dioalog-programu. Dodrženo ano.
V oblasti standardizace bude odzkoušena katalogizace elektronické a tištěné verze periodika Národní knihovna. Dodržena katalogizace tištěné verze, propojení na elektronickou později.
Celá etapa prací by měla vyústit v experimentální zpřístupnění a pezentaci plných textů ve spojení s bibliografickými záznamy článků na WWW. Dodrženo ano.

Bližší specifikace v záměru

Analýza plných textů na Internetu - české elektronické zdroje. Dodrženo ano, průběžně. Porovnání titulové základny kooperačního systému a s dostupnými periodiky na Internetu. Dodrženo ano, průběžně.

Seznam titulů zpracovávaných v NKČR, které se budou propojovat s plnými texty na Internetu a seznam titulů vytypované jedné státní vědecké knihovny k plnotextovému připojení. Dodrženo ano, průběžně.

Seznam titulů, které budou pouze propojené s externím serverem a které budou uložené na interním disku v NK. Dodrženo ano, průběžně
Navržení programu, realizace a experimentální odzkoušení propojení záznamů s plnými texty a technologie spolupráce mezi NKČR a ostatními institucemi. Dodrženo ano, průběžně
Stanovení optimální proporce při získávání plných textů mezi ANOPRESSem, Newtonem, AVČR a ostatními Institucemi. Dodrženo ano, průběžně
Zpřístupnění periodika Národní knihovna na WWW. Dodrženo ano, průběžně
Katalogizace elektronické verze periodika Národní knihovna. Dodržena katalogizace tištěné verze, propojení na elektronickou později
Návrh a experimentální zpřístupnění a prezentace plných textů na WWW. Dodrženo ano.

Výsledky řešení publikované v r. 1999

  • V roce 1999 šlo o analyticko-koncepční práce a o výběr vhodného partnera k realizaci projektu. Po analýze zdrojů a producentů plných textů byla zvolena informační agentura Anopress, s. r. o. (výběrové řízení proběhlo v červnu až srpnu 1999).
  • Od této agentury bylo zakoupeno cca 20 075 plných textů článků publikovaných převážně celostátních denících, které byly bibliograficky zpracované v oddělení analytického zpracování. První dávka těchto textů (zhruba polovina) je umístěna na NT serveru Národní knihovny.
  • Bylo navrženo, realizováno a experimentálně odzkoušeno programové propojení bibliografických záznamů uložených v Alephu s těmito plnými texty (záznamy jsou dosud zpracovávané v systému ISIS a konvertovány do ALEPHu).
  • Propojení je realizováno na základě URL adres, které jsou dávkově doplňovány do příslušného pole bibliografického záznamu. Programové řešení propojení se bude dále zkvalitňovat v r. 2000.
  • Od května 1999 jsou propojovány bibliografické záznamy článků zpracované v Odboru knihovnictví NK s plnými texty článků, které jsou vydávané v elektronickém periodiku IKAROS.
  • Analyticky byl popsán titul Red,, ročník 1, výtisk 7-16 v rámci projektu Digitalizace mikromédií ve formátu DOMB za účelem posouzení dosavadní metody popisu a navržení struktury dle UNIMARCu a AACR2 ((M. Balíková, I. Anděrová). Popis prováděli pracovníci oddělení.
  • V r. 1999 byly převedeny agenturou Anopress do elektronické formy všechny ročníky periodika Národní knihovna. Zpřístupnění tohoto periodika se bude dále optimalizovat.
  • NK ČR zakoupila z vlastních finančních prostředků 5 licencí pro přístup do databanky TAMTAM.
  • Monitoring článků na téma "informatika, Internet, knihovnictví, knihy, Národní knihovna" jsou v různém rozsahu poskytovány Oddělení analytického zpracování, Odboru knihovnictví, Oddělení public relations.
  • Pro zpřístupnění všech informací z databanky TAMTAM v síti knihoven iniciovala v r. 1999 agentura Anopress za spolupráce s Odborem knihovnictví NK ČR vznik konzorcia.
  • Doporučení pro UVT UK týkající se metadat v publikacích UK a základní metodika

Rok 2000

V roce 2000 proběhne odzkoušení mechanizmu propojování na větším počtu článků a odzkoušení technologické spolupráce mezi NKČR a ostatními institucemi, bude realizována skutečná prezentace plných textů na Internetu. Dodrženo, ano.
Dále proběhne experimentální katalogizace externích elektronických zdrojů existujících pouze v elektronické formě (Ikaros). Dodrženo. Ano
Bude vyzkoušeno experimentální propojení na plné texty zpřístupňované v rámci Akademie věd, popřípadě v rámci Univerzity Karlovy.V případě AV dodrženo ano, V případě UK nebylo možné.
Budou zkoumány možnosti propojení analytických záznamů s plnými texty uloženými na CD-ROM. Dodrženo, ne v případě uložených textů na CD Rom - viz výše.Implementovány linky na volné texty v r. 2000.
V této etapě se uskuteční nákup počítačů, které podmiňují přechod oddělení na novou verzi ALEPhu. Dodrženo, ne. Zakoupena část internetové licence.
Bude provedena analýza možností zpřístupnění plných textů zahraniční provenience. Dodrženo,ne - řešeno v rámci LI.
Bude vypracován a realizován návrh programové aplikace na provoz, správu a údržbu databáze článkové bibliografie. Dodrženo, ano.
Bude vyvinut CD-ROM s českou článkovou bibliografií v unimarcové podobě. Dodrženo, ano.
Bude provedena experimentální indexace mikroformy titulu vydaného před r. 1994 určeného k digitalizaci a zpřístupnění. Dodrženo, provedeno v r. 1999.
Návrh řešení smluvních otázek spolupráce. Dodrženo v rámci smlouvy o dílo s Anopressem v rámci projektu Souborná databáze.

Bližší specifikace v záměru

Odzkoušení mechanizmu propojování na větším vzorku záznamů, odzkoušení technologické spolupráce mezi NKČR a ostatními institucemi. Dodrženo, ano- Anopress.
Experimentální katalogizace elektronického časopisu Ikaros. Dodrženo, ano.
Experimentální napojení na vytypované elektronické verze periodik AVČR, UK. Dodrženo v případě AV, v případě UK není možné - viz výše.
Průzkum možností provázání záznamů s plnými texty uloženými na CD-ROM.Dodrženo ano, jednáno s Respektem. V zásadě možné.
Nákup HW a SW ( 6 počítačů). Dodrženo, ne, ale nákup části internetové licence VIS.
Přechod na ALEPH 500. Dodrženo, ano.
Analýza možností provázání záznamů s plnými texty na CD-ROM. Dodrženo, ne v případě uložených textů na CD Rom - viz výše.Implementovány linky na volné texty.
Zápis excerpční základny v bázi seriálů. Dodrženo, ne. Excerpční základna vedena separátně. Viz výše. Návrh propojení báze seriálů s bází článkové bibliografie.Dodrženo, ano, viz výše.
Návrh a realizace programové aplikace na provoz, správu a údržbu databáze článkové bibliografie.Dodrženo, ano, průběžně.
CD-ROM s českou článkovou bibliografií v unimarcové podobě.Dodrženo, ano.
Experimentální indexace dokumentu v mikroformě určeného k digitalizaci. Dodrženo, ano, v r. 1999.
Návrh řešení smluvních otázek spolupráce. Dodrženo v rámci smlouvy o dílo s Anopressem v rámci projektu Souborná databáze.
Skutečná prezentace a zpřístupnění plných textů na WWW. Dodrženo, ano.
Průzkum zdrojů plných textů zahraniční provenience. Dodrženo, ano.

Výsledky řešení publikované v r. 2000

  • V roce 2000 byla ujasněna základní koncepce, strategie, metody a částečně realizováno zpřístupňování plných textů umístěných na serveru FULL.NKP.CZ v bázi ANL FULL ve vazbě na bibliografickými záznamy obsažené v bázi ANL, vznikající v rámci Kooperačního systému článkové bibliografie (KOSABI).
  • Zpracování bibliografických záznamů a plných textů probíhá v rámci integrovaného knihovnického systému respektujícího UNIMARC (ALEPH aj.) i v rámci linky automatické indexace bibliografických záznamů z plných textů za současné tvorby URL a metadat DC.
  • Metody propojování bibliografických záznamů s plnými texty na základě URL adresy: ručně - on-line, off-line a automaticky - on-line, off-line.
  • Statické propojení bibliografických záznamů s relativně stálými prezentacemi plných textů na Internetu (odborná knihovnická periodika - připojeno cca 614 plných textů, ostatní obory - připojeno cca 600 plných textů) - báze ANL.
  • Dynamické propojení zaznamů z deníků a některých odborných časopisů za současného uložení plných textů na server FULL.NKP.CZ (cca 1800 záznamů) - báze ANL FULL.
  • Od agentury Anopress s.r.o. zakoupeno cca 9350 plných textů (vydaných v 1. čtvrtletí 2000) určených k propojení off-line.
  • V rámci projektu byl pravidelně poskytován monitoring médií pro oddělení PR a ředitele NK dle zadaného profilu a hrazeny licence (4 měsíce) na plné texty v rámci konzorcia Anopress.
  • Byl optimalizován program pro propojení bibliografických záznamů s plnými texty metodou off-line.
  • Na CD-ROM Česká národní bibliografie - řada Články v českých novinách, časopisech a sbornících byla implementována funkce pro aktivní hypertextové odkazy, které umožňují propojení záznamů o článcích s plnými texty na Internetu.

Rok 2001

Specifikace v záměru

V roce 2001 proběhne experimentální poloprovoz systému. Proběhne odzkoušení popřípadě další analýzy nutné k optimálnímu fungování mechanismu propojování záznamů s plnými texty a zpřístupňování plných textů na WWW. Dodrženo, ano.
Proběhne nákup příslušného HW a SW (kopírky, skeneru, OCR, vypalovačky na CD-ROM, upgrade serveru). Dodržen nákup kopírky, ostatní až v r. 2002.
V této etapě půjde o zakoupení autorských práv na plné texty tak, aby mohly být publikovány na CD-ROMu. Dodrženo, ne - viz výše.
Otázky autorských práv bude také nutno řešit v případě zhotovování plných textů či obrázků přímo z tištěných kopií v NKČR. Dodrženo, ne.
Bude nutno a posoudit výhody a nevýhody obou způsobů zpřístupnění textů. Dodrženo, ano, viz výše.. Budou zkoumány možností získat plné texty přímo od nakladatelů a práva s nimi disponovat nebo zhotovovat kopie obrázkové či fulltextové. Dodrženo, ano v případě distributora. V případě přímého nakladatele/vydyvatele ne - důvod viz výše.
Proběhne experiment s přebíráním metadat do národní bibliografie od dodavatele plných textů či, nakladatele.Dodrženo, ano - Anopress-
Bude analyzován vztah různých forem věcného popisu - vztah mezi MDT, předmětovým heslem, předmětovou kategorií a cizojazyčnými ekvivalenty, abstraktem. Dodrženo, ano.
Realizace a odzkoušení programové aplikace na správu a údržbu databáze analytických záznamů. Dodrženo, ano, průběžně.
Bude realizován návrh propojení báze článkové bibliografie s bází seriálů. Dodrženo, ano, viz výše.
Uzavření smluv o spolupráci. Dodrženo, ano v rámci projektu Souborná databáze.

Bližší specifikace v záměru

Experimentální poloprovoz. Dodrženo, ano
Nákup kopírky, skeneru, OCR, vypalovačky na CD ROM pro archivaci, upgrade serveru (disková paměť aj.). Dodržen nákup kopírky, ostatní až v r. 2002.
Další zakoupení autorských práv na plné texty a licencí. Dodrženo částečně. Plné texty zakoupeny, zakoupena další část internetové licence VIS (TOPIC).
Odzkoušení mechanismu přebírání metadat od vytypované instituce. Dodrženo, ano.
Úpravy obsahu a struktury databáze. Dodrženo, ano, průběžně.
Optimalizace vazeb mezi předmětovým heslem MDT, anotací /abstraktem, plným textem.Dodrženo, ano, průběžně.
Experimentální CD-ROM s plnými texty. Dodrženo, ne - viz výše.
Odzkoušení programové aplikace na správu a údržbu databáze analytických záznamů.Dodrženo, ano, průběžně.
Realizace propojení báze článkové bibliografie s bází seriálů. Dodrženo, ano, viz výše
Realizace smluv. Dodrženo, ano v rámci projektu Souborná databáze.
Návrh zpřístupnění plných textů zahraniční provenience. Dodrženo, ne. Realizováno v rámci LI.

Výsledky řešení publikované v r. 2001

  • V roce 2001 byla dále doplněna základní koncepce, strategie a metody zpřístupňování plných textů české provenience - báze ANL FULL a jejich propojení s bibliografickými záznamy - báze ANL vznikajícími v rámci Kooperačního systému článkové bibliografie (KOSABI.
  • Vystavení periodika Národní knihovna - r. 1999-2001 ve formátu pdf, html.
  • Upřesnění a definice nových topiků.
  • Aplikace pro generování formátu XML.
  • Zakoupení roční internetové licence pro TOPIC a technické podpory.
  • Automatická indexace článků (cca 4120 textů).
  • Uvedená koncepce je realizována v programovém projektu Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat, jehož výsledkem je zpřístupnění databáze ANL FULL a propojení bibliografických záznamů báze ANL s plnými texty.
  • Monitoring médií pro NKČR.
  • Pro správu Kooperačního systému článkové bibliografie v systému ORACLE bylo upřesněno zadání.

Rok 2002

Specifikace v záměru

V roce 2002 půjde ověřovací poloprovoz a doladění celého systému získávání, zpracování, údržby a prezentování (zpřístupňování ) plných textů na WWW. Dodrženo, ano.
Plnotextové CD-ROMy se budou postupně vydávat za předpokladu vyřešení problému autorských práv. Dodrženo, ne - viz výše.
Budou řešeny otázky archivace plných textů a konečná prezentace báze na WWW. Dodrženo, ano, průběžně.
Je plánována služební cesta do vytypované instituce. Dodrženo, ne, realizováno v r. 2003.
Bude řešena otázka optimalizace spolupráce s kooperujícími subjekty. Dodrženo, ano, průběžně.

Bližší specifikace v záměru

Ověřovací poloprovoz celého systému.Dodrženo, ano.
Vydávání plnotextových CD ROMů ve spolupráci s Albertinou icome - ověřovací provoz.Dodrženo, ne - viz výše.
Nákup autorských práv. Dodrženo částečně, nákup plných textů v rámci přístupu do TamTam..
Úpravy obsahu a struktury databáze.Dodrženo, ano, průběžně.
Řešení archivace plných textů.Dodrženo, ano, průběžně.
Služební cesta. Dodrženo, ne, realizováno v r. 2003.
Optimalizace organizace práce v oddělení článkové bibliografie a spolupráce s kooperujícími subjekty. Dodrženo, ano, průběžně.

Výsledky řešení publikované v r. 2002

  • V roce 2002 byly řešeny koncepční otázky týkající se zejména procesu zpracování a zpřístupnění plných textů v Kooperačním systému článkové bibliografie (KOSABI) s ohledem na současné trendy v oblasti automatické indexace dokumentů. Z analýzy vyplývá orientace spíše na automatickou extrakci dat s využitím možností inteligentního vyhledávání systému TOPIC (ve kterém je provozována báze ANL FULL) a jeho interaktivních vlastností. Intelektuální indexace věcná dosahuje lepších výsledků než automatizované přiřazování věcných termínů. V budoucnu není vyloučena její částečná automatizovaná podpora. Linku zpracování bibliografických záznamů z plných textů, resp. linku automatické indexace/extrakce (TTDE - TamTam Data Extractor), ve které se zpracovávají záznamy pro bibliografickou bázi ANL a metadata a plné texty pro plnotextovou databázi ANL FULL, je třeba napojit na soubory národních autorit. Byly zahájeny práce na vývoji internetové verze linky TTDE.
  • Vystavení periodika Národní knihovna - r. 2002 ve formátu pdf, html. Rejstříky. Navržení hesláře pro periodikum.
  • Upřesnění a definice nových topiků (geografie , historie, literatura, umění, oblast zdravotnictví - též v rámci projektu Souborná databáze Kooperačního systému článkové bibliografie ...).
  • Zakoupení roční internetové licence pro TOPIC a technické podpory, upgrade PC.
  • Korektury báze ANL a kontroly záznamů zpracovaných v lince poloautomatické indexace (TTDE TamTam Data Extractor).
  • Propojení bibliografických záznamů báze ANL s volně dostupnými plnými texty na WWW (1060 záznamů).
  • Uvedená koncepce je realizována v programovém projektu Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat, jehož výsledkem je zpřístupnění databáze ANL FULL, portálu Periodika na WWW a propojení bibliografických záznamů báze ANL s plnými texty.
  • Pro správu Kooperačního systému článkové bibliografie bylo upřesněno zadání pro export záznamů z báze SKK (systém Oracle).
  • Byla vypracována studie Současný stav a trendy automatické indexace dokumentů
  • Prezenace výsledků projektu na konferenci Inforum 2002 a Knihovny současnosti 2002 (též v rámci projektu Souborná databáze Kooperačního systému článkové bibliografie ...).

Rok 2003

Specifikace v záměru

V r. 2003 bude realizován plný provoz celého systému zpřístupňování plných textů a jejich prezentace na WWW. Vydávání plnotextových CD-ROMů by se mělo za předpokladu vyřešení autorskoprávních otázek stát rutinní záležitostí.

Bližší specifikace v záměru

Plný provoz, plnotextová CD ROM, konečná prezentace celého systému zpřístupnění plných textů na WWW.

Výsledky řešení publikované v r. 2003

  • Na analýzu selekční úplnosti topiků při vyhledávání provedenou v r. 2002 navázala další analýza s doporučením pro zvýšení úplnosti vyhledávání topiků.
  • Zprovoznění Z 39.50 toolkit klienta pro aplikaci v v asp skriptech a částečná realizace interface pro propojení linky se soubory autorit.
  • Vystavení periodika Národní knihovna - č. 4/2002, 1,2/2003, rejstříky, current content 1/99 - 1/2003.
  • Upřesnění a definice nových topiků (geografie, doprava aj.).
  • Zakoupení roční internetové licence pro TOPIC a technické podpory.
  • Korektury báze ANL a kontroly záznamů zpracovaných v lince poloautomatické indexace (TTDE TamTam Data Extractor).
  • Propojení bibliografických záznamů báze ANL s volně dostupnými plnými texty na WWW (cca 2200 záznamů).
  • Koncepce zpřístupnění plných textů je realizována v programovém projektu Souborná databáze operačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat, jehož výsledkem je zpřístupnění databáze ANL FULL, portálu Periodika na WWW a propojení bibliografických záznamů báze ANL s plnými texty.
  • Prezenace výsledků projektu na Infos 2003, zasedání SDRUK, účast na zasedání IFLA 2003.
  • Započaly práce na konverzi UNIMARC M21

Některé globální ukazatele
Ikaros

Rok Rok vydání -
počet záznamů v bázi ANL
Rok zpracování
- počet záznamů v bázi ANL
Propojeno postupně
1999 89 45  
2000 122 166 
2001 115 86  
2002 188 168  
2003 575 575 575

Národní knihovna (digitalizována Anopressem - r. 1990-2001, převedena do báze ANL FULL, z ANL linky do ANL FULL, od r. 1999 samostatná aplikace - na ni linky z ANL). Záznamy jsou v současné době zpracovávány v oddělení analytického zpracování (dříve Odbor knihovnictví) vzhledem k součinnosti s prezentací periodika na WWW.

Rok Rok vydání - počet záznamů v bázi ANL Rok zpracování - počet záznamů v bázi ANL Typ linku statický z báze ANL, postupné propojování na samostatnou aplikaci; rok 1995,1996 propojen na ANL FULL Počet plných textů v bázi ANL FULL- suma Typ linku dynamicky generovaný, metadata extrahována, generována, přístup z báze ANL FULL Samostatná aplikace, link z báze ANL na samostatnou aplikaci
1990         ano  
1991         ano  
1992         ano  
1993         ano  
1994         ano  
1995 149    120  131  ano, link z ANL  
1996 156    128    ano, link z ANL  
1997 75    45    ano  
1998 63    63    ano  
1999 113  348  68    ano ano 
2000 93  55  56    ano ano 
2001 79  74  65    ano ano 
2002 63  60  14      ano 
2003 31  31  30      ano 
Suma 822  568  550  1303    ano 

Celkový počet plných textů v bázi ANL FULL ( převážně výsledek práce v projektu Souborná databáze - cca 85% a výzkumného záměru Propojení analytických záznamů s plnými texty - cca 5 %). Převážná část plných textů byla doplněna a následně propojena s analytickými záznamy během r. 1999-2001 - k propojení nutná programová i ruční příprava. Od pololetí 2000 zpracovávány plné texty v lince TTDE). Báze ANL FULL - 118 500 plných textů (k počátku ledna 2004), z toho 1303 plných textů periodika Národní knihovna. V lince zpracováno od poloviny r. 2001 celkem 38 250 plných textů s metadaty. Staticky bylo propojeno z báze ANL na volné texty přes 6 500 záznamů (některé linky během řešení spadly a číslo je pohyblivé) - cca 85 % statických linků v rámci tohoto projektu. Počty jsou přibližné, protože nelze přesně od sebe oddělit přípravu propojení, samotné propojení, kontroly a korektury propojení. Protože v r. 2003 šlo již o rutinní chod propojování, které bylo prováděno v pracovní době, nebyla tato činnost odměňována z projektu. Celkový počet linků na plné texty z báze ANL je cca 125 000. Články vydané v letech 1997 - polovina r. 2001 byly zakoupené pro off line propojování.

Báze Počet linků Počet plných textů v ANL FULL Počet plných textů NKKR Statické linky z bibliografických záznamů ANL na volné plné texty Statické linky z báze ANL do ANL FULL V lince TTDE zpracováno plných textů s metadaty DC a UNIMARC pro bázi Bibliografické záznamy ANL připraveny k propojení, plné texty naimportovány do ANL FULL a následně propojeny s bibliografickými záznamy
ANL 125 000     6 500 118 500 38 250 78 947
ANL FULL   118 500 1303     38 250 78 947

Rok Počet plných textů v ANL FULL
1990 36
1991 96
1992 36
1993 101
1994 110
1995 131
1996 128
1997 21332
1998 18434
1999 17759
2000 14358
2001 14963
2002 15549
2003 14756
Suma 117789*

* Rozdíl vyhledávání po rokách oproti globálnímu vyhledávání (118 500) dán patrně nezaindexováním 711 plných textů podle čísla jednotlivých let

7. Zakoupení licence pro ultranet a internet pro TOPIC (VIS), technické podpory.

Během projektu byla postupně zakoupena internetová a ultranetová licence VIS (TOPIC, resp. Portal One).

8. Optimalizace zpřístupnění plných textů vyplývá z výše uvedeného - viz Příloha F2.


B. 2 Přínos řešitele

  • Projekt zmapoval nové trendy a zdroje, které souvisejí se zpřístupněním plných textů v zahraničí i v ČR.
  • Vytvořil předpoklady pro integraci bází článkových informací vznikajících ve spolupracujících knihovnách kooperačního systému a souborné databáze ANL do JIB.
  • Vytvořil předpoklady pro vývoj aplikace linky pro poloautomatickou indexaci/extrakci bibliografických záznamů z plných textů - TTDE (TamTam Data Extraktor) a částečně prakticky aplikoval některé komponenty této linky.
  • Vytvořil předpoklady a částečně aplikoval moderní standardy a nástroje pro zpřístupňování plných textů na internetu (Dublin Core, XML, topiky).
  • Vytvořil předpoklady pro implementaci interaktivního systému založeném na pojmového vyhledávání - TOPICu a částečně prakticky aplikoval některé komponenty a nástroje propojování a zpřístupňování plných textů v systému TOPIC.
  • Linka TTDE zrychlila v počátcích zpracování a propojení bibliografických záznamů na plné texty, v současné době je její verze pro lokální pracovní stanice v rutinním provozu, připravuje se její internetová verze s napojením na soubory autorit.
  • Systém TOPIC je v současné době ve stádiu provozu.
  • Kooperační systém funguje již přes 10 let.
  • Projekt vytvořil předpoklady pro integraci systému pojmového vyhledávání do JIB.
  • Vytvořil předpoklady pro propojení analytických záznamů s plnými texty na základě zabudování metadat do plných textů i na základě metadat existujících mimo plné texty
  • Vytvořil předpoklady pro propojování analytických záznamů, resp. metadat s plnými texty přes Open URL a SFX.
  • Vytvořil předpoklady pro služby SFX související s články v rámci JIB.
  • Byla navázána spolupráce s moderní informační společností a vytvořeny předpoklady pro založení konsorcia pro přístup do databanky TamTam v r. 2000.

B. 2 Posun znalostí

Řešení v rámci projektu přispěly k výraznému posunu znalostí zejména v těchto oblastech:

  • Důkladné zmapování trendů a zdrojů souvisejících s propojením analytických záznamů s plnými texty a optimalizací zpřístupnění.
  • Koncepce propojení a částečná implementace nástrojů a standardů pro propojení analytických záznamů s plnými texty.
  • Vytvoření předpokladů pro propojení analytických záznamů s plnými texty v JIB a optimalizace zpřístupnění plných textů pomocí SFX.
  • Integrace systému pojmového vyhledávání do služeb knihovny.


C - Navrhovaná část

Zpět na A - Konstatační část

Zpět na Granty



20.5. 2004 Ivana Anděrová


01.12.12