Oddělení analytického zpracování | Báze ANL | ANL FULL | Koop. systém článkové bibliografie | Granty | Metodika popisu článků | English




SOUBORNÁ DATABÁZE KOOPERAČNÍHO SYSTÉMU ČLÁNKOVÉ BIBLIOGRAFIE - OPTIMALIZACE INTEGRACE A SPRÁVY HETEROGENNÍCH DAT

Souhrnná zpráva za rok 2003




Předkládá: PhDr. Vojtěch Balík, ředitel NK

Zpracovala: PhDr. Ivana Anděrová, hlavní řešitelka

Praha, listopad 2003

OBSAH



A

Konstatační část

A.1 Rešerše
A.2 Současný stav ve světě a v ČR
A.3 Cíl, vstupní data

B

Analytická část

B.0 Automatická či poloautomatická indexace
a topiky ANL FULL -analýza
B.1 Vlastní řešení
B.1.1 Architektura systému zpřístupnění plných textů,
funkce systému procesy. Linka TTDE,
resp. WWW TTDE Systém TOPIC a topiky
B.1.2 TOPIC (charakteristika)
B.1.3 Charakteristika serveru full.nkp.cz
a báze ANL FULL.
Periodika na WWW - portál
B.1.4 Metadata
B.1.5 Tisk, stahování a export plných textů a metadat -
přístup z nabídky vyhledávání bibliografie (KOSABI)
B.1.6 Administrace
B.1.7 Standardizace - UNIMARC, Dublin Core, HTML, XHTML, XML,
propojení záznamů s plnými texty
B.1.8 Souborná databáze ANL Kooperačního systému článkové bibliografie
(KOSABI), metodika a organizace. ČNB
B.1.9 Perspektivy Kooperačního systému článkové bibliografie
a jeho další vývoj, některé předpoklady a cíl
B.1.10 Management Kooperačního systému článkové bibliografie,
aplikace MNG KOSABI
B.1.11 HW a SW podpora pro správu KOSABI
a pro bázi ANL FULL
B.1.12 Smluvní ošetření projektu
B.2 Přínos řešitele
B.3 Posun znalostí

C

Navrhovaná část

C.1 Výsledky řešení
C.2 Závěr
C.3 Návrhy opatření

D

Použití finančních prostředků

D.1 Komentář
D.2 Tabulky

E

Resumé a klíčová slova

E.1 Resumé a klíčová slova v češtině
E.2 Abstract and key words in English

F

Přílohy

F.1 Příloha F 1 : Báze ANL v NKČR (ALEPHU), JIB CASLIN a ANL/ANL FULL, ČNB


F.2 Příloha F 2 : Linka zpracování bibliografických záznamů z plných textů
- TamTam Data Extractor (TTDE) - bibliografická metadata
pro bázi ANL (ALEPH) a plné texty s Dublin Core
pro bázi ANL FULL (TOPIC)

F.3 Příloha F 3 : Architektura systému získávání,
zpracování a zpřístupnění plných textů v systému TOPIC
(báze ANL FULL a portál Periodika na WWW)
- detailní ukázky formulářů, formátů, výstupů.
Administrace (opravy a statistiky)

F.4 Příloha F 4 : Tituly v bázi ANL FULL, ANL, volně na WWW,
Dublin Core a ANL Core - tabulka návěští pro vyhledávání v poli dotaz,
tabulka formulářových polí, topiky, citace článku

F.5 Příloha F 5 : Krajský bibliografický systém.
Aplikace pro správu a údržbu KOSABI
(architektura systému, jednotlivé aplikace pro příjem
a zpracování dat, báze titulů)

F.6 Příloha F 6 : Linka zpracování bibliografických záznamů
z plných textů - internetová verze - WWW TamTam Data Extractor (WWW TTDE)
- bibliografická metadata pro bázi ANL (ALEPH)
a plné texty s Dublin Core pro bázi ANL FULL (TOPIC)




























































































 

 

 

 

 

A Konstatační část

A.1 Rešerše

 


CÍGLER, I., Königová, M., Lukavec, P., Vacek, V. Hodnocení efektivnosti informačních systémů. Systémová analýza v informatice. ČVTS, 1974. S. 98-115.

SARACEVIC, T. The concept of relevance in information science : a historical review. Introduction to Information Science. New York : Academic Press, 1976. S. 79-137.

ZEMANOVÁ, I. Problematika relevance a pertinence. Vývoj a současný stav. Diplomová práce. Praha. FFUK , 1977. 164 s.

Analytický popis. Praha : Národní knihovna v Praze, 1991. 2 sv. + disketa. ( MAKS)

KOUDELKOVÁ, L. NÁDVORNÍKOVÁ, M. BAJÁK, M. Návod pro tvorbu a využívání báze záznamů dokumentů. Verze 1. Praha : Národní knihovna v Praze, 1991. 71 s. (MAKS)

STOKLASOVÁ, B., ANDĚROVÁ, I., KREMEROVÁ, J. Specifikace údajů pro bázi záznamů dokumentů. Verze 1. Praha : Národní knihovna v Praze, 1991. nestr. (MAKS)

ANDĚROVÁ, I. Pravidla zápisu údajů pro analytický popis. Praha : Národní knihovna v Praze, 1992. 217 s. + příl.

ANDĚROVÁ, I. [et al.]. Národní bibliografie - analytický popis : příručka pro zpracovatele. Praha : Národní knihovna, 1993. 412 s. Revize 1, 1993; Revize 2, 1997.

BÍNOVÁ, J.Regionální bibliografická činnost v SVK - možnosti spolupráce s okresními knihovnami. Čtenář, roč. 46, č. 2,1994, s. 45-48.

NÁDVORNÍKOVÁ, M. Spolupráce na úplnosti národní bibliografie z pohledu regionálních vědeckých knihoven. Knihovny současnosti '96.1. vyd. Brno : Sdružení knihoven, 1996, s. 134-139.

The Nordic Metadata projects [online]. Helsinki (Finsko) : Helsinki University, 1996, last updated 21 February 2000. Dostupný z: http://www.lib.helsinki.fi/meta/.

Doporučení pro popis částí dokumentu na základě mezinárodního standardního bibliografického popisu (ISBD). 1. vyd. Praha: Národní knihovna ČR, 1997. 32 s.

Cobra+ : Computerised Bibliographic Record Actions [online]. Boston Spa (Velká Británie) : COBRA+, 1997. Dostupný z: http://www.ddb.de/gabriel/cobra.

KOCH, Traugott and BORELL, Maattias. Dublin Core Metadata Template [online]. Lund (Švédsko) : Lund universitetsbibliotek, 1997, last update 1997-08-20. Dostupný z URL: http://www.lub.lu.se/metadata/DC_creator.htm.

Nordic Countries URN-generator : provided by the Nordic Libraries [online]. Lund (Švédsko) : Lund universitetsbibliotek, 1997. Dostupný z URL: http://lub.lu.se/cgi-bin/nmurn.pl.

OLSON, Nancy B. Cataloging Internet Resources [online]. Dublin (Ohio, USA) : OCLC, 1997. Dostupný z URL: http://www.oclc.org/support/documentation/worldcat/cataloging/internetguide/.

BRATKOVÁ, Eva. Bibliografické a plnotextové báze dat americké firmy H.W.Wilson pro společenské a humanitní obory: vyhledávání informací v systému WilsonWeb. Infomedia [online], 1998. Dostupný z: URL: http:///www.inforum.cz/infomedia98/pdf/wilson.htm.

BRATKOVÁ, Eva. K otázkám pojmu, třídění a typologie internetových a webovských informačních zdrojů. Národní knihovna : knihovnická revue, 1998, roč. 9, č. 5, s. 262-276. Dostupný z URL: http://full.nkp.cz

JONÁK, Z. Inteligentní nástroje pro práci s texty na Internetu. Ikaros [online]. 1998, č. 09 [cit. 1998-09-01].Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200208003. ISSN 1212-5075.

BRATKOVÁ, Eva. Metadata jako nový nástroj pro komunikaci webovských informačních zdrojů. Národní knihovna : knihovnická revue, 1999, roč. 10, č. 4, s. 178-195. Dostupný též z URL: http://full.nkp.cz/nkkr/Nkkr9904/9904178.html.

ČERVENÝ, Vlastimil. Vyhledávání v databázích plných textů. Národní knihovna : knihovnická revue, 1999, roč. 10, č. 1, s. 6-12. Dostupný též z URL: http://full.nkp.cz/nkkr/Nkkr9901/9901006.html.

Záznam pro soubornou databázi : UNIMARC. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd. Praha : Národní knihovna České republiky,1999. 45 s. (Standardizace ; č. 19). Určeno k připomínkám. Dostupný z URL: http://wwwold.nkp.cz/pages/page.php3?page=fond_anal_unim_opr.htm

Záznam pro soubornou databázi : Výměnný formát. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd. Praha : Národní knihovna České republiky,1999. 39 s. (Standardizace ; č. 20). Určeno k připomínkám. Dostupný z URL: http://wwwold.nkp.cz/pages/page.php3?page=fond_ann_vf_opr.htm

JONÁK, Z. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační aspekty života? Ikaros [online]. 1999, č. 3 [cit. 1999-03-01]. Dostupný z URL: http://ikaros.ff.cuni.cz/1999/c03/veda2.htm. Pozn.: nepřístupný

JONÁK, Z. Krize mezilidské komunikace v období komunikační a informační exploze. Ikaros [online]. 1999, č. 05 [cit. 1999-05-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200205066. ISSN 1212-5075.

PAPÍK, R. Trendy v rozvoji informačních služeb. Ikaros [online]. 1999, č. 8 [cit. 1999-09-01]. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200208571.

SVOBODA, Martin. Elektronické publikování. Ikaros [online], 1999, č. 3. Dostupný z URL: http://ikaros.ff.cuni.cz/ikaros/1999/c03/elpubl98/index.htm. Pozn.: nepřístupný.

OPPENHEIM, Charles. SMITHSON, Daniel. What is the hybrid library? Journal of Information Science, 1999, vol. 25, no. 2, s. 97-112.

BURGETOVÁ, Jarmila. Právní aspekty poskytování knihovních elektronických a reprografických služeb. Ikaros [online], 1999, č. 6. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200205087.

HEIJTING, Inge. Interconnectivity and the Hybrid Library. Ikaros [online], 1999, č. 10. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200205142 .

Projects at the Royal Library in Stockholm, Sweden [online]. Stockholm : Royal Library, updated July 1, 1999. Dostupný z URL: http://www.kb.se/ENG/projekt.htm.

Sborník příspěvků ze semináře CASLIN ´99 - Souborné katalogy:organizace a služby. Dostupný z URL: http://www.caslin.cz:7777/caslin99/prispevky.html.

TKAČÍKOVÁ, Daniela. Když se řekne digitální knihovna ... Ikaros [online], 1999, č. 8. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200208578 .

Topic : systém pro inteligentní vyhledávání dokumentů. Praha : Tovek, 19?.

Uniform Resource Names (urn) Charter [online]. Reston (VA, USA) : IETF, last modified 03-Jun-99. Dostupný z URL: http://www.ietf.org/html.charters/OLD/urn-charter.html.

MOENS, M.F. Automatic indexing and abstracting of document texts. Boston : Kluwer Academic Publishers, 2000. 265 s.

PAPÍK, R. Competitive Intelligence, informační služby, Internet a informační profese. Ikaros [online]. 2001, č. 04 [cit. 2001-04-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200208281. ISSN 1212-5075.

JONÁK, Z. Inteligence systémů zpracování textů. Ikaros [online]. 2000, č. 1 [ cit. 2000-01-05]. Dostupný z URL: http://ikaros.ff.cuni.cz/ikaros/2000/c01/isko/z_jonak.htm. Pozn.: nepřístupný

ANDĚROVÁ, Ivana. Programový projekt MK ČR "Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat". Ikaros [online]. 2000, č. 10 [cit. 2000-12-01]. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200301003. ISSN 1212-5075.

Biblink [online]. Bath (Anglie) : UKOLN, last updated 12-Jul-2000 [cit. 14. 3. 2001]. Dostupné z URL: http://hosted.ukoln.ac.uk/biblink/.

CELBOVÁ, Ludmila. Elektronické zdroje publikované v síti Internet jako součást České národní bibliografie. Ikaros [online], 2000, č. 6. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200208144.

DOI, the Digital Object Identifier System [online]. Kidlington (Oxford, Velká Británie) : International DOI Foundation, 1998, updated 4 April 2000. Dostupný z URL: http://www.doi.org/.

Dublin Core Metadata Initiative [online]. Dublin (Ohio, USA) : OCLC, 2000. Dostupný z URL : http://purl.org/dc/.

HORA, Michal a RICHTER, Vít. Veřejné informační služby knihoven - nový program pro občany a knihovny. Ikaros [online], 2000, č. 8. Dostupný z URL: http://ikaros.ff.cuni.cz/ikaros/2000/c08/visk.htm. Pozn.: nepřístupný

Metadata [online]. Bath (Anglie) : UKOLN, last updated 16-Feb-2000. Dostupný z URL: http://www.ukoln.ac.uk/metadata/.

VOJTÁŠEK, Filip a CELBOVÁ, Iva. Helsinská univerzitní knihovna přívětivá vůči každému. Ikaros [online], 2000, č. 9. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200208199 .

ŽABIČKA, Petr. Dublin Core - metadata pro popis elektronických dokumentů. Předneseno na konferenci DATASEM 2000, konané 21. až 24. října 2000 v Brně. Dostupné z URL: http://webarchiv.nkp.cz/datasem2000.pdf.

NEDLIB : Networked European Deposit Library [online]. Hague (Nizozemí) : Koninklijke Bibliotheek, c1998, last updated 11-Mar-2001 [cit. 28. 4. 2001]. Dostupné z URL: http://www.kb.nl/nedlib .

Networked European Deposit Library [online]. Hague (Nizozemí) : Koninklijke Bibliotheek, last upd. 11-Mar-2001 [cit. 14. 3. 2001]. Dostupné z URL: http://www.kb.nl/nedlib/.

VEJLUPEK, T. SPEIS - koncept jednotného využívání a jednotné nabídky informačních zdrojů a informačních služeb od různých poskytovatelů. Praha , 2001. 18 s.

ANDĚROVÁ, I. Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů. Souhrnná zpráva za rok ... [online]. Dostupný z URL: http://wwwold.nkp.cz/pages/page.php3?page=oazp_granty.htm.

ANDĚROVÁ, I. Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná zpráva za rok # [online]. Dostupný z URL: http://wwwold.nkp.cz/pages/page.php3?page=oazp_granty.htm.

ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37. Dostupný též z URL: http://full.nkp.cz/nkkr/NKKR0101/0101026.html.

PAPÍK, R. Competitive Intelligence, informační služby, Internet a informační profese. Ikaros [online]. 2001, č. 04 [cit. 2001-04-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200208281. ISSN 1212-5075.

ANDĚROVÁ, Ivana. Metodika popisu článků ve formátu UNIMARC [online]. 2001. Dostupný z URL: http://wwwold.nkp.cz/pages/page.php3?page=oazp_popis1.htm.

CASLIN 2001. Popis a zpřístupnění dokumentů : nová výzva. Beroun, 27.-31. května 2001 [online]. Dostupný z URL: http://www.caslin.cz:7777/caslin01/index.htm

CELBOVÁ, Ludmila. Informace o projektu registrace domácích internetových zdrojů nově na serveru WebArchiv. Ikaros [online]. 2001, č. 5 [cit. 2001-05-01]. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200208297. ISSN 1212-5075.

CVRČKOVÁ, R. Služba GILS jako nástroj pro řízení informačních zdrojů z oblasti řízení státní správy USA. Národní knihovna : knihovnická revue. 2001, roč. 12, č.2, s. 99-113. Též dostupný z URL: http://full.nkp.cz/nkkr/NKKR0102/0102099.html..

SCHWARZ, J. Praktické aspekty hodnocení kvality a konzistence indexace. Ikaros [online]. 2001, č. 2 [cit. 2001-02-01]. Dostupný z URL: http://www.ikaros.cz/Clanek.asp?ID=200303002

H.W. Wilson Company Selects Verity to Power the New WilsonWeb Site - the Premier Reference Resource for Librarians and Researchers [online]. Dostupný z URL: http://www.verity.com/company/press/2001/20010108.html.

Integration Heterogenous Resources : 25 Library Seminar, Prague 6-8 June 2001 [online]. Dostupný z URL: http://www.stk.cz/elag2001/ELAG2001.html

ANDĚROVÁ, I. Báze ANL FULL v systému TOPIC. Textová verze. Inforum 2002. Dostupný z URL: http://www.aip.cz, http://full.nkp.cz, Rubrika Co je nového ... .

ANDĚROVÁ, I. Báze ANL FULL v systému TOPIC. Prezentace PPT. Inforum 2002. Dostupný z URL: http://full.nkp.cz, Rubrika Co je nového .... .

Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. Brno : Sdružení knihoven ČR, 2002. 401 s.

Knihovny současnosti 2002, Seč 24-26.9. 2002. PPT prezentace. Dostupný z URL: http://www.mzk.cz/aktivity/sec.php3 .

ANĎEROVÁ, I. Kooperační systém článkové bibliografie - KOSABI. (Vývoj a současný stav metodiky zpracování, zpřístupnění, organizace kooperace, perspektivy). Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. 2002, s. 223-255. Dostupný též z URL: http://full.nkp.cz, Rubrika Co je nového ... .

ANDĚROVÁ, I. Kooperační systém článkové bibliografie - KOSABI. (Vývoj a současný stav metodiky zpracování, zpřístupnění, organizace kooperace, perspektivy ). Prezentace PPT na konferenci Knihovny současnosti 2002, Seč 24.-26.9.2002. Dostupný z URL: http://full.nkp.cz, Rubrika Co je nového ... .

BÍNOVÁ, J.: Bibliografická sekce sdružení knihoven České republiky v letech 1995-2002. Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. 2002, s. 182-183.

NÁDVORNÍKOVÁ, M. Nové formy a metody práce při poskytování regionálních bibliografických informací. Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. 2002, s. 186-189. Dostupný též z URL: http://www.mzk.cz/aktivity/sec.php3

SVOBODOVÁ, E. Spolupráce paměťových institucí v rámci krajského bibliografického systému - Utopie. Nebo reálná možnost? Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. 2002, s. 190-194.

MIKA, J. Regionální bibliografie a faktografie - příklad spojení tradičního a moderního přístupu ke knihovnické práci. Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. 2002, s. 195-200.

KAŇKA, J. Koncepce krajského bibliografického systému. Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. 2002, s. 195-201-205.

HRAZDILOVÁ, A. Analytické zpracování v systému T-Series v Krajské moravskoslezské knihovně v Ostravě : Výsledky řešení programového projektu Ministerstva kultury ČR. Čtenář, roč. 54, č. 4, 2002, s. 116-117

IFLA. Dostupný z URL: http://www.ifla.org/

68th IFLA Council and General Konference, August 18-24, 2002. Glasgow. Dostupný z URL: http://www.ifla.org/.

HADDAD, P.GATENBY, P. Providing bibliographic access to archived online resources: the National Library of Australia´s approach. 68th IFLA Council and General Konference, August 18-24, 2002. Glasgow. Dostupný z URL: http://www.ifla.org , http://www.nla.gov.au/nla/staffpaper/2002/gatenby.html .

DAGERSTEDT, S. Cataloguing and organizing library workflow - New wals. 68th IFLA Council and General Konference, August 18-24, 2002. Glasgow. Dostupný z URL: http://www.ifla.org . Pozn.: nepřístupný

SMITH, R. The European Library Project: managing bibliographic standards at the European level. 68th IFLA Council and General Konference, August 18-24, 2002. Glasgow.

EDVARDSEN, JONNY. Newspapers at the National Library of Norway. News from the IFLA Round tabel of Newspapers. 2002, No. 10. Dostupný z URL: http://www.ifla.org/VII/s39/broch/no10.pdf.

SCHWARZ, J. Současný stav a trendy automatické indexace dokumentů. Přehledová studie. 2002. Dostupný z URL: http://full.nkp.cz

RICHTER, V. Návrh nové "Strategie rozvoje knihoven 2003-2005" Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26.září 2002 v Seči u Chrudimi. 2002, s.

SVOBODA, M.Knihovny v elektronické záplavě. Automatizace knihovnických procesů . 9. ročník. Liberec.2003. Dostupný z: http://knihovny.cvut.cz/akp2003/.

SKLENÁK, V. Sémantický web. Knihovny v elektronické záplavě. Automatizace knihovnických procesů .9. ročník. Liberec. 2003. Dostupný z: http://knihovny.cvut.cz/akp2003/ .

ŽABIČKA, P. OAI-PMH: Protokol pro metadatovou interoperabilitu. Automatizace knihovnických procesů . 9. ročník. Liberec. 2003. Dostupný z: http://knihovny.cvut.cz/akp2003/ .

ANDĚROVÁ, I. Kooperační systém článkové bibliografie a báze ANL, ANL FULL. Infos 2003: zborník z 32. medzinárodného informatického sympózia, ktoré se konalo v dňoch 7.-10 apríla 2003 v Starej Lesnej. Sest. Alojz Androvič, Judita Kopáčiková. Bratislava, Centrum VTISR 2003. S. 149-161.

KOVAČKA, M. Prvé výsledky a najbližšie perspektivy národného programu retrokonverze a konverze bibliografických databáz a knižničných katalogov Slovenskej republiky. Infos 2003: zborník z 32. medzinárodného informatického sympózia, ktoré se konalo v dňoch 7.-10 apríla 2003 v Starej Lesnej. Sest. Alojz Androvič, Judita Kopáčiková. Bratislava, Centrum VTISR 2003. S. 135-140.

BARTOŠEK, M. Aktuální oblasti výzkumu digitálních knihoven Infos 2003: zborník z 32. medzinárodného informatického sympózia, ktoré se konalo v dňoch 7.-10 apríla 2003 v Starej Lesnej. Sest. Alojz Androvič, Judita Kopáčiková. Bratislava, Centrum VTISR 2003. S. 84-90.

Congress: 69th IFLA General Conference and Council. Access Point Library: Media - Information - Culture.1 - 9 August 2003, Berlin, Germany. Dostupný z: http://www.ifla.org/IV/ifla69/index.htm .

BARTOŠEK, M. Digitální knihovny. Dostupný z: http://www.ics.muni.cz/mba/dl-fi03/dlfi03-1.pdf.

ANDĚROVÁ, I. Problematika novin a World Library and Information Congress : 69th IFLA General Conference and Council. Media - Information - Culture . Ikaros [online]. 2003, č. 11 [cit. 2003-11-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200311005. ISSN 1212-5075.

Ikaros, redakce. Program LI znamenal průlom ve financování informačních zdrojů. Ikaros [online]. 2003, č. 08 [cit. 2003-08-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200307009. ISSN 1212-5075.

SCHWARZ, J. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Ikaros [online]. 2003, č. 03 [cit. 2003-03-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200303002 . ISSN 1212-5075.
Pozn.: Originální verze studie je zveřejněna na adrese http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html, zkrácená a upravená verze studie byla prezentována na konferenci Znalosti 2003 (viz Schwarz, J. Současný stav a trendy automatické indexace dokumentů. In Svátek, V. (ed.). Znalosti 2003 : 2. ročník konference, Ostrava, 19.-21. únor 2003. Sborník příspěvků. Ostrava : VŠB-Technická univerzita Ostrava, 2003, s. 212-221.

HARTMANOVÁ, D. Knihovna on-line a autorské právo. Národní knihovna : knihovnická revue, 2003, roč. 14, č. 2, s. 100-105. Dostupný též z: http://full.nkp.cz/nkkr/NKKR0302/0302100.html.

BROŽEK, I.; PĚNKAVOVÁ, P.; ŠTĚRBOVÁ, J.; HOREJSKOVÁ, M. Knihovny současnosti 2003. Ikaros [online]. 2003, č. 10 [cit. 2003-10-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200309009. ISSN 1212-5075.

SVOBODA, M. PQNext: Nová verze vyhledávacího prostředí služby ProQuest 5000. Ikaros [online]. 2003, č. 08 [cit. 2003-08-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200308004. ISSN 1212-5075.

CELBOVÁ, L. Automatizace knihovnických procesů podeváté. Ikaros [online]. 2003, č. 06 [cit. 2003-06-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200305005. ISSN 1212-5075.

SVOBODA, M. Zpráva z cesty na seminář ELAG 2003. Ikaros [online]. 2003, č. 08 [cit. 2003-08-01]. Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200308001. ISSN 1212-5075.

MACHONSKÁ, J. Cenová politika databázových center. Historie a současnost. Národní knihovna : knihovnická revue, 2002, roč. 13, č. 3, s. 177-195. Dostupné z: http://full.nkp.cz/nkkr/NKKR0302/0302100.html .

BRATKOVÁ, E. Citace odborné literatury jako nástroj rozvoje služeb a integrace digitálních knihoven. Dostupný z: http://platan.vc.cvut.cz/akp/clanky/12.pdf .

Van de SOMPEL, H.- HOCHSTENBACH, P. Reference Linking in a Hybrid Library Environment. Part 1-3. D-Lib Magazine [online]. 2000, vol 5, no. 4, no. 10. Dostupný z: http://www.dlib.org .

BALÍKOVÁ, M.: Soubor věcných autorit. Předmětová kategorizace pro potřeby konspektu. Knihovny současnosti 2003 11. konference konaná ve dnech 16.-18.září 2003 v Seči u Chrudimi. Dostupný z: http://jib-info.cuni.cz/dokumenty/sec2003/1 .

PAVLÍK, J. Linkování na relevantní přidané služby v rámci Jednotné informační brány Knihovny současnosti 2003. 11. konference konaná ve dnech 16.-18.září 2003 v Seči u Chrudimi. Dostupný z: http://jib-info.cuni.cz/dokumenty/sec2003/sec2003_sfx.doc .

SKLENÁK, V. Vyhledávací stroje v prostředí Internetu - a co bude dál? Dostupný z: http://platan.vc.cvut.cz/akp2003/sbornik/03_sklenak.pdf.

ANDĚROVÁ, I. Aktuální informace o Kooperačním systému článkové bibliografie SDRUK , 13. zasedání Sekce pro bibliografii. Hradec Králové, 5.-6.5. 2003. Dostupný z: http://full.nkp.cz, Rubrika Co je nového … .

Dieper : digitised European periodicals [online]. Dostupný z: http://gdz.sub.uni-goettingen.de/dieper/home.htm.

Serial Item and Contribution Identifier. Dostupný z: URL: http://sunsite.berkeley.edu/SICI/version2.html.

SICI Generator. Dostupný z: URL: http://www.ep.cs.nott.ac.uk/~sgp/sicisend.html.

Dublin Core Metadata Initiative Progress Report and Workplan for 2002. Dostupný z: http://www.dublincore.org/.



Praktické výsledky projektů prezentované na www

Seriály (periodika) a analytický popis (články) v České republice, plné texty. Propojení bibliografických záznamů s plnými texty [online].
Dostupný z URL: http://wwwold.nkp.cz/pages/page.php3?page=oazp_odd_anal_zprac.htm.

Metodika popisu článků ve formátu UNIMARC [online].
Dostupný z: http://wwwold.nkp.cz/pages/page.php3?page=oazp_popis1.htm.

Server FULL.NKP.CZ .
Dostupný z: http://full.nkp.cz

Báze ANL FULL.
Dostupný z: http://full.nkp.cz

Management Kooperačního systému článkové bibliografie - MNG KOSABI.
Dostupný z: http://full.nkp.cz

Plné texty v českých novinách a časopisech - přehled.
Dostupný z: http://full.nkp.cz.

Výsledky práce společnosti ANOPRESS IT.
Dostupný z: http://www.anopress.cz

Seznam seriálů excerpovaných v oddělení analytického zpracování.
Dostupný z http://wwwold.nkp.cz/pages/page.php3?page=oazp_Seznam_OAZ.htm , http://full.nkp.cz

Knihovny spolupracující v kooperačním systému článkové bibliografie a excerpční základny.
Dostupný z http://wwwold.nkp.cz/pages/page.php3?page=oazp_kooper_svk.htm, http://full.nkp.cz.

Báze ANL [online].
Dostupný z: http://sigma.nkp.cz/F/?func=file&file_name=base-list

Národní knihovna. Knihovnická revue [online].
Dostupný z: http://full.nkp.cz/nkkr/NKKR.html.

JIB Caslin.
Dostupný z: http://www.jib.cz.

Zahraniční reference

General information about ANL - Articles in Czech newspapers, magazines and collections of works.Login procedures to ANL [FULL] - Articles published in Czech journals and newspapers (full texts). Gabriel.
Dostupný z: http://portico.bl.uk/gabriel/index.html.

ANL FULL. Dublin Core Metadata Initiative.
Dostupný z: http://dublincore.org/projects/europe.shtml#denmark.

Tel Digital deposits state of the art review. Marco de Niet, Koninklijke Bibliothek. With contribution form Liesbeth Pskamp, Koninklijke Bibliotheek. 18 December 2001. 0.2 (Second draft version).D1.1/R/Report. DEL/007. Hague, Koninklijke Bibliotheek 2001. 84 p.
Dostupný z: www.europeanlibrary.org/pdf/tel_results_d11_v02.pdf.

IFLA-Directory of Serials Content Databases and Current-Awareness Services for Serials Content. [V přípravě]. IFLANET.
Dostupný z: http://www.ifla.org/I/whatsnew/new2002.htm


A.2 Současný stav ve světě a v ČR

A.2.1 Obecně

V současné době vznikají nové modely získávání, zpracování a zpřístupňování bibliografických informací v návaznosti na elektronické publikování na základě přehodnocení klasických knihovnických postupů s ohledem na budování digitální knihovny ( interoperabilita jednotlivých komponent z hlediska technického, struktu rálního, syntaktického a sémantického). Propojují se různé informace z hlediska formy, druhu a obsahu, strukturované a nestrukturované fulltextové báze, elektronické archívy. Propojují se katalogy knihoven, záznamy s plnými texty dokumentů, "síťové dokumenty", je podporována spolupráce s archívy apod. Hovoří se o popisu dokumentu v hierarchii jako manifestace díla (čtyřúrovňový model manifestace díla FRBR ) - vztahy mezi dílem, jeho vyjádřením, projevem a exemplářem.

Elektronické dokumenty jsou zpřístupňovány prostřednictvím nakladatelství, distributorských firem, informačních institucí či služeb a jejich produktů, dále pak prostřednictvím digitálních knihoven a služeb vznikajících na základě projektů, konzorcií a licencí. Při zpřístupňování elektronických informací se stále více prohlubuje spolupráce mezi státním a soukromým sektorem.

Předpokladem plnohodnotného zpřístupnění plných textů je implementace metadat do plných textů. Tato metadata (DC, Marc) mohou může být vytvářena autorem, vydavatelem, distributorem, knihovníkem a zpřístupňována na webu pomocí XML/RDF s definovanou standardní strukturou DTD. Existují iniciativy, které se zabývají konverzemi mezi DC, MARC a XML. DC je určen primárně pro otevřený web, lze ho užít i pro databáze tzv. hlubokého webu. Významný je OAI-PHP (v. 2) protokol - protokol pro metadatovou interoperabilitu, umožňující automatizované získávání metadat a vzájemnou komunikaci archivů, digitálních knihoven, je založený na DC a XML. V současné době se velká pozornost věnuje protokolům pro komunikaci a sdílení dat - Z39.50 a Bath Profile a tzv. otevřenému nebo dynamickému propojováni pomocí tzv. OpenURL.

Jednoznačná indentifikace plných textů je jednou z podmínek zpřístupnění plných textů. K identifikaci služeb, zdrojů a objektů na internetu slouží nestabilní URL (Uniform Resource Locator), PURL (Persistent URL), Uniform Resource Name URN (Uniform Resource Name), DOI

(Document Object Identifier), SICI (Seriál Item and Contribution Identifier) aj.

Informační brány a portály u snadňují přístup k heterogenním informačním zdrojům. Předpokladem plnohodnotného zpřístupnění dokumentů je standardizace a cílem je sémantický web.

Předkládaná zpráva je poměrně podrobná, obsahuje výsledky řešení předchozích let, na které navazuje a bez kterých by se ztratila kontinuita řešení projektu.

A.2.2 Současný stav v zahraničí

Obecně

Některé systémy a služby zpřístupňující informace o článcích v zahraničí jsou důkladně popsány ve zprávě podané v roce 2002.

Lze shrnout, že kooperační systémy zabývající se zpřístupňováním článkových informací a článkové bibliografie se vyvíjely a existují zejména v zemích bývalého východního bloku. Články jsou zpřístupňovány zejména v severských zemích (Švédsko-Libris, Dánsko - Basis, Norsko-Bibsys, Finsko - Arto). Velké článkové databáze se budují v Holandsku, Španělsku, Německu, Gruzii, Litvě, Rusku, Slovinsku, Makedonii aj.). Poměrně kompletní přístup k elektronických časopisům nabízí OCLC First Search Electronic Collection Online. Kvalitně zpřístupňují plné texty Ingenta, ProQuest, EBSCO, Wilson Web aj. K dispozici jsou časopisecké zdroje na nakladatelských serverech, tituly vědeckých časopisů s volným přístupem k obsahům a abstraktům, někde i k plným textům, denní tisk a časopisy populární, popularizační i odborné včetně jednotlivých článků. Plné texty jsou zpřístupňovány jak soukromými společnostmi, tak knihovnami v rámci portálů, digitálních knihoven, archívů, multioborových i oborových databází. Jde o databáze konkrétních vydavatelů, agregátorů nebo servery konkrétních titulů.

Uživatelé v České republice mají dnes přístup k zahraničním informacím o článcích různého typu z hlediska formy i obsahu díky programu MŠMT "Informační zdroje pro výzkum a vývoj" (LI), který byl vyhlášen v září 1999 na čtyřleté období (2000-2003). Cílem bylo zajistit systematickou podporu financování oborových a polytematických informačních zdrojů, které si většinou jednotlivé instituce nemohou dovolit. Přehled možné najít na www stránkách MŠMT Portálu STM (projekt LI01018) a v příslušném dokumentu STK z r. 2002.

Národní knihovna ČR se koncem roku 2002 zapojila do projektu Univerzitní knihovny v Regensburgu. Elektronische Zeitschriftenbibliothek (EZB). Tituly jsou rozděleny podle toho, zda jsou volně přístupné, licencované pro určitou knihovnu a nepřístupné pro danou knihovnu.

Nová online česká služba Infozdroje.cz obsahuje údaje o projektech zahrnujících nákup elektronických informačních zdrojů realizovaných v letech 2000-2003 v rámci grantového programu LI "Informační zdroje pro výzkum a vývoj". Infozdroje.cz tak nyní obsahují informace o všech produktech a službách dostupných díky financování v rámci tohoto programu, a je zde možno zjistit, které instituce k nim mají přístup.

Trendy, nástroje, metody a projekty integrace získávání, zpracování a zpřístupnění heterogenních informačních zdrojů

1.Trendy

Základní trend: kooperace v rámci interoperability systémů na základě spolupracujících komponent v celém procesu získávání, zpracování a zpřístupňování informací, tj. přechod od explicitní pevně svázané kooperace ke kooperaci nezávislé na použitých SW a HW za účelem zajištění pružné integrace dat a jejich zpřístupnění v rámci jednotného interface za využití moderních vyhledávacích metod umožňující interakci uživatele se systémem.

Cílem je distribuované vyhledávání, relevantní (pertinentní) informace pro uživatele a sémantický web. Tzv. sémantický web předpokládá postupnou transformaci současného WWW srozumitelného pro lidi na WWW srozumitelného pro počítače (znalosti označené značkovacími jazyky nebo extrahované z textu).

2. Některé nástroje, metody, projekty odpovídající současným trendům (pro definice některých pojmů jsem použila databázi KTD - Česká terminologická databáze knihovnictví a informační vědy -- - TDKIV)

Pravidla popisu - jejich zjednodušení a zefektivnění, formáty

Jmenný popis

Na mezinárodní úrovni se mění tradiční pojetí seriálů, které bude mít vliv i na naší katalogizační praxi v této oblasti. Termín seriál je revidován . V současné době již existuje revidovaný standard International Standard Bibliographic Description for Serial and other Continuing Resources ISBD (CR). Revize je ovlivněna novou kategorií tzv. pokračujících zdrojů (bibliografický zdroj, který je vydáván v čase s předem neurčenou dobou ukončení, zahrnuje integrující zdroje a seriály, povaha pokračujících zdrojů je dynamická, pokračující a měnitelná.). Integrující zdroje jsou zdroje, které jsou aktualizovány a tyto aktualizace nemohou existovat samostatně. Dochází k harmonizaci Angloamerických pravidel AACR2R, mezinárodního bibliografického popisu ISBD a mezinárodního registračního systému mezinárodního čísla seriálových publikací ISSN. Do kategorie pokračujících zdrojů patří též ukončené pokračující zdroje - vycházejí po částech, periodicky a jsou číslovány, ale jejich trvání je ohraničeno, dále reprinty seriálů. Pro praktické potřeby je navržen a definice seriálů: seriál je pokračující zdroj, který je vydáván po oddělených částech, obvykle je číslován, nemá předem určenou dobu ukončení. Definice zahrnuje časopisy, magazíny, elektronické časopisy, pokračující adresáře, roční zprávy, noviny a monografické edice (těmito kategoriemi se zabývá kapitola 12 AACR2R). Pro popisu elektronických zdrojů je určen standard ISBD (ER) a kapitola 9 AACR2R. Studie Functional Requirements for Bibliographic records (FRBR). Studie uvádí čtyřúrovňový popis, orientuje se na obsah dokumentu, nikoli na nosič, umožňuje integrovat elektronické dokumenty mezi dokumenty tradiční. Účelem studie je definovat funkce bibliografického záznamu určeného pro různé typy dokumentů, způsoby využití, pro různé uživatelské potřeby. V současné době probíhají aktivity, které zkoumají použitelnost pravidel AACR2 i formátu MARC vzhledem k FRBR.

V oblasti věcného zpracování: zjednodušení syntaxe LCSH za současného zachování lexiky, věcná kategorizace informací do určitého počtu skupin na několika úrovních (např. metoda konspektu), důraz na autority a jejich mezinárodní srozumitelnost (projekty projekt MACS a LEAF).

Hybridní knihovna, vznik digitálních knihoven, interoperabilita, identifikátory, propojování, legislativa, služby

Hybridní knihovna

Knihovna integrující klasickou knihovnu představovanou především tištěnými dokumenty a digitální knihovnu, obvykle s cílem zkvalitnění služeb uživatelům. Většina knihoven má tuto povahu. Pro současnost je charakteristický přechod od klasické k digitální knihovně.

Digitální knihovna je „integrovaný systém zahrnující soubor elektronických informačních zdrojů a služeb umožňující získávání, zpracovávání, vyhledávání a využívání informací v tomto systému uložených. Digitální knihovny jsou zpřístupňovány prostřednictvím počítačových sítí. Účelem budování digitální knihovny je poskytnout uživatelům možnost jednotného přístupu k digitálním anebo digitalizovaným dokumentům, případně i k sekundárním informacím o tištěných primárních zdrojích, uložených ve fondu knihovny i mimo fond knihovny.

 

Nejdůležitější komponenty digitální knihovny: metadata, interoperabilita, globální vyhledávání zdrojů.

Metadata jsou "strukturovaná data, která nesou informace o primárních datech. Pojem metadat je používán především v souvislosti s elektronickými zdroji a vztahuje se k datům v nejširším smyslu slova (datové soubory, textové informace, obrazové informace, hudba aj.). Funkce metadat je popisná, selekční a archivační. V souvislosti s těmito funkcemi se rozlišují metadata p ro účely popisu, správy, právních nároků, technické funkčnosti, užití a archivace. Údaje se obvykle vkládají přímo do zdroje (umísťují se např. v záhlaví dokumentu HTML)".

Dublin Core (DC) je "standardizované metadatové schéma pro popis informačních zdrojů, zejména elektronických a internetových. Dublin Core je tvořen souborem patnácti základních prvků (jednoduchý Dublin Core), které lze specifikovat kvalifikátorem (kvalifikovaný Dublin Core). Dublin Core nepředepisuje žádnou závaznou syntaxi (jedná se o sémantický standard), je základem řady dalších metadatových standardů". Vyjadřuje sémantiku dokumentu.

Z DC vychází např. metadatový standard OAI (Open Archives Initiative) primárně vyvinutý pro vědecké a akademické komunity

Projekty, které využívají DC, je možno najít na adrese http://dublincore.org/projects.

 

XML (eXtensible Markup Language)

Jazyk XML je, podobně jako jazyk HTML, prostředek sloužící k zapsání strukturovaného textu, zvláště pak textu určeného k šíření v prostoru www. XML odděluje popis struktury dat od jejich prezentace (pomocí tzv. style sheetů). To umožňuje snadnou konverzi do jiných formátů, možnost prezentace dat různými způsoby (HTML, postcript, UNIMARC apod. textový formát). Každý dokument má definovanou svoji strukturu prostřednictvím tzv. DTD (Document Type Definition). Velký potenciál XML se skrývá v novém způsobu odkazování (oběma směry, na více dokumentů najednou či dokonce v rámci hierarchické struktury) pomocí speciálních jazyků XLink, XPointer a XPath. Totéž lze říci o stylovém jazyku XSL, který doplňuje a nahrazuje tzv. kaskádové styly (CSS).

RDF (Resource Description Framework)

„Obecný rámec pro popis jakéhokoli elektronického zdroje, resp. webové stránky a jejího obsahu, tedy pro vyjádření sémantiky a pro podporu sémantického webu. Popisná metadata mohou zahrnovat údaje o autorovi zdroje, datu vytvoření nebo aktualizace, organizaci stránek (sitemap), klíčová slova, předmětové kategorie aj. Jazyk RDF poskytuje robustní flexibilní architekturu pro zpracování metadat na internetu; umožňuje komukoli definovat a používat metadatové schéma, které slouží nejlépe jeho potřebám, a současně umožňuje interoperabilní výměnu metadat. RDF je aplikací formátu XML a je vyvíjen konsorciem W3C (World Wide Web).“

Poskytuje základ pro popis v různých aplikačních doménách. Jako modelovací jazyk používá entity, atributy, vztahy.

V současnosti aktivity v oblasti mapování formátu DC do MARC a opačně a převod do XML.

Interoperabilita je schopnost dynamické spolupráce mezi technicky různorodými a nezávislými komponentami z hlediska syntaktického, strukturálního a sémantického. Interoperabilitu kromě jiných umožňují i zde jmenované nástroje. Z hlediska použitých prostředků lze stanovit různé úrovně interoperability (Z39.50 a OpenURL, XML aj.)

Významné jsou aktivity v oblasti ontologií (systém konceptů a vztahů mezi nimi). Ontologie - metoda získávání znalostí. Dílčí ontologie souvisí s konceptualizací jednotlivých oblastí. Na základě interoperability mohou vznikat snadněji elektronické archívy, souborné katalogy virtuální i reálné, brány a portály.

Elektronický archív

„Organizovaná sbírka digitálních dokumentů shromážděná za účelem jejich dlouhodobého uchování. Může se jednat o digitalizované dokumenty, tj. tištěné druhy dokumentů převedených do digitální podoby, nebo o dokumenty vytvořené již jako digitální.“

Reálný souborný katalog

Souborný katalog ve formě fyzicky existující databáze, do které jsou dodávány záznamy dokumentů jednotlivých účastnických knihoven.

Virtuální souborný katalog

„Technologie propojení nezávislých knihovních katalogů pomocí jednotného uživatelského rozhraní, které umožňuje paralelní prohledávání jednotlivých katalogů a vytváří virtuální (reálně neexistující) souborný katalog . Základním předpokladem funkce virtuálního souborného katalogu je standardní vyhledávací protokol, jenž podporuje formulaci rešeršního dotazu a zpřístupnění záznamů (např. komunikační protokol Z39.50).“

Informační brána

„Služba v síťovém prostředí určená pro zprostředkování přístupu k vybraným online informačním zdrojům určitého oborového nebo tematického zaměření. Zpřístupňované informační zdroje procházejí procesem intelektuálního nebo automatického výběru a zpracování na základě definovaných formálních a kvalitativních kritérií. Součástí předmětové brány je obvykle klasifikační systém členící informační zdroje podle oborů“.

Informační brány řeší přístup k různým zdrojům z jednotného prostředí. Nejpoužívanějším standardem pro tvorbu metadat je Dublin Core (DC). Jejich fungování závisí na existenci pokud možno homogenního nástroje pro věcnou indexaci harmonizací řízených slovníků a tezaurů a hledají se cesty k řešení vícejazyčnosti. Jednou z řešených metod pro zpřístupnění elektronických informačních zdrojů je metoda konspektu, předmětová kategorizace pro popis informačních zdrojů.

Spočívá hierarchickém uspořádání předmětových kategorií, na nejvyšší úrovni není propojena se systematickou klasifikací. Cílem je jednotný tematicky strukturovaný popis heterogenních informačních zdrojů pro potřeby koordinovaného budování knihovních sbírek a knihovních fondů a pro tvorbu nástroje určeného ke zpřístupnění kvalitních (zhodnocených) heterogenních informačních zdrojů v síťovém prostředí, tj. tematických bran. Slouží k tomu údaj o předmětové kategorii spolu s vybraným znakem MDT . Pro mezinárodní srozumitelnost je potřebná konkordance MDT a DDC.

Portál

Webové sídlo, které poskytuje širokou škálu služeb a informací, často s možností jejich přizpůsobení uživateli podle osobních potřeb a zájmů.

Specializovaný portál zpřístupňující informační zdroje zaměřené na určitou cílovou skupinu uživatelů, která může být vymezena např. geograficky nebo tematicky.

Propojování informací

Druhy propojování (aplikované v komerčních a nekomerčních aktivitách)

Propojovat je možno uzavřeně (closed linking), otevřeně (open linking) staticky (static linking), dynamicky (dynamic linking).

K identifikaci, propojení a zpřístupněn í elekt ronických objektů na internetu slouží: URL, PURL, URN a DOI, SICI a klasické identifikátory jako je ISSN, ISBN. Některé z nich mohou být součástí OpenURL.

OpenURL a SFX

SFX (Special Effects) je technologie založená na OpenURL. Je založena na oddělení popisu zdroje od služeb, které jsou poskytovány. Mezi popisem zdroje a službami stojí tzv. servisní služba (linking service) která propojuje metadata obsazená ve výchozím zdroji, které našel uživatel s vhodným cílovým zdrojem pro uživatele na základě jeho registrace u této servisní služby. Zaručuje tzv. propojení citlivé na kontext (context sensitive linking). Pro připojení informačního či knihovního systému k SFX je nutné, aby váš systém podporoval OpenURL.

Některé aplikace OpenURL

Ovid - služba Ovid OpenLinks („universal link resolver“). Bibliografické záznamy přístupné v databázích od firmy H.W.Wilson jsou propojeny pomocí funkce WilsonLink (OpenURL) s plnými texty článků v elektronické knihovně JSTOR, která obsahuje více než 320 časopisů zaměřených na humanitní a společenské obory. OpenURL podporuje i nová verze vyhledávacího prostředí ProQuest.

Legislativa zatím ve většině zemí neumo žňuj e bezproblémově zpřístupňovat elektronické zdroje, které nejsou volné - zákon o povinném výtisku ve většině zemí nezahrnuje elektronické publikace online, většinou se poskytují tyto zdroje na principu dobrovolnosti a na základě individuálních smluv.

Konzorcia a licence

Pro přístup elektronickým zdrojům zejména k plným textům článků se zakládají konzorcia a uzavírají licenční smlouvy (národní, plošné, individuální pro instituci) s agregátorem event. přímo s nakladatelem. Výhody: získání zdrojů jinak nedostupných, přístupu malým institucím/pracovištím, příznivější ceny, využití centrálních finančních zdrojů, levnější provoz (administrativní a organizačně-technické výhody), spolupráce.

Cenová politika

Poplatky, které se váží na proces vyhledávání, jsou účtovány databázovým centrem na měsíční/roční bázi nebo časově jinak. Částky mohou být fixní nebo variabilní. Nejčastější způsoby úhrady:

- předplatné ( flat-fee, fixed-fee, all-you-can-eat, subscription) - neomezené využívání databáze nebo skupiny databází za fixní periodické platby. Předplatné není obvyklé u koncových uživatelů, ale spíše u korporativních uživatelů

- platby jen za uskutečněné operace ( pay-as-you-go) .

3. Integrace strukturovaných a nestrukturovaných bází dat, inteligentní vyhledávací systémy, management znalostí , poloautomatické zpracování textu, expertní systémy, znalostní systémy

Problematika získávání, zpracování, zpřístupňování a využívání oblasti). Hlavním cílem těchto technologií je zdokonalení znalostního managementu v institucích, firmách V důsledku je efektivní vazba tzv. knowledge managementu na rozhodovací a plánovací procesy.

Pro dnešní dobu je charakteristický trend propojování technologií zpřístupňujících strukturovaná data (relační databáze) s fulltextovými databázemi s nástroji podporujícími zpřístupnění semistrukturovaných dat.

Tato témata jsou předmětem pravidelně se konajících konferencí Znalosti a Datakon s mezinárodní účastí (dobývání znalostí z databází, získávání znalostí od experta, vyhledávání, indexace a extrakce informací z textu, aplikovaná lingvistika, implementace znalostních a expertních systémů, znalostní management).

Poloautomatická indexace textu (J. Schwarz, 2002)

Většina současných systémů (vč. komerčních) určených pro automatickou indexaci či poloautomatickou indexaci (machine-aided indexing) (vč. komerčních) nepracuje plně automaticky, nýbrž funguje jako automatizovaná podpora intelektuální indexace.

V současnosti je výzkum a vývoj systémů automatické indexace ve fázi, kdy nelze hovořit o plně automatické indexaci. Technologie automatické indexace jsou většinou implementovány jako hybridní systémy, ve kterých se uplatňuje automatická indexace coby automatizovaná podpora intelektuální činnosti indexátora.

Automatická indexace patří do širší oblasti automatizovaného (strojového) zpracování textu (text processing), resp. obecně zpracování přirozeného jazyka (natural language processing ). Přestože se podařilo vyvinout řadu funkčních systémů pro automatickou indexaci, více než čtyřicetiletá snaha zatím nevedla k vývoji systémů, které by byly plně funkční z hlediska ideálních nároků na úplnou automatizaci procesu indexace a na univerzálnost těchto systémů (většina v současnosti fungujících systémů je specificky oborově zaměřená). Intelektuální indexace přináší ve srovnání s řadou automatických procedur (vč. např. latentního sémantického indexování) ještě stále lepší výsledky. Systémy automatické indexace jsou také účinné pouze částečně proto, že doposud nebyly dostatečně prozkoumány a podrobně popsány všechny intelektuální procesy, které probíhají při indexaci.

Na druhou stranu je potřeba uvést, že řada technologií, jejichž účinnost byla v předchozích letech potvrzena výzkumem a řadou studií, je v současnosti implementována ve formě expertních systémů nebo systémů pracujících na základě umělé inteligence.

Obecně lze konstatovat, že systémy automatické indexace vyvíjejí oborově zaměřené instituce, které zpracovávají velké objemy dokumentů, které je nezbytné kvalitně a konzistentně indexovat. V řadě případů se však jedná o dokumenty, u kterých je dostupný pouze komprimovaný text (např. abstrakt), a které je tudíž žádoucí indexovat .

Vyhledávání

Pro vyhledávání je charakteristický nepoměr mezi úplností a přesností vyhledávání. Úplností vyhledávání rozumíme kvantitativní údaj udávající poměr vyhledaných relevantních a všech vyhledaných textů. Přesností vyhledávání rozumíme poměr vyhledaných relevantních a všech relevantních textů. Ideálně je hodnota koeficientu úplnosti i přesnosti rovna 1.

Metody zefektivnění vyhledávacích algoritmů

Inteligence informačních systémů je schopnost nalézt shodné modely i v případě textů s vysokým počtem rozdílných prvků a naopak eliminovat texty zdánlivě shodné, obsahující vysoké procento pouze formálně, nikoliv obsahově shodných prvků. Inteligentní systémy využívající poznatky z lingvistiky či kognitivní vědy.

Interaktivní pojetí vyhledávání

Uživatel systému prohlíží seznam vyhledaných záznamů (často i s plnými texty dokumentů) a jednoduše označuje relevantní záznamy. Z relevantních záznamů pak systém automaticky vybere podstatné výrazy, jimiž upraví původní dotaz. Na základě upraveného dotazu systém vyhledá více relevantních záznamů. "Dotaz příkladem" (anglicky query-by-example, more like this, find similar či similar pages) fungují na stejném principu. Nový dotaz je však vytvořen pouze na základě jediného vybraného dokumentu.

Koncový uživatel nemusí znát vyhledávací metody a strategie, daný vyhledávací systém, uspořádání sbírky či strukturu záznamů. Aplikace interaktivních technik (re)formulace dotazu tak představuje poměrně jednoduchý způsob, jak nezkušeným uživatelům usnadnit vyhledávání.

Teoretický výzkum interaktivního vyhledávání se soustředí většinou na možnosti zjišťování informací o kognitivním stavu uživatele a jejich použití při konstrukci dotazu. Objevují se však pokusy přímo kognitivní stav uživatelů ovlivňovat. Oblast interaktivního vyhledávání informací je interdisciplinární povahy.

Vyhledávací systémy 3. generace

Jedním z nejdokonalejších systémů pro vyhledávání plnotextových dokumentů je systém TOPIC americké firmy Verity. Systémy třetí generace jsou založeny na principech:

1. rozkladu pojmu na podpojmy

2. vážení jednotlivých podpojmů (větví pojmového stromu)

3. neostrého vyhodnocování dotazů

Dotaz v systému 3. generace reprezentuje pojem, respektive ideu vyhledávaného tématu. Jádrem dotazu je stromová hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují do jaké míry příslušné podtéma přispívá k celkovému určení tématu. Systém je pak schopen vypočítat míru relevance (nejčastěji udávanou v % nebo hodnotou v intervalu 0,1), podle které řadí vyhledané dokumenty.

Systém TOPIC eliminuje jeden z nedostatků booleovských vyhledávacích systémů, kterým je přílišná ostrost operátoru AND, jenž nevyhledá dokument, pokud neobsahuje všechna slova tímto operátorem spojená, zavedením o perátoru ACCRUE.

Klíčovým aspektem úspěšnosti je vlastní vyvážená definice topiků. Je zřejmé, že je to práce pro specialistu, srovnatelná s tvorbou expertních systémů, neboť dobře nadefinovaná báze topiků představuje vlastně bázi znalostí.

4. Některé významné databáze, které jsou inspirací pro projekt

JSTOR - Journal Storage

Mezinárodní nevýdělečné konsorcium zaměřené na digitalizaci a zpřístupnění klíčových amerických humanitních vědeckých časopisů (v současnosti je k dispozici databáze 117 časopisů z Arts & Science Collection, obsahující všechny články od prvního čísla časopisu, s retrospektivou do minulého století, až po současnost).

IBZ - Internationale Bibliographie der Zeitschriftenliteratur

Mezinárodní článková bibliografie ze všech vědeckých oborů je nově nabízena i na CD-ROM. Příprava její tištěné verze byla zahájena již v roce 1840 v Lipsku a k roku 1896 se datuje její první vydání. Od té doby je pravidelně vydávána až do současnosti. Pětiletá kumulace let 1989-1993 na CD-ROM obsahuje 60 svazků tištěné verze IBZ s více než 2,7 miliónu záznamů. Od roku 1994 vycházejí samostatné ročníky IBZ na CD-ROM nabízející přes 120 000 článků z více než 6 000 titulů periodik. Jednotlivé záznamy obsahují autorské a názvové údaje o článku, klíčová slova, popis periodika, oborové zařazení obsahu článku, ISSN a ISBN. Software umožňuje práci s databází v jazyce německém i anglickém. Retrospektiva od roku 1983 (on- line verze).

ProQuest 5000 International

Národní akademická licence pro produkty ProQuest 5000 International v rámci grantu financovaného MŠMT umožňuje přístup k online službám ProQuest 5000 a PCI Web. Služba obsahuje bibliografické záznamy článků cca 7000 zahraničních periodik, plné texty cca 4000 titulů. Licence porývá medicínu, humanitní a společenské obory, obchod, aplikované přírodní vědy, výpočetní techniku a telekomunikace. Vyhledávání je jednoduché i pokročilé, pomocí rejstříků a tzv. topiků, tj témat. Báze ANL FULL se v některých aspektech podobá ProQuestu, který je do určité míry inspirací pro českou plnotextovou databázi.

EIFL-Direct, EBSCO

Zpřístupnění plnotextových databází odborných zahraničních periodik na základě programu
Open Society Institute EIFL-Direct - plošná multilicence. Plné texty celkem cca 3300 časopisů od r. 1990 a další inf. zdroje (abstrakty, zpravodajství, příručky) především z oblasti sociálních a humanitních věd od EBSCO Publishing, jednoho z předních světových dodavatelů el. a tištěných časopisů, nabízené ve 4 dílčích databázích:

- Academic Search Elite (společenské a humanitní vědy)

- Business Source Premier (ekonomie, finance, ma nagement, účetnictví, mezinárodní obchod)
- Newspaper Source Plus (přes půl miliónů článků z více jak 100 novin v angličtině)
- MasterFILE Premier (obecně zájmové tituly, obchod, zdraví, kultura)

Zahrnuje i databázi Medline z oblasti lékařství a biomedicínského výzkumu.

OCLC FirstSearch Service

Služba OCLC FirstSearch s přístupem k plným textům OCLC Base Package with Full Text od organizace OCLC. Služba FirstSearch kombinuje funkce souborných katalogů, meziknihovních služeb, dodávání dokumentů a přístupu k elektronickým plným textům dokumentů.Kromě souborného katalogu (WorldCat) je zahrnut přístup do cca 12 dalších databází: ArticleFirst (bibliografické citace článků z cca 13.000 periodik), ContentFirst (seznamy obsahů periodik), NetFirst (bibliografické údaje o odborných zdrojích na Internetu, včetně abstraktů a klasifikace), PapersFirst (referáty ze světových konferencí, kongresů, sympozií, výstav a workshopů od 1983), ProceedingsFirst (seznamy obsahů sborníků z vědeckých konferencí), UnionLists (souborný katalog periodik s uvedenými lokacemi), WilsonSelect (plné texty článků z 800 periodik), WorldAlmanac MEDLINE (medicínská informace), ERIC (bibliografie literatury z oblasti vzdělávání) a dalši.

GILS

V rámci služby kooperují kromě jiných institucí knihovny v jednotlivých státech USA. Tzv. lokátorové záznamy odkazují na zdroje, které uchovávají úřady státní a místní správy nebo státní instituce. Pomocí lokátoru se zjišťují, popisují a zpřístupňují informace o zdroji.

V rámci systému GILS existuje trojí způsob tvorby záznamů: klasický způsob (ruční), konverze (převod záznamů z jiných bází dat), automatizovaný způsob (extrahování metadat). Posledně jmenovaný způsob spočívá v automatizovaném vytváření záznamů při prohledávání a indexaci zdrojů (metadat a samotného textu). Z tohoto důvodu je nutné, aby se metadata stala součástí www dokumentů. Dosavadní editory pro tvorbu webovských dokumentů neumožňují vytvářet a automaticky začlenit prvky metadat, je nutné formát pro metadata ručně vložit do zdrojového dokumentu. Předpokládá se, že formuláře nahradí efektivnější software pro generování metadat. Tento systém by mohl být v mnoha směrech inspirativní i pro nás (je založen na kooperaci a automatizovaném zpracování dat).

Připravují se nástroje pro převod dat Dublin Core/MARC Library of Congress: Dublin Core/MARC/GILS Crosswalk, které využívají prvky DC v katalogizaci.

V rámci projektu Nordic Metadata byl vytvořen konvertor dat který je schopen generovat záznamy ve formátech MARC severských zemí a USMARC ze zdrojových údajů DC.

Služba OCLC CORC Cooperative Resource Catalog poskytuje nástroj pro automatickou katalogizaci elektronických zd rojů přímo na webu (vyhledávání, vytváření a editace záznamů) ve formátech MARC a DC. Na jeho testování se podílelo více než 450 knihoven z celého světa. Databáze vznikla ze záznamů původně uložených v bázích OCLC InterCat a NetFirst.

Projekt Renardus : Akademický tematický portál konsorcia 12-ti institucí. Řešen v rámci 5-tého rámcového programu EU "Technologie pro informační společnost". Renardus má umožňovat paralelní pohyb uživatele po tematických portálech (met adata DC, Z39.50, DDC).

Architektura pro britskou národní digitální knihovnu UK DNER (Distributed National Electronic Resource). Cíl: Národní digitální knihovna pro vyšší a další vzdělávání, distribuovaný zdroj informací pro vzdělávání a výzkum, řízený soubor zdrojů, heterogenní povahy, bibliografická data, obrázky, texty, video, dostupnost místní i dálková. Fondy jsou typicky ve formě sbírek: primárních dat, sekundárních dat (tématické portály, knihovní katalogy, databáze) (Z39.5, portály, Bath profil, XML).

Program Cobra a CoBRA+ V rámci EC se zaměřují na problematiku elektronických publikací a sdílení dokumentů v sítích - protokoly, standardy, uživatelské rozhraní, elektronické publikování, dostupnost a dlouhodobé uchování elektronických zdrojů, vícejazyčné indexování. Jedním z projektu je projekt Biblink, který se zabývá vybudování vazeb mezi národními bibliografickými agenturami a vydavateli elektronických zdrojů s cílem společně vytvořit informace o těchto dokumentech využitelné v obou oblastech.

Příklady systémů automatické indexace

Jedná se o plně funkční systémy, které jsou provozovány rutinně nebo v testovacím provozu. U jednotlivých systémů není označeno, zda se jedná o systémy pracující na bázi automatické extrakce nebo automatického přiřazování, protože většina systémů tyto dva přístupy kombinuje.

Media On Line Project

Media On Line Projekt byl realizován v letech 1996-1999 v Belgii, jeho financování bylo zajištěno v rámci programu Vlaams Actieprogramma Informatietechnologie, řešitelem bylo ICRI-Interdisciplinary Centre for Law and Information Technology na Katolické univerzitě v Lovani ( Katholieke universiteit Leuven) ve spolupráci s dalšími institucemi. Projekt byl zaměřen na online publikaci článků z různých oborů (politika, ekonomika, finance, životní styl, umění, sport atd.), které bylo třeba z důvodu průběžného dodávání uživatelům rychle a efektivně indexovat. Vzhledem k tomu, že pro indexaci byly používány maximálně tři obecné deskriptory na každý článek, jednalo se spíše o klasifikaci. Kromě automatické indexace bylo řešeno i automatické abstrahování . Souhrnem lze říci, že testování automatické indexace proběhlo v tomto projektu úspěšně, většina použitých metod byla ověřena jako účinná. Pro zvýšení efektivity systémy by bylo ještě možné v první fázi aplikovat lematizaci.

NASA MAI Tool

Center for AeroSpace Information (CASI) spadající pod americkou vládní organizaci NASA už od konce 70. let 20. století vyvíjí a rutinně používá MAI Tool (Machine-Aided Indexing Tool) pro automatickou indexaci technických zpráv a dalších dokumentů. Tento systém je typický příklad jednoduchého, ale robustního a účinného nástroje, který slouží jako automatická podpora intelektuální činnosti indexátora. Systém na základě termínů z přirozeného jazyka vybírá za pomoci znalostní báze (knowledge base) deskriptory NASA tezauru (NASA thesaurus ) a předkládá je k posouzení indexátorům, kteří provedou výsledný výběr a přiřazení deskriptorů k záznamům. V rámci statistické analýzy jsou jedno- a víceslovná spojení převzatá z textu dokumentu porovnávána s obsahem znalostní báze a na základě jednoduchých pravidel jsou navrhovány kandidáti na indexační termíny (deskriptory NASA tezauru).

5. Mezidnárodní akce a související problematika s projektem

IFLA a informace z některých příspěvků na 68th IFLA Council and General Konference, August 18-24, 2002. Glasgow

Problematika bibliografie, zpřístupnění elektronických zdrojů, informačních technologií se řeší v příslušných sekcích a skupinách. Zpřístupněním seriálových publikací se zabývá Serial Publications Section (standardy, kooperace, dostupnost a akvizice, copyright, archivace, rozvoj a management sbírek, vztah s nakladateli a dalšími organizacemi zabývajícími se vydáváním, zpřístupňováním, distribucí seriálů, reprezentace knihoven na „technological marketpace

Jednou z aktivit IFLA je zmapovat situaci týkající se zpracování a zpřístupnění seriálových publikací pomocí IFLA-Directory of Serial Content Databases and Awareness Services for Seriále Content. V rámci tohoto průzkumu byly poskytnuty informace o zpracování článků v ČR.

Austrálie

Australské zkušenosti prezentované na konferenci: National Bibliographic Database , de facto australská národní bibliografie, přistupuje k novému modelu bibliografické služby, která kombinuje tradičně produkovaná bibliografická data s dodáváním metadat od autora či vydavatele. Koncept předpokládá získávat data z těchto zdrojů: National Bibliographic Database, National Discovery Service, národního repozitáře metadat. National Bibliographic Database obsahuje: katalogizovaná data, katalogizační záznamy vzdálených zdrojů archivované v National Library, digitalizované dizertace, katalogizační záznamy od prodejců („vendors“, kteří mohou stát mezi producentem a kupujícím) elektronických zdrojů a služeb. The Rource Discovery Service obsahuje: metadata z elektronických archivů, metadata ze „subjekt gateways“, metadata elektronických služeb - výchova a vzdělání, kultura. Uživatel se tak bude moci vybrat tištěnou i elektronickou formu dokumentů.

Tento přístup v mnohém připomíná metody, řešené v rámci předkládaného projektu .

Švédsko

Velmi podobný model jako je v předkládaném projektu je také vyvíjen v The Royal Library National Library of Sweden. Národní bibliografie ve Švédsku je částí LIBRIS. Model je zatím aplikován u elektronických forem knih, předpokládá se i pro peri odika a noviny . Metadata vyplňovaná do formuláře jsou posílána vydavateli do LIBRIS, konvertována do XML databáze a MRAC 21 (LIBRIS). Textový soubor je dále přes FTP posílán do Royal Library´s digital archive. V Royal Library jsou záznamy z LIBRIS doplněny předmětovým popisem. V příspěvku se konstatuje, že efektivnější by bylo obdržet metadata přímo od distributorů bez dlouhého vyplňování www formuláře. Údaje od vydavatelů již existují v určité podobě a vyplňování formuláře je nadbytečné.

Zpracovaná data je možno opět poslat vydavateli. Formáty dat: MARC, ONIX, Dublin Core.

TEL

The European Library Project (TEL) je zaměřen na národní knihovny a CENL (Conference of European National Libraries), na přístup k sbírkám dokumentů na základě kooperace (spolupráce s nakladateli, povinný výtisk, business modeling, metadata, Z.39.50 a XML, standardy, služby). V r. 2001 řešitelka projektu dodala údaje pro Qustionnaire for the European national libraries to determine the current status of digital deposits. Výsledkem dotazníkové akce je publikace TEL Digital deposits state of the art review. Dotazník mapuje situaci kolem povinného výtisku, spolupráce s vydavateli/nakladateli, zpracování el. dokumentů, zpřístupnění a archivace.

Z dotazníku: pouze 5 národních knihoven denně aktualizuje dokumenty pro digitální knihovnu on-line (Česká republika, Dánsko, Německo, Nizozemí, Velká Británie). Pracovní linky jsou v ČR, Německu, Lotyšsku, Nizozemí, Švédsku. 3 knihovny jsou v kontaktu s IT společnostmi. 4 knihovny automaticky konvertují dodaná data (ČR, Německo, Makedonie, Nizozemí). Většina knihoven používá deskriptivní/bibliografická metadata.

Problematika Tel na Elag 2003

Řeší se problematika distribuovaného vyhledávání v různých zdrojích. Snaha najít vazbu mezi skrytým a otevřeným webem. V pro otevřený web je vhodný pro popis zdrojů DC, OPACy lze také převést na DC (možno doplnit). Lze tak dostat sourodý výsledek vyhledávání a vyřešit problém „dvou“ webů. Jednotlivé sbírky by měly být popsány na této úrovni, takže vyhledávání v OPACích by probíhalo nejprve na této úrovni.

 

V č . 10 /2002 News form the IFLA Round Tabel of Newspapers jsou publikované články o některých projektech týkajících se digitalizace a zpřístupnění novin. Národní knihovna v Norsku se zúčastní integrovaného projektu LAURIN pro digitalizaci a indexaci novinových výstřižků (Norsko, Austrálie, Itálie, Španělsko, Švédsko, Německo).

Projekt TIDEN (Norsko, Švédsko, Grónsko, Dánsko) - Newspaper Library on the Net.

IFLA a informace z některých příspěvků na 69th IFLA Council and General Konference, August 1.-8. 2003. Berlin

K těmto informacím připojuji informaci o zpřístupňování novin, která byla předmětem semináře Newspapers for Libraries. Newspapers and the press in Central and Eastern Europe: access and preservation (Berlin-Brandenburgische Akademie der Wissenschaften, 9.-10. 8. 2003) , kterého jsem se zúčastnila (cesta hrazena ze souvisejícího projektu Propojení analytických záznamů ..). V řadě zemí střední a východní Evropy existují specializovaná pracoviště zabývající se uchováváním a zpřístupněním novin (tj. deníků, týdeníků a čtrnáctideníků) v návaznosti na projekty týkající se digitalizace a zpřístupnění těchto materiálů v celé šíři problematiky (technika pro převod tištěných dokumentů na různá média včetně automatické strukturace textu a automatického zpracování metadat). Na mnoha serverech je možno najít portály, které zpřístupňují tyto dokumenty často podle regionálního hlediska ze všech konců světa. V současné době se věnuje velká pozornost samizdatové a exilové literatuře, jejímu shromažďování, uchovávání a zpřístupnění. Stále potřebnější je kooperace na národní i mezinárodní úrovni. Noviny jsou zpřístupňovány v samostatných sbírkách nebo spolu se seriály, v rámci portálů a virtuálních knihoven, jsou budovány jejich rozsáhlé archívy. V některých zemích existuje stanovená strategie budování sbírek těchto informačních zdrojů.

Informace v novinách mapují ekonomický, sociální, kulturní a poli tický vývoj společnosti z různých hledisek a jsou někdy podceňovány. Jejich využití je možné i pro vědeckovýzkumné účely v těchto oblastech. O nutnosti zabývat se problematikou novin svědčí i fakt, že byla v r. 2002 založena v rámci IFLY Sekce pro noviny - Newspapers Section. Sekce se zabývá strategií, popisem, digitalizací, novými technologiemi pro zpracování a zpřístupnění novin. Na stránkách IFLY je vystavena doporučení pro popis novin International Guidelines for the Cataloguing of Newspapers.

Příspěvky podrobně zmapovaly situaci z globálního pohledu s ohledem na specifika v angloamerické oblasti, ve východní Evropě a částečně střední Evropě. V angloamerické oblasti se věnuje velká pozornost budování sbírek těchto dokumentů. Např. National Library of Australia vystavuje na svých stránkách Australian Newspapers on line. Pozornost též zaslouží australská strategie budování sbírek Collection Development Policy . Podobně buduje sbírku novin National Library of Canada . Strategie budování sbírek v rámci veřejných, universitních, akademických knihoven, školních, národních a státních knihovnách v rámci USA je zveřejněna pod názvem Directory of Collection Development on the Web. Strategii sleduje i British Library. V rámci projektu COSEELIS se zpracovává UNION list of Slavonic and East European Newspapers in British Libraries. Významné jsou i aktivity týkající se rozšíření práva povinného výtisku na elektronické publikace v rámci britského parlamentu. V Německu je budovaná Zeitschriftendatenbank ZDB .

Na internetu existuje množství portálů a serverů zpřístupňujících noviny často doplněné aktuálním zpravodajstvím. Společnost Worldpress.com nabízí 1117 deníků publikovaných v 192 zemích. Newspapers brom around the world poskytuje linky na tituly uspořádané regionálně v rámci USA, v různých oblastech světa, Kanadě. V Actualidad.com jsou noviny vyhledatelné podle kontinentů. Online newspapers.com nabízí tisíce světových novin vyhledatelných podle regionu. News and Newpapers on-line je služba na University of North Carolina in Greenboro (vstup přes individuální titul, region, zemi).

Služby ve východní Evropě. V ABYZ News Links je obsažen výběr titulů z evropských zemí aj. oblastí světa. NewsDirectory.com obsahuje evropské zdroje, swnewsherald.com zahrnuje zdroje východní Evropy a pobaltských zemí, megamallandmall.com zahrnuje střední a východní Evropu. Inkpot Newspapers Link obsahuje noviny 17 východoevropských zemní a Ruska aj. regionů.

Integrum je nejrozsáhlejší databázová služba poskytující služby on-line v Rusku - obsahuje 4000 databází (přes 140 000 000 dokumentů, 15 000 nových dokumentů denně, archívy národních a regionálních novin, časopisů, TV a rozhlasových pořadů, zprávy a archívy hlavních národních a mezinárodních informačních agentur, plné texty ruských klasiků, dokumenty audiovizuální) - plnotextové vyhledávání, media monitoring service, placená služba, automatické překlady.

Zajímavé byly příspěvky z ruských knihoven. Konstantint M. Suchorukov (Head of National Bibliography Departement in the Russian Book Chamber) and A. Dzingo (Deputy Director of the Russian Book Chamber): Work with newspapers at the Russian book Chamber: results, problems and prospects - příspěvek podrobně analyzující situaci ve vydávání novin v Rusku, problematiku povinného výtisku a zpracování článkové bibliografie - Letopis´ gazetnych statej - s týdenní periodicitou (cca 50 titulů novin). Dále vychází Letopis´ žurnal´nych statej a Letopis´ recenzij. Bibliografie vydává Rossiskaja knižnaja palata . Elektronické bibliografické báze obsahují novinové články od r. 1988, časopisecké články od r. 1991.

Některá z další vystoupení se týkala zpřístupnění sbírek alternativní a samiszdatové literatury a dalších novinových sbírek. Claus Gravenhorst (Cheif Product Management CCS Hamburg): Automated retroconversion of newspapers into fully tagged XML. Tento zajímavý příspěvek se týkal problematiky mikrofilmování, digitalizace včetně metod strukturace textu , extrakce a generování metadat na základě metody vyvinuté CCS - Content Conversion Specialist . Analyzoval tec hnologii umožňující vytváření a archivování strukturovaných dat během procesu retrokonverze. Tato technologie je použita v projektu METAe .

Z dalších vystoupení na kongresu, která se týkala problematiky novin. Denise Rosemary Nicholson (Copyright Services Librarian, University of the Witwatersrand, Johannesburg, South Africa): What has copyright got to do with newspapers? A South African Perspective. Charles Opppenheim (Loughborough University, UK): Newspaper copyright developments: a EU and UK prespective.

V obou vystoupeních byly konstatovány malé pokroky týkající se oblasti zpřístupňování novin s ohledem na copyright, platné zákonné normy komplikují zpřístupňování článků z novin, které de facto podléhají dvojnásobné kontrole z hlediska autorských práv: autorská práva vydavatele novin a autorská práva jednotlivých autorů článků. Potěšitelná je aktivita ve Velké Británii směrem k elektronickému povinnému výtisku.

Sekci pro noviny jsem poskytla informace o projektech týkajících se zpracování článků a zpřístupnění článků v rámci oddělení analytického zpracování NKČR, Kooperačního systému článkové bibliografie, báze ANL a ANL FULL V této sekci mně bylo nabídnuto členství.

V r. 2003 jsem se také zúčastnila sympózia Infos 2003 . Zaujal mne fakt, kolik úsilí se na Slovensku věnuje retrokonverzi článků.

A.2.3 Současný stav v ČR

Některé zdroje přístupné na českém Internetu, digitální knihovny, služby a projekty zabývající se zpřístupněním sekundárních informací o článcích a zpřístupněním plných textů

O některých zdrojích se zmíním podrobněji.

Plné texty jsou organizovány na Internetu do tematicky, regionálně nebo jinak utříděných služeb. Jsou přístupné přes vyhledavače jako samostatné tituly nebo jsou utříděny do kategorií, zpřístupněny na různých portálech a zpravodajských serverech.

Některé knihovny vytvářejí soupisy volných českých zdrojů plných textů na Internetu.

Nabídka českých novinových a časopiseckých elektronických zdrojů je relativně velká - jsou vystaveny deníky, týdeníky a časopisy. Vystavené texty jsou zachyceny s různou hloubkou retrospektivity (aktuální číslo, poslední čísla či roky), objevují se archivy volně dostupné či pouze registrovaným uživatelům. Některé zdroje obsahují citaci, abstrakt, objevují se current contents. Někdy lze vyhledávat podle základních formálních údajů, kombinovat dotazy pomocí logických operátorů, vyhledávat plnotextově ( České noviny , IDNES , Lidové noviny, iHNed, Právo, Mojenoviny).

Na českém Internetu se objevují nakladatelské elektronické zdroje. Vztahy mezi uživateli, knihovnami a vyda vateli/nakladateli a knihovnami či bibliografickými agenturami nejsou dosud jasné z hlediska právního i obchodního, v budoucnu lze předpokládat v tomto směru vznik nových iniciativ.

Např. nakladatelství Vydavatelství Economia nakladatelství ekonomické literatury vystavuje na Internetu plné texty produkce tohoto nakladatelství. Server IHNED nabízí pokročilé vyhledávání ve zdrojích i řazení výsledku podle relevance. Pro předplatitele periodik je možný zdarma přístup do archívů. Čtenáoi mají také možnost zaplatit si přístup k online archivům tištěných periodik vydavatelství ECONOMIA nebo si mohou zakoupit prostřednictvím tzv. iKreditu pouze jednotlivé články .

Sagit (elektronické nakladatelství - právní texty), Tigis ( časopisy pro lékařskou odbornou veřejnost a edukační časopisy pro veřejnost), Nakladatelství Muzikus - hudební tematika, Nakladatelství Portál (pedagogika, psychologie).


Current Contents, abstrakty, citace, plné texty

Akademie věd ČR - Časopisy vydávané Akademií věd České republiky. Některé časopisy jsou vybaveny abstraktem a plným textem, někde pouze obsahy časopisů.

Nakladatelství Karolinum, Nakladatelství Univerzity Karlovy - vydávání učebních textů, vědeckých monografií, sborníků vědeckých prací, slovníků a vědeckých časopisů - current contents.

Odborná knihovnická periodika

Národní knihovna . Knihovnická revue - samostatná webovská prezentace periodika v rámci Projektu propojení analytických záznamů s plnými texty ve formátu html a pdf - r. 1999 - 2003 s tematickými a autorskými rejstříky, do r. 2001 plnotextově přístupná na serveru full.nkp.cz (báze ANL FULL) a www.anopress.cz. V dalších letech Ikaros - elektronický časopis o informační společnosti. Bulletin SKIP , U nás aj.

Některé digitální knihovny a databáze

Právní informační systém ASPI (Automatizovaný systém právních informací).

Digitální knihovna Český parlament a Dokumenty Senátu.

Digitální knihovna v NKČR obsahuje vzácné a ohrožené dokumenty digitalizované v národních programech Memoriae Mundi Series Bohemica (převážně rukopisy, staré tisky a perspektivně další dokumenty) a Kramerius (starší noviny a časopisy a další vzácné dokumenty tištěné na kyselém papíře). Pro projekt Memoriae mundi series Bohemica bylo vytvořeno DTD na základě struktury Master. V listopadu 2003 je spuštěna aplikace Manuscriptorium , Aplikace Kramerius má být uvedena do provozu v koncem r. 2003. Sám digitální archív nebude po internetu přístupný.

V NKČR se dále používá RetrievalWare Excalibur k indexaci (umí překonat chybovost technologie OCR)

Excalibur je intuitivní vyhledávací systém společnosti Excalibur Technologies založený na technologii APRP a sémantické sítě (slovní výrazy, spojení idiomy) Convera RetrievalWare.

Adaptive Pattern Recognition Precessing je technologie založena na indexování na bipolární úrovni, jazykově nezávislá, má toleranci chybovosti dat na vstupu. Pomocí tohoto systému se indexují www stránky NKČR , krajské knihovny v Olomouci.

Tento systém používá i AVČR. Katalog elektronických zdrojů (KEZ) obahuje zdroje vznikající či využívané v rámci AV ČR (automatické generování deskriptorů i manuální). Je určen k dispozici on-line vědecké obci i široké odborné veřejnosti a to nejen pro vyhledávání, ale i pro pořizování záznamů. KEZ využívá systém vyvinutý firmou Incad. Akademie věd ČR zpřístupňuje publikační činnost pracovníků v Ústavní bibliografii ASEP do r. 1993 a Ústavní bibliografii ASEP od r. 1993.

V r. 2002 byla zpřístupněna digitální knihovna rukopisů, prvotisků a starých tisků v krajské knihovně v Olomouci .

Informační agentury

Albertina icome

Albertina icome Praha je česká soukromá společnost zaměřená na zpřístupnění profesionálních informačních zdrojů v elektronické formě a jejich využití v praxi. AiP nabízí elektronické tituly předních světových vydavatelství. Elektronické vydavatelství spolupracuje na vydávání ČNB na CD-ROM. V tomto roce byl zpřístupněn projekt Infozdroje.cz .

Cíle projektu: zpřehlednit přístup k informačním zdrojům z jednotlivých institucí, usnadnit zveřejňování informací o konzorciálních projektech, informovat uživatele o novinkách a pomůckách k jednotlivým informačním zdrojům, usnadnit správu rozsáhlých konzorciálních licencí, sdružit informace o IP adresách , usnadnit zpětnou vazbu mezi uživateli, koordinátory na úrovni jednotlivých institucí, technickou podporou AiP a vydavateli.

ČTK

ČTK nabízí kromě vlastního zpravodajství i plné texty několika desítek nejvýznamnějších tuzemských novin, týdeníků a jiných odborných titulů. V elektronické formě dává k dispozici plné texty bez reklamních a inzertních stránek, bez fotografií a grafů. Stejně tak jsou k dispozici přepisy nejdůležitějších zpravodajských a publicistických pořadů významných domácích rozhlasových a TV stanic. Infobanka poskytuje informace vybrané informace o zemích světa včetně politických, makroekonomických, historických a geografických údajů o každém státě. Databáze přináší podrobný přehled o domácím politickém, hospodářském a kulturním životě, včetně vývojových materiálů, jež průběžně sledují všechny klíčové události ve společnosti. INFOBANKA ČTK obsahuje také biografie známých osobností z celého světa, sportovní databázi s výsledky a životopisnými údaji významných sportovců a přehledy výročí a událostí očekávaných doma i v zahraničí v příštích měsících a letech.

Newton I.T.

Agentura vytváří elektronický archiv zpráv z domácích i zahraničních tištěných médií, plných přepisů zpravodajských, publicistických i diskusních pořadů z televize a rozhlasu, agenturního zpravodajství a zpravodajských internetových serverů (až od roku 1993). Z toho archivu poskytuje monitoring podle individuálních potřeb. Nabízí jednotlivým redakcím tvorbu elektronických archívu. Elektronické archivy dostupné přes standardní webové rozhraní či na CD jsou určeny pro vnitřní potřeby samotného vydavatele, tak pro nejširší veřejnost (Právo, Mladá fronta Dnes, 100+1 zahraničních zajímavostí, Respekt (po registraci dostupné i volně).

Anopress IT, a.s.

Informační agentura, která v současnosti poskytuje následující služby: On-line monitoring vyhledávání na Internetu (on-line fulltextové prohledávání obsáhlé mediální a vědomostní databáze), Off-line monitoring elektronická výstřižková služby (pravidelná dodávka monitoringu médií podle individuálních požadavků), Informační servis Anopress (ISA) (vyhodnocovací software pro další práci s dodanými nebo vyhledanými daty), Quick monitoring (jednoduchá on-line služba umožňující fulltextové vyhledávání v médiích pomocí více jak 200 předdefinovaných témat, Mediální analýzy , Archívy zdrojů , Archívy zdrojů (dodávka nebo přístup do kompletních zdrojů), E-noviny informace na míru do vašeho mobilu (vyhledávání v celostátním a regionálním denním tisku z Vašeho mobilu - realizovaná v r. 2003), Sbírka zákonů ČR on-line . V roce 2003 je také zpřístupněna služba významná hlavně pro střední školy Brána vědění.

Hlavním produkty jsou: on-line databanka novin a časopisů celostátních a regionálních, monitoring na zakázku, vědomostní databáze, archívy zdrojů. Anopress IT, a.s. umožňuje on-line přístup do databanky plných textů TamTam, na jejíž bázi poskytuje následné služby. Společnost Anopress je výhradním zpracovatelem elektronické podoby většiny českých regionálních titulů (nakladatelství Bohemia). Pro zpřístupnění plných textů ve veřejných knihovnách bylo založeno v r. 2000 Konzorcium Anopress. Společnost je výhradním zástupcem slovenské firmy SLOVAKIA ONLINE v ČR, která zpracovává elektronickou podobu slovenských tištěných médii. Kromě mediální části obsahuje databanka TAMTAM i část vědomostní, v níž jsou k dispozici pro fulltextové vyhledávání různé encyklopedie, příručky a další knihy referenčního charakteru. Databank a v současné době obsahuje texty článků a zpráv všech celostátních deníků, dále pak regionální deníky, celostátní a regionální časopisy, dále i textové záznamy zpravodajských, publicistických a diskusních pořadů rozhlasu a televize. V roce 2002 byly zpřístupněny archívy zdrojů od r 1996.

Společnost vyvinula vlastní software ISA, který umožňuje všechna data dále analyticky zpracovávat, exportovat je v několika formátech, včetně HTML a XML, pro Internet či Intranet.

Vyhledávací systém TOPIC, který Anopress používá k monitoringu a analýze informačních zdrojů, je v současnosti jediným interaktivním systémem na českém trhu.

Anopress zpracovává zatím cca 35 titulů, které odpovídají excerpční základně Kooperačního systému článkové bibliografie. V databance TamTam je obsaženo cca 200 informačních zdrojů.

V únoru 2002 byla agentura vydražena v dobrovolné dražbě, v dubnu 2002 zaregistrována jako nový podnikatelský subjekt s názvem Anopress IT, a.s. Zpráva o Anopressu byla dle dohody podána řešitelkou předkládaného projektu na MKČR koncem května 2002. Agentura plní své dosavadní závazky a smlouvy. V r. 2002 je podprogram VISK8 - Informační zdroje - linie A zaměřen na zajištění dostupnosti elektronických informačních zdrojů formou multilicencí z domácí, české provenience. V září 2002 byla schválena dotace MKČR pro multilicenční zpřístupnění databází TamTam a ČTK v rámci VISK 8 v r. 2003. Analogicky vyplývá: v budoucnu podobné zpřístupnění báze ANL FULL a licence resp. multilicence pro přístup do báze TamTam pro linku zpracování bibliografických záznamů z plných textů.

Národní lékařská knihovna

Vydává BMČ a CR-CZ (viz dále), též katalogizuje elektronická periodika dostupná v rámci licencí. Některé záznamy elektronických zahraničních časopisů byly předány do STK v rámci projektu Portál STM a měly by být zahrnuty do terciální databáze. Dále by měla být zahrnuta česká elektronická periodika online. Knihovna by měla také katalogizovat internetové domácí zdroje z oblasti lékařství a zdravotnictví . NLK řeší projekt Medicínská virtuální knihovna - MEDVIK, sdílení informačních zdrojů pro vědu a výzkum.

Státní technická knihovna

elektronické časopisy se katalogizují v terciální databázi v rámci projektu LI01018 z oblasti STM. Na stránkách knihovny je databáze on-line časopisů podle oborů a databáze českých ISSN. Provozuje Portál STM (viz dále).

WebArchiv

Je vytvářen v rámci programového projektu výzkumu a vývoje "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet". Jeho cílem je připravit podmínky pro zpracování české národní bibliografie elektronických zdrojů, se zaměřením zejména na zdroje dálkově přístupné a zajistit dlouhodobé uchování domácích elektronických zdrojů.

Do češtiny byla přeložena nejnovější verze standardu Dublin Core Metadata Element Set, Version 1.1 proběhla lokalizace metadatového formuláře převzatého od Helsinské univerzitní knihovny z projektu Nordic Metadata. V rámci popisu elektronických zdrojů NK se zatím popisují vybrané servery „národní produkce“ (doména cz), výběr zdrojů je podle obsahu (odborné, umělecké), typu (seriály, konferenční příspěvky, výzkumné zprávy, dokumenty veřejné správy, formy (pouze elektronická forma), přístupu, formátů (všeobecně podporované) s ohledem na automatické získávání elektronických zdrojů (volně přístupné zdroje). V ALEPHu by měly být záznamy ukládány ve formátech MARC a DC (konverze generátor DC). Uložení v digitálním archivu.Počítá se s popisem seriálových zdrojů (periodika publikovaná v elektronické formě, webové stránky) a jejich zpřístupněním v JIB. Předpokládá se spolupráce s knihovnami v JIB. V roce 2003 byla zpřístupněna báze bibliografická WEB, obsahující některé on line elektronické zdroje. Cílem je, aby ze záznamů v databázi byl současně umožňován přístup do digitálního archivu (WebArchiv). Protože platná česká legislativa neumožňuje v současné době zdroje zpřístupňovat, řeší se situace uzavíráním smluv s autory/vydavateli internetových zdrojů. Na projektu Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet spolupracuje Ústav výpočetní techniky Masarykovy univerzity v Brně. Předběžně byla dohodnuta spolupráce při testování využití metadatového schématu Dublin Core s několika informačními a dalšími institucemi, které působí současně jako vydavatelé elektronických zdrojů.

Dublin Core Metadata Generator je nástroj umož ňující autorům webových stránek poloautomaticky nebo ručně vytvořit, editovat, konvertovat a ve zvolené syntaxi uložit metadata respektující pravidla kvalifikovaného Dublin Core. Přidělení jednoznačného identifikátoru je umožněno propojením Dublin Core generátoru s generátorem URN. Připravuje se úprava systému přidělování URN tak, aby program přidělující URN fungoval jako samostatný URN server s možností integrace této funkce do publikačních systémů vydavatelů online zdrojů. Díky tomu by se přidělování URN mělo stát zcela automatickým procesem.

V rámci projektu byl lokalizován nástroj Harvester z projektu NEDLIB, a kalkulátor MD5 pro výpočet kontrolního součtu dokumentu. Slizená data se budou ukládat pomocí páskového robota.

Řešení právních otázek je dlouhodobou záležitostí. Je třeba připravit podklady pro změnu zákona obsahujícího ustanovení o povinném výtisku seriálových publikací (“tiskový zákon”), resp. výklad a směrnice k zákonu týkajícímu se povinného výtisku neperiodických publikací a k autorskému zákonu

Zpřístupnění archivu se má realizovat pomocí technologie fulltextového indexování a automatizované extrakce autorem vytvořených metadat. Na MFF UK vypsán ročníkový týmový projekt na vytvoření indexační a vyhledávací aplikace pro Webarchiv. Tato aplikace by měla zpřístupnit stažené dokumenty v jejich kontextu, tedy s vloženou grafikou ze stejné doby a s odkazy vedoucími primárně opět do archivu. Vyhledávání v archivu by mělo být umožněno nejen na základě URL nebo kontrolního součtu dokumentu, ale i na základě z dokumentu extrahovaných metadat nebo fulltextového vyhledávání. Tato aplikace by měla být navržena tak, aby bylo možné k ní kdykoli připojit moduly pro indexování jiných, než textových typů souborů.

Jedním z dalších cílů projektu bude proto pokus o využití systému Convera Retrievalware pro indexování některých typů souborů obsažených v archívu.

Z dokumentů, které obsahují metadata podle DC by se mohla vybudovat menší bibliografická báze. Aplikace vyvíjená v rámci projektu Souborná databáze by se eventuelně dala upravit pro přijímání dokumentů z Webarchivu.

Jednotná informační brána

Projekty JIB:

Jednotná informační brána pro hybridní knihovny (VAV, UK, NK). Součástí projektu JIB je:

Portál STM (STK a 11 institucí).

Jednotná informační brána (VISK 8) - provoz JIB, zpřístupnění zdrojů.

Česko- slovenský virtuální katalog Caslin.

Projekt JIB umožňuje základní prohledávání inf. zdrojů, jejich tematický výběr, stahování záznamů. Zdroje jsou volně přístupné a licencované. Aplikace metody konspektu.

Komunikace v Metalib je na základě protokolu Z39.50 nebo HTTP.

Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj. Báze ANL FULL a články krajské knihovny v Liberci zpřístupněny v JIB jako odkaz. Plné texty báze ANL FULL a přes bázi ANL přístupné v JIB pro externí uživatele na 1 den. V řešení jsou připojení dalších institucí a zdrojů

Metoda konspektu jako nástroj popisu fondů má přispět k realizaci této brány. Základem metody je popis dle věcného třídění na několika úrovních. První obsahuje 24 tematických skupin, druhá 500 kategorií, které se dále člení na 4 000 témat. Vazba na jednotnou informační bránu: výběr věcného oboru v Metalibu podle členění tematických skupin.

Při věcném popisu báze ANL se užívají také předmětové kategorie (od r. 1994) určené pro zařazení článků do hrubých oborů či témat pro zpřehlednění báze. Domníváme se, že tyto kategorie budou podrobnější než ty, aplikované v metodě konspektu.Podobně topiky na serveru full.nkp.cz se používají tři úrovně definice - tematická oblast, skupin témat, detailní témata.

Propojování - Metalib a SFX

SFX je standard pro propojení dokumentů a je využíván v Metalib k vytváření vazeb. V Metalibu je statický způsob propojení nahrazován dynamickým propojováním za loženém na open URL.

Autorskoprávní a legislativně právní problematika zpřístupňování elektronických dokumentů - v ČR je třeba aktualizovat zákon o povinném výtisku seriálových publikací (tiskový zákon), event. autorský zákon.

Povinný výtisk elektronických publikací je předpokladem jejich uchovávání a zpřístupnění. Prozatím je třeba v budoucnu uzavírat dohody mezi knihovnami a příslušnými nakladateli a vydavateli, které se týkají jednak zpřístupnění elektronických dokumentů, jednak spolupráce.

Automatická či poloautomatická indexace (J. Schwarz, 2002)

V bývalém Československu začal rozvíjet výzkum a vývoj v oblasti automatizovaného zpracování textu až od konce 60. a začátku 70. let 20. století.Vznikla řada nejen regionálně, ale i mezinárodně jedinečných systémů, které byly určeny k automatizovanému zpracování textu především v oblasti automatické indexace, automatické tvorby tezauru a automatického překladu. Na světové úrovni, zejména zásluhou P. Sgalla, se v Česku rozvinula také matematická lingvistika, označovaná také jako komputační lingvistika, a zejména v druhé polovině 90. let 20. století rovněž i korpusová lingvistika. Většina uvedených systémů dnes slouží k výzkumných účelům, ale některé z nich jsou částečně dostupné i komerčně (týká se to např. systému LEGSYS).

Již od začátku 70. let byly vyvíjeny i systémy SEMAN (V. Smetáček) a MOZAIKA (Z. Kirschner). 70. a 80. léta představovala také období rozvoje matematické, komputační a korpusové lingvistiky pod vedením P. Sgalla; vzniklo specializované pracoviště (dnes Ústav formální a aplikované lingvistiky/Centrum komputační lingvistiky na MFF UK), znalosti a zkušenosti jeho pracovníků byly zúročeny i v současném projektu Pražského závislostního korpusu.

Automatická indexace sněmovních tisků v KPS PČR

Parlamentní knihovna jako odbor Kanceláře Poslanecké sněmovny Parlamentu ČR od r. 2000 indexuje v testovacím provozu sněmovní tisky, od 4. volebního období (červen 2002) přešla indexace sněmovních tisků do rutinního provozu. V rámci indexace sněmovních tisků byla ve spolupráci s Odborem informatiky KPS PČR a diplomantem M. Urbanem (VŠE Praha) implementována automatická indexace založená na automatické extrakci slov a sousloví z textu dokumentu za podpory lematizátoru, frekvenční analýzy, rozpoznávání víceslovných výrazů, negativního slovníku a komparace slov z textu s lexikálními jednotkami tezauru EUROVOC. Výsledkem je frekvenčně uspořádaný seznam deskriptorů, který je určen pro další intelektuální zpracování. Automatická indexace je stále pouze v testovacím provozu z důvodů omezené využitelnosti jejích výsledků.

Moderní vyhledávací metody se zkoumají v rámci projektu Inteligentní vyhledávání v dokumentografických informačních systémech, který řeší MFF UK ve spolupráci s KPS PČR. Projekt má za cíl pomocí standardních metodik otestovat vyhledávací techniky založené na statistickém přístupu (např. vektorové vyhledávání, latentní sémantické indexování, pojmové shlukování).

Bibliografické zpracování článků v ČR (viz Příloha F 5, F 1, F 3, F 4)

Bibliografické zpracování článků v ČR je poměrně rozsáhlé co do zdrojů, které se analyticky zpracovávají, tak co do typů institucí, které tuto činnost provozují.

Národní knihovna ČR zpracovává výběrově bibliografické záznamy článků ze všech druhů seriálů (noviny, časopisy, odborná periodika, sborníky) v rámci Kooperačního systému článkové bibliografie (KOSABI), ve kterém spolupracuje v současnosti 8, resp.7 krajských knihoven (Plzeň momentálně nedodává záznamy) a MZK, specializované odborné knihovny (STK, ÚZPI, SPKK-ÚIV, ČSAV, experimentálně ČGÚ). Spolupráce je navázána se 4 novými krajskými knihovnami. Na základě této spolupráce vzniká souborná databáze ANL. V systému LANIUS, resp. Clavius se zpracovávají bibliografické záznamy článků v knihovnách na úrovni okresů. V budoucnu je třeba sladit systém KOSABI a LANIUS tak, aby nedocházelo k duplicitnímu zpracování. Instituce spolupracující v rámci KOSABI přecházejí na nové SW vyšší generace. V krajských knihovnách v Kladně a Liberci se články popisují v systému RAPID, v MZK v Brně v ALEPH, v Olomouci též. V Ostravě, v Českých Budějovicích a Ústí nad Labem v systému T-Series. V Hradci Králové, ÚZPI, STK, SPKK-ÚIV přetrvává ISIS. V krajské knihovně v Plzni se tento rok instaloval ALEPH(články dříve zpracovávány v KIMS). V nově konstituovaných rajských knihovnách v Pardubicích a Zlíně se používá KP-Sys, v Karlových Varech a Havlíčkově Brodě systém LANIUS, resp. Clavius.

Knihovny pracující v ALEPHu přešly na verzi 14.2.4. Data jsou zpracovávána ve nebo konvertována do formátu UNIMARC, respektují se pravidla popisu AACR2 s respektováním mezinárodních standardů věcného popisu - MDT-MRF pro oblast systematické indexace. V oblasti verbální věcné indexace se kombinují klíčová slova, věcné obecné kategorie a předmětová hesla. Vyváženost vazby mezi jednotlivými vrstvami popisu je klíčovým momentem. V rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce - tituly regionální a celostátní provenience a dále pak na základě odborného zaměření). V rámci KOSABI jsou stanoveny zásady výběru článků co do úplnosti i co typů. V roce 2003 probíhaly v NKČR práce na konverzi UNIMARC MARC 21.

 

Zpracovávané typy titulů a výběr článků z hlediska úplnosti: v kooperačním systému jsou zpracovávány články a statě české novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol, muzeí, archivů, materiály z konferencí, ročenky, odborné i polytematické časopisy, kulturně-politické časopisy a populárně-naučné časopisy).

 

A: Seriály vydávané AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)
B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny (ústřední i regionální) a kulturně-polické časopisy
D: Populárně-naučné časopisy

1=excerpce je prováděna v úplnosti (100-80% počtu článků)
2=excerpce je prováděna částečně (80-25% počtu článků)
3=excerpce je prováděna výběrově (25%- počtu článků)

A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3

 

Báze ANL - obsahuje kategorie A-D, báze ANL FULL zatím kategorie C, z kategorie B periodikum Národní knihovna (též samostatná aplikace ve formátech HTML, PDF).

Typy článků: faktograficky přínosné články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze jsou výběrové.

  • počet záznamů k 11.11.2003: anl cca 807 000 bibliografických záznamů, anl full cca 115 000 plných textů s metadaty

  • počet zpracovávaných titulů: ANL - cca 212 v NKČR, 2 08 v regionech, 122 v odborných knihovnách, celkem cca 542 titulů; ANL FULL 30 titulů, běžně zpracovávaných zatím 17 v NKČR

  • Časové pokrytí: anl 1990/91 -, anl full 1997- .

Záznamy NKČR tvoří 79,5 procent báze ANL. Záznamy regionů tvoří 14,1 procent. Záznamy

specializovaných knihoven tvoří 6,4 procent. (Podíl v procentech souhlasí zhruba s údaji z r.1999).

V posledních letech vzniklo několik projektů, zabývajících se zpřístupněním analytických záznamů v kooperaci s ostatními knihovnami, jejich prezentací na Internetu a propojením těchto záznamů s plnými texty.

Zpřístupnění výsledků analytického zpracování prostřednictvím Internetu (r. 1998) - projekt řešil zejména konverzi článků do UNIMARCu.V rámci průzkumu Internetu se ukázalo, že postupné propojení článků s některými plnými texty již vystavovanými na Internetu na různých serverech je krajně nespolehlivé (různá retrospektiva a úplnost vystavovaných plných textů, různá strategie vystavovatelů ). Výběr spolehlivých zdrojů plných textů je možné řešení.

Výzkumný záměr NK Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, r. 1999-2003) - je projekt analyticko-koncepční a připravuje půdu pro praktickou realizaci účelového projektu popisovaném v této zprávě a dalších projektů . Cílem v7zkumného záměru je optimalizace přístupu uživatelů k plným textům dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty. V rámci projektu v r. 1999 proběhlo v NK výběrové řízení a na základě výše uvedených faktů byla vypracována výzva k podání nabídky pro společnost Anopress. V rámci projektu bylo vyvinuta iniciativa k vytvoření Konzorcia Anopress, která byla podepsána mezi SKIP a Anopressem v r. 2000. V rámci projektu byloperiodikum Národní knihovna v Anopressu převedeno do digitální formy a zpřístupněno na Internetu (v r. 1999 pouze technikou OCR, v r. 2000 se přistoupilo i k prezentaci obrázků). V současné době je zpřístupňováno v podobě html na serveru full.nkp.cz (do r. 2001). Zároveň je r. 1999-2003 vystavován ve formátu html a pdf ve speciální webovské aplikaci pro toto periodikum. Speciální aplikace pro Národní knihovnu se bude integrovat s bází ANL FULL pomocí jednotného interface. V rámci projektu je též částečně koncepčně řešena aplikace pro management KOSABI a provádějí se analyticko koncepční práce týkající se metod automatické indexace, zpřístupňování plných textů (topiky) a je z části saturován další vývoj aplikace v systému TOPIC a linky zpracování bibliografických záznamů z plných textů (TTDE).

Projekt Západočeský ANAL - Kooperativní zpracování periodické produkce západních Čech se zabývá odstraněním duplicit při zpracování, metodikou excerpce titulů a zpracování záznamů v jednotlivých okresech západočeského regionu.

Projekt Zavedení automatizovaného zpracování článkové bibliografie v systému T-Ser ies, VaV, r. 2000-2001) řeší problematiku bibliografického zpracování článků v tomto systému.

Velmi významný je z hlediska tvorby a rozvoje regionálních faktografických databází a souborů autorit je projekt Rozvoj regionálních databází na základě retrospektivní konverze článkové bibliografie řešený v letech 2000-2002 v SVK Kladno.

Analytické záznamy zpracovávané v rámci KOSABI jsou zpřístupňované také na CD-ROM vydávaném AIP icome v rámci ČNB jako řada Články v českých novinách, časopisech a sbornících , od června v 2000 v UNIMARCu. CD-ROM je vydáván ve čtvrtletních aktualizacích, každý měsíc je bibliografie aktualizována na Internetu. Záznamy KOSABI jsou zpřístupňované v JIB.

V JIB jsou přístupné plné texty báze ANL FULL (propojení z ANL na ANL FULL) v NKČR, pro externí uživatele pouze na 1 den po registraci.

V roce 2003 pokračuje spolupráce v rámci KOSABI, probíhá poloprovoz linky zpracování bibliografických záznamů z plných textů a ladí se aplikace pro správu a údržbu KOSABI, aktualizuje se databáze ANL, ANL FULL. Báze ANL FULL je vybavena metadaty DC ve formátech HTML , XHTML, XML v kvalifikované i nekvalifikované formě. Probíhají práce na internetové verzi linky s napojením na rejstříky ANL FULL a autority prostřednictvím komponenty Ole Z39.50. Báze ANL FULL je vybavena dalšími topiky. Je nastíněn další možný vývoj KOSABI s ohledem na moderní metody zpracování. Je vypracována aplikace pro kontrolu platnosti URL adres. Výsledky práce KOSABI a projektů týkajících se zpřístupnění článků prezentovala řešitelka projektu na konferencích Infos 2003, též v IFLA Section for Newspapers a na zasedání bibliografické sekce SDRUK.

V r. 2003 vypracován nový pokračující projekt týkající se zpřístupnění odborných zdrojů v kooperačním systému a zapojení báze ANL FULL do JIB v rámci programu 1N MŠMT „Informační zdroje pro vědu a výzkum“ (Anděrová) a komplexní záměr v rámci NKČR (pro MKČR), který se týká zejména věcného zpracování v rámci kooperačního systému.

Citace z projektu:

V NK ČR v rámci běžících projektů - bude zajištěna internetová verze linky a vazba linky na autority, použitelnost linky nejen pro vstupy z Anopressu ( TXT, HTML) - na základě vývoje linky v rámci běžícího projektu týkajícího se souborné databáze bude možno již v r. 2004 zpracovávat odborné plné texty již vystavené na internetu.

V navrhovaném projektu projektu pro 1N je třeba linku modifikovat pro více vstupních formátů (DTP formáty - Word, PDF, OCR), doladit zpracování v lince na zpravování i bez plného textu (pouze metadata) a doladit (tj. plně zprovoznit) propojení na bázi autorit při zpracování v lince - Z39.50 klient Database Update), případně otestovat linku v rámci spolupracujících institucí. V projektu je třeba doladit konverzi do M21, doplnit stávající DTD pro články o potřebná data administrativní a specifická, další doplnění DTD vzhledem podrobnější strukturaci textu. Báze ANL FULL je provozována v systému TOPIC. V projektu je třeba zajistit migraci systému TOPIC na systém K2 (automatizovaná tvorba kategorií, integrace odborných tezaurů do topiků, implementovat lingvistický analyzátor pro český jazyk). V rámci konceptu sociálních sítí zajistit interakci, adaptivní vyhledávání, doporučování dokumentů vzhledem k uživatelovu profilu a využít vlastností K2 pro mapování stěžejních výzkumných oblastí v oborech, implementovat SQL databázi pro záznamy DC (XML) - (dosud jsou strukturované údaje uložené v bázi Access , která již nedostačuje), zapojit ANL FULL do JIB (Z39.50 s rozšířenou funkcí Database Update a modul pro podporu Open URL) - zajistit integraci fulltextového vyhledávání do systému JIB“.

Projekt je zaměřen na zpracování odborných informačních zdrojů, a spolupráci odborných knihoven. Týká se i spolupráce s NLK, která je součástí širšího kooperačního systému.

V ČR NLK se zpracovává databáze BMČ. Je třeba optimalizovat dosavadní způsob zpracování zdrojové báze Bibliografia Medica Čechoslovaka (BMČ) a Českého citačního rejstříku (CR-CZ) základě technologické linky s využitím formátu XML, zprovoznit databázi BMČ a CZ-CR v systému WEB Tornado, zapojit obě databáze přes Z39.50 do JIB, zajistit propojení na plné texty. Součástí řešení je i parametrizace výstupních formátů umožňující vstup do dalších databází (PubMed dle požadavků NML Bethesda, RIV) a konverze pro zpracování výstupů z databází Embase a MedLine.

V ÚZPI ze zpracovává Zemědělská a potravinářská bibliografie. V budoucnu je třeba převést také zde zpracování článků do formátu UNIMARC/M21. Má být umožněno propojení záznamů na plný text v rámci technologické linky zpracování bibliografických záznamů z plných textů přes formát XML v návaznosti na existující redakční systém za účelem importu do bibliografické báze a též za účelem kooperace s NLM Bethesda.

V ČGs jsou záznamy zpracovávané v systému Win ISIS ve struktuře MAKS, vystavovány jako Česká geologická bibliografie. Zpracování článků je třeba převést na strukturu dle aktuální specifikace pro analytický popis z r. 1993 (aktual. 1997) s respektováním standardů a autorit.

V ÚIV SPKK jsou články zpracovávané v systému CDS ISIS. Zpracování článků je třeba převést na zpracování v systému KP Win (UNIMARC, event M ARC 21). Na internetu je vystavována Pedagogická bibliografická databáze.

Ve STK jsou články zpracovávané v systému CDS ISIS. Zpracování článků je třeba převést na zpracování v systému KP Win (UNIMARC, event MARC 21).


A. 3 Cíl, vstupní data

A. 3.1 Cíl

Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie. Bibliografické záznamy článků, publikovaných v českém periodickém tisku a zpracovávané spolupracujícími knihovnami jsou postupně propojované s elektronickou podobou článku a takto prezentované na Internetu. Obě části souborné databáze - vznikající databáze plných textů a báze bibliografických záznamů ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW podporu.

Budování, doplňování, správu a údržbu plnotextové databáze s možností vyhledávání zajišťuje informační agentura ANOPRESS (systém TOPIC) a její pracovníci. Zároveň jde o vývoj manažerského systému pro příjem a správu dat kooperačního systému.

Tento systém se bude v budoucnu pravděpodobně modifikovat tak, jak budou postupně aplikovány prostředky pro interoperabilibu dat - zejména Z39.50 a OpenUrl. Tyto záležitosti jsou předmětem podaného projektu v rámci programu 1N MŠMT. Hlavním cílem projektu je zkvalitnění bibliograficko-informačních služeb a integrace elektronických zdrojů do služeb knihovny.

Cíle

  • Cílem projektu v r. 2003 je aktualizace databáze ANL, ANL FULL a tedy i spolupráce v rámci KOSABI (po stránce faktické, metodické i organizační).
  • Průběžné doplňování báze ANL FULL plnými texty a metadaty DC ve formátech HTML, XHTML, XML v kvalifikované a nekvalifikované formě.
  • Aktualizace báze ANL bibliografickými záznamy s propojením na plné texty za současného vydávání báze ANL v rámci ČNB.
  • Další cílem je rutinní zpracování záznamů o článcích z plných textů v rámci linky automatické indexace (TTDE) - TTDE umístěné na lokálních pracovních stanicích.
  • Zkvalitnění ukládání v pracovním formuláři, který je ještě umístěn na loká lních pracovních stanicích v rámci linky automatické indexace.
  • Převedení linky automatické indexace na Internet (WWW TTDE), napojení na rejstříky ANL FULL a ověření možnosti napojení na soubory autorit přes komponentu Z39.50.
  • Dalším cílem je implementace aplikace pro administraci báze a v rámci ní aplikace pro kontrolu platnosti url adres v rámci báze ANL a ANL FULL.
  • Ověření aplikace pro export a stahování plných textů a metadat, zatím běžně nepřístupné s ohledem na autorskoprávní problematiku.
  • Pozornost se soustřeďuje na definici báze ANL FULL - zejména na vyhledávání pomocí topiků, jejich ladění (tvorba nových topiků, návrhy na zlepšení relevance vyhledávání podle topiků jsou hrazeny ze souvisejícího projektu Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů).
  • Dalším cílem je údržba stávajícího strukturovaného protálu s popisem zdrojů na serveru full.nkp.cz pro volně dostupné zdroje na českém Internetu z hlediska krajů a tematiky, doplnění dalších zdrojů .
  • Cílem je propojení plného textu se záznamem. které probíhá na základě jednak statických URL vznikajících v bázi ANL (volně přístupné texty na Internetu v rámci báze ANL), jednak dynamických URL (generovaných v rámci linky zpracování bibliografických záznamů z plných textů), které jsou do záznamů generovaných v lince a importovaných do Alephu vkládaných jako statické. V rámci ANL FULL jsou metadata uložena přímo v plných textech.
  • Průběžné řešení otázek standardizace jmenného a věcného popisu bibliografických záznamů a elektronických dokumentů a možnosti přebírání metadat do bibliografických záznamů ve formátu UNIMARC a plných textů v podobě Dublin Core a ve struktuře XML je předpokladem funkčnosti celého systému.

  • Dalším cílem je návrh minimálního záznamu v M21 pro články.
  • Spolupráce s nově konstituovanými krajskými knihovnami (Zlín, Pardubice, Havlíkův Brod, Karlovy Vary).
  • Cílem je ladění a testy vstupů dat do KOSABI a výstupů pro bázi ANL - aplikace pro správu a údržbu KOSABI a poloprovozní stádium v NKČR.
  • Údrž ba databázové aplikace pro evidenci zpracovávaných titulů v rámci KOSABI.
  • Cílem je dialog program aplikace pro opravy dat kooperujících institucí pomocí JDeveloperu.
  • Dalším cílem je implementace aplikace pro kontrolu platnosti url adres v bázi ANL v aplikaci MNG KOSABI.
  • Dalším cílem jsou praktické závěry pro další vývoj projektu na základě analýzy současného stavu a trendů automatické indexace a selekční efektivnosti topiků v databázi ANL FULL, které byly podkladem pro navazující projekt v rámci 1 N, tj. migrace systému TOPIC na platformu K 2 s možností automatické kategorizace, vyhledávání na základě podpory jazykového analyzátoru a možnostmi interakce uživatele se systémem a ostatními uživateli v rámci tzv. konceptu sociálních sítí.


A. 3.2 Vstupní data

  • Vstupními daty pro bázi ANL jsou bibliografické záznamy zpracovávané v r. 2003 v rámci KOSABI spolupracujícími institucemi.
  • Vstupními daty pro bázi ANL jsou bibliografické záznamy zpracované v NKČR v ALEPHu a v lince zpracování bibliografických záznamů, resp. metadat z plných textů.
  • Vstupními daty pro bázi ANL FULL jsou plné texty s metadaty, které vznikají v rámci linky zpracování bibliografických záznamů z plných textů při generování dynamických URL, za současného generování formátů UNIMARC, DC a jejich zpřístupnění v HTML XHTML a XML v bázi ANL FULL
  • V r. 2003 se i nadále v lince zpracovává výběr z celostátních deníků a některých časopisů zároveň pro bázi ANL i ANL FULL.
  • · Bibliografické záznamy zpracované v ALEPHu jsou také propojované na volné www plné texty statickými URL adresami. Vstupní data pro strukturovaný portál www periodik jsou volně přístupné zdroje na Internetu.


Tituly volně přístupné na WWW a propojované se záznamy ANL (od r. 1998) - cca 26 titulů (Veřejná správa,Vesmír, Lesnická práce, Literární noviny, Harmonie, Psychiatrie, Psychologie Dnes, Jezuité, Kriminalistika, Národní knihovna, Knihovní obzor, Collection of Czechoslovak Chemical Communication -abstrakta, Kriminalistika, Bulletin advokacie, Souvislosti, Moderní řízení, Československý časopis pro fyziku, Chemické listy, Země světa, Revue církevního práva, Obec a finance, Věstník (příloha Obec a finance), Právní rádce …, Ikaros, U nás, Bulletin SKIP ) (viz Příloha F 4a). Toto propojování hrazeno z prostředků souvisejícího pr ojektu Propojení analytických záznamů s plnými texty.

V bázi ANL FULL zpřístupněno výběrově cca 37 titulů většinou od r. 1997.

V lince pravidelně zpracováváno 17 titulů (Bankovnictví, Ekonom, Haló noviny, Hospodářské noviny, Kapitál, Lidové noviny, Magazín Práva, Mladá fronta Dnes, Pátek magazín LN, Právo, Profit, Reflex, Respekt, Týden, Kapitál,Večerník Praha, Euro viz Příloha F 4a).

Summa summarum:

  • Vstupními daty pro plnotextovou bázi ANL FULL jsou plné texty zejména celostátních deníků a některých odborných časopisů za rok 2003 a jim odpovídající bibliografické záznamy v tomtéž období pro bázi ANL v rámci KOSABI.
  • Vstupními daty pro automatizovanou linku zpracování bibliografických záznamů jsou plné texty získané z databáze TAMTAM na základě speciální aplikace. V rámci této linky vznikají vstupní data pro bibliografickou bázi ANL a fulltextovou databázi ANL FULL.
  • Vstupními daty pro bibliografickou bázi ANL (ALEPH) záznamy článků excerpovaných z titulové základny systému. Vstupními daty pro bázi ANL jsou dále záznamy spolupracujících institucí v rámci KOSABI.
  • Vstupními daty pro portál Periodika na www jsou volně přístupná periodika na Internetu.


B Analytická část

Zpět na Granty
.


10.9. 2004 Ivana Anděrová