Oddělení analytického zpracování | Báze ANL | ANL FULL | Koop. systém článkové bibliografie | Granty | Metodika popisu článků | English




SOUBORNÁ DATABÁZE KOOPERAČNÍHO SYSTÉMU ČLÁNKOVÉ BIBLIOGRAFIE - OPTIMALIZACE INTEGRACE A SPRÁVY HETEROGENNÍCH DAT

Souhrnná zpráva za rok 2003







D Použití finančních prostředků



D.1 Komentář



Použití finančních prostředků je zohledněno v následující tabulce. V rámci neinvestičních prostředků jsou odděleny placené služby, mzdy.

Plánované čerpání finančních prostředků do konce roku 2003 je zachyceno kurzívou.



Prostředky z podnikových zdrojů a jiných zdrojů činí podle doplňku ke smlouvě mezi NKČR a MKKČR 320 000 Kč. Z toho 120 000 Kč je plánovaného jako vklad Anopressu. Společnost umožňuje trvalé zpřístupnění 1 licence Tam Tam Professional (cca 15 000 měsíčně) pro další vývoj systému v NKČR.

Pracovníci oddělení mají vložit do projektu v tomto roce 200 000 Kč. Úplný vklad do projektu bude vyčíslen v konečném zúčtování projektu po jeho dokončení v tomto roce.

Vzhledem k tomu, že projekt je velmi náročný koncepčně i realizačně zároveň, je vklad hlavní řešitelky poměrně velký.

 

 

D.2 Tabulky

Neinvestice     Soub. databáze Kooper. systému čl. bibliogr. 2002   Limit   915 000,00 Kč  
Datum   Čís. fakt.   Neinvestice   Částka   Zůstatek  
    Služby ( plán 824 000 Kč)      
23.4.2003   23410076   Anopress - ANL FULL - údržba, ladění, linka (leden)   52 500,0 0 Kč   862 500,00 Kč  
23.4.2003   23410182   Anopress - ANL FULL - údržba, ladění, linka (únor)   52 500,00 Kč   810 000,00 Kč  
23.4.2003   23410353   Anopress - ANL FULL - údržba, ladění, linka (březen)   52 500,0 0 Kč   757 500,00 Kč  
7.5.2003   23410516   Anopress - ANL FULL - údržba, ladění, linka (duben)   52 500,00 Kč   705 000,00 Kč  
15.5.2003   2003-174   I. Mattern - ANL FULL - údržba, ladění, linka (01-05)   37 500,00 Kč   667 500,00 Kč  
3.6.2003   23410671   Anopress - ANL FULL - údržba, ladění, linka (květen)   52 500,00 Kč   615 000,00 Kč  
16.6.2003   20031   J. Koktan - program na kontrolu URL adres   12 000,00 Kč   603 000,00 Kč  
1.7.2003   2003-178   I. Mattern - ANL FULL - údržba, ladění, linka (červen)   7 500,00 Kč   595 500,00 Kč  
2.7.2003   23410845   Anopress - ANL FULL - údržba, ladění, linka (červen)   52 500,00 Kč   543 000,00 Kč  
3.7.2003   200315   J. Koktan - záloha ANL FULL (zrcadlo), export dat pro ANL   5 000,00 Kč   538 000,00 Kč  
31.7.2003   2003-181   I. Mattern - ANL FULL - údržba, ladění, linka (červenec)   7 500,00 Kč   530 500,00 Kč  
31.7.2003   2435   Intalace serveru full.nkp.cz po havárii serveru a IIS   4 685,00 Kč   525 815,00 Kč  
20.8.2003   23410996   Anopress - ANL FULL - údržba, ladění, linka (červenec)   52 500,00 Kč   473 315,00 Kč  
1.10.2003   23411210   Anopress - ANL FULL - údržba, ladění, linka (srpen)   52 500,00 Kč   420 815,00 Kč  
6.10.2003   2003-183   I. Mattern - ANL FULL - údržba, ladění, linka (srpen)   7 500,00 Kč   413 315,00 Kč  
6.10.2003   2003-187   I. Mattern - ANL FULL - údržba, ladění, linka (září)   7 500,00 Kč   405 815,00 Kč  
1.10.2003   23411334   Anopress - ANL FULL. - údržba, ladění, linka (září)   52 500,00 Kč   353 315,00 Kč  
     I. Mattern - ANL FULL - údržba, ladění, linka (říjen)          
    Anopress - ANL FULL - údržba, ladění, linka (říjen)      
     I. Mattern - ANL FULL - údržba, ladění, linka (listopad)      
     Anopress - ANL FULL - údržba, ladění, linka (listopad)      
     I. Mattern - ANL FULL - údržba, ladění, linka (prosinec)      
     I. Mattern - ANL > FULL - údržba, ladění, linka (prosinec)      
     J. Koktan - testování a ladění aplikace MNG, Báze titulů      
    Mzdové prostředky (plán 91 000 Kč)       
30.6.2003     Magúthová, Molitorisová, Mrákotová, Rumlenová, Vrbičanová   52 800,00 Kč   300 515,00 Kč  
zůstatek             300 515,00 Kč  
čerpáno       614 485,00 Kč    





E Resumé a klíčová slova



E.1 Resumé a klíčová slova v češtině



Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie (KOSABI) - bibliografické báze ANL a plnotextové báze ANL FULL. Bibliografické záznamy článků, publikovaných v českém periodickém tisku jsou postupně propojované s elektronickou podobou článku a metadata jsou uložena ve zdrojových kódech plných textů.

Výsledkem řešení projektu v r. 2003 je rutinní aplikace pro získávání a automatickou extrakci/indexaci bibliografických záznamů z plných textů (TTDE) a následné vytvoření importního souboru záznamů pro databázi bibliografických záznamů ANL a databázi plných textů ANL FULL v NK s implementací metadat DC v plných textech včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě - aplikace pro lokální stanice v NKČR. Automaticky se generuje URL.

V r. 2003 byla navržena a částečně realizována internetová aplikace pro získávání a automatickou extrakci/indexaci bibliografických záznamů z plných textů (WWW TTDE) rozšířená o vstupní formáty HTML z libovo lné URL adresy s možností ukládat metadata do báze ANL FULL (ANL) i bez uložení plných textů, dále s možností propojení na rejstříky báze ANL FULL. V současné době probíhají práce na propojení linky se soubory autorit - v tomto projektu na základě zprovoznění komponenty pro asp rozhraní. V této lince je zakomponován i modul pro opravy rejstříků a metadat v plných textech báze ANL FULL (částečně hrazeno z projektu Propojení analytických záznamů).

V r. 2003 je průběžně věnována pozornost definici báze ANL FULL a definici vyhledávání v bázi (prostý dotaz, formulářový dotaz, topiky, rejstříky). Indexace plnotextové databáze v systému TOPIC umožňuje pojmové vyhledávání informací na základě strukturovaných dotazů - topiků, které byly dále aktualizovány. Navrženy a implementovány nové definice topiků (hrazeno z projektu Propojení analytických záznamů).

V r. 2003 je v rutinním provozu aplikace pro administraci databáze ANL FULL (statistiky, opravy, evidence uživatelů) a aplikace pro stahování a export metadat a plných textů (formát text, rdf, html, UNICODE, XML).

V lince zpracování bibliografických záznamů z plných textů (TTDE) bylo zpracováno a následně naimportováno do báze ANL a ANL FULL cca 13 000 metadat (bibliografických záznamů) a plných textů. Průběžně jsou staticky propojovány záznamy s plnými texty z volně dostupných stabilních titulů na Internetu v bázi ANL (cca 2181 propojení - říjen 2003, hrazeno z projektu Propojení analytických záznamů).

V r. 2003 je udržován portál pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a regionální s popisem zdrojů.

V roce 2003 byla průběžně aktualizována souborná databáze kooperačního systému ANL a vydáván CD-ROM s Českou národní bibliografií.

V r. 2003 je dále laděna a testována aplikace pro správu a údržbu bibliografické báze dat KOSABI včetně Báze pro evidenci titulů - částečně poloprovozní stádium v NKČR.

Hypotéza orientovat se spíše na automatickou extrakci dat s využitím možností inteligentního vyhledávání systému TOPIC a jeho interaktivních vlastností je doplněna o možnost automatické kategorizace plný >ch textů za předpokladu migrace systému TOPIC na platformu K2. Byla provedena analýza selekční úplnosti topiků a navrženy metody jejich zkvalitnění (hrazeno z projektu Propojení analytických záznamů).

V r. 2003 navázán pracovní kontakt se 4 nově vzniklými krajskými knihovnami - laděn UNIMARC a excerpční základna.




Klíčová slova:

Plné texty; TOPIC; topiky; analytická indexace; záznam; seriály; články; zpřístupnění; souborná databáze; propojování; Kooperační systém článkové bibliografie; management; Česká národní bibliografie; vyhledávání; automatická indexace; automatická extrakce; automatické shlukování; automatické abstrahování; ANOPRESS; KOSABI; ANL; ANL FULL; plnotextová databáze; pojmové vyhledávání; CD-ROM; UNIMARC; Dublin Core; metadata ; HTML; XHTML; XML; digitální knihovna






E.2 Abstract and key words in English



Abstract:

The contents of this project is optimization of integration and management of heterogenous data which are involved in union bibliographic database ANL of the Co-operative system of Article Bibliography (COSABI) and full texts database ANL FULL. Bibliographical entries of articles published in Czech periodicals are linked with electronical form and matadata are involved

in source documents of full texts.

The 2003 has resulted in running system operation of acquisition and workflow of automated exctraction indexing of bibliographical entries from fulltexts (TTDE) and creating of imported file for bibliographical database ANL and full texts database ANL FULL in NLCR with metadata embadement in full texts including automatically generated DC in HTML, XHTML, XML (qualified, unqualified) - TTDE on lokal workstations in NLCR. Automatic URL generation.

The 2003 has resulted in partial realization of WWW aplication of acquisition and workflow of automated extraction indexing of bibliographical entries from fulltexts (WWW TTDE) including sources in HTML format directly from their URL. It is possible include metadata to ANL FULL (ANL) database without fulltexts. Linking to ANL FULL indexes is possible, too. Activities concernig linking to authority files are done - in this project on the base of component for asp interface. A modul for correction of indexes and metadata is a part of this application (partially funded from the rearch project Analytical Bibliographic Records as a Gateway of Documents).

Definition of ANL FULL database and search method have been specified regularly (simple search, advanced search, topics, index). Topics in database ANL FULL in TOPIC system (concept based retrieval) have been updated (funded from the rearch project Analytical Bibliographic Records as a Gateway of Documents).

In 2003 an application for administration (statistics, correstions, users) has been put into full operation as well as application for dowlnload and export of full texts with metadata in several formats (text, rtf, html, UNICODE, XML).

In the workflow of automatic extraction indexing have been produced and than imported to ANL and ANL FULL database ca 13 000 bibliographic records/metadata records and full texts.
Statics links have been done between bibliographic records and free Internet full texts regularly (ca 2181 links - August 2003, funded from the rearch project Analytical Bibliographic Records as a Gateway of Documents). Portal for free texts on Internet has been maintained (subject and regional structure) with resource description.

The union database of co-operative system has been regulary updated and published on CD-ROM as The Czech National Bibliography.

In 2003 an application for management of COSABI is tested and optimised including Titles´ database - partial pilot operational system in NLCR .

Orientation on automatic extraction indexing and data generating with possibilities of concept and intelligent retrieval of TOPIC system has been confirmed, interactive properties of TOPIC system and automatic categorization of documents as well.. Analysis of recall of topics has been done and suggestions for improvement of their quality, too (funded from the rearch project Analytical Bibliographic Records as a Gateway of Documents).




Key words:



Full texts; TOPIC; topics; analytical indexing; entries; serials; articles; access; union database; linking; Co-operative system of Article Bibliography; COSABI; management; Czech National Bibliography; searching; machine-aided indexing; automatic extraction indexing; abstracting; clustering; ANOPRESS; COSABI; ANL; ANL FULL; fulltext database; concept based retrieval; CD-ROM; UNIMARC; Dublin Core; metadata; HTML, XHTML, XML; digital library




PhDr. Vojtěch Balík, ředitel NKČR

PhDr. Ivana Anděrová, hlavní řešitelka



F Přílohy

Zpět na Granty .



10.9. 2004 Ivana Anděrová


01.12.12