Formátová analýza sklizených dat v rámci projektu WebArchiv NK ČR

Jaroslav Kvasnica, Rudolf Kreibich

Abstrakt


V současné době Národní knihovna České republiky začala ukládat shromážděná data z archivu českého webu do úložiště dlouhodobé ochrany digitálních dokumentů. Článek se věnuje výstupu projektu Institucionální vědy a výzkumu, který má za cíl vytvořit plán pro retrospektivní analýzu souborových formátů nad celým webovým archivem a zmapovat nástroje, které tuto identifikaci provádějí. Podrobná znalost archivovaných dat umožní jejich kontrolu, která poskytne možnost vytvořit budoucí strategii jejich dlouhodobé ochrany. V neposlední řadě výstupy analýzy mohou vést ke zlepšení podmínek zpřístupnění archivovaných dat koncovému uživateli.

 

File Format Recognition of Data Harvested by Web Archiving Project of National Library of the Czech Republic.

National Library of the Czech Republic just begun to ingest harvested data from web archiving project into Long-term Preservation System. This article is output of Institutional Science and Research project aiming to implement retrospective file format recognition framework for harvested data and map tools related to file format recognition. Precise knowledge of archived data is cornerstone for building Long-term Preservation Strategy. Such analysis may also improve conditions of end-user access.

 

Jaroslav Kvasnica, Rudolf Kreibich

Národní knihovna České republiky

 

Klíčová slova


web archiv, WARC, souborové formáty, Národní digitální knihovna, Heritrix, dlouhodobá ochrana digitálních dokumentů, archivace, ARC

Full Text:

PDF

Reference

Zobrazit literaturu Skrýt literaturu

  • ARC_IA: Internet Archive ARC file format. Sustainability of Digital Formats: Planning for Library of Congress Collections [online]. 2008-02-14, 04-Apr-2013 [cit. 2013-06-25]. Dostupné z: http://www.digitalpreservation.gov/formats/fdd/fdd000235.shtml
  • BLEKINGE, Asger Askov. Identification tools, an evaluation: The Scape Characterisation Tool Testing Suite. OPEN PLANETS FOUNDATION. Open Planets Foundation: A community hub for digital preservation[online]. 23 February 2012 [cit. 2013-06-25]. Dostupné z: http://www.openplanetsfoundation.org/blogs/2012-02-23-identification-too...
  • Co je WebArchiv?. WebArchiv: archiv českého webu [online]. [cit. 2013-06-21]. Dostupné z: http://www.webarchiv.cz/
  • CUBR, Ladislav. Dlouhodobá ochrana digitálních dokumentů. 1. vyd. Praha: Národní knihovna České republiky, 2010, 154 s. ISBN 978-80-7050-588-5.
  • DAY, Michal. The Long-Term Preservation of Web Content. MASANÈS, Julien. Web archiving. Online-Ausg. New York: Springer, c2006, s. 177-199. ISBN 3540233385-.
  • HAAS, Juergen. Linux / Unix Command: file. About.com: Linux [online]. 2013 [cit. 2013-06-25]. Dostupné z: http://linux.about.com/library/cmd/blcmdl1_file.htm
  • HUTAŘ, Jan, Marek MELICHAR a Bohdana STOKLASOVÁ. Národní digitální knihovna. Knihovna. 2009, roč. 20, č. 1, s. 6-21.
  • HUTAŘ, Jan. Podrobnější popis projektu NDK a jeho kontext. NÁRODNÍ KNIHOVNA ČR. Národní digitální knihovna [online]. 13. 12. 2011. Praha [cit. 2013-06-21]. Dostupné z: http://ndk.cz/narodni-dk/podrobnejsi-popis-projektu
  • ROSENTHAL, Colin, Asger BLEKINGE-RASMUSSEN a Jan HUTAŘ. Průvodce plánem důvěryhodného digitálního repozitáře (PLATTER). 1. vyd. Praha: Národní knihovna České republiky, 2009, 51 s. ISBN 978-807-0505-694.
  • The technical registry Pronom: about. THE NATIONAL ARCHIVES. The National Archives [online]. 2013 [cit. 2013-06-25]. Dostupné z: http://www.nationalarchives.gov.uk/aboutapps/PRONOM/default.htm
  • WARC: Web ARChive file format. Sustainability of Digital Formats: Planning for Library of Congress Collections [online]. 2009-08-31, 04-Apr-2013 [cit. 2013-06-25]. Dostupné z: http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml
  • ZBIEJCZUK, Adam. Long Tail (dlouhý chvost). WEB 2.0: charakteristiky a služby [online]. červen 2007 [cit. 2013-06-25]. Dostupné z: http://zbiejczuk.com/web20/03-5-long-tail-dlouhy-chvost.html