Analýza českého webového archivu: Provenience, autenticita a technické parametry

Jaroslav Kvasnica, Andrea Prokopová, Zdenko Vozár, Zuzana Kvašová

Abstrakt


Účel – Článek poskytuje přehled možných vstupních kritérií při archivaci webových stránek webovými archivy a popisuje, jaký dopad může mít jejich nastavení na výsledná archivní data v rovině obsahové, formátové a technické. Nastavení vstupních parametrů při webové archivaci přímo determinuje výslednou podobu archivního obsahu a v případě realizování výzkumu nad těmito daty badatelé potřebují znát jejich provenienci. Bez těchto znalostí není pro badatele možné pracovat s archivními daty jako s reprezentativními. 

Design/metodologie/přístup – Stěžejní metodou pro zpracování článku byla datová analýza indexu, tj. seznamu všech digitálních objektů českého webového archivu (Webarchivu) Národní knihovny ČR, a vstupních proměnných při tvorbě archivních dat. Konkrétně byla zkoumána jejich provenience, autenticita nebo obsah. V neposlední řadě pak i technická stránka věci, kterou je například nastavení sklízečů. Analýza vychází z praxe a proběhla nad reálně sklizenými daty.

Výsledky – V článku jsou shrnuty faktory, které ovlivňují výslednou podobu archivních dat. Zaprvé jsou to faktory, které mají dopad na sběr dat, což jsou technická nastavení, strategie výběru zdrojů, tzv. Collection policy, a legislativa. Zadruhé se jedná o nakládání s archivními daty, a to zejména o pravidla pro jejich mazání a omezování přístupu k obsahu. V článku je dále popsána analýza indexu webového archivu, která přinesla kvantifikovaný pohled na archiv a ukázala počty digitálních objektů, procentuální zastoupení souborových formátů, složení domén a vývoj archivu v čase.

Originalita/hodnota – Největším přínosem článku je ucelený náhled na data uložená ve Webarchivu, jakým způsobem vznikají a co jejich vznik ovlivňuje. Toto je stěžejní pro všechny potenciální badatele, kteří mají zájem pracovat s daty Webarchivu a kteří potřebují znát provenienci dat pro svůj výzkum.


Klíčová slova


archivace webu, Webarchiv, big data, vytěžování dat, datová analýza, digitální archivace, webové zdroje, metody webové archivace

https://doi.org/10.5817/ProIn2019-1-2

Full Text:

PDF

Reference

Zobrazit literaturu Skrýt literaturu

About /robots.txt. (2007). Dostupné z: http://www.robotstxt.org/robotstxt.html

Blumenthal, K. (2018). Access Archive-It's Wayback index with the CDX/C API. Dostupné z: https://support.archive-it.org/hc/en-us/articles/115001790023-Access-Archive-It-s-Wayback-index-with-the-CDX-C-API

Brügger, N., Schroeder, R. (2017). The Web as History. UCL Press. Dostupné z: http://discovery.ucl.ac.uk/1542998/

Corey Davis. (2014). Archiving the Web: A Case Study from the University of Victoria. Code4Lib Journal, Iss 26 (2014), (26).

Costa, M., Gomes, D., & Silva, M. (2017). The evolution of web archiving. International Journal on Digital Libraries, 18(3), 191–205. Dostupné z: https://doi.org/10.1007/s00799-016-0171-9

Cubr, L. (2010). Dlouhodobá ochrana digitálních dokumentů. Praha: Národní knihovna České republiky.

Cubr, L. (2017). Autenticita a digitální informace. Praha: Univerzita Karlova v Praze. Disertační práce.

Graham, M. (2017). Robots.txt meant for search engines don’t work well for web archives. Dostupné z: https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/

Hartig, O. (2009). Provenance Information in the Web of Data. LDOW, 538.

Haškovcová, M., Holoubková, M., Kvasnica, J., & Hrdličková, M. (2017). Akvizice českých webových zdrojů. Acta Musei Nationalis Pragae (Historia), 71(3–4), 41–46.

Kahle, B., & Burner, M. (1996, September 15). Arc File Format. Dostupné z: https://archive.org/web/researcher/ArcFileFormat.php

Kvasnica, J. (2015). Budoucnost českého webového archivu. Inforum 2015. Praha: Národní knihovna České republiky.

Masanès, J. (2005). Web archiving methods and approaches: a comparative study. Library Trends, 54(1). Dostupné z: https://muse.jhu.edu/article/193226/summary

Osborne, A. (2018, July 4). Heritrix 3: Introduction. Dostupné z: https://github.com/internetarchive/heritrix3/wiki/Introduction

Shein, E. (2016). Preserving the Internet. Communications of the ACM, 59(1), 26–28. Dostupné z: https://doi.org/10.1145/2843553

Tackling Illegal Content Online. (2017). Dostupné z: https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:52017DC055