Digital Preservation CZ

úterý 27. prosince 2016

Digital Preservation Metadata for Practitioners - Implementing PREMIS

12. prosince vyšla soudě podle obsahu hodně zajímává publlikace, sborník příspěvků o implementaci Premis. Obsahuje mj. samostatné kapitoly týkající se návrhu ochanných metadat pro různé typy materiálu, včetně třeba audiovizuálního, webové archivu nebo klasického archivního.

Digital Preservation Metadata for Practitioners
Implementing PREMIS
Editors:
Angela Dappert,
Rebecca Squire Guenther,
Sébastien Peyrard
ISBN: 978-3-319-43761-3 (Print) 978-3-319-43763-7 (Online)
http://link.springer.com/book/10.1007/978-3-319-43763-7#page=22

pátek 16. prosince 2016

Universal and Unified Core Trustworthy Data Repositories Requirements

Možná jste si v minulém příspěvku všimli zmínky o společné aktivitě ISCU a DSA. Tzv. Základní požadavky na důvěryhodné repozitáře jsou už publikovány zde a jsou dostupné online:

https://www.icsu-wds.org/news/news-archive/wds-dsa-unified-requirements-for-core-certification-of-trustworthy-data-repositories

PDF:
https://drive.google.com/file/d/0B4qnUFYMgSc-eDRSTE53bDUwd28/view?usp=sharing

Popravdě řečeno, není mi moc jasné, kam tahle spolupráce DSA a ISCU směřuje. Další informace jsou také na webu DSA: http://www.datasealofapproval.org/en/news-and-events/news/2016/11/25/wds-and-dsa-announce-uni-ed-requirements-core-cert/

čtvrtek 15. prosince 2016

DSA survery: co na DSA audit instituce?

Pěkný článek o Data seal of approval repozitářích. Kolegové z NCDD se ptali, jaký význam měl DSA audit pro jednotlivé instituce, co si o procesu mysli, atd..

Survey of DSA-certified digital repositories: Report on the findings in a survey of all DSA-certified digital repositories on investments in and benefits of acquiring the Data Seal of Approval (DSA)

Kees-Jan Waterman
Barbara Sierman

http://hdl.handle.net/20.500.11755/f5b93b07-83fb-40f4-89e9-7571ed093d32

úterý 13. prosince 2016

Dva zajímavé dokumenty z projektu InterPARES 2 - průvodce ochranou digitálních dokumentů a průvodce pro vytváření digitálních dokumentů

Projekt InterPARES jistě není třeba představovat. Je již ve své třetí fázi v podobě InterPARES trust (https://interparestrust.org/) a pokračuje ve vytváření různě zaměřených studií o digitálních archiváliích, dokumentech, společnosti a digital record keeping.
Výzkum a následné zprávy jsou rozčleněny do témat, jako např. infrastruktura, bezpečnost, zpřístupnění, právní otázky aj. - viz https://interparestrust.org/trust/about_research/domains
Všechny publikované zprávy jsou volně dostupné zde https://interparestrust.org/trust/research_dissemination - InterPARES Trust Reseach documents (momentálně 56).

Mj. jsou tam také k nalezení 2 publikace, které poskytují základní informace tvůrcům digitálních dokumentů a také těm, kteří se je snaží dlouhodobě ochránit. Oba dokumenty jsou staršího data, to jim ale nic neubírá na použitelnosti.

http://www.interpares.org/public_documents/ip2(pub)creator_guidelines_booklet.pdf

http://www.interpares.org/public_documents/ip2(pub)preserver_guidelines_booklet.pdf

pondělí 12. prosince 2016

IFLA Satellite konference o digital curation ve Varšavě - call for papers

Tohle by mohla být docela zajímavá akce, navíc není tak daleko:
http://2017.ifla.org/cfp-calls/library-theory-joint-with-preservation-conservation-and-information-tech

čtvrtek 8. prosince 2016

United States Government Publishing Office (GPO) a ISO 16363

United States Government Publishing Office (GPO) usiluje o externí certifikaci podle ISO 16363 pro své informační systémy. Federal Digital System (FDsys) by měl být certifikován podle této normy jako Trusted Digital Repository (TDR). Dlouhodobou archivací se zabývají již delší dobu, v roce 2014 začali pracovat na přípravě externí certifikace a podle informací na webu (https://www.fdlp.gov/project-list/trustworthy-digital-repository-tdr-audit) letos proběhl interní selfaudit TDR.

Letos v létě také GPO vypsala RFI s cílem zjistit blíže, kdo by mohl pro ně externí certifikaci udělat, a za jakých podmínek. (https://www.govinfo.gov/features/tdr-audit-rfi). Text s požadavky a dotazy z RFI je na https://www.fbo.gov/spg/GPO/PSPSD/WashingtonDC/ISO16363-RFI/listing.html. Bohužel odpovědi nejsou volně dostupné.

Jak je to v ČR? Česká vláda v této věci spoléhá na projekt Národní digitální archiv (NDA)? Opravdu data všech informačních systémů vlády se nakonec dostanou do NDA, třeba i kompletni obsah portálu oDok?

úterý 6. prosince 2016

Národní knihovna v Austrálii - Preservica

Video, kde Libor Coufal mluví o tom, jak NLA implementuje systém Preservica.

středa 23. listopadu 2016

CDA Formátové výzvy - sborník a prezentace

Na webu konference CDA jsou odkazy na úložiště s prezentacemi a sborníkem:
https://cloud.ulib.sk/index.php/s/tNVfuFZpRfwTt36
https://cloud.ulib.sk/index.php/s/K1uImUKw9KqAGom

pátek 11. listopadu 2016

10.11. 2016 Konference CDA - Formátové výzvy LTP

V Bratislavě proběhla 10.11. 2016 konference CDA, nazvaná Formátové výzvy LTP. Vyšel k ní i sborník:

CDA 2016: Formátové výzvy LTP : zborník prispevkov z 1. mezinárodnej konferencie o dlhodobej archivácii: Bratislava, 10.11.2016 / zost. Lucia Klementová, ISBN 978-80-89303-53-3

Spíše než o formátových výzvách to bylo celé o formátových strategiích a spíše než konference to byl seminář, kde byla stejně zajímavá debata jako jednotlivé příspěvky.

V první ranní sekci vystoupil Milan Rakús s příspěvkem o projektu CDA a jeho formátové strategii. Vysvětlil stav projektu CDA po dvou letech ostrého provozu, a popsal přístup CDA k formátům. Odpovědnost za výběr důvěryhodného formátu a jeho případnou migraci je v kontextu CDA na producentech dat, PFI. CDA se snaží je nutit k tomu, aby dodávali data v rozumných formátech (popsaných, s otevřenou specifikací) tak, aby počet formátů v archivy nebyl moc velký, v současnosti mají 26 typů formátů (při ca 3PB dat) nepočítaje v to samozřejmě data z nového projektu Digitálně pramene, kde se sklízí web.

Ve druhé přednášce vystoupila B. Žigová z CDA, a popsala existující formátové strategie některých archivů a knihoven v Evropě. Její srovnání trochu kulhalo na jednu nohu, protože porovnávala archivy archivující data procházející skartací, a jiné typy archivů. Data u ERMS systémů jsou kontrolovaná, a obvykle lze omezit počet dodávaných formátů, ale data přicházející mimo skartační řízení není asi jednoduché regulovat z hlediska variability formátů. Přesto paměťové instituce chtějí uchovávat takový obsah.

Příspěvek Jan Hutaře, (prezentoval M. Melichar), se nezabýval formátovou strategií Národního Archivu na NZ, ale změnami Pronomu a projektem NA NZ na opakovanou identifikaci formátů. NA NZ a NK NZ mají poměrně heterogenní sbírky, každá instituce ca 120TB dat. Uvědomili si, že Pronom a DROID se za posledních deset let dost proměnily, a opakovaná identifikace formátů přináší jiné výsledky než identifikace při vložení dat před 5 nebo 8 lety.

Identifikace formátů: Jednorázový nebo opakovaný proces? from dp-blog-cz

L. Cubr ve svém příspěvku vysvětlil, proč NK ČR používá formát JPG2000, poukázal na to, že NK ČR má především problémy s historickými daty. Jako zásadní problém uvedl zajištění kvality dat, NK ČR teď vytváří komplexní validátor, který bude validovat metadata z obsahového hlediska a validovat formáty vzhledem k profilu JP2, který NK od producentů vyžaduje.

Peter Bubestinger z rakouské Mediatéky měl velmi zajímavý příspěvek o tom, jak vybrat správně formát pro archivaci audiovizuálního obsahu. Upozornil na to, že hledání formátu, který umí všechno, nemá moc smysl. Vysvětlil, co všechno musíme vzít v úvahu, když vybíráme formát pro archivaci videa.

Odpoledne zazněly dva příspěvky týkající se archivace webu, jeden od A. Bizíka, o projektu Digitálně pramene, který představil formát WARC a první sklizně slovenského webu. Projekt má ca 800TB plánované kapacity, v současnosti nasklízeno ca 6TB dat, 40+ strojů s Heritrixem, část obsahu přístupná volně, v podobném režimu jako český Webarchiv. J. Kvasnica popsal novou verzi standardu pro warc 1.1, je ve fázi schvalování aktualizace ISO normy. Změny se týkají především oprav a vylepšení pro podporu deduplikace. Následující dotazy se týkaly možnosti sklízet javascriptem generované objekty, což webarchiv NK ČR prý dělá pro některé zdroje s využitím headless browserů, je to velmi pomalé, v masivnější míře nepoužitelné.

Příspěvek K. Mišutha z Tempestu poodhalil technologie, které jsou používány v CDA, resp. v jeho katalogu. Pro uchování metadata používají no sql sloupcovou databázi HDBase. Ukázal, jak získávají formátové statistiky pomocí YARN. To, co v archivu mají, by asi obsloužila i běžná relační databáze, ovšem architektonické rozhodnutí použít HDBase vzniklo na začátku plánování CDA pravděpodobně z důvodů nejasnosti typů metadatových struktur, se kterými bude katalog archivu CDA pracovat. Dnes to developerům trochu komplikuje život, ovšem do budoucna se možná ukáže, že to je udržitelnější přístup. Ze statistik, které Kamil ukázal, bylo vidět, že skoro dvě třetiny objektů v CDA jsou ve formátech/u TIFF.

Následující příspěvek se týkal produktu PIQL a poslední příspěvek IBM informoval, jaké jsou v oblasti LTP nástroje pro audit a certifikaci a co je to důvěryhodné úložiště. Vzhledem k tomu, že v publiku seděli lidé z institucí, které mají selfaudit podle ISO 16363 za sebou nebo na něm pracují, nebo které mají za sebou DSA certifikaci, byl příspěvek poněkud málo prakticky orientovaný a mnoho nového většině publika asi nepřinesl. Je to škoda, protože by určitě bylo zajímavé se dozvědět, jaké praktické zkušenosti má IBM s certifikací nebo auditem důvěryhodných úložišť u svých zákazníků.

Prezentace z konference PASIG nyní dostupné

V říjnu proběhla v New Yorku druhá letošní konference PASIG - http://www.pasignyc.org/. Nyní jsou dostupné prezentace z této konference - https://pasignyc.figshare.com/

úterý 18. října 2016

Organizational Assessment Frameworks for Digital Preservation

Chtěl bych upozornit na článek, z Journal of the Association for Information Science and Technology.

Analyzuje veškeré publikace věnované hodnocení kvality v oblasti dlouhodobé archivace. Analýza vede autory k závěru, že existující nástroje/rámce pro hodnocení kvality (jako ISO 16363, DRAMBORA, TRAC, DSA a mnohé další modely, o kterých na tomto blogu píšeme) mají robustní konceptuální základy, ale jsou nedostatečně empiricky ověřovány a validovány.

Maemura, E., Moles, N. and Becker, C., 2016. Organizational Assessment Frameworks for Digital Preservation: A literature review and mapping.
http://hdl.handle.net/1807/73869

https://tspace.library.utoronto.ca/bitstream/1807/73869/1/Maemura-Organizational-Assessment-Frameworks-JASIST_Preprint-VersionAsAccepted.pdf

čtvrtek 13. října 2016

Několik postřehů z iPRES 2016

Jak už jsme upozorňovali, před několika dny proběhla konference iPRES je zaměřená na digitální archivaci. Účastní se jí přední odborníci z oblasti a prezentovány jsou nejnovější výsledky výzkumu i informace o vývoji zásadních projektů a nástrojů.

Program konference: http://www.ipres2016.ch/frontend/index.php?folder_id=353

Sborník: http://www.ipres2016.ch/frontend/organizers/media/iPRES2016/_PDF/IPR16.Proceedings_4_Web_Broschuere_Link.pdf

Další informace »

úterý 11. října 2016

Český sociálněvědní datový archiv je čerstvým držitelem osvědčení Data Seal of Approval (DSA)

http://archiv.soc.cas.cz/aktuality/csda-ziskal-osvedceni-data-seal-approval-je-mezinarodne-spolehlivym-archivem#.V_yXVVSLSUl

A odkaz na PDF na webu DSA s vyjádřením shody s požadavky selfauditu:
https://assessment.datasealofapproval.org/assessment_200/seal/pdf/

Za přečtení také stojí jejich Preservation policy - v podstatě první dokument podobného typu u nás:-) a další dokumenty linkované z jejich selfauditu DSA.
http://archiv.soc.cas.cz/sites/default/files/csda_preservation_policy_0.pdf

čtvrtek 6. října 2016

Volně dostupné online kurzy správy výzkumných data

Uvádím několik pěkně udělaných online kurzů správy vědeckých dat, které jdou volně dostupné. Materiály jsou to poměrně rozsáhlé, ač se to nemusí na první pohled zdát.

http://datalib.edina.ac.uk/mantra/
http://rdmrose.group.shef.ac.uk/?page_id=10#session-1-introductions-rdm-and-the-role-of-lis
https://www.dataone.org/education-modules

úterý 4. října 2016

JHOVE Online Hack Day: 11 October

Moc pěkná akce, kterou byste neměli minout. A zajímavý formát - online hack day týkající se JHOVE.
http://openpreservation.org/event/jhove-online-hack-day/

Podrobnosti na https://docs.google.com/document/d/1lfk4jwI6E4yLQqXNQ8y4MieiyVVwBOHGmBLQNbRSO2Q/edit#heading=h.hs4lr6t52upt

pondělí 3. října 2016

iPRES 2016 právě probíhá

Ve švýcarském Bernu právě probíhá mezinárodní konference o digital preservation, iPRES 2016. Zájemci mohou sledovat dění online pomocí Twitter hashtage #ipres2016, mnoho přímých účastníků na Twitteru sdílí hlavní myšlenky prezentací, případně fotky slidů.
Zároveň kompletní sborník s plnými texty byl publikován se začátkem konference - dostupný zde https://ipr16.organizers-congress.org/frontend/organizers/media/iPRES2016/_PDF/IPR16.Proceedings_3_Web_Broschuere_Link.pdf

pondělí 19. září 2016

Essentials 4 Data Support - kurz RDNL

RDNL (asociace několika projektů v oblasti archivace vědeckých dat v Holandsku) má na webu pěkný kurz týkající se dlouhodobé archivace vědeckých dat. K dispozici je i verze zdarma a bez registrace.

http://datasupport.researchdata.nl/en/about-the-course/

středa 14. září 2016

Můj první "file format signature" - Andrea Byrne - aneb jak na to

Andrea Byrne (Archives New Zealand) popsala velmi zajímavou, návodnou a čtivou formou její experiment s vytvořením tzv. signature file pro databázi PRONOM, kterou provozuje Britský národní archiv. Signature files jsou poté používány pro automatizovanou identifikaci formátů dat, např. pomocí nástroje DROID.
Pokud máte formát, pro který signature file zatím neexistuje, zkuste si jej vytvořit, s pomocí návodu Andrey Byrne by to neměl být tak velký problém ;-D

http://openpreservation.org/blog/2016/09/08/making-the-switch-from-user-to-user-and-contributor-my-first-file-format-signature/

čtvrtek 8. září 2016

Preforma Experience Workshop - 23.11.2016

Prakticky za rohem, v Berlíně, se v listopadu koná seminář o výsledcích projektu PREFORMA.

http://experienceworkshop.preforma-project.eu/programme/

PREFORMA je zdaleka nejzajímavější aktivita v oblasti dlouhodobé archivace v Evropě - formou PPP EU financovala vývoj tří nástrojů pro dlouhodobou archivaci, resp. pro conformance checking - VeraPDF, DPF Manager, MediaConch.

Na semináři by mělo jít především o zkušenosti s těmito nástroji, které dnes mají některé paměťové instituce.

středa 24. srpna 2016

Konferencia CDA ´2016 (Formátové výzvy LTP) - 10.11.2016

CDA pořádá zajímavý seminář na téma formáty a LTP. Na webu je základní informace a formulář pro příhlášení:
http://cda.kultury.sk/sk/Konferencia_Formatove_vyzvy_LTP

čtvrtek 4. srpna 2016

Prezentace ze semináře NFA - Audiovisual Data: From Acquisition to Metadata

Před časem jsme tady psali o semináři NFA, který proběhl v kině Ponrepo v dubnu 2016.
http://www.digitalpreservation.cz/2016/04/seminar-nfa-v-kine-ponrepo-audiovisual.html

Teď jsou k dispozici slidy z většiny prezentací:

středa 3. srpna 2016

Nové číslo ITLibu 2/2016 - řada zajímavých článků

Bezpochyby z hlediska dlouhodobého ukládání digitálních dat v paměťových institucích stojí tohle číslo časopisu ITLib za přečtení, je opravdu povedené.

Pan Bartošek píše o systému Archivematica
Velmi zajímavý je článek o prvním roce provozu CDA od týmu paní Žigové a dalších, pan Androvič píše o relativně novém Slovenském projektu archivace web a e-born dokumentů Digitálně pramene
Článek Sibyl Schaefer o certfikaci LTP systémů je trochu moc obecný a opakuje mnohokrát řečené
Také je zde článek o plánech projektu ArcLib řešením z NAKI v knihovnách ČR

Kompletní obsah nového čísla ITLIbu:

Príhovor /Address
Príhovor /Address
Hlavné články/ Main Articles
Digitálne pramene – webharvesting a archivácia e-Born obsahu / Digital Resources – Webharvesting and E-Born Content Archiving
Projekt ArcLib – budování systému pro dlouhodobou archivaci digitálních dat v českých knihovnách / ArcLib Project: Designing Solution for Long-term Preservation in Czech Libraries
Knihovnícka profesia /Library Profession
Učící knihovník a vzdělávací technologie / The Teaching Librarian and Educational Technology
Uchovávanie dát / Data preservation
Uchovávanie digitálnych objektov a ich súčastí v prostrediach open-source systémov Invenio a DSpace / The Storing of Digital Objects and its Components in the Environment of Open-source Systems Invenio and DSpace
Uchování digitálního dědictví a systém Archivematica / Preservation of Digital Heritage and System Archivematica
The Importance of Establishing National Legislation on “Orphan Works”: Example of Old Doctoral Dissertations
Digitalizácia / Digitalization
Centrálny dátový archív roku 1 / Central Data Archive
Trustworthy Digital Preservation Repositories: an Introduction
Uchovávanie kultúrneho dedičstva / Preserving cultural heritage
Digitálny fond tradičnej ľudovej kultúry / Digital Fund of Traditional Folk Culture
Ochrana knižničných fondov / Collections preservation
Péče o novodobé knihovní fondy v Národní knihovně České republiky – průzkum fyzického stavu /Care about Libraries Collections after 1800 in The National Library of Czech Republic – Physical Conditions Survey
Internet
Public Collections on the Semantic Web in a Hungarian Context
Otvorený prístup/Open Access
Pasteur4OA: Kľúč na otvorenie vedy / Pasteur4OA: Key for Open Science
Podujatia / Events
INFORUM 2016 / INFORUM 2016

Publikace SAA: Digital Preservation Essentials

Docela zajímavě vypadající publikace Americké společnosti archivářů (The Society of American Archivists), asi nebude jednoduché si ji v ČR jako instituce koupit - prodává se jen v jejich e-shopu.

Digital Preservation Essentials

http://saa.archivists.org/store/digital-preservation-essentials/5285/

Edited by Christopher J. Prom & Erin O'Meara & Kate Stratton

Z obsahu:

Module 12: Preserving Digital Objects
Module 13: Digital Preservation Storage

čtvrtek 21. července 2016

Vývoj archivace webu - zajímavý článek z Portugalska

Pánové z portugalského webového archivu napsali pěkný shrnující článek o archivaci webu, jak se tato oblast vyvíjela v různých zemích, s jakými problémy musela a musí bojovat. Stojí za přečtení.

http://sobre.arquivo.pt/about-the-archive/publications-1/the-evolution-of-web-archiving

úterý 19. července 2016

Atomic data storage - průlomový výzkum na Univerzitě v Delft

Možná spíš než DNA by to mohlo jít jinak - každý bit jeden atom? Wow...no zatím jsme na 1KB, držme jim palce...

http://www.spiegel.de/netzwelt/gadgets/forscher-entwickeln-superlangsamen-superspeicher-a-1103458.html

středa 13. července 2016

Veškerá data Internetu do krabice od bot - DNA storage po Xté

Zhruba tak jednou ročně tady v posledních letech píšeme o pokusech s kódováním dat do DNA. K praktické implementaci to sice zatím nesměřuje, ale něco se děje.

Vloni se do DNA na Harvardu kódoval film a 20 milionů kopií knihy, letos s velkou pompou tvrdí Microsoft, že pokořil rekord, a do DNA vlákna uložil 200 MB dat.

Více na blogu Microsoftu.

středa 29. června 2016

Máme vůbec chtít normalizovat PDF do PDF/A 1a?

Asi jste si všimli, že i v České republice platí nařízení, podle kterého jsou pro archivaci v Národní digitálním archivu vyžadovány objekty ve formátu PDF/A úrovně 1a.

Existuje Usnesení vlády ČR ze dne 3. listopadu 2008 č. 1338, které podepsal ještě premiér Topolánek, kde se píše:

.............

I . s c h v a l u j e jako výstupní datový formát statických dokumentů v digitální podobě ze systémů spisové služby vykonávaných elektronickou formou za použití výpočetní techniky a jako datový formát statických dokumentů v digitální podobě připravovaných pro předání do Národního digitálního archivu

1. formát PDF/A-1a (ISO 19005-1 – Portable Document Format – Electronic document file format for long-term preservation) pro statické textové, obrazové a kombinované dokumenty v digitální podobě,

2. formáty PNG (ISO/IEC 15948:2004 – Portable Network Graphics) a TIFF (Tagged Image File Format – revize 6 – nekomprimovaný) pro statické obrazové dokumenty v digitální podobě;

--------------

Tohle je sice nařízení týkající se elektronických spisových služeb, ale v praxi má takové doporučení Národního archivu (mj. vyjádřené například také ve studii proveditelnosti NDA, ZD na NDA a jinde) dalekosáhlý dopad i na další projekty, knihovny, akademické instituce.

Odhlédněme teď od problému, že Usnesení vlády ani žádný další předpis pokud vím neříká, co vlastně je PDF/A 1a - jak ho poznáme - čili, jak technicky prokázat, že nějaký objekt je validní reprezentací PDF/A 1a. V tomhle bude jistě brzy jasněji, a online dostupný validátor PDF/A na webu NDA bude doplněn v polovině dalšího roku o validátor VeraPDF, kterýžto se v ideálním případě stane etalonem pro firmy produkující nástroje pro validaci, konverzi a produkci PDF.

Tím ale nejasnosti nekončí. Zásadní požadavky na PDF/A 1a jsou:

dokument musí obsahovat fonty se znaky v unicode (resp. znaky musí mít mapování na unicode)
dokument musí být "tagovaný", tj. musí obsahovat popis všech komponentů (průběžné hlavicky stránek, čísla stránek) a hlavně vyjádření logické struktury.

Zajímavý text na tohle téma na webu Ghostscriptu http://ghostscript.com/FAQ.html k tomu ale uvádí, že není v silách jakéhokoli obecného konvertoru PDF rozeznat v dokumentu poznámky pod čarou nebo nadpisy a korektně je označit, ba ani nemusí být schopen z dokumentu získat a vytvořit správnou logickou strukturu jednotlivých elementů, tak aby bylo zachováno autorem zamýšlené pořadí čtení.

A dál citují standard PDF, kde se píše:

"PDF/A-1 writers should not add structural or semantic information that is not explicitly or implicitly present in the source material solely for the purpose of achieving conformance." ... "It is inadvisable for writers to generate structural or semantic information using automated processes without appropriate verification."

Jinými slovy, automaticky z PDF PDF/A 1a dělat nemáme. Podobně se standard PDF vyjadřuje k automatickému převodu/mapování znaků na unicode.

Co si z toho teď odnést?

pokud máme velkou sbírku existujících PDF a chtěli bychom je ochránit, asi bychom se měli spokojit s PDF/A 1b
pokud už dokument PDF tagovaný je (jak to poznáme - viz dole k VeraPDF) a je ve fontech mapovaných na unicode, asi je šance, že se nám podaří vytvořit honest PDF/A 1a. Do PDF/A -1a ale nemůžeme s klidným srdcem (automaticky a bez asistence tvůrce dokumentu) dostat nic, co neobsahuje tagování a mapování na unicode
pokud nám nějaký nástroj poskytuje brute force konverzi do PDF/A 1a, měli bychom si být vědomi toho, že jde o "formální konverzi pro dosažení validace." Takový objekt projde validátory, ale je možné, že aby konverzí do PDF/A 1a prošel, bylo třeba něco oželet (některé znaky nemusí být ok, tak je prostě přeskočil), a struktura a tagování nevyjadřují - možná -záměry tvůrce dokumentu.
formálně vytvořený PDF/A 1a zkrátka nezaručí to, co PDF/A 1a zaručit má

Komentář ve FAQ Ghostscriptu končí větou: For these reasons, at present we have no plans to implement PDF/A1-a in pdfwrite. Což je myslím docela výmluvné.

Jak tady může pomoci VeraPDF (díky Elišce)

VeraPDF lze pustit i na soubory, které nejsou PDF/A 1a, a lze tak zjistit, jak daleko od standardu soubory jsou. Z výstupu extrakce VeraPDF poznáme přesně, kde se objekt od standardu PDF/A 1a liší:

	<rule specification="ISO 19005-1:2005" clause="6.8.2" testNumber="1" status="failed" passedChecks="0" failedChecks="1">
	<description>The document catalog dictionary shall include a MarkInfo dictionary whose sole entry, Marked, shall have a value of true</description>
	<object>CosDocument</object>
	<test>Marked == true</test>
	<check status="failed">
	<context>root</context>
	</check>
	</rule>
	<rule specification="ISO 19005-1:2005" clause="6.8.3" testNumber="1" status="failed" passedChecks="0" failedChecks="1">
	<description>The logical structure of the conforming file shall be described by a structure hierarchy rooted in the StructTreeRoot entry of the document catalog dictionary, as described in PDF Reference 9.6</description>
	<object>PDDocument</object>
	<test>StructTreeRoot_size == 1</test>
	<check status="failed">
	<context>root/document[0]</context>
	</check>
	</rule>

view raw VeraPDF output hosted with ❤ by GitHub

A podmínky jsou pak vidět na githubu v seznamu pravidel:

https://github.com/veraPDF/veraPDF-validation-profiles/wiki/PDFA-Part-1-rules#rule-683-1

https://github.com/veraPDF/veraPDF-validation-profiles/wiki/PDFA-Part-1-rules#rule-682-1

K tomu směřovala krátká debata na semináři k VeraPDF v Praze na Pasigu. Teoreticky by archiv mohl být spokojen i se "skoro PDF/A 1a." Vytvoří si vlastní validační profil, který bude méně přísný něž striktní PDF/A 1a, a bude přijímat i objekty se známými chybami - například ty, které nejsou v RGB, nebo jim pouze chybí deklarace shody s PDF/A 1a (https://github.com/veraPDF/veraPDF-validation-profiles/wiki/PDFA-Part-1-rules#rule-6711-3) i když jinak se s PDF/A 1a shodují....

úterý 28. června 2016

RODA 2.0 v docker toolbox na hraní za 10 minut

Archivační systém RODA, který vyvíjí firma KEEP SOLUTIONS v Portugalsku, a který je dostupný pod LGPL licencí , se blíží k finální verzi 2.0. Poměrně rychle si lze nainstalovat Docker Toolbox a během pár minut demo běží.

https://github.com/keeps/roda#demo-mode-based-on-docker-containers

úterý 21. června 2016

Kde jsou dnes uživatelé Rosetty?

Na webu jsou prezentace z Rosetta Advisory Group. Je z toho pěkně vidět, kde se dnes tahle komunita pohybuje a jaké problémy řeší:
http://knowledge.exlibrisgroup.com/Rosetta/Product_Materials/Rosetta_Advisory_Group_Meetings/RAG_2016

Zvlášť zajímavá je prezentace jednoho z vývojářů o škálovatelnosti a výkonu ingestu, což je asi věc, kterou velké instituce s masívními sbírkami docela řeší - jak dostat pod kontrolu v systému DAM petabyty dat...pěkné jsou přiložené HW konfigurace implementací Rosetty ve třech větších institucích.

http://knowledge.exlibrisgroup.com/@api/deki/files/42494/Ingesting_and_Managing_Digital_Content_at_Scale_-_Josh_Weisman%2C_EXL.pdf

čtvrtek 16. června 2016

Kde je dnes Norská národní knihovna?

OPF zveřejnila informaci o tom, že Norská národní knihovna se stala dalším členem konzorcia OPF. Krátké představení činnosti Norské národní knihovny v oblasti dlouhodobého ukládání digitálních dat stojí za ocitování.

Norská národní knihovna shromažďuje všechny typy médií publikované v Norsku, včetně rozhlasových a televizních pořadů, filmů, hudby a norské části Internetu. Během příštích 20-30 let má v plánu zdigitalizovat kompletně všechny své sbírky. Již bylo digitalizováno 90% všech knih publikovaných v Norsku, 30% všech novin a téměř 100% všech rozhlasových programů z největší a nejstarší rozhlasové stanice v Norsku.

V lednu 2016 byl revidován zákon o povinném výtisku, který umožňuje národní knihovně sklízet celý obsah webu na národní doméně, a zavádí povinný výtisk digitálních předloh všech tištěných publikací. Pro Norskou národní knihovnu je systém pro důvěryhodné uchovávání digitálních dat klíčový; spravuje 5,2 PB unikátních dat, ročně přibývá 1PB. Cílem knihovny je uchování těchto dat v horizontu 1000 let.

Wow!

středa 15. června 2016

Dlouhodobá archivace transakčních dat - DPC Technology Watch report

Preserving Transactional Data, Sara Day Thomson, 2016

http://dx.doi.org/10.7207/twr16-02

Velmi zajímavý text. Nejde jen o transakční data ve smyslu nějakých obchodních dat, dat o pohybech zboží, peněz, objednávkách, fakturách apod, ale o transakční data v širším smyslu, o jakákoli data generovaná v interakci s databází, třeba data administrativní povahy. Jak taková data spravovat dlouhodobě především pro účely vědeckého výzkumu a trvalého ukládání v archivech, a jak s nimi pracovat legálně?

Mluví se tu o big data, o problematice archivace a re-use živých dat a databází, o tom, jak může být komplikované taková data získat a smysluplně použít k archivaci, protože jsou součástí širšího aplikačního prostředí a kontextu, jsou předmětem zákonných regulací týkajících se copyrightu, ochrany soukromí a bezpečnosti, nebo protože mohou vypadat jinak z různých access pointů...a nemusí být tedy jasné co je "autentická reprezentace" nebo "significant preperty", které by archiv měl uchovat.

Tenhle typ dat nabourává tradiční představy archivů o tom, jak má vypadat archivovaný objekt. Tady už není nějaký dokument nebo spis, ale jen neustále se měnící záznamy v nějakých systémech a kontextech. Statický snapshot nemusí být vůbec snadné použít.....v této podobě uniká archivům stále více informací, které by mohly být pro budoucí badatele zajímavé.

Jen pro inspiraci, par odkazů, které nemůžu nezapsat:

ADML - http://xml.ra.se/addml

MIXES - https://sites.google.com/a/datanetworkservice.nl/mixed/

SIARD - http://www.digitalpreservation.gov/formats/fdd/fdd000426.shtml , https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html

Validator für TIFF-, SIARD-, PDF/A-, JP2- und JPEG-Dateien sowie SIPs (KOST-Val) -http://kost-ceco.ch/cms/index.php?kost_val_deDeepArc (BNF projekt transform relational database content into XML for archiving purposes) - https://sourceforge.net/projects/deeparc/

CHRONOS - http://www.csp-sw.de/en/products/chronos-database-archiving/

Database preservation toolkit: http://www.database-preservation.com/

http://www.researchobject.org/

úterý 14. června 2016

A DIGITAL DARK NOW? Digital information loss at three archives in Sweden

Docela zajímavá diplomka ze Švédska.

http://lup.lub.lu.se/luur/download?func=downloadFile&recordOId=8876749&fileOId=8876760

resp: http://lup.lub.lu.se/student-papers/record/8876749

Autoři (sic! dva autoři jedné diplomky, švédové jsou ve všem napřed, na konci diplomky prostě jen vysvětlují kdo co dělal a proč psali spolu) provedli několik rozhovorů ve třech archivech. Ptali se na to, jak je dlouhodobá archivace digitálních dat organizována, jak se vlastně archivy s digitálními daty potýkají a kde jsou rizika. Jejich respondenti nebyli z většinou z IT oddělení, ale spíš archiváři.

Jedním z hlavních zjištění je, že různé archivy jsou ve zcela jiné situaci a co je problém v jednom, není problém v jiném:

"In conclusion it can be stated that potential and actual information losses occur in many different ways. What is entirely unproblematic for one archive might constitute a great challenge for another. Examples of this include changes in format. At Archive B, these pose no threat, as this archive has the ability to affect the formats information is produced in. The situation is dramatically different at Archive C, where format changes are one of the absolute greatest challenges they have to overcome. Another example is that Archive B does not experience funding as a limitation in their preservation work, while Archive C is so hindered by it that they no longer feel that they truly preserve their material. ...."

Zajímavá je také klasifikace rizik, kde je zdůrazněno třeba používání postupů neadekvátních digitálním datům, "analogový přístup" k digitálním informacím.
The reasons behind such actual and potential information loss were:

Human error during the production of information
An analog understanding and treatment of digital information
A lack of organizational structure and strategies for digital preservation
Lack of resources
Technological limitations
Lack of competencies amongst staff who produce digital information

čtvrtek 9. června 2016

Into the future - po 20 letech

Říká se, že to nejhorší, co můžete udělat svojí oblíbené knize, je přečíst si ji znovu po 20 letech. Tak si zkusme podobný experiment a podívejme se po 20 letech na film Into the future: On the preservation of knowledge in the electronic age z roku 1997.

Bizarní je, že se nedá sehnat celý online, zato se dá pořád koupit za 64USD (i poštovným) na VHSce: http://www.americanfilmfoundation.com/order/into_the_future.shtml

I ty kousky, které na webu najdeme, stoji určitě za shlédnutí. A popravdě řečeno, mě nepřipadá, že by se toho od roku 1997 tak moc změnilo. Jasně, média, notebooky, monitory a lidí vypadají komicky, ale problém zůstává a řešení nemáme, tak nějak stojíme i konceptuálně na místě...

Kdo si ještě dnes vzpomene, na hořící knihovnu v Sarajevu v roce 1992? Kde jsou asi teď asi data z pásek ze sond Viking (10 min a dále - velmi pěkný záběr - a "magnetic tape is just a disaster for an archiving storage media"- Planetary data systems).

A Jeff Rothernerg: "The problem with preservation is one which archivists and librarians think about, because that’s their business, unfortunately computer science as a field has not put very much interest into this problem....it has a mindset that says, we are in a business of charging ahead into the future and dropping the past behind us and not carrying the baggage of old obsolete systems, people are more interested in what’s the new paradigm, how we going to create new exciting hypermedia with." a ve třetí části "My feeling is, we really cannot go back [to paper]...we have to admit that our documents will be digital in the future, but we have to address this problem of how they are going to remain readable and intepreterable..."

Ve třetí části stojí zato záběry z pohřebiště HW nebo záběry z data recovery lab...

Ve čtvrté části Jeff mluví o archivaci webu....škoda, že to není celé

Into the Future: On the Preservation of... by kevinglick

Into the Future: On the Preservation of... by kevinglick

Into the Future: On the Preservation of... by kevinglick

Into the Future: On the Preservation of... by kevinglick

čtvrtek 2. června 2016

Identifikace kontejnerových formátů pomocí DROID

Ross Spencer publikuje pravidelně na svém blogu zajímavé příspěvky týkající se dlouhodobé archivace. Za přečtení určitě stojí jeho příspěvek z letošního ledna, který se týká problematiky identifikace kontejnerových formátů.

http://openpreservation.org/blog/2016/01/07/droid-container-signature-files-what-they-are-and-how-to-create-them-a-template-and-an-example-or-few/

Cílem toho příspěvku bylo primárně popsat, jak vytvořit signatures (magic numbers) pro nějaký nepopsaný souborový formát a dodat do Pronomu. Popis mechanismu identifikace kontejnerových formátů (zavedený do DROID ve verzi 6) je ale užitečné si přečíst, i pokud takové ambice nemáte.

Kontejnerové signatures publikuje Pronom zde: http://www.nationalarchives.gov.uk/aboutapps/pronom/droid-signature-files.htm
a Ross vysvětluje, jak jsou spolu tradiční formátové signatures a kontejnerové signatures provázány a jaký je postup identikace.

Především archivy, které pracují v různorodým sbírkami digital born dokumentů, by měly věnovat identifikaci formátů věnovat pozornost a tam kontejnerové formáty identifikovat pomocí odpovídajících signatures.

Vedle DROIDu existují dnes i další nástroje, které někdy používají data z Pronomu (FIDO) nebo umožňují používat zdrojů signatures víc, jako Siegfried.

úterý 24. května 2016

Slidy ze semináře CNZ k ISO 16363

Na webu CNZ jsou PDF soubory se slidy ze semináře z minulého týdne:

http://www.cnz.cz/2016/04/15/pozvanka-na-workshop-audit-a-certifikace-duveryhodnych-digitalnich-ulozist/

pátek 20. května 2016

Seminář CNZ k ISO 16363

Především je třeba poděkovat CNZ za uspořádání téhle akce.

Předchůdce normy ISO 16363 - TRAC - byl publikován v roce 2007 a draft ISO normy ISO 16363 byl k dispozici už kolem roku 2010, kdy vzniklo známé Memorandum of understanding (http://www.trusteddigitalrepository.eu/Trusted%20Digital%20Repository.html). Existuje také český text normy, přeložený národní knihovnou v roce 2012 a publikovaný jako ČSN ISO 16363.

Zdaleka nejzajímavější byl pro mě osobně příspěvek pana Petra Hujňáka, který se na ISO 16363 podíval očima zkušeného auditora. Měl řadu poznámek k tomu, co v normě explicitně postrádá (rizikový apetit, atd.). Srozumitelně vysvětlil základní koncepty auditu informačních systémů, rozdíly mezi verifikací a validací, vazbu auditu na cíle organizace, koncepty risk-vulnerability-threat-assets z oblasti analýzy rizik. V řadě míst ISO 16363 není dostatečná asi také proto, že spoléhá na ISO 27001.

Povídání pana Širla, který seminář také moderoval, obsahovalo stručný přehled obsahu normy ISO 16363. Pan Širl, zdá se, je další člověk z ČR, který prošel týdenním školením Davida Giaretty a spol. v PTAB. Představil všechny části normy, ale bohužel neměl čas na podrobnosti.

Zkušenost s praktickou aplikací normy ISO 16363 měli reprezentovat pánové z Národní knihovny, ovšem jejich prezentace byly velmi obecné. Nedaleko na východ od nás má asi mnohem větší zkušenosti s ISO 16363 slovenský projekt CDA. CDA již před dvěma lety prošla prvním kolem certifikace podle ISO 270001 a self-auditu podle ISO 16363 a v současnosti se připravuje na další kolo. Jejich dokumentace je dostupná online na http://cda.kultury.sk/en/CDA_dokumenty a prezentace jejich zkušeností s aplikací ISO 16363 by asi byla zajímavější než bylo obecné povídání NK.

Z povídání pánů z NK nebylo jasné, v jaké fázi jejich použití normy je (příprava dokumentace, hotový self-audit, apod.), co přesně bylo/bude předmětem auditu (jaké technologie, sbírky - data, část organizace, jak v tom figuruje MZK apod.). Z informací na webu firmy AIP Safe (http://www.aipsafe.cz/en/about-us/news/ndl-certificate-ltp-audit) můžeme usoudit, že pravděpodobně půjde výhradně o audit technologií dodaných v rámci NDK a dat vzniklých v rámci tohoto projektu. Jakákoli dokumentace k aplikaci ISO 16363 v NK není nikde veřejně dostupná, takže zbývají jen dohady. Poněkud bizarně působilo tvrzení, že největším problémem pro NK (vedle financí, organizace - staffu) jsou formáty streamů - v kontextu homogenního archivu dat z projektu NDK, kde NK ukládá zatím jen jp2, txt soubory a xml tomu moc nerozumím. Možná kdyby o rizicích mluvil někdo, kdo s daty v NK skutečně pracuje, viděl by rizika především v data managementu....V kuloárech zaznělo, že NK připravuje letos ještě dokumentaci k self-auditu podle DSA, což ovšem podle mě mělo také veřejně zaznít.

Zajímavá byla závěrečná debata, jak jinak. Zaznělo v ní:
- řada systémů, které používají úřady, státní správa, apod. disponuje daty, která je třeba relativně dlouho uchovat. Nejde tedy jen o paměťové instituce a jejich data, ale také o data z oblasti zdravotnictví, data České správy sociálního zabezpečení nebo data z justice. V řadě případů jsou to data, která jsou nezbytná pro provoz státu, pro zajištění zdraví lidí, data kritických infrastruktur, data, která jsou potřeba pro prokázání občanských práv, bezpečnostní data apod.
- možná by mělo smysl, aby pro některá data byla zákonem dána povinnost ukládání v systémech certifikovaných podle normy podobné ISO 16363. Zákonná povinnost by mohla vypadat podobně, jako zákon o kybernetické bezpečnosti. Zaznělo i, že možná dlouhodobá péče o data měla předcházet péči o bezpečnost...k čemu je nám, že máme zabezpečené systémy, když nevíme, jak data v nich dlouhodobé uchovávat
- je třeba si uvědomit rozdíl mezi důvěryhodností systémů a dat v nich
- mluvilo se o eIDAS a o tom, jaké bude mít toto nařízení dopady

Z mého pohledu je představa, že povinnost certifikace podle ISO 16363 pro některé kritické infrastrukturní systémy státu určitě žádoucí. Nedovedu si ale představit širší aplikaci takových požadavků třeba do oblasti systémů pro správu dokumentů nebo spisových služeb. Jakkoli se k dlouhodobému ukládání postaví stát, bude to určitě znamenat více práce pro firmy a pro auditory...

Dnes již existuje hezká řada institucí, které auditem nebo certifikací podle TRAC nebo ISO 16363 procházejí. Naposledy jsme na PASIGu 2016 v Praze slyšeli zkušenosti Standfordské univerzity, která prošla externím auditem podle ISO 16363 od CLR (s tím ovšem, že certifikaci dostali jen jako TRAC ačkoli použili ISO 16363 kritéria a postupy auditu). Rozhodně bych si dovolil nesouhlasit s panem Širlem v tom, že se tato norma používá více v Evropě než v USA - právě naopak:

Univerzity of Columbia, Scientific data center (více publikací, ale například poster http://www.ciesin.org/binaries/web/global/news/2013/downschenrda20130916posterindevalscidatactrfinal.pdf je zajímavý)
ISPCR v University of Michigen
Purdue University
Consortium DataNet - University of North Carolina at Chapel Hill
Deakin University, Geelong, Australia
The Harvard Library Digital Repository Service

V Evropě pokud vím:

síť 26 repozitářů v Portugalsku (https://www.doria.fi/bitstream/handle/10024/97611/OR2014_proposal_RCAAP_ISO16363_Audit_PAPER_FINAL.pdf?sequence=1)
Dánská KB

úterý 17. května 2016

iPress 2016 - registrace otevřena

Letos v Bernu začátkem 3-6. října.

Zatím je zveřejněn pouze program 18ti tutoriálů a workshopů, kompletní program bude zveřejněn 15. 6. 2016:
http://www.ipres2016.ch/frontend/index.php?page_id=2833

Registrace (ušetřit se dá do 1.8.2016):
https://ipr16.organizers-congress.org/frontend/index.php?page_id=1161

pondělí 16. května 2016

JHOVE 1.14 - nové moduly a opravy

Open Preservation Foundation, která si minulý rok vzala JHOVE pod svá křídla, publikovala novou verzi tohoto populárního nástroje na extrakci technických metadat a validaci formátů.
Verze 1.14 má 3 nové moduly, které tak k dosavadním modulům přidávají nové možnosti - tedy extrakce technických metadat pro soubory PNG, WARC a gzip. PNG vyvinul původní autor JHOVE Gary McGath, WARC a gzip moduly vznikly v dánské národní knihovně.

Seznam dalších novinek a oprav (mj. podpora Unicode UTF-8 7.0.0), spolu s linkem na stažení nástroje, naleznete tady https://github.com/openpreserve/jhove/releases/tag/v1.14.6

odkazy