středa 24. února 2016

Data seal of approval pro mapovou sbírku Karlovy univerzity v Praze

Druhým projektem v ČR, který pro svůj repozitář digitálních dat získal certifikaci podle Data seal of approval je repozitář Univerzity Karlovy, resp. mapová sbírka v něm uložená. Tzn. že vedle již dříve certifikovaného repozitáře Lindat Clarin na MFF UK má Univerzita Karlova teď další projekt, ve kterém usiluje o budování důvěryhodného dlouhodobého digitálního úložiště.

Dokumentace k hodnocení je na
https://assessment.datasealofapproval.org/assessment_184/seal/pdf/

Více k Data seal of approval v češtině na webu http://dsa.cuni.cz/

úterý 23. února 2016

Nový Udemy kurz - Managing metadata with ExifTool

Online kurzy Garyho McGatha už jsme zmiňovali. Nyní k nim ale přibyl další o nástroji ExifTool pro extrakci metadat. Kurz stojí nepříjemných 41 euro, ale do konce února je jej možno získat za pouhých 14 euro.

pondělí 15. února 2016

Rozdíly v identifikaci PDF mezi Fido a Siegfriedem

Kromě toho, že jsou problémy s validací PDF/A (neexistuje standardní validátor - komunitně vyvíjený VeraPDF je stále v beta verzi, běžně používaný Jhove neparsuje celé soubory a shodu s normou pro PDF/A neověřuje tedy plně) jsou rozdíly také v tom, jak jsou jednotlivé nástroje schopné identifikovat PDF/A.

Část 1. První pokus FIDO vs SF, a porovnání výsledků s Jhove a VeraPDF 


Na souboru ca 12tis PDF souborů z univerzitního repozitáře jsem si vyzkoušel porovnat rozdíly mezi FIDO a novějším Siegfriedem. Bez ohledu na detaily, je trend celkem jasný - Fido identifikuje méně souborů jako PDF/A než Siegfried.

Ty nástroje používají stejný zdroj informací, PRONOM signatures, ale výsledky jsou jiné.  Tady je sumarizace výstupu (PDF/A 1b = fmt/354, fmt/95 - PDF/A 1a).


fido sf
fmt/16 1001 1002
fmt/17 3260 3258
fmt/18 5530 5478
fmt/19 1415 1406
fmt/20 758 550
fmt/354 946 1197
fmt/276 81 81
fmt/95 1 5
12992 12977

Jak vypadají stejná data při validaci v Jhove? Jhove rozpozná 1551 souborů PDF/A 1b, jeden jediný jako 1a - viz tabulka dole:

Verze PDF
počet
  Version: 1.3
3256
  Version: 1.4
6410
  Version: 1.5
1355
  Version: 1.6
791
  Version: 1.7
77
  Version: 1.2
1002
Celkem
12891

Status
  Status: Well-Formed and valid
11267
  Status: Well-Formed, but not valid
1067
  Status: Not well-formed
697
Celkem
13031

Profile
  Profile: ISO PDF/A-1, Level B
677
  Profile: Linearized PDF
2513
  Profile: Linearized PDF, ISO PDF/A-1, Level B
873
  Profile: Linearized PDF, Tagged PDF
69
  Profile: Tagged PDF
10
  Profile: Tagged PDF, ISO PDF/A-1, Level B
1
  Profile: Tagged PDF, ISO PDF/A-1, Level B, ISO PDF/A-1, Level A
1
Celkem
4144



Už na první pohled čísla úplně nesedí:
PDF/A 1B:  FIDO 946, Siegfried 1197, Jhove 1551
PDF/A 1A: FIDO 1, Siegrfried 5, Jhove 1

Ad PDF/A 1A
Pokud jde o soubory, které některý z nástrojů identifikoval jako PDF/A 1A, tak ani u jednoho se všechny tří nástroje neshodnou.
- soubor, který je podle Jhove PDF/A 1A je podle FIDO jen fmt/18 a podle Siegfried PDF/A 1B. VeraPDF ma problémy s parsováním XMP a  PDF/A 1B to podle VeraPDF není
- pět souborů, které identifikoval Siegfried jako PDF/A 1A, jsou podle FIDO fmt/18, čtyři z nich jsou podle Jhove PDF/A 1B, jeden má Jhove profil Linearized PDF, Tagged PDF.
- Dva z nich jsou podle VeraPDF validní PDF/A 1b, má ale problémy s fonty. I přesto jsou validní, vyprodukované na openoffice. Další tří jsou podle VeraPDF nevalidní nebo je nelze validovat.

Ad PDF/A 1B
Soubory, které byly Siegfriedem identifikovány jako PDF/A 1b (fmt/354) jsem zkusil validovat pomocí VeraPDF. Validace VeraPDF proběhla na 1124 souborů a pouze dva byly oznaceny jako validní reprezentace PDF/A 1B. Vzhledem k tomu, že VeraPDF je beta verze, řekněmě, že to není úplně jisté:-)

Část 2. Druhý pokus  FIDO vs FS, a porovnání výsledků s Jhove a VeraPDF 


Zkusil jsem další balík dat, novější kvalifikační práce (2015), ca 7900 kusu PDF souborů prací. Výsledek je takový, že FIDO zcela jistě neidentifikuje PDF/A 1b a 1a spolehlivě. U PDF/A celkově za Level A a Level B selhává u ca 30%. 

Pozn. Použil jsem defaultní nastavení bufferů FIDO. Je otázka, jestli zvětšení bufferů výsledky zlepší nebo ne. 

fido sf
fmt/16 0 0
fmt/17 476 474
fmt/18 1318 1178
fmt/19 5457 5457
fmt/20 167 167
fmt/354 339 408
fmt/276 158 151
fmt/95 1 79
7916 7914

A sumarizace výstupu z Jhove:

format
  Format: PDF
7919
Verze PDF
  Version: 1.3
314
  Version: 1.4
1628
  Version: 1.5
5154
  Version: 1.6
138
  Version: 1.7
122
  Version: 1.2
status
  Status: Well-Formed and valid
6308
  Status: Well-Formed, but not valid
517
  Status: Not well-formed
1094
 profile
  Profile: ISO PDF/A-1, Level B
211
  Profile: Linearized PDF
163
  Profile: Linearized PDF, ISO PDF/A-1, Level B
163
  Profile: Linearized PDF, Tagged PDF
5
  Profile: Tagged PDF
48
  Profile: Tagged PDF, ISO PDF/A-1, Level B
125
  Profile: Tagged PDF, ISO PDF/A-1, Level B, ISO PDF/A-1, Level A
0
mime-type
  MIMEtype: application/pdf
7919
































Výsledek je tedy podobný  jako u staršího souboru PDF z prvního testu. Za zmínku tady stoji těch 1500 souborů, které nejsou well formed nebo validní. 20% je na relativně nový soubor dat z roku 2015 docela dost.

PDF/A 1B:  FIDO 339, Siegfried 408, Jhove 499
PDF/A 1A: FIDO 1, Siegrfried 79, Jhove 0

Ad PDF/A 1A
Jhove nenašel ani jeden PDF/A 1A soubor, zatímco Siegfried jich identifikoval 79 a FIDO jeden.
79 souborů identifikovaných jako PDF/A 1A budou ve většině případů soubory PDF/A 1b vytvořené jedním nejmenovaným komerčním nástrojem, který mají studenti online k dispozici, a který míchá Level A a Level B dohromady.

Ad PDF/A 1B
Pokud pro SF sečteme 79 identifikovaných  PDF/A  1A a 408 identifikovaných PDF/A 1B, dostaneme mnohem rozumější čísla, shoda mezi Siegfriedem a Jhovem je tady mnohem větší než u prvního souboru dat. PDF/A 1B:  FIDO 339, Siegfried 487, Jhove 499.

Pomocí VeraPDF jsem validoval 408 souborů identifikovaných jako PDF/A 1B Segfriedem, podle VeraPDF jich byla validní jedna desetina, přesně 42. Ze 79 falšených PDF/A bylo podle VeraPDF 76 validních reprezentaci PDF A 1B.

Závěr? 

- v souborech (13tis souborů z kvalifikačních praci do roku 2011 a 7900 hlavních PDF kvalifikačních prací z roku 2015) skoro jistě není žadná validní reprezentace PDF/A - 1A
- FIDO je velmi opatrný v tom, co identifikuje jako PDF/A, rozdíl od Siegfriedu a Jhove je velký, někdy 1/3
- Jhove a Siegfried se víceméně shodnou v tom, co je PDF/A, ale už spolu nesouhlasí ohledně verze (Level A vs Level B). Problém ale pro tahle data způsobuje známý konvertor....
- Validace identifikovaných PDF/A pomocí VeraPDF potvrzuje jen část souborů, identifikovaných Siegfriedem (a Jhove) jako validní reprezentace PDF/A 1b.
- V prvním případě, v souboru dat vznikajících před rokem 2011, byly jako validní označeny jen 2 z více než 1100 souborů.
- Ve druhém případe bylo označeno VeraPDF za validní 42 ze 406 identifikovaných jako PDF/A 1b (fmt/354)
- Siegfried dále identifikoval 79 souborů jako PDF/A 1a, z nich 76 prošlo validací VeraPDF jako PDF/A 1b.  Tady se Siegfried nechal splést, studenti vytvářeli tyto soubory online nástrojem, který jim univerzita poskytuje, a který míchá obě úrvoně PDF/A 1 dohromady.



Doplněk:
Kromě hlavních textů kvalifikačních prací jsem Siegfriedem identifikoval i soubory příloh (k pracím z roku 2015). Celkem ve 2500 souborech a archivech bylo ca 490tis objektů, se 160 jedinečnými PUIDy, a 60 mime type. 60 formátů (PUID) se vyskytovalo více než 100x. Trvalé uchování takových dat bude asi dost problém:-)

středa 10. února 2016

Preserving Our Heritage - Perspectives from antiquity to the digital age

Ambiciózní publikace s obrovským záběrem. Sborník textů o ochraně kulturního dědictví na ploše nějakých 700 stran obsahuje řadu historických textů, včetně starších úvah o dlouhodobé ochraně dat v digitální podobě.

http://www.facetpublishing.co.uk/title.php?id=049467#table-of-contents-tab

Preserving Our Heritage: Perspectives from Antiquity to the Digital Age
Cloonan, M.V.
Facet Publishing
ISBN 9781856049467
2015
Facet Publishing

úterý 9. února 2016

Digital Preservation Sound and Vision: Policy, Standards and Procedures

Nizozemský Institut pro zvukové a obrazové dokumenty (Netherlands Institute for Sound and Vision) publikoval v lednu zajímavý dokument, který shrnuje přístup, procesy a chápání dlouhodobé ochrany tohoto typu dat v dané instituci.
Dokument je pěkným dokladem transparentnosti konkrétní instituce, který tímto zcela jasně dává najevo o co jí jde, jaké procesy a přístupy jsou preferovány a kam vlastně směřuje. V textu naleznete informace o formátech, které jsou používány (DPX, MXF, BWF aj.), o plánování ochrany, o sledování technologií, o tom co rozumí pod pojmy autenticita a integrita, o řešení HW uložení, kontrolách fixity, preferovaných aktivitách ochrany, používaných metadatech, storage policy, rozlišování stupňů ochrany apod.
V úvodu dokumentu je uvedeno, že se institut bude snažit o stupňovitou certifikaci jako důvěryhodné úložiště (TDR) a to pomocí Digital Seal of Approval, DIN 31664 a DSA-WDS metodik. To vše v letech 2016-2020.

Zpráva je přístupná ke stažení jako PDF zde http://publications.beeldengeluid.nl/pub/388/