Část 1. První pokus FIDO vs SF, a porovnání výsledků s Jhove a VeraPDF
Na souboru ca 12tis PDF souborů z univerzitního repozitáře jsem si vyzkoušel porovnat rozdíly mezi FIDO a novějším Siegfriedem. Bez ohledu na detaily, je trend celkem jasný - Fido identifikuje méně souborů jako PDF/A než Siegfried.
Ty nástroje používají stejný zdroj informací, PRONOM signatures, ale výsledky jsou jiné. Tady je sumarizace výstupu (PDF/A 1b = fmt/354, fmt/95 - PDF/A 1a).
fido | sf | |
fmt/16 | 1001 | 1002 |
fmt/17 | 3260 | 3258 |
fmt/18 | 5530 | 5478 |
fmt/19 | 1415 | 1406 |
fmt/20 | 758 | 550 |
fmt/354 | 946 | 1197 |
fmt/276 | 81 | 81 |
fmt/95 | 1 | 5 |
12992 | 12977 |
Jak vypadají stejná data při validaci v Jhove? Jhove rozpozná 1551 souborů PDF/A 1b, jeden jediný jako 1a - viz tabulka dole:
Verze
PDF
|
počet
|
Version: 1.3
|
3256
|
Version: 1.4
|
6410
|
Version: 1.5
|
1355
|
Version: 1.6
|
791
|
Version: 1.7
|
77
|
Version: 1.2
|
1002
|
Celkem
|
12891
|
Status
|
|
Status: Well-Formed and valid
|
11267
|
Status:
Well-Formed, but not valid
|
1067
|
Status: Not well-formed
|
697
|
Celkem
|
13031
|
Profile
|
|
Profile: ISO PDF/A-1, Level B
|
677
|
Profile: Linearized PDF
|
2513
|
Profile: Linearized PDF, ISO PDF/A-1, Level B
|
873
|
Profile:
Linearized PDF, Tagged PDF
|
69
|
Profile: Tagged PDF
|
10
|
Profile: Tagged PDF, ISO PDF/A-1, Level B
|
1
|
Profile: Tagged PDF, ISO PDF/A-1, Level B, ISO PDF/A-1, Level A
|
1
|
Celkem
|
4144
|
Už na první pohled čísla úplně nesedí:
PDF/A 1B: FIDO 946, Siegfried 1197, Jhove 1551
PDF/A 1A: FIDO 1, Siegrfried 5, Jhove 1
Ad PDF/A 1A
Pokud jde o soubory, které některý z nástrojů identifikoval jako PDF/A 1A, tak ani u jednoho se všechny tří nástroje neshodnou.
- soubor, který je podle Jhove PDF/A 1A je podle FIDO jen fmt/18 a podle Siegfried PDF/A 1B. VeraPDF ma problémy s parsováním XMP a PDF/A 1B to podle VeraPDF není
- pět souborů, které identifikoval Siegfried jako PDF/A 1A, jsou podle FIDO fmt/18, čtyři z nich jsou podle Jhove PDF/A 1B, jeden má Jhove profil Linearized PDF, Tagged PDF.
- Dva z nich jsou podle VeraPDF validní PDF/A 1b, má ale problémy s fonty. I přesto jsou validní, vyprodukované na openoffice. Další tří jsou podle VeraPDF nevalidní nebo je nelze validovat.
Ad PDF/A 1B
Soubory, které byly Siegfriedem identifikovány jako PDF/A 1b (fmt/354) jsem zkusil validovat pomocí VeraPDF. Validace VeraPDF proběhla na 1124 souborů a pouze dva byly oznaceny jako validní reprezentace PDF/A 1B. Vzhledem k tomu, že VeraPDF je beta verze, řekněmě, že to není úplně jisté:-)
Část 2. Druhý pokus FIDO vs FS, a porovnání výsledků s Jhove a VeraPDF
Zkusil jsem další balík dat, novější kvalifikační práce (2015), ca 7900 kusu PDF souborů prací. Výsledek je takový, že FIDO zcela jistě neidentifikuje PDF/A 1b a 1a spolehlivě. U PDF/A celkově za Level A a Level B selhává u ca 30%.
Pozn. Použil jsem defaultní nastavení bufferů FIDO. Je otázka, jestli zvětšení bufferů výsledky zlepší nebo ne.
fido | sf | |
fmt/16 | 0 | 0 |
fmt/17 | 476 | 474 |
fmt/18 | 1318 | 1178 |
fmt/19 | 5457 | 5457 |
fmt/20 | 167 | 167 |
fmt/354 | 339 | 408 |
fmt/276 | 158 | 151 |
fmt/95 | 1 | 79 |
7916 | 7914 |
A sumarizace výstupu z Jhove:
format
|
|
Format: PDF
|
7919
|
Verze PDF
|
|
Version: 1.3
|
314
|
Version: 1.4
|
1628
|
Version: 1.5
|
5154
|
Version: 1.6
|
138
|
Version: 1.7
|
122
|
Version: 1.2
|
|
status
|
|
Status: Well-Formed and valid
|
6308
|
Status:
Well-Formed, but not valid
|
517
|
Status: Not well-formed
|
1094
|
profile
|
|
Profile: ISO PDF/A-1, Level B
|
211
|
Profile: Linearized PDF
|
163
|
Profile: Linearized PDF, ISO PDF/A-1, Level B
|
163
|
Profile:
Linearized PDF, Tagged PDF
|
5
|
Profile: Tagged PDF
|
48
|
Profile: Tagged PDF, ISO PDF/A-1, Level B
|
125
|
Profile: Tagged PDF, ISO PDF/A-1, Level B, ISO PDF/A-1, Level A
|
0
|
mime-type
|
|
MIMEtype: application/pdf
|
7919
|
Výsledek je tedy podobný jako u staršího souboru PDF z prvního testu. Za zmínku tady stoji těch 1500 souborů, které nejsou well formed nebo validní. 20% je na relativně nový soubor dat z roku 2015 docela dost.
PDF/A 1B: FIDO 339, Siegfried 408, Jhove 499
PDF/A 1A: FIDO 1, Siegrfried 79, Jhove 0
Ad PDF/A 1A
Jhove nenašel ani jeden PDF/A 1A soubor, zatímco Siegfried jich identifikoval 79 a FIDO jeden.
79 souborů identifikovaných jako PDF/A 1A budou ve většině případů soubory PDF/A 1b vytvořené jedním nejmenovaným komerčním nástrojem, který mají studenti online k dispozici, a který míchá Level A a Level B dohromady.
Ad PDF/A 1B
Pokud pro SF sečteme 79 identifikovaných PDF/A 1A a 408 identifikovaných PDF/A 1B, dostaneme mnohem rozumější čísla, shoda mezi Siegfriedem a Jhovem je tady mnohem větší než u prvního souboru dat. PDF/A 1B: FIDO 339, Siegfried 487, Jhove 499.
Pomocí VeraPDF jsem validoval 408 souborů identifikovaných jako PDF/A 1B Segfriedem, podle VeraPDF jich byla validní jedna desetina, přesně 42. Ze 79 falšených PDF/A bylo podle VeraPDF 76 validních reprezentaci PDF A 1B.
Závěr?
- v souborech (13tis souborů z kvalifikačních praci do roku 2011 a 7900 hlavních PDF kvalifikačních prací z roku 2015) skoro jistě není žadná validní reprezentace PDF/A - 1A- FIDO je velmi opatrný v tom, co identifikuje jako PDF/A, rozdíl od Siegfriedu a Jhove je velký, někdy 1/3
- Jhove a Siegfried se víceméně shodnou v tom, co je PDF/A, ale už spolu nesouhlasí ohledně verze (Level A vs Level B). Problém ale pro tahle data způsobuje známý konvertor....
- Validace identifikovaných PDF/A pomocí VeraPDF potvrzuje jen část souborů, identifikovaných Siegfriedem (a Jhove) jako validní reprezentace PDF/A 1b.
- V prvním případě, v souboru dat vznikajících před rokem 2011, byly jako validní označeny jen 2 z více než 1100 souborů.
- Ve druhém případe bylo označeno VeraPDF za validní 42 ze 406 identifikovaných jako PDF/A 1b (fmt/354)
- Siegfried dále identifikoval 79 souborů jako PDF/A 1a, z nich 76 prošlo validací VeraPDF jako PDF/A 1b. Tady se Siegfried nechal splést, studenti vytvářeli tyto soubory online nástrojem, který jim univerzita poskytuje, a který míchá obě úrvoně PDF/A 1 dohromady.
Doplněk:
Kromě hlavních textů kvalifikačních prací jsem Siegfriedem identifikoval i soubory příloh (k pracím z roku 2015). Celkem ve 2500 souborech a archivech bylo ca 490tis objektů, se 160 jedinečnými PUIDy, a 60 mime type. 60 formátů (PUID) se vyskytovalo více než 100x. Trvalé uchování takových dat bude asi dost problém:-)
Žádné komentáře:
Okomentovat