Digital Preservation CZ - BLOG: ledna 2013

čtvrtek 31. ledna 2013

Aparsen DPC report

Aliance Aparsen zveřejnila zprávu obsahující analýzu dostupných vzdělávacích projektů v oblasti dlouhodobé ochrany digitálních informací.
http://www.alliancepermanentaccess.org/wp-content/uploads/downloads/2012/12/APARSEN-REP-D43_1-01-4_1.pdf

Za prohlédnutí stojí především části 4. a 5., tj. části o profesních standardech a potřebných kvalifikacích pro dlouhodobou ochranu digitálních informací.

pondělí 28. ledna 2013

DNA - ideální pro ukládání digitálních dat?

Média minulý týden informovala o článku z časopisu Nature "Towards practical, high-capacity, low-maintenance information storage in synthesized DNA".

Badatelé z EBI (European Bioinformatics Institute) zakódovali do syntetické DNA digitální soubory. Podle nich, je DNA jako nosič dat extrémně trvanlivým médiem, a může pojmout obrovské datové kapacity. Mechanismus uložení je v článku BBC vysvětlen následovně:

molekuly DNA tvoří čtyři skupiny tzv. nucleobází, které jsou určitým způsobem uspořádány
binární počítačová data nebo textová data vědci překódovali stejným způsobem
data nejsou uložena v jedné dlouhé molekule, ale jsou rozdělena do fragmentů a někde je také index, který obsahuje informaci o tom, jak má být celá DNA sekvuence čtena
způsob uložení poskytuje možnost ukládat data s určitou mírou redundancí

Zdá se ale, že nejde zcela novou myšlenku. Podle článku o podobném pokusu se první podobné experimenty prováděly už v roce 1988....

Takže takto prý můžeme uložit digitální data po desítky tisíc let. Ale o budeme schopni za 10 000 let použít binární informaci tvořící soubory s obrázkem v JPEGu?

středa 16. ledna 2013

Nudíte se? Nekupujte medvídka mývala, pomozte raději australskému národnímu archivu s přepisem dokumentů...

Na novém webu australského národního archivu se můžete zaregistrovat a začít přepisovat. Třeba se probojujete i do pořadí největších přispěvatelů.
http://transcribe.naa.gov.au/

LOC Digital Preservation Newsletter, leden 2013

Co by vám nemělo uniknout v posledních novinkách Kongresové knihovny?

Rozhodně stojí za přečtení krátký článeček s názvem "Před tím než jste se narodili, my jsme už digitalizovali texty" . Pokud nejste pamětníci, tak asi nevíte, že Project Gutenberg začal v roce 1971, že Text endcoding iniciativa začala už v roce 1987, že projekt Making of America (kde vznikl standard MOA, předchůdce METSu) začal v roce 1995?

Dalším zajímavým textem je zpráva NDIIPP o archivaci online vědeckého diskurzu. Vědeckým diskurzem se zde myslí i neoficiální publikace, blogy, diskuzní skupiny a fóra, něco čemu hezky říkají "občanská věda", audio a audiovizuální záznamy ze seminářů, debat, webových stránek projektů, výukových materiálů, apod. To všechno jsou kanály, které mají zásadní význam pro vědeckou komunikaci, a pokud se je nepodaří uchovat, budeme chudší o informace o dynamice vědeckého bádání.

A mimochodem, jak jsme na tom u nás? V Národním úložišti šedé literatury česká vědecká efemera vznikající online v digitální podobě zatím nenajdeme, ale to neznamená, že u nás vědci neblogují, nedebatují na online fórech, že jejich ústavy nemají weby, nebo že u nás nejsou amatérští astronomové a ornitologové.....

úterý 15. ledna 2013

HathiTrust Research Center aneb co se dá podniknout s 10 miliony monografií?

Tohle video musí přesvědčit každého staromilce. Zpřístupnění digitalizovaného obsahu může mít enormní dopad na řadu vědeckých disciplín.

"Concept mapping", "Topic modeling", "Correlation N-Gram Viewer", vizualizace, named entity tagging, sumarizace textů, připojení textů ke geolokacím - to jsou jen některé z přístupů, které se používají při vytěžování dat shromážděných v archivu HathiTrustu. Jen historik, filosof nebo literární vědec musí být připraveni pracovat jinak.

HathiTrust archivuje a zpřístupňuje online více než 10 milionů svazků knih, které byly digitalizovány v projektech Google Books, IA, a dalších. A mimo jiné je to také důvěryhodný dlouhodobý archiv digitálních informací certifikovaný pomocí TRAC.

Vyšla analýza stavu Digital forensics - DPC technology watch report

Britská organizace DPC pokračuje ve vydávání svých reportů na různá témata, posledním přírustkem je zpráva Digital Forensics and Preservation [.pdf, 971 KB]. Rozhodně stojí za přečtení.
Další zprávy jsou ke stažení tady http://www.dpconline.org/publications/technology-watch-reports

neděle 6. ledna 2013

Kde jsme s "digital preservation" a míříme správným směrem?

Bram van der Werf publikoval na svém blogu v rámci webu Open Planets Foundation příspěvek s názvem Digital preservation, learning by doing it. Jde o zajímavou polemiku se způsobem vývoje v oblasti dlouhodobé ochrany digitálních dat a přístupu k němu. Bram považuje dosavadní vývoj soustředící se na tvorbu standardů, architektur, norem apod. za opačný, než by měl být. Vývoj by měl přicházet z vytváření a používání procesů, funkcionalit, přístupů - neboli z vlastního provádění digital preservation. Procesy by se měly standardizovat až později, ne je od stolu vymýšlet předem a podle nich vytvářet systémy atp.

čtvrtek 3. ledna 2013

Rizika formátu PDF

Na blogu Open Planets Foundation se objevil zajímavý příspěvek Johana van der Knijffa z holandské Královské knihovny. Upozorňuje na svoji starší práci, kde identifikoval rizika formátu PDF pro dlouhodobou archivaci:

Adobe Portable Document Format, Inventory of long-term preservation risks:
http://www.openplanetsfoundation.org/system/files/PDFInventoryPreservationRisks_0_2_0.pdf

a shrnuje svoje zkušenosti z používáním knihovny Apache Preflight (součást PDFBox) při identifikaci preservačních rizik existující sbírky PDF dokumentů. Apache Preflight je knihovna určená k validaci PDF/A, ovšem Johan ji tady používá trochu jinak. Protože zdaleka ne všechny sbírky PDF dokumentů jsou migrovány podle požadavků standardu PDF/A, Johan se snaží použít Apache Preflight k identifikaci z hlediska dlouhodobé archivace nežádoucích vlastností nearchivních PDF. Netestuje tedy zda a jak Apache Preflight validuje PDF/A, ale testuje, zda je tahle knihovna vhodným nástrojem k identifikaci vlastností, které jsou v PDF/A zakázány.

Identification of preservation risks in PDF with Apache Preflight a first impression:
http://www.openplanetsfoundation.org/system/files/pdfProfilingJvdK19122012.pdf

Jeho závěry nejsou zatím pro Apache Preflight moc optimistické. Především, pokud Apache Preflight identifikuje nějaké odchylky od požadavků PDF/A-1b, zastaví často další zpracování dokumentu, a není tedy schopen dodat kompletní report. Mnohem spolehlivější jsou zatím nástroje Acrobatu, který byl v jeho testech schopen identifikovat všechny rizikové vlastnosti PDF souborů.

Snad se Apache Preflight archivní komunita ujme, a posune jeho vývoj a testování dál. Jinak bude třeba spoléhat pouze na komerční nástroje.

A ještě malé doplnění. Existuje také starší projekt vývoje Jhove ve stejném směru, tedy k ověření kompatibility PDF se specifikací PDF/A: https://github.com/blekinge/jhove-pdf-a

odkazy