Aliance Aparsen zveřejnila zprávu obsahující analýzu dostupných vzdělávacích projektů v oblasti dlouhodobé ochrany digitálních informací.
http://www.alliancepermanentaccess.org/wp-content/uploads/downloads/2012/12/APARSEN-REP-D43_1-01-4_1.pdf
Za prohlédnutí stojí především části 4. a 5., tj. části o profesních standardech a potřebných kvalifikacích pro dlouhodobou ochranu digitálních informací.
čtvrtek 31. ledna 2013
pondělí 28. ledna 2013
DNA - ideální pro ukládání digitálních dat?
Média minulý týden informovala o článku z časopisu Nature "Towards practical, high-capacity, low-maintenance information storage in synthesized DNA".
Badatelé z EBI (European Bioinformatics Institute) zakódovali do syntetické DNA digitální soubory. Podle nich, je DNA jako nosič dat extrémně trvanlivým médiem, a může pojmout obrovské datové kapacity. Mechanismus uložení je v článku BBC vysvětlen následovně:
Takže takto prý můžeme uložit digitální data po desítky tisíc let. Ale o budeme schopni za 10 000 let použít binární informaci tvořící soubory s obrázkem v JPEGu?
Badatelé z EBI (European Bioinformatics Institute) zakódovali do syntetické DNA digitální soubory. Podle nich, je DNA jako nosič dat extrémně trvanlivým médiem, a může pojmout obrovské datové kapacity. Mechanismus uložení je v článku BBC vysvětlen následovně:
- molekuly DNA tvoří čtyři skupiny tzv. nucleobází, které jsou určitým způsobem uspořádány
- binární počítačová data nebo textová data vědci překódovali stejným způsobem
- data nejsou uložena v jedné dlouhé molekule, ale jsou rozdělena do fragmentů a někde je také index, který obsahuje informaci o tom, jak má být celá DNA sekvuence čtena
- způsob uložení poskytuje možnost ukládat data s určitou mírou redundancí
Takže takto prý můžeme uložit digitální data po desítky tisíc let. Ale o budeme schopni za 10 000 let použít binární informaci tvořící soubory s obrázkem v JPEGu?
středa 16. ledna 2013
Nudíte se? Nekupujte medvídka mývala, pomozte raději australskému národnímu archivu s přepisem dokumentů...
Na novém webu australského národního archivu se můžete zaregistrovat a začít přepisovat. Třeba se probojujete i do pořadí největších přispěvatelů.
http://transcribe.naa.gov.au/
http://transcribe.naa.gov.au/
LOC Digital Preservation Newsletter, leden 2013
Co by vám nemělo uniknout v posledních novinkách Kongresové knihovny?
Rozhodně stojí za přečtení krátký článeček s názvem "Před tím než jste se narodili, my jsme už digitalizovali texty" . Pokud nejste pamětníci, tak asi nevíte, že Project Gutenberg začal v roce 1971, že Text endcoding iniciativa začala už v roce 1987, že projekt Making of America (kde vznikl standard MOA, předchůdce METSu) začal v roce 1995?
Dalším zajímavým textem je zpráva NDIIPP o archivaci online vědeckého diskurzu. Vědeckým diskurzem se zde myslí i neoficiální publikace, blogy, diskuzní skupiny a fóra, něco čemu hezky říkají "občanská věda", audio a audiovizuální záznamy ze seminářů, debat, webových stránek projektů, výukových materiálů, apod. To všechno jsou kanály, které mají zásadní význam pro vědeckou komunikaci, a pokud se je nepodaří uchovat, budeme chudší o informace o dynamice vědeckého bádání.
A mimochodem, jak jsme na tom u nás? V Národním úložišti šedé literatury česká vědecká efemera vznikající online v digitální podobě zatím nenajdeme, ale to neznamená, že u nás vědci neblogují, nedebatují na online fórech, že jejich ústavy nemají weby, nebo že u nás nejsou amatérští astronomové a ornitologové.....
Rozhodně stojí za přečtení krátký článeček s názvem "Před tím než jste se narodili, my jsme už digitalizovali texty" . Pokud nejste pamětníci, tak asi nevíte, že Project Gutenberg začal v roce 1971, že Text endcoding iniciativa začala už v roce 1987, že projekt Making of America (kde vznikl standard MOA, předchůdce METSu) začal v roce 1995?
Dalším zajímavým textem je zpráva NDIIPP o archivaci online vědeckého diskurzu. Vědeckým diskurzem se zde myslí i neoficiální publikace, blogy, diskuzní skupiny a fóra, něco čemu hezky říkají "občanská věda", audio a audiovizuální záznamy ze seminářů, debat, webových stránek projektů, výukových materiálů, apod. To všechno jsou kanály, které mají zásadní význam pro vědeckou komunikaci, a pokud se je nepodaří uchovat, budeme chudší o informace o dynamice vědeckého bádání.
A mimochodem, jak jsme na tom u nás? V Národním úložišti šedé literatury česká vědecká efemera vznikající online v digitální podobě zatím nenajdeme, ale to neznamená, že u nás vědci neblogují, nedebatují na online fórech, že jejich ústavy nemají weby, nebo že u nás nejsou amatérští astronomové a ornitologové.....
úterý 15. ledna 2013
HathiTrust Research Center aneb co se dá podniknout s 10 miliony monografií?
Tohle video musí přesvědčit každého staromilce. Zpřístupnění digitalizovaného obsahu může mít enormní dopad na řadu vědeckých disciplín.
"Concept mapping", "Topic modeling", "Correlation N-Gram Viewer", vizualizace, named entity tagging, sumarizace textů, připojení textů ke geolokacím - to jsou jen některé z přístupů, které se používají při vytěžování dat shromážděných v archivu HathiTrustu. Jen historik, filosof nebo literární vědec musí být připraveni pracovat jinak.
HathiTrust archivuje a zpřístupňuje online více než 10 milionů svazků knih, které byly digitalizovány v projektech Google Books, IA, a dalších. A mimo jiné je to také důvěryhodný dlouhodobý archiv digitálních informací certifikovaný pomocí TRAC.
"Concept mapping", "Topic modeling", "Correlation N-Gram Viewer", vizualizace, named entity tagging, sumarizace textů, připojení textů ke geolokacím - to jsou jen některé z přístupů, které se používají při vytěžování dat shromážděných v archivu HathiTrustu. Jen historik, filosof nebo literární vědec musí být připraveni pracovat jinak.
HathiTrust archivuje a zpřístupňuje online více než 10 milionů svazků knih, které byly digitalizovány v projektech Google Books, IA, a dalších. A mimo jiné je to také důvěryhodný dlouhodobý archiv digitálních informací certifikovaný pomocí TRAC.
Vyšla analýza stavu Digital forensics - DPC technology watch report
Britská organizace DPC pokračuje ve vydávání svých reportů na různá témata, posledním přírustkem je zpráva Digital Forensics and Preservation [.pdf, 971 KB]. Rozhodně stojí za přečtení.
Další zprávy jsou ke stažení tady http://www.dpconline.org/publications/technology-watch-reports
Další zprávy jsou ke stažení tady http://www.dpconline.org/publications/technology-watch-reports
neděle 6. ledna 2013
Kde jsme s "digital preservation" a míříme správným směrem?
Bram van der Werf publikoval na svém blogu v rámci webu Open Planets Foundation příspěvek s názvem Digital preservation, learning by doing it. Jde o zajímavou polemiku se způsobem vývoje v oblasti dlouhodobé ochrany digitálních dat a přístupu k němu. Bram považuje dosavadní vývoj soustředící se na tvorbu standardů, architektur, norem apod. za opačný, než by měl být. Vývoj by měl přicházet z vytváření a používání procesů, funkcionalit, přístupů - neboli z vlastního provádění digital preservation. Procesy by se měly standardizovat až později, ne je od stolu vymýšlet předem a podle nich vytvářet systémy atp.
čtvrtek 3. ledna 2013
Rizika formátu PDF
Na blogu Open Planets Foundation se objevil zajímavý příspěvek Johana van der Knijffa z holandské Královské knihovny. Upozorňuje na svoji starší práci, kde identifikoval rizika formátu PDF pro dlouhodobou archivaci:
Adobe Portable Document Format, Inventory of long-term preservation risks:
http://www.openplanetsfoundation.org/system/files/PDFInventoryPreservationRisks_0_2_0.pdf
a shrnuje svoje zkušenosti z používáním knihovny Apache Preflight (součást PDFBox) při identifikaci preservačních rizik existující sbírky PDF dokumentů. Apache Preflight je knihovna určená k validaci PDF/A, ovšem Johan ji tady používá trochu jinak. Protože zdaleka ne všechny sbírky PDF dokumentů jsou migrovány podle požadavků standardu PDF/A, Johan se snaží použít Apache Preflight k identifikaci z hlediska dlouhodobé archivace nežádoucích vlastností nearchivních PDF. Netestuje tedy zda a jak Apache Preflight validuje PDF/A, ale testuje, zda je tahle knihovna vhodným nástrojem k identifikaci vlastností, které jsou v PDF/A zakázány.
Identification of preservation risks in PDF with Apache Preflight a first impression:
http://www.openplanetsfoundation.org/system/files/pdfProfilingJvdK19122012.pdf
Jeho závěry nejsou zatím pro Apache Preflight moc optimistické. Především, pokud Apache Preflight identifikuje nějaké odchylky od požadavků PDF/A-1b, zastaví často další zpracování dokumentu, a není tedy schopen dodat kompletní report. Mnohem spolehlivější jsou zatím nástroje Acrobatu, který byl v jeho testech schopen identifikovat všechny rizikové vlastnosti PDF souborů.
Snad se Apache Preflight archivní komunita ujme, a posune jeho vývoj a testování dál. Jinak bude třeba spoléhat pouze na komerční nástroje.
A ještě malé doplnění. Existuje také starší projekt vývoje Jhove ve stejném směru, tedy k ověření kompatibility PDF se specifikací PDF/A: https://github.com/blekinge/jhove-pdf-a
Adobe Portable Document Format, Inventory of long-term preservation risks:
http://www.openplanetsfoundation.org/system/files/PDFInventoryPreservationRisks_0_2_0.pdf
a shrnuje svoje zkušenosti z používáním knihovny Apache Preflight (součást PDFBox) při identifikaci preservačních rizik existující sbírky PDF dokumentů. Apache Preflight je knihovna určená k validaci PDF/A, ovšem Johan ji tady používá trochu jinak. Protože zdaleka ne všechny sbírky PDF dokumentů jsou migrovány podle požadavků standardu PDF/A, Johan se snaží použít Apache Preflight k identifikaci z hlediska dlouhodobé archivace nežádoucích vlastností nearchivních PDF. Netestuje tedy zda a jak Apache Preflight validuje PDF/A, ale testuje, zda je tahle knihovna vhodným nástrojem k identifikaci vlastností, které jsou v PDF/A zakázány.
Identification of preservation risks in PDF with Apache Preflight a first impression:
http://www.openplanetsfoundation.org/system/files/pdfProfilingJvdK19122012.pdf
Jeho závěry nejsou zatím pro Apache Preflight moc optimistické. Především, pokud Apache Preflight identifikuje nějaké odchylky od požadavků PDF/A-1b, zastaví často další zpracování dokumentu, a není tedy schopen dodat kompletní report. Mnohem spolehlivější jsou zatím nástroje Acrobatu, který byl v jeho testech schopen identifikovat všechny rizikové vlastnosti PDF souborů.
Snad se Apache Preflight archivní komunita ujme, a posune jeho vývoj a testování dál. Jinak bude třeba spoléhat pouze na komerční nástroje.
A ještě malé doplnění. Existuje také starší projekt vývoje Jhove ve stejném směru, tedy k ověření kompatibility PDF se specifikací PDF/A: https://github.com/blekinge/jhove-pdf-a
Přihlásit se k odběru:
Příspěvky (Atom)