středa 27. listopadu 2013

Bavorsko první spolkovou zemí využívající digital preservation as a service (DPaaS)

Bavorská státní knihovna, která od roku 2009 používá long-term preservation system Rosetta od firmy Ex Libris, bude poskytovat od roku 2014 služby a možnost využítí tohoto systému všem bavorským akademickým knihovnám. Celá tisková zpráva dostupná zde http://www.librarytechnology.org/ltg-displaytext.pl?RC=18636.
Po Finsku, Francii a Irsku tak půjde o další podobnou aktivitu v oblasti DPaaS. V Bavorsku s tím rozdílem, že od počátku budou nabízet aktivní (logickou) dlouhodobou ochranu dat - tedy nejen ochranu bitstreamu, ale logickou ochranu obsahu - tedy validace, risk assessment, identifikaci formátů, plánování ochrany a případné migrace apod.
DPaaS je ve stadiu plánování např. také na Novém Zélandu, kde národní knihovna z pověření ministerstva připravuje pro tuto aktivitu business plán. Také by šlo o využití již existující infrastruktury - tedy systému Rosetta.
http://www.exlibrisgroup.com/category/RosettaOverview
http://www.multidata.cz/produkty/rosetta

pondělí 25. listopadu 2013

APARSEN: webinář k certifikaci digitálních repozitářů

9. prosince, v 15 hodin pořádá projekt APARSEN  webinář k certifikaci dlouhodobých digitálních repozitářů. Na programu jsou příspěvky o Data seal of approval i o ISO certifikaci:

1. Simon Lambert, APARSEN Coordinator: “How Certification fits the APARSEN project”
2. Ingrid Dillo, DANS-NL: “Self certification: “Data Seal of Approval approach”
3. Sabine Schrimpf, German National Library DNB: “DIN/Nestor approach for certification”
4. Barbara Sierman, Dutch Royal Library KB: “ISO approach for certification”
5. David Giaretta, APARSEN project Manager: “How APARSEN tries to make ISO, DIN and DSA work together”

Informace jsou na: 

neděle 24. listopadu 2013

Nový internetový časopis "Practical Technology for Archives"

Na webu se objevil nový časopis, který vypadá velmi slibně. Jde o recenzovaný zdroj, který se bude zaměřovat na praktické otázky digitální archivace. Držme autorům palce ať mají dostatek kvalitních článků a také čtenářů.
První číslo je dostupné tady http://practicaltechnologyforarchives.org/

středa 20. listopadu 2013

Do seznamu nástrojů přidán COPTR - nový registr nástrojů pro digital preservation, digital curation

COPTR (http://coptr.digipres.org/Main_Page) je iniciativou několika organizací, mohl by tak mít větší naději na přežití, než podobné projekty vycházející od jednotlivců, z časově omezených projektů apod. V tuto chvíli je v registru již několik set nástrojů.
Více informací viz http://www.openplanetsfoundation.org/blogs/2013-11-14-coptr-tools-registry-beta-launch

pondělí 18. listopadu 2013

Zuse Institute Berlin: Implementace OAIS archivu v prostředí muzeí a galerií

Pěkný příklad projektu dlouhodobé archivace v oblasti muzeí a galerií, který využívá open-source systém Archivematica v režimu služby, kterou poskytuje Centrum pro informační technologie v Berlíně (ZIB).

ZIB se zabývá nejen archivací tohoto typu dat, ale má také samostatné projekty na archivaci dat filmových nebo  různých typů dat vědeckých. (http://www.zib.de/en/projects/current-projects/project-details/article/lfd.html).


Dealing with all the data – Participating in workflows to transform digital 
data about cultural heritage objects within a digital long-term preservation infrastructure
Marco Klindt, Kilian Amrhein, Anja Müller, Wolfgang Peters-Kottig
Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
ZIB-Report (Internet) ISSN 2192-7782
http://opus4.kobv.de/opus4-zib/frontdoor/index/index/docId/4302



neděle 17. listopadu 2013

Zpráva "Cost parameters for digital repositories" z projektu APARSEN

Ještě se krátce vrátím ke zprávě projektu APARSEN o nástrojích na zjištění nákladů na digital preservation. Zpráva byla vydána v únoru 2013 (http://www.alliancepermanentaccess.org/wp-content/uploads/downloads/2013/03/APARSEN-REP-D32_1-01-1_0.pdf ), ale i skoro po roce je to zajímavé čtení. Může se hodit pro ty z vás, kteří uvažujete o využití jednoho z několika dostupných nástrojů. Text je vlastně jednoduchou analýzou těch nejznámnějších nástrojů. V úvodu je vysvětleno jak byly hodnoceny, jak probíhalo mapování nástrojů k funkcionalitám vyplývajícím z referenčního rámce OAIS. Hodnoceny byly:

  • Lifecycle Information for E-Literature, LIFE3
  • Cost Model for Digital Preservation, CMDP
  • Keeping Research Data Safe 1 and 2, KRDS
  • PrestoPRIME cost model for digital storage
  • Cost Estimation Toolkit, CET
  • Digital Preservation for libraries, DP4lib
  • Activity based costing of archiving datasets, DANS
  • Costing cloud based preservation systems, ENSURE
Každý z modelů se zaměřuje na jiné oblasti životního cyklu digitálního dokumentu, ty hlavní mají ovšem společné (náklady na infrastrukturu, rizika, zaměstnance, ingest apod.). 
V příloze 3 zaujme přehledná tabulka relevantních částí normy ISO 16363 (Audit and certification 
of trustworthy digital repositories), které byly použity pro hodnocení jednotlivých nástrojů.

čtvrtek 14. listopadu 2013

Srovnání nástrojů na validaci a konverzi do PDF/A

Už po několikáté na stejné téma, tentokrát upozornění na dva zajímavé články z Florida digital archive.

V paperu, který prezentovali na iPresu, popisují testování tří komerčních nástrojů na migraci do pdf/a validaci (pdfaPilot, 3-Heights, PDF/A Manager)
https://fclaweb.fcla.edu/uploads/iPRES_PAPER86_Abstract.docx

Na stejné téma pak je krátký článek
https://share.fcla.edu/FDAPublic/Affiliates/FDA_PDF-A_validation_conversion.pdf
kde už popisují zapojení vybraného SW do svých workflow.




úterý 12. listopadu 2013

Tender na dodavatele v projektu Národní digitálni archiv zrušen

Výběrové řízení na dodavatele řešení pro dlouhodobou archivaci digitálních informací v projektu Národní digitální archiv bylo podruhé zrušeno. Protože projekt končí 30.6.2014, bylo to asi to jediné rozumné rozhodnutí, které mohl Národní archiv udělat po té, co se objevily další stížnosti na hodnocení živé ukázky systému.

Mezi stěžovateli byl i dodavatel řešení archivu pro projekt Národní digitální knihovny zastoupený firmou Telefonica, stížnost stojí za přečtení.
(http://web.nacr.cz/zakazky/20130218_NDA_IS/Namitky_Telefonica.pdf).

Národní archiv by už neměl ztrácet čas zbytečnými právními bitvami...dodavatelé neflexibilních systémů "na jedno použití" nemohou vyhovět jeho potřebám.

Puls Londýna - jak také může vypadat prezentace digitálních dat koncovému uživateli

Tento příspěvek není přímo o digital preservation, ale o projektu digitalizace. Wellcome Library v Londýně zdigitalizovala lékařské zprávy od půlky 19. století do současnosti. Na tom by nebylo nic zvláštního, důvod proč o tom píšu je způsob prezentace. Web http://wellcomelibrary.org/londons-pulse může sloužit jako příklad moderního prostředí pro uživatele, které nabízí veškerou funkcionalitu, kterou dnešní uživatel očekává.
To co uživatel vidí je JPG "servírovaný" image serverem, který jej on-the-fly vytváří z archivního JPEG 2000 souboru. JPEG 2000 používá Wellcome Library jako archivní formát ve svém LTP systému, a to pro všechny projekty digitalizace, které mají. Díky JPEG 2000 můžete krásně zoomovat. Wellcome Library používá svůj vlastní player na obrazy i videa. Je opravdu povedený.

Ze závěrečné zprávy (http://repository.jisc.ac.uk/5370/1/MOH_article_for_JISC_v3_FINAL.docx) vybírám několik údajů:

  • zdigitalizováno 4 miliony stran
  • popis, katalogizace a konzervace trvala 12 měsíců
  • použitý systém pro workflow digitalizace je GOOBI http://www.digiverso.com/en/products/goobi, používaný pro masovou digitalizaci v mnoha institucích (uvažovalo se o něm i do NK ČR)
  • celý projekt trval 17 měsíců
  • digitalizace probíhala externě (Contentra dělala kontroly kvality, OCR a převod do JPEG 2000; snímkování dělala nizozemská Microformat)
  • tabulky statistické ze skenovaných dokumentů byly automaticky převáděny do XML, které odpovídá DTD americké národní lékařské knihovny; tabulky jsou ve formátu XHTML, který umožňuje je jednoduše zobrazit v HTML webové stránce; 
  • tým okolo projektu se soustředí na publicitu - zprávy do médií, online komunikační kampaň pro různé cílové skupiny, cílené příspěvky na relevantní online diskuze a profesionální mailing listy, plus Google Adwords kampaň. K tomu všemu plánují několik akcí pro místní komunity v Londýně a okolo, aby digitální knihovnu jako zdroj informací představili profesionálům, tedy doktorům, statistikům, historikům apod.

Vše doprovází účet na Flickru se zajímavými obrázky z lékařkých zpráv

Všechna data jsou open public - dostupná v CSV, XML, TXT, html - dostupné tady http://wellcomelibrary.org/moh/about-the-reports/using-the-report-data/  

úterý 5. listopadu 2013

ProInflow ještě jednou - Pavla Švástová z MZK popisuje Aspekty digitalizace: pořadí čtení článků v digitalizovaných starých novinách

V posledním ProInflow by vám neměl uniknout ani článek Pavly Švástové, která popisuje digitalizaci novin, tvorbu metadat, OCR a ALTO metadat. Jak je možné, že naskenovaná stránka novin je rozdělená na jednotlivé články, jak digitální knihovna ví že článek A pokračuje na straně 5, jak ví co je nadpis? To se dočtete v článku na tomto URL: http://pro.inflow.cz/aspekty-digitalizace-poradi-cteni-clanku-v-digitalizovanych-starych-novinach

pondělí 4. listopadu 2013

Dva články na ProInflow

KVASNICA, Jaroslav; KREIBICH, Rudolf. Formátová analýza sklizených dat v rámci projektu WebArchiv NK ČR. ProInflow [online]. 31.10.2013 [cit. 04.11.2013]. Dostupný z WWW: <http://pro.inflow.cz/formatova-analyza-sklizenych-dat-v-ramci-projektu-webarchiv-nk-cr>. ISSN 1804–2406.

Zajímavý pokus s daty webarchivu. Pánové z Národní knihovny nad daty, která sklízí v projektu Webarchiv, použili Droid pro identifikaci formátů v kontejnerech ARC a WARC. Samozřejmě nejsou první, kdo se podobnou analýzou zabývá, podobné pokusy dělají i další členové IIPC konzorcia a také srovnávají výskyt jednotlivých formátů v různých částech svých sbírek. Pokud "hlavním cílem analýzy bylo zmapování možností retrospektivní identifikace formátů kompletního archivu webových stránek až do roku 2000" pak by stálo za to také nejprve analyzovat desitky publikací, které se stejným tématem zabývají. Také by bylo zajímavé vidět, jak se podíl zastoupených formátů mění v čase...

- KB.nl dělá analýzy formátů od roku 2007, http://www.kb.nl/sites/default/files/docs/IIPC-PWG-Webarchiving-JHove-DROID-test.pdf,

- k testům British Library existuje řada publikací http://arxiv.org/pdf/1210.1714.pdf, http://www.ifs.tuwien.ac.at/dp/ipres2010/papers/enders-70.pdf, http://www.openplanetsfoundation.org/blogs/2012-08-17-analysing-formats-uk-web-archive,

-stejně tak z BNF a další francouzské instituce, http://archivesic.ccsd.cnrs.fr/docs/00/76/90/91/PDF/FormatWebArchives_Oury_ipres2010.pdf, http://www.unesco.org/new/fileadmin/MULTIMEDIA/HQ/CI/CI/pdf/mow/VC_Holden_27_C_1610.pdf,

- další projekty v této oblasti:http://wiki.opf-labs.org/display/SP/File+Format+Identification+and+Characterisation+of+Web+Archives

Zarážející je, že ve svém pokusu nalezli pánové z NK jen 2% neidentifikovaných formátů, nerozlišují mezi formáty identifikovanými různými metodami (identifikace pomoci signature, koncovky, nebo předběžné identifikace), a v seznamu identifikovaných formátů se nevyskytuje oblíbený únik DROIDu "octet stream". Jak ukazuje analýza ze SCAPE (http://www.scape-project.eu/wp-content/uploads/2012/01/SCAPE_PC_WP1_identification21092011.pdf) Droid má problémy s identifikací především "text-based" formátů, XML formátů. Možná nějaká informace o neidentifikovaných souborech by byla zajímavá, stejně tak by bylo dobré vědět zhruba s jakým nastavením byla testovaná data posklízena (limity na velikosti souborů, sklízely se skripty, apod.)

2% neúspěšné identifikace jsou skutečně podezřele málo, v porovnání s daty, která zveřejňuje například na svém posteru C. Oury (http://netpreserve.org/sites/default/files/attachments/Poster_ipres2010_webarchivefileformats_oury(1).pdf) a podle mě článek toto číslo nedokladuje dostatečně.

DROID je skutečně jen nástroj pro identifikaci formátů, nikoli nástroj na jejich valiadaci. Spoléhat na to, že soubory, které označí DROID za formáty fmt/xy, jsou skutečně validní reprezentaci daného formátu, by bylo jistě krátkozraké. Jako strategie dlouhodobé ochrany je pouhá identifikace obsahu pomocí DROIDu jen částečným řešením...dříve či později je asi třeba se rozhodnout, zda budou nevalidní formáty migrovány do validních nebo zda se bude používat pro zpřístupnění dat z archivace webu výhradně a plně emulace.

KVAŠOVÁ, Zuzana; SVOBODA, Tomáš. Dlouhodobá ochrana elektronických publikací. ProInflow[online]. 31.10.2013 [cit. 04.11.2013]. Dostupný z WWW: <http://pro.inflow.cz/dlouhodoba-ochrana-elektronickych-publikaci>. ISSN 1804–2406.
Druhý článek o plánech na dlouhodobou archivaci e-knih v Národní knihovně. Shrnuje přehledně problematiku dlouhodobé archivace tohoto typu dokumentů. Jak bude v praxi vypadat předávání elektronických publikací do Národní knihovny se dozvíme možná na chystaném semináři.

Sbírka historického SW od Internet Archive - emulované staré hry a aplikace

Internet Archive má přístupnou sbírku historického SW. Jde o největší sbírku historického SW na světě. Poskytuje okamžitý přístup k milionům programů, CD-ROM obrazů, dokumentaci a multimédiím. Sbírka obsahuje různý materiál, včetně sharewaru, freewaru, zpráv o novém SW, her, preview a reklam na počítačové hry a další. 5000 PC her, 37 přelomových her, tisíce sharewarových CD, emulátory s hrami a aplikacemi, linuxové distribuce, datasety ...

pátek 1. listopadu 2013

Publikace CLIR - Born Digital: Guide for Donors, Dealers, and Archival Repositories

Council on Library and Information Resources vydala zajímavou publikaci "Born Digital: Guide for Donors, Dealers, and Archival Repositories" (ke stažení zde).

Obsahově pokrývá zejména tyto oblasti:

  • prvotní revizi sbírek,
  • soukromé a duševní vlastnictví,
  • klíčové fáze při získávání digitálních materiálů a 
  • postakviziční revizi repozitáře.

Každá z uvedených oblastí uvádí doporučení jak pro dárce (donors) a obchodníky (dealers), tak pro samotné pracovníky repozitářů.