DSpace User Group Meeting II – giovedì mattina

By Paolo Gardois

Peter Ruigrok inizia la sessione di presentazioni tecniche parlando di conservazione digitale. Molte le tematiche da affrontare: gestire depositi affidabili nel lungo periodo; mantenere e poter citare relazioni tra diversi oggetti.

La cornice utilizzata è DRAMBORA.

Una questione importante è la correzione immediata degli errori presenti nei file (usando una checksum MD5) – vanno eseguiti controlli automatici. Inoltre si affronta la tematica del disaster recovery, che l’Università di Utrecht ha affidato in outsourcing, facendo backup di documenti e dati via rete per una quantità superiore ai 15 TB. Sono state istituite policy pluriennali per i backup completi dei dati. Ma: ripristinare un backup tra 10 anni sarà possibile?? Una soluzione consiste nel mantenere i formati di backup il più semplici possibile, tipicamente usando XML. Gli script per il restore si realizzeranno al momento del restore, con la garanzia che XML sarà comunque leggibile, indipendentemente dall’applicativo.

Dal punto di vista organizzativo, l’Università di Utrecht ha creato un posto di Digital Preservation Officer, con il compito, tra l’altro, di monitorare i contenuti, la disponibilità dei formati e fornire linee guida per i tipi di materiali e per i formati di metadati ammessi.

Sarebbe importante che DSpace potesse gestire, in futuro, l’inserimento di bitstreams convertiti come nuove manifestazioni (FRBR) dei bitstream originali; inoltre servirebbe la possibilità di fare un versioning dei metadati e dei bistreams, facendo gestire relazioni multiple tra metadati e manifestazioni (biststreams). Gli stessi metadati supportati da Dspace andrebbero ampliati con riguardo alla conservazione digitale, aggiungendo ad es.: formato e versione del file, titolo, capitolo, ecc. del documento, informazioni relative al fatto che un formato di file sia supportato o meno, ecc.

Richard Rodgers del MIT presenta DWELL, un approccio alla gestione semantica dei metadati. DSpace diventa sempre più complesso e modulare, con un core più piccolo e meno stabile – e questo è una buona cosa. Di conseguenza, la “intelligence” e la gestione dei metadati sono svincolati dal core dell’applicazione, e possono essere gestiti con maggiore flessibilità, senza dover necessariamente modificare l’architettura. Basato su SIMILE e Longwell, DWELL utilizza AJAX ed è ben integrabile con l’interfaccia utente di DSpace 1.5.

DWELL permette di avere metadati molto più ricchi, ad es. la storia dell’evoluzione di un metadato relativo ad un certo oggetto, gestibile con RDF, oppure l’utilizzo e l’integrazione di metadati provenienti da più fonti (DSpace e non DSpace): ecco un esempio molto interessante, che illustra inoltre come gli stessi metadati possano essere visualizzati e manipolati in modi diversi. Interessante anche questa demo di DSpace longwell-enabled, che permette tra l’altro di configurare al volo le visualizzazioni dei metadati in formato tabellare, aggiungendo o togliendo la visualizzazione di alcuni campi a piacimento (ah, se ce l’avessimo sugli opac… :-) ).

Le domande evidenziano infine il problema della scalabilità delle triple-stores RDF che stanno alla base di questo tipo di servizi: le triple tendono a diventare enormi e difficili da gestire e soprattutto da interrogare.

Pausa. Le nuvole, il dopopioggia e il sole caldo dell’ottobre di Roma.

Torniamo in tempo per sentire Jayan Chirayath Kurian che ci parla dell’inserimento di metadati dal portale d’Ateneo (Nanyang Technological University – Singapore) in DSpace. Con uno script in Java vengono prelevati i dati sulle pubblicazioni dello staff dalle pagine del portale. Per le pubblicazioni si prelevano contributor, date, url, title e si copiano in Excel, da cui poi si estraggono per importarli con un altro script in DSpace. Progetti per il futuro: migliorare lo scraping dell’HTML, supportare formati citazionali standard (es. APA); passare da un metodo semiautomatico ad un metodo automatico.

Valerio Minetti e colleghi (Università di Milano Bicocca) presentano l’esperienza del Centro di Produzione Multimediale, che utlizza DSpace per archiviare e consentire l’accesso ai propri prodotti multi- e cross-mediali. DSpace è stato preferito a Fedora perché più semplice da configurare ed installare.

DSpace sarà integrato con il sistema locale di video indexing e summarization. Il progetto è stato pensato prima di SIMILE; le funzionalità di DSpace sono state estese con il plugin manager. La video summarization prepara il video per le operazioni di indicizzazione, riducendo di molto la quantità di dati da esaminare. L’indicizzazione automatica utilizza un mix di speech, motion, face and object recognition, e tecniche OCR per produrre metadati. Fatte queste operazioni, resta però una forte componente semantica da considerare. A Bicocca questo problema è stato gestito integrando indicizzazione manuale ed automatica. L’inserimento dei dati avviene manualmente in questa fase di test, ma se ne sta studiando l’automatizzazione.

Dai commenti del pubblico arriva una conferma del fatto che le collezioni multi e crossmediali diventeranno sempre più importanti nello sviluppo di DSpace.

Conclude la mattinata Eloy Rodriguez (University of Minho), con un’intervento riguardante le statistiche d’uso di DSpace. Quest’Università portoghese, tra le più attive sull’OA a livello europeo (ca. 6000 documenti full text a settembre 07), ha ottenuto quest’anno con il suo RepositoriUM un picco di 130.000 e 110.000 download di documenti al mese.

Le statistiche servono al marketing e alla promozione dell’IR. Si articolano principalmente nei seguenti settori: uso, contenuto, amministrazione. Le statistiche vengono generate con un plugin appositamente sviluppato, e disponibile anche per altre istituzioni (lo usano già in Belgio e UK). I problemi principali: problemi a gestire i tempi di risposta nelle queries man mano che la mole di dati cresce; la definizione delle statistiche e dell’interfaccia web è troppo rigida; la visualizzazione dei dati è molto carente. Queste problematiche verranno affrontate con la v2, che offrirà migliore scalabilità, aggregazioni dimensionali di dati (es.: Paese, tipo di documento, ecc.), nuove statistiche (personalizzabili), miglior documentazione di sistema

Molto interessante l’architettura (vedi slide), i cui elementi fondamentali sono i log, il loro salvataggio in un db Postgres, l’elaborazione secondo uno specifico modello di dati, l’output XML, l’estrazione con un foglio di stile XSLT.

Lascia un commento