Archivio per la categoria ‘Institutional repositories’

OA UNITO - pomeriggio - liveblogging II

6 Dicembre, 2007

Sessione pomeridiana.

I lavori del pomeriggio si aprono con l’intervento di Paolo Gardois, che ha per oggetto Aperto, l’archivio istituzionale di Unito. Seguirà l’interevento di Viviana Mandrile, dedicato alle tesi di dottorato, mentre nel prosieguo del pomeriggio si ritornerà al confronto con realtà di ricerca che in modo diverso hanno a che fare con l’open access e gli strumenti digitali, con esperienze nel campo della fisica, della storia e della filologia.

 

Paolo riprende il filo del discorso dalle nuove prospettive che si aprono per le biblioteche e degli strumenti concreti a disposizione.

Il Repository può essere definito come ‘an online locus’; le funzioni di un deposito istituzionale possono essere ricondotte a 2: - la disseminazione dell’informazione scientifica, tramite il protocollo OAI-PMH, attraverso internet; - ma si tratta di qualcosa di più di un ‘magazzino’.

Si propone quindi un modello teorico di flusso, dal producer agli utenti, articolato in inserimento, gestione dei dati e storage, preservation e infine accesso.

All’inizio l’accesso era semplice dowload, ora (come emerso in mattinata) la prospettiva è quella del riuso, del rimodellamento.

Le catene del valore: van de sompel parla delle catene del valore accademico, per indicare i processi di generazione ed elaborazione della conoscenza in ambito accademico; si parla poi di supply chain anche per l’accesso all’informazione: sempre più la necessità è di conoscenza ‘on demand’ piuttosto che immagazzinata.

La tendenza è quella dell’accesso aperto nel senso che i dati tendono a diventare commodities, materie prime che, pur con determinati costi, si danno per scontate, sempre disponibili, a partire dalle quali si costruiscono diverse catene di valore.

Come Aperto può creare valore?

All’interno della nostra istituzione uno dei modi in cui Aperto può interagire con flussi di lavoro interni all’istituzione è l’interazione con il Catalogo delle pubblicazioni della ricerca di Ateneo, con l’obiettivo di far inserire solo una volta i metadati. Altro campo è quello dell’archiviazione delle tesi di dottorato e di laurea. Vi sono anche potenzialità di collaborazione con altre istituzioni e potenzialmente col territorio

 

Le potenzialità del repository si misurano però anche con scelte in merito all’architettura del sistema (scelte in merito alla creazione di un unico repository o di diverse installazioni per funzioni diverse; caratteristiche delle diverse versioni del software).

Gli archivi devono ‘servire’ ai ricercatori, fornire dei servizi, quali la possibilità di ottenere lo scarico di metadati in formati bibliografici diversi, il collegamento con altri siti o servizi (il portale d’ateneo; collegamento col sistema di credenziali unificato di ateneo) e devono fornire sufficienti garanzie di sicurezza e preservazione.

Gli ‘scenari globali’ proposti sono una panoramica sul ‘valore aggiunto’ potenzialmente fornito da Aperto che richiamano il ‘mondo piatto’ (Friedman, 2006) aperto a nuove forme di partecipazione e collaborazione collettiva alla fruizione e costruzione della conoscenza. Cominciano ad essere proposti nuovi modelli teorici per interpretare tali potenzialità e mutamenti: l’invito è quello di cominciare assieme, bibliotecari e docenti, ad affrontare ed interpretare il nuovo mondo piatto che si sta delineando.

 

Viviana Mandrile presenta le Linee guida elaborate dalla CRUI in merito alla pubblicazione delle tesi di dottorato, documento approvato a fine novembre.

Le linee guida della CRUI si propongono l’istituzione di un servizio nazionale.

 

Perché le tesi di dottorato sono interessanti per l’OA? Sono un prodotto della ricerca originale e innovativo, nascono in formato digitale, ma sono ‘letteratura grigia’, difficilmente accessibili e pertanto non hanno l’impatto che meriterebbero per il loro valore. Il vantaggio per l’istituzione che le raccoglie è quello di valorizzare meglio il proprio prodotto mentre per l’autore rappresentano il primo passo della propria carriera, che potrebbe essere meglio valorizzato.

All’estero la raccolta di tali lavori è maggiormente sviluppata ed esiste dal 2006 un gruppo di lavoro europeo per integrare le varie realtà nazionali (metadati integrati per favorire l’accessibilità).

In Italia esistono 18 archivi istituzionali gestiscono l’archiviazione delle tesi, ma in tutto le tesi depositate sono meno di 2000: molti archivi sono quindi da sviluppare e ancora da popolare.

Sinora le tesi sono state raccolte negli archivi in aggiunta al deposito amministrativo e su base volontaria, col metodo del self archiving. Nel gruppo Crui, a partire dalle ‘buone pratiche’, è emerso come l’obbligo di deposito dia buoni risultati.

Il quadro normativo presenta difficoltà, per la sovrapposizione di norme diverse, anche in contrasto per la stratificazione storica delle leggi: la legge del 1941 fa rientrare le tesi nella disciplina del diritto d’autore, come opere orginali; mentre la disciplina del dottorato di ricerca impone l’obbligo del deposito per i singoli atenei alla biblioteca nazionale. La legge sul deposito legale, mirando a pubblicizzare le tesi, incentiva la raccolta anche tramite supporti informatizzati (2006).

Il gruppo Crui ha cercato un’armonizzazione tra le varie norme, per conciliare necessità di dare pubblicità alle tesi e diritto d’autore:

gli atenei hanno facoltà di rendere obbligatorio il deposito delle tesi di dottorato nei repositry istituzionali (rendendolo esplicito nei bandi di dottorato). Vi sono poi casi particolari, sottoposti ad un ‘embargo’ di max 12 mesi nel caso di contenuti brevettabili, o che debbano essere pubblicati con altri canali o qualora ci siano interessi di terzi.

 

Standardizzazione ed interoperabilità: è stato creato un formato di metadati standard a cui gli atenei sono invitati ad attenersi per garantire l’interoperabilità. Nell’estate 2007 una circolare ministeriale ha avviato la raccolta automatizzata in formato digitale delle tesi da parte delle biblioteche.

 

Il caso di Chimica: il progetto è nato su base volontaria per arricchire Aperto e migliorare il servizio catalografico. Anche da tale progetto è emerso come sia necessario superare l’archiviazione su base volontaria.

La proposta è di una strategia a 3 livelli: - comunicaione; - organizzazione (integrazione con SCU e Db delle segreterie, flussi di lavoro di ateneo); - conservazione e innovazione: occorre un regolamento di deposito (su formati, metadati, valorizzazione, integrazione con altri servizi quali Trova@unito).

Open access : servizi a valore aggiunto?

24 Ottobre, 2007

Su segnalazione di Bianca, leggo un articolo di Armbuster sul ruolo di editori e institutional repositories nel ciclo della pubblicazione e comunicazione scientifica.

Sono d’accordo con la parte critica rispetto al modello editoriale attuale ed al ruolo degli editori. Non ha più senso che le società scientifiche - ma anche gli editori tout-court attuino un modello di business basato sul “content holding”, in nessuna delle sue varianti. Tantomeno, possono avere applicabilità generale modelli come quelli dell’institution- o authors- pay, che Armbuster critica molto esplicitamente.

In sostanza, per Armbuster, in futuro la comunicazione scientifica dovrebbe basarsi su un duplice binario:

  • registrazione, archiviazione e disseminazione primaria del contenuto affidata agli IR;
  • peer review, certificazione, rewarding e servizi a valore aggiunto attuata dagli editori scientifici.

Sul secondo punto, però, ho due perplessità. Provo ad articolarle.

  • pur se molto interessanti, i modelli di open peer review, post publication peer review ecc. che A. cita non definiscono un modello concettuale per la peer review - mi pare che negli es. citati la PR si confonda a volte con attività di reviewing, di commento, financo di tagging, ecc. Insomma, che cos’è la peer review? Ci vogliono competenze specifiche per ri-vedere un lavoro scientifico, oltre alle competenze disciplinari? Di certo, un parere competente, un “voto” ad un articolo, ecc. sono importanti, ma non sostituiscono la peer review, se per farla occorre una specifica preparazione professionale, se essa è frutto del lavoro di un gruppo in cui sono presenti varie competenze, ecc. E’ un po’ la stessa differenza, in bibliotechese, tra il tagging ed un tesauro: entrambi sono utili ed importanti, ma un tesauro segue regole formali e la sua applicazione richiede un’interpretazione, magari creativa, di un insieme di regole, il tagging è più spontaneo ed in certe circostanze funziona meglio - non si possono però confondere. In questo, le poche (pare) riviste che fanno seriamente peer review hanno ancora un notevole vantaggio competitivo - v. questo editoriale su Nature Cell Biology. E’ comunque interessante l’idea di evitare che la peer review costituisca una barriera per la pubblicazione, ma ho l’impressione che si debba ancora capir meglio, oggi, nel web 2.0, che cosa significhino termini come open e (aggiungo) continuing peer review. E anche la “peer review of research (…) data”.
  • i servizi a valore aggiunti (overlay journals, selezione voto ai contenuti, enhanced navigation) sono molto richiesti dai lettori, e possono costituire un modello di business accettabile per le società scientifiche. Ma siamo sicuri? In fondo, la lettura di articoli specialistici esibisce dinamiche tipiche da coda lunga. Forse nel breve periodo le società scientifiche possono sperimentare modelli di business e mashup che funzionino per specialisti, ma non si avrà già il destino segnato, nel senso che prima o poi un grande editore, un enhancedgooglescholar o qualcosa del genere inventerà un sistema che faccia leva sulle economie di scala per fornire tutti questi servizi tramite una piattaforma unica, anche se infinitamente personalizzabile, con una buona quota di valore aggiunto costruita (anche e soprattutto, e ancora) sul crowdsourcing?

A meno che non proviamo ad inventarla noi (utenti, specialisti dell’informazione, innovatori, ecc.) questa piattaforma. Ad inventarla e a mantenerla viva.

Utopia. Ma certamente.

DSpace User Group Meeting IV - Venerdì mattina

19 Ottobre, 2007

Dopo la presentazione di Richard Jones, dell’Imperial College di Londra (la cui implementazione di DSpace si chiama Spir@l), utile per i modelli concettuali sull’architettura di sistema e sulle diverse tipologie di procedure di deposito, Marc Goovaerts relaziona sulle procedure di inserimento di dati basate sulle tipologie di pubblicazione in DSpace at Hasselt University, in Belgio. A Hasselt l’IR sarà parte del sistema informativo sulla ricerca in corso di realizzazione. DSpace dovrà essere collegato anche ai principali db disciplinari presenti sul web (problemi di copyright per i db commerciali?). Solo i record con il full text saranno disponibili per harvesting OAI, non quelli con i soli metadati. I dati vengono importati dai db bibliografici con uno script eseguito quotidianamente, e successivamente validati. Il personale viene importato come e-person, con un ID unico, ed assegnato alle comunità/collezioni di pertinenza. Il modulo per inserire dati in DSpace è limitato, quindi è stato migliorato per supportare l’inserimento di diversi tipi di documento. All’inizio si sceglie uno dei 10 tipi di documento predefiniti. Per gli articoli, ad es., si scelgono gli autori e le riviste da una lista. Il link tra autore e dipartimento va invece fatto manualmente. E’ stata aggiunta anche la possibilità di importare i metadati in molti formati bibliografici standard (RIS, Pubmed, ecc.). C’è un ampio supporto per vari schemi di metadati, con un OAI qualificato, AGRIS AP, MODS modificato e adattato, ecc.)

Anna Rovira e colleghi dell’UPC (Catalunya) comincia enfatizzando l’importanza delle risorse umane. Si sono realizzati repositories separati (in tutto 6), per diversi prodotti di didattica e di ricerca; ognuno è seguito da un bibliotecario, mentre i bibliotecari delle singole biblioteche si occupano di controllo bibliografico (soprattutto per gli aspetti semantici). Si ha poi un’interfaccia di ricerca comune. C’è grande attenzione al posizionamento dell’IR all’interno del workflow globale d’Ateneo, soprattutto in rapporto agli uffici che si occupano di ricerca e didattica, oltre che di proprietà intellettuale.

I repositories hanno un buon successo - migliaia di documenti sono già stati caricati. I miglioramenti futuri riguardano le statistiche, submission forms personalizzati, controllo d’autorità e import del soggettario locale. In particolare, si sta lavorando ad integrare i repositories con i db dell’ufficio ricerca, che ha tutti i metadati delle pubblicazioni dei docenti dell’ateneo, anche se di scarsa qualità e privi di full text.

Lieven Droogmans e colleghi (di @mire, spin-off dell’Università di Lovanio) presentano invece Tog@ther, attualmente in fase beta. Si tratta di un sistema completo di gestione di congressi e seminari realizzato partendo dal codice di DSpace, inclusi i moduli per iscrizioni, pagamenti, peer review, etc. Il prodotto sarà a pagamento.

Chiudono la mattinata Susanna Mornati e Andrea Bollini del team Aepic di CILEA, parlando dell’esperienza realizzata con l’Università Statale di Milano riguardo al collegamento tra IR e valutazione della ricerca. I principali problemi con l’OA in Italia riguardano l’approccio troppo ideologico all’OA, inutile e controproducente quando si tratta di riempire un IR, la mancanza o l’insufficienza delle policies, la vision e la mission troppo imprecise; questo, in un contesto in cui le leve per il cambiamento (consapevolezza degli autori, aumento dei costi per le riviste, ecc.) sono conosciute, ma si scontrano con molti ostacoli istituzionali difficili da rimuovere.

Gli IR, quando conterranno molti/tutti i prodotti della ricerca di un’istituzione, potranno diventare i building blocks per valutare la ricerca prodotta in un’istituzione o all’interno del sistema universitario nazionale - posto che la valutazione andrà fatta a livello del singolo documento e senza l’utilizzo di surrogati come l’impact factor.

Da questa esigenza nasce SURPLUS, sistema integrato per la gestione della ricerca, dedicato a tutte le principali attività collegate alla ricerca in un’ateneo. Il sistema è una suite di diversi prodotti (incluso un IR) e si propone di migliorare la visibilità della ricerca prodotta, il monitoraggio in tempo reale, il supporto ai progetti, ecc. - altre info generali a https://surplus.cilea.it/. I dati vengono presi da DSpace ed elaborati in contesti di valutazione, business intelligence, ecc., gestiti dagli altri moduli di Sur+. L’autenticazione avviene fuori DSpace, sfruttando le procedure delle Università. Molte ed interessanti le caratteristiche dei vari moduli, tra cui la gestione dei nomi di autori istituzionali e riviste e la generazione automatica di citazioni (ISBD, però). Il lavoro svolto può in parte essere visto sul sito di AIR - UNIMI.

Problemi riscontrati: colli di bottiglia nell’immissione massiccia di dati in occasione di scadenze come la presentazione di progetti di ricerca - ci vogliono miglioramenti di architettura e db; blocchi di transazioni e problemi di procedura in occasione di elaborazioni di dati, risolta spostando alcune delle procedure gestite in moduli esterni - anche perché personalizzare troppo il codice di DSpace porta notevoli diseconomie gestionali nel futuro prossimo.

Notevolmente interessante il discorso sulla Business Intelligence: trasformare dati in informazioni –> conoscenza –> strategie, benchmarking, vantaggio competitivo. Il sistema informativo è comunque complesso: diversi db, tecnologie legacy che non possono essere eliminate in un solo colpo, ecc. Sono presenti anche dei cruscotti per vedere istantaneamente le prestazioni di un dipartimento o centro di ricerca.

Questo sistema può avere anche interessanti effetti di feedback rispetto al popolamento degli IR: il presupposto per avere una valutazione efficiente è infatti avere nell’IR una copertura completa della ricerca prodotta in Ateneo.

Infine, un suggerimento alla comunità: concentriamoci sul rendere DSpace sempre migliore per fare da IR, non forziamolo per fare altre cose perché i forks possono essere troppo costosi e poco utili.

Infine, una questione aperta: con la crescita degli IR, sempre più frequentemente si hanno record duplicati tra gli IR in diverse istituzioni.

Non sono al momento presenti funzionalità di digital preservation, anche perché gli IR sono nati principalmente per la disseminazione. Inoltre anche la digital curation è un problema su cui la comunità di DSpace potrebbe concentrarsi.

DSpace User Group Meeting III - giovedì pomeriggio

18 Ottobre, 2007

L’esperienza con DSpace della FAO di Roma, raccontata da ARD Prasad e Johannes Keizer, riguarda i metadati prodotti con AGRIS e inseriti in DSpace come AGRIS-AP. Si tratta di un tesauro multilingue, implementato basandosi sullo standard Dublin Core, ovviamente molto esteso e con maggiore granularità. Le istituzioni come la FAO accolgono nei loro IR un grande numero di pubblicazioni, in diverse lingue; anche i metadati sono multilingue. Il lavoro di integrazione, attualmente in fase di sviluppo, comprende quindi la necessità di estendere l’architettura di DSpace per “ospitare” contemporaneamente diversi schemi di metadati e la traduzione in molte lingue degli stessi metadati; inoltre si lavorerà per permettere di integrare i web services di AGRIS al fine di scaricare online gli aggiornamenti del tesauro (interessante, interessante…).

LIRIAS è l’IR dell’Università di Lovanio. Il case study, presentato da Lieven Droogmans, racconta di un’esperienza piuttosto recente, nata nel 2005 con la fase di analisi. A novembre 2006 il sistema diventa accessibile al pubblico. LIRIAS è stato concepito come il punto d’accesso principale per le pubblicazioni dei docenti di Lovanio, anche con finalità di valutazione della ricerca. L’IR è stato integrato all’interno dei flussi di lavoro dell’università, anche a livello amministrativo; hanno anche lavorato sui meccanismi di autenticazione; si è inoltre nominato un research publication officer, a livello dei dipartimenti, coinvolti negli sviluppi relativi al servizio. Far partecipare i coordinatori di dipartimento è stato particolarmente complesso: sono molto impegnati e non vogliono altro lavoro –> si è cercato di integrare il lavoro relativo all’IR dentro i workflow esistenti, utilizzando anche la possibilità di export da gestori di citazioni bibliografiche (EndNote); inoltre, si è realizzata una corrispondenza univoca tra i nomi dei ricercatori e un ID, in modo da evitare problemi relativi alle omonimie. Non c’è un’unica fonte per gli import di metadati, se ne usano diverse; questo implica che, dopo l’import e prima di procedere all’inserimento dei record, ci debba essere una validazione. Il workflow per l’inserimento di un lavoro da parte dei docenti comprende una serie di interessanti strumenti di controllo per evitare errori (es.: controllo dei titoli di riviste in una lista, ecc., controllo di titoli di articoli già presenti nell’IR per evitare duplicazioni, ecc). Sono inoltre state aggiunte funzionalità per la generazione di bibliografie (anche questo, molto interessante!).

Statistiche: circa il 70% del traffico è generato dai motori di ricerca; le unique visits in ottobre hanno toccato quota 500.

Sylvie Gresillaud dell’INIST ci fa conoscere tre progetti:

  • iRevues, archivio per pubblicare articoli e paper a conferenze, con indicizzazione del documento in formato PDF e disponibilità del feed RSS;
  • LARA, collezione di report tecnici e scientifici;
  • OpenSIGLE, database di metadati su letteratura grigia.

Annamaria Tammaro si concentra invece su alcune questioni strategiche per lo sviluppo degli IR, partendo dall’esperienza di Dspace Italia, sottolineando le questioni aperte relative alla necessità di un coinvolgimento pieno del corpo docente, di una continuità di finanziamento, del superamento della “insularità” dei depositi istituzionali.

In particolare quest’ultimo problema provoca uno spreco di risorse e una ridondanza di iniziative, superabile con una più stretta collaborazione. Altre tematiche sono la necessità di conservare i formati digitali presenti sugli IR e di formati citazionali adeguati.

La dialettica tra centralizzazione vs decentralizzazione si articola alcuni punti principali:

  • sostenibilità economica;
  • diritti di proprietà intellettuale;
  • qualità e impatto dell’informazione;
  • interoperabilità e architettura dell’informazione.

I consorzi possono essere una risposta a queste problematiche. Un esempio è AEPIC, organizzato dal CILEA, che gestisce tra l’altro il progetto PLEIADI, un service provider che permette di interrogare gli IR italiani. Peraltro, i consorzi dovrebbero occuparsi anche di questioni organizzative e non solo legate all’ICT: piani di advocacy, linee guida e standard, progetti comuni, formazione, convegni.

Un utile spunto di lavoro potrebbe consistere nel prendere contatti con gli editori italiani, la cui politica sull’OA spesso non è chiara o non esiste.

DSpace User Group Meeting II - giovedì mattina

18 Ottobre, 2007

Peter Ruigrok inizia la sessione di presentazioni tecniche parlando di conservazione digitale. Molte le tematiche da affrontare: gestire depositi affidabili nel lungo periodo; mantenere e poter citare relazioni tra diversi oggetti.

La cornice utilizzata è DRAMBORA.

Una questione importante è la correzione immediata degli errori presenti nei file (usando una checksum MD5) - vanno eseguiti controlli automatici. Inoltre si affronta la tematica del disaster recovery, che l’Università di Utrecht ha affidato in outsourcing, facendo backup di documenti e dati via rete per una quantità superiore ai 15 TB. Sono state istituite policy pluriennali per i backup completi dei dati. Ma: ripristinare un backup tra 10 anni sarà possibile?? Una soluzione consiste nel mantenere i formati di backup il più semplici possibile, tipicamente usando XML. Gli script per il restore si realizzeranno al momento del restore, con la garanzia che XML sarà comunque leggibile, indipendentemente dall’applicativo.

Dal punto di vista organizzativo, l’Università di Utrecht ha creato un posto di Digital Preservation Officer, con il compito, tra l’altro, di monitorare i contenuti, la disponibilità dei formati e fornire linee guida per i tipi di materiali e per i formati di metadati ammessi.

Sarebbe importante che DSpace potesse gestire, in futuro, l’inserimento di bitstreams convertiti come nuove manifestazioni (FRBR) dei bitstream originali; inoltre servirebbe la possibilità di fare un versioning dei metadati e dei bistreams, facendo gestire relazioni multiple tra metadati e manifestazioni (biststreams). Gli stessi metadati supportati da Dspace andrebbero ampliati con riguardo alla conservazione digitale, aggiungendo ad es.: formato e versione del file, titolo, capitolo, ecc. del documento, informazioni relative al fatto che un formato di file sia supportato o meno, ecc.

Richard Rodgers del MIT presenta DWELL, un approccio alla gestione semantica dei metadati. DSpace diventa sempre più complesso e modulare, con un core più piccolo e meno stabile - e questo è una buona cosa. Di conseguenza, la “intelligence” e la gestione dei metadati sono svincolati dal core dell’applicazione, e possono essere gestiti con maggiore flessibilità, senza dover necessariamente modificare l’architettura. Basato su SIMILE e Longwell, DWELL utilizza AJAX ed è ben integrabile con l’interfaccia utente di DSpace 1.5.

DWELL permette di avere metadati molto più ricchi, ad es. la storia dell’evoluzione di un metadato relativo ad un certo oggetto, gestibile con RDF, oppure l’utilizzo e l’integrazione di metadati provenienti da più fonti (DSpace e non DSpace): ecco un esempio molto interessante, che illustra inoltre come gli stessi metadati possano essere visualizzati e manipolati in modi diversi. Interessante anche questa demo di DSpace longwell-enabled, che permette tra l’altro di configurare al volo le visualizzazioni dei metadati in formato tabellare, aggiungendo o togliendo la visualizzazione di alcuni campi a piacimento (ah, se ce l’avessimo sugli opac… :-)).

Le domande evidenziano infine il problema della scalabilità delle triple-stores RDF che stanno alla base di questo tipo di servizi: le triple tendono a diventare enormi e difficili da gestire e soprattutto da interrogare.

Pausa. Le nuvole, il dopopioggia e il sole caldo dell’ottobre di Roma.

Torniamo in tempo per sentire Jayan Chirayath Kurian che ci parla dell’inserimento di metadati dal portale d’Ateneo (Nanyang Technological University - Singapore) in DSpace. Con uno script in Java vengono prelevati i dati sulle pubblicazioni dello staff dalle pagine del portale. Per le pubblicazioni si prelevano contributor, date, url, title e si copiano in Excel, da cui poi si estraggono per importarli con un altro script in DSpace. Progetti per il futuro: migliorare lo scraping dell’HTML, supportare formati citazionali standard (es. APA); passare da un metodo semiautomatico ad un metodo automatico.

Valerio Minetti e colleghi (Università di Milano Bicocca) presentano l’esperienza del Centro di Produzione Multimediale, che utlizza DSpace per archiviare e consentire l’accesso ai propri prodotti multi- e cross-mediali. DSpace è stato preferito a Fedora perché più semplice da configurare ed installare.

DSpace sarà integrato con il sistema locale di video indexing e summarization. Il progetto è stato pensato prima di SIMILE; le funzionalità di DSpace sono state estese con il plugin manager. La video summarization prepara il video per le operazioni di indicizzazione, riducendo di molto la quantità di dati da esaminare. L’indicizzazione automatica utilizza un mix di speech, motion, face and object recognition, e tecniche OCR per produrre metadati. Fatte queste operazioni, resta però una forte componente semantica da considerare. A Bicocca questo problema è stato gestito integrando indicizzazione manuale ed automatica. L’inserimento dei dati avviene manualmente in questa fase di test, ma se ne sta studiando l’automatizzazione.

Dai commenti del pubblico arriva una conferma del fatto che le collezioni multi e crossmediali diventeranno sempre più importanti nello sviluppo di DSpace.

Conclude la mattinata Eloy Rodriguez (University of Minho), con un’intervento riguardante le statistiche d’uso di DSpace. Quest’Università portoghese, tra le più attive sull’OA a livello europeo (ca. 6000 documenti full text a settembre 07), ha ottenuto quest’anno con il suo RepositoriUM un picco di 130.000 e 110.000 download di documenti al mese.

Le statistiche servono al marketing e alla promozione dell’IR. Si articolano principalmente nei seguenti settori: uso, contenuto, amministrazione. Le statistiche vengono generate con un plugin appositamente sviluppato, e disponibile anche per altre istituzioni (lo usano già in Belgio e UK). I problemi principali: problemi a gestire i tempi di risposta nelle queries man mano che la mole di dati cresce; la definizione delle statistiche e dell’interfaccia web è troppo rigida; la visualizzazione dei dati è molto carente. Queste problematiche verranno affrontate con la v2, che offrirà migliore scalabilità, aggregazioni dimensionali di dati (es.: Paese, tipo di documento, ecc.), nuove statistiche (personalizzabili), miglior documentazione di sistema

Molto interessante l’architettura (vedi slide), i cui elementi fondamentali sono i log, il loro salvataggio in un db Postgres, l’elaborazione secondo uno specifico modello di dati, l’output XML, l’estrazione con un foglio di stile XSLT.