Dai soggetti al tagging: un problema di quantità?

By Paolo Gardois

Riprendo una frase della citazione di Mani dal post di 2 gg fa.

Instants are attractive because our logics have traditionally conceived of the truth of a proposition as evaluated at an instant

Mi era sfuggito il senso reale di questa frase. In effetti, l’epistemologia riporta alla logica, alle funzioni per stabilire la verità delle proposizioni. In fondo l’idea che sta dietro al tagging o alla soggettazione ha a che fare con la verità, almeno in quanto adeguamento di una descrizione ad un oggetto descritto. Ogni tag è un istante, un punto nel tempo, ma anche nel senso in cui diciamo “ho colto il punto”. Pensate ad esempio alla nozione di aboutness come fondamentale nella catalogazione semantica: una soggettazione, un tagging dovrebbe essere quanto più possibile circale rispetto alle dimensioni dell’oggetto da descrivere. Di qui gli schemi come PMEST, appunto, che fanno da infrastruttura per la aboutness, la precisione descrittiva.

Quello che mi interessa, però, è capire come la ridondanza descrittiva, la sovrapposizione di tag ed etichette genera un effetto di accumulo che migliora – o peggiora – la comprensione. E’ anche una questione di quantità. Se alcuni tag aiutano la comprensione, troppi tag ci fanno perdere per vie laterali. Certo, molti tag aiutano il reperimento di un oggetto in un sistema di information retrieval, perché ci permettono di arrivarci partendo da diversi concetti, o sostenendo diverse associazioni di idee – ma un’associazione debole, o troppo soggettiva od arbitraria o “poetica” rispetto ad un contenuto può sviarci (certo, questo ci dà fastidio solo se non desideriamo essere sviati, se abbiamo un’attitudine “serendipitous” allora è diverso…).

E’ un problema non risolto della catalogazione semantica, della soggettazione, della classificazione.  Esistono linee guida su come usare i tesauri. Pubmed, per es., prevede una suddivisione delle voci di tesauro assegnate ad un record, in modo che solo poche siano caratterizzate come “major topics“, il che equivale a dire che molti termini possono descrivere aspetti secondari di un articolo medico, ma solo alcuni ne individuano la tematica fondamentale.

Però, qui, abbiamo una distinzione fondamentale tra uso di soggettari e vocabolari controllati e l’uso del linguaggio naturale come fonte di etichette per oggetti disponibili sul web. In fondo la vera differenza non è tanto qualitativa (varianti, polisemie, ecc. – in qualche modo, parzialmente, gestibili con strumenti automatici), ma piuttosto quantitativa. Nel momento in cui ogni parola può fare da etichetta – tag – nel momento in cui milioni di utenti possono etichettare un singolo oggetto, c’è bisogno di un ulteriore layer – a sua volta semantico – per stabilire relazioni tra i tag, che a questo punto diventano un universo a parte, anche sganciato dagli oggetti descritti.

Insomma, in qualche modo diventano un nuovo tesauro, solo ricostruito a posteriori, e dinamico in una maniera molto più imprevedibile. Se con il passaggio dai soggettari ai tesauri ci siamo mossi dalla pre- all post-coordinazione (posto che si tratti di un passaggio anche cronologico, oltre che logico), con il tagging generalizzato, di massa, siamo passati ad una creazione di ontologie ex-post, che forse possono diventare il vero valore aggiunto per un’analisi multidimensionale di grandi social networks. Si potrebbe provare – o per meglio dire qualcuno di certo ci avrà già provato…

3 Risposte a “Dai soggetti al tagging: un problema di quantità?”

  1. Anny Dice:

    Ho trovato interessante:
    https://webmeeting.nih.gov/p75193457/
    (MLA Annual Meeting Theater Presentation, May 2007)
    Più facilmente consultabile in ppt:
    http://www.nlm.nih.gov/pubs/techbull/mj07/theater_ppt/semantic.ppt

    Un interessante progetto di rielaborazione delle informazioni ottenute dalle citazioni bibliografiche, basato sull’estrapolazione dei concetti salienti, analizzati dal punto di vista semantico e riorganizzati in un grafico che rappresenti visivamente le relazioni tra le informazioni oggetto della ricerca nella banca dati.

    Un estratto della presentazione:
    (…)
    I would like to introduce an application we’re working on, which is still not up for production, but is — but is under development and we are hoping to bring out at some point. It is called Semantic MEDLINE. And the idea is that this is an information management application that manipulates information in addition to documents. So the particular way that we’ll use this is to demonstrate a way of managing the results of PubMed searches. So, in a way it helps the user decide what to read from the results of a large PubMed search, which as you well know can easily be hundreds, tens of thousands of citations. In addition, this connects knowledge from various sources and integrates application interfaces.
    So a rough overview of how it might work, it sits totally on top of PubMed/MEDLINE. So the idea ultimately will be to have all the resources available, but in addition, after retrieval you will summarize with natural language processing applications that produce a visual graphic network of relationships. And then you can — and this is specifically the aspect that we call Semantic MEDLINE. Once you have done that you can then choose some particular relationship that you are interested in, and this maintains links to the documents that produced that information in addition to other information that I’ll put into greater detail in just a second.

    So this is seamless integration of NLM’s technologies, including information retrieval (the familiar PubMed/MEDLINE) and natural language processing, which is under development, a program called SemRep that I have been a responsible for for a number of years, which is now beginning to come into fruition, to be applicable in a practical way. And this represents the content of text with semantic predications. The term semantic predications is loved by linguists (which I am one), and I’ll explain it in greater detail and specificness in just a minute. So on top of that there is a process called abstraction summarization, which takes the information that is extracted from text and boils it down to sort of the most salient…what the system considers the most important information, which you can then choose and navigate around in. And finally this information is visualized with indicative links to source text and additional information.
    (…)

  2. Paolo Gardois Dice:

    Ciao.
    Molto interessante, è proprio un ottimo esempio del genere di cosa a cui pensavo. E’ vero che siamo ancora in un orizzonte molto canonico-formale = articoli pubblicati su rivista + tesauro MeSH, ma l’introduzione di metodi di natural language processing va nella direzione a cui accennavo.
    Grazie per la segnalazione!

  3. La forma delle reti « ServiziBibliograficiDigitali Dice:

    [...] in un formicaio. Potremmo chiamarla pre- e post-coordinazione, non cambierebbe molto (come abbiamo già detto). Non è questione di ciò che preferiamo. Lo spazio topologico: uno spazio che si definisce [...]

Lascia un commento