titticimmino.com

Social Life in Social Network

 






Previsioni 2011: Linked Open Data per MuseoTorino. Auguri!

Gran parte delle informazioni realmente utili sono  state sempre nascoste in diversi sistemi in tutto il mondo, e anche i più grandi Istituti sono stati  riluttanti a condividere i loro risultati. La maggior parte dei dati pubblici non veniva stata resa disponibile in licenza con permesso di ridistribuzione.. Questo è il passato.

Veniamo al presente: in più parti del globo abbiamo assistito alle azioni di liberazione dei dati di alcuni attivisti che sono diventati, di fatto,  i Robin Hood di dati aperti!
Eppure, le Istituzioni non riescono a tenere il passo coi tempi: si trovano cinque,  dieci anni dietro a ciò che le nuove tecnologie rendono possibile, ma qualcuno sta  vincendo la battaglia.

E il Futuro cosa ci riserva? In Italia non abbiamo bisogno di un compromesso, ma di uno uno switch completo a 180° gradi !
Abbiamo bisogno di liberare dati e informazioni, perché queste vaste nubi di informazione libera contengono fatti che assomigliano a saette!
Un tentativo : usare le statistiche e la visualizzazione dei dati per spiegare il mondo intero, o ciò che riguarda questo Stivale, da due secoli a questa parte per vedere il futuro!

Mi hanno molto colpita  le parole di David Eaves , un attivista canadese supporter dell’open data:
just as libraries weren’t built for people who were already literate, open data portals aren’t just for a “small elite of hackers and policy wonks”. When the western world got busy building libraries in the 19th and early 20th centuries, they were built on the belief that they would act as hubs to help citizens become literate, and in doing so benefit society as a whole.
In the world of international development, opening up data and building portals that offer convenient access for users may seem like nerdy technical endeavours now, but these are the first steps towards a more effective, data-literate development sector. Fundraisers, researchers, policy experts, administrators, consultants, field workers, local staff, community activists and the individuals who are directly affected by aid will benefit from better access to information they can use.

“proprio come le biblioteche non sono state costruite per coloro che sapevano già leggere e scrivere, allo stesso modo gli open data non sono destinati ad una piccola comunità di hacker o di esperti politici. …”
Ecco ciò che hanno significato le biblioteche: erano state pensate come hub per la crescita culturale a vantaggio dell’intera società.. e non di una parte solamente.

Nel mondo dello sviluppo internazionale l’apertura dei dati e la costruzione di portali offrono un facile accesso agli utenti verso informazioni importanti e strutturalmente collegate: tutto questo sa molto di tecnologico, ora, ma questi sono i primi passi per il settore dello sviluppo dei dati liberi nel campo della cultura.
Forse preferireste che mi esprimessi non in termini “tecnici” ma come un aruspice dalle arti magiche, previa opportuna consultazione… e lasciamo correre i dettagli su quest’ultima,  vi mostrassi il “Fututo”?

E allora ecco a voi la mia previsione del 2011: MuseoTorino come esempio di tecnologia LOD su motore semantico!

Ho il piacere di presentarvi un’abstract del comunicato stampa che Gian Luca Farina Perseu, progettista di tutta la parte informatica di Museo Torino che andrà in linea a Marzo in occasione dei 150 anni dell’unità d’italia ,  mi ha indicato in merito :

Il Sistema MuseoTorino si configura come una applicazione web accessibile da qualunque utente, senza necessità di autorizzazione, attraverso un programma di navigazione internet (web browser). Utilizzando il web browser, da marzo 2011 gli utenti potranno accedere a MuseoTorino e navigare all’interno della collezione attraverso una tripla modalità di interazione: potranno partire dalla mappa della città presente per visualizzare ogni scheda del museo inserita nel sistema, con la sua collocazione spaziale georeferenziata; potranno esplorare le città del passato attraverso un’esposizione, organizzata per livelli cronologici e sale tematiche, che raggruppa un insieme predefinito e selezionato di schede; potranno infine consultare direttamente il catalogo del Museo, utilizzando una funzione di ricerca intelligente che permetterà di cercare l’informazione desiderata e gli oggetti a essa correlati attraverso diversi filtri e criteri di raggruppamento. Sarà inoltre possibile consultare i volumi presenti nella Biblioteca Digitale e i materiali archiviati nella Mediateca, per la quale è prevista l’implementazione di una piattaforma DAM (Digital Asset Management), in grado di memorizzare e organizzare diversi tipi di risorse digitali (immagini, video, audio, pdf). In una fase successiva all’inaugurazione, il sistema sarà in grado di gestire la creazione o la modifica dei contenuti da parte della comunità di utenti internet, secondo la filosofia che sta alla base di siti come Wikipedia. Ogni modifica potrà essere visualizzata dagli altri utenti i quali potranno anche, eventualmente, segnalare imprecisioni o correggere il contenuto delle schede sotto la supervisione – mai intrusiva o inibitoria – degli esperti di Museo Torino. In questo modo MuseoTorino potrà diventare nel tempo un contenitore di memorie, informazioni e conoscenze sulla città sempre più completo grazie anche ai contributi degli utenti. Chi accederà al museo virtuale avrà però sempre la consapevolezza di accedere a contenuti corretti, in quanto certificati da MuseoTorino.
Progettato secondo la filosofia degli Open Data, il Sistema MuseoTorino è basato su tecnologie innovative orientate alla condivisione delle informazioni con l’utente e con altri sistemi, nell’ottica di fornire una base dati il più aperta e accessibile possibile. In fase di progettazione è stata per questo conferita grande importanza alla possibilità di accedere alle informazioni contenute in MuseoTorino attraverso sistemi esterni in grado di elaborare i dati in maniera indipendente dal sito stesso.
Museo Torino implementa le caratteristiche che definiscono l’ambito di utilizzo di quello che viene chiamato il Web 3.0 o Web Semantico. L’applicazione degli standard più recenti (RDFa e Open Graph) all’organizzazione e all’archiviazione delle informazioni nel Sistema permetterà ai motori di indicizzazione del web (come Google) e ai social network (come Facebook) di distinguere i termini in base al loro significato nel contesto (http://21-style.com/blog/2010/12/museo-torino/)

Queste le parole di Gian Luca:

Entro marzo saranno previste le funzioni basilari e una prima versione delle API d’interrogazione che serviranno al client di navigazione (Flash + Google Maps, alternativo alla navigazione testuale). In pratica le API forniranno tutta la conoscenza storica e culturale della Città di Torino sotto forma di schede informative. Sarà un progetto 100% basato su un GraphDB, interfacce REST/JSON e più avanti con la compatibilità RDFa e Open Graph”

Ho chiesto a Gian Luca qualche dettaglio.

Titti: i dati sono rilasciati a tutti?
Gian Luca: Il sistema adotta due livelli di API, una di tipo applicativo chiusa a supporto del client Google Map e una  API  pubblica, usabile da sistemi esterni (palmari, applicazioni ecc). Queste API potranno anche essere in scrittura per poter supportare il caricamento o la modifica di dati da sistemi esterni.

T.: la licenza di rilascio è free al 100% e cioè tutti possono accedervi e riusarli come a loro pare, quindi anche per uso commerciale ?
G. L.: Su questo fronte dobbiamo ancora valutare, unitamente al committente, le modalità di rilascio dei dati, anche in seguito alla presentazione della recente licenza Open Data italiana. I dati presenti sul sistema sono, in ogni caso, di proprietà della Città di Torino, per cui si tratta solo di decidere quali diritti dare ai futuri fruitori.

T.: i dati sono rilasciati in quale formato? open ? csv o xml o altro?
G. L.: I dati saranno rilasciati sotto forma di API, il formato, nelle intenzioni, sarà OpenGraph sulla scia di quanto fatto da Freebase (www.freebase.com).
Ad esempio la scheda di Torino è così: http://graph.freebaseapps.com/turin mentre Camillo Benso è così:
http://graph.freebaseapps.com/camillo_benso_conte_di_cavour.

T.:  la qualità dei dati come si evince?
G. L.: Ogni scheda è “certificata” dal settore musei. Nella seconda fase le schede potranno essere anche modificate dagli utenti come una sorta di Wikipedia, ma perderanno il bollino di “certificato” fino a che il suo contenuto non sarà vagliato dal personale di Museo Torino.

T.: la validità temporale e l’aggiornamento degli stessi come si evincono?
G.L.: Sarà sempre presente una cronistoria delle modifiche di una scheda per cui si potrà vedere da quando quel contenuto non è stato più modificato. Va da se che essendo il museo concentrato al 90% sul passato, probabilmente una volta creata una scheda gli aggiornamenti saranno minimi in quanto il contenuto non avrà necessità di aggiornamenti. Giusto se una edificio viene demolito (per esempio), allora la relativa scheda potrebbe avere necessità di essere aggiornata con una nuova data ….

T.: e che mi dici della granularità dei dati?
G.L.: Per la questione granularità: i dati sono immessi direttamente nel sistema attraverso apposi pagine di editing, quindi i dati sono all’interno del sistema in maniera nativa, “certificati” come validi ma (nella seconda fase) anche modificabili da utenti, con successiva
ri-certificazione da parte di personale di Museo Torino.

E ora lasciamo la nostra aruspice, che ha avuto vita facile vista la “consultazione “ con lo ”stregone“ Farina Perseu, e veniamo alle questioncelle tecniche.. ma mica tanto.

L’emergere di tecnologie del web semantico consente alla macchina una rappresentazione understandable della conoscenza codificata nei documenti web. Con il Linking Open Data (LOD) grandi risorse di dati pubblici strutturati di diversi domini sono stati triplified per diventare interconnessi RDF(S) dataset. Ciò fornisce ad una macchina la semantica adatta che consente  la semplice deduzione di collegamenti incrociati tra i dati. Le tecnologie Natural Language Processing (NLP) , l’analisi dei media, e le statistiche sono applicate per rilevare le entità semantiche e le loro relazioni in documenti Web multimediali: quelli per esempio che vorrei TROVARE in MuseoTorino. Tenendo conto di questo, un motore di ricerca semantico dovrebbe essere in grado non solo di ottenere risultati di maggiore precisione e richiamo, ma anche dovrebbe dare suggerimenti su ciò che è affine per quanto riguarda contenuto e significato. Così, la ricerca esplorativa davvero sarà possibile, permettendo all’utente di scoprire ed esplorare la conoscenza che è nascosta in documenti Web, e di risolvere compiti di ricerca complessa.
Ma, uno dei presupposti essenziali per la realizzazione tecnica di un efficiente motore di ricerca semantico esplorativo è la precisione e la correttezza dei dati sottostanti. Questo significa che se un motore di ricerca semantico è costruito sui linked data, i risultati di ricerca ottenuti e le raccomandazioni esplorative possono essere  buone così come la qualità delle fonti di dati sottostanti e delle entità che devono essere collegate con il contenuto del documento web.

Talvolta alcuni difetti derivano da incongruenze strutturali, sintattiche e semantiche, da ambiguità e mancanza di informazioni, difetti  che devono essere risolti per assicurare un vantaggio rispetto alle tradizionali tecnologie di ricerca mediante parole chiave  e per sfruttare appieno il potenziale esplorativo della ricerca semantica. In che modo i linked data  vengono utilizzati per attivare la ricerca semantica esplorativa?

Nella  ricerca basata su parole chiave l’obiettivo è conosciuto e il processo di raffinamento della ricerca dovrebbe raggiungere il target desiderato il più velocemente possibile. Al contrario, la ricerca esplorativa assiste l’utente nella individuazione di un dominio lungo differenti paths. L’utente può muoversi avanti e indietro su percorsi di ricerca alternativi e può quindi accedere a tutti i dati sottostanti e affini.
Le attività di ricerca possono essere raggruppati in “lookup“, “learn“, e “investigation” (Marchionini). Una ricerca  keyword based è sufficiente per una ricerca di tipo lookup (recupero, question answering ecc.), ma  imparare e  investigare sono attività di ricerca esplorativa. Se l’utente non è esperto nel dominio del tema di ricerca le parole chiave appropriate per la ricerca sono difficili da concepire.

In contrasto con la ricerca basata su parole chiave, la ricerca sperimentale richiede la partecipazione attiva degli utenti in diverse iterazioni. Mentre il risultato di una ricerca per parola chiave è solo lineare, l’uscita di una ricerca esplorativa può essere multi dimensionale, come ad esempio i risultati della ricerca per  cluster oppure gli argomenti correlati. Di conseguenza, nuove interfacce utente sono necessarie per visualizzare i risultati della ricerca e delle relazioni tra dati, per facilitare l’interazione dell’utente nel processo di ricerca esplorativa.

La ricerca esplorativa comprende metodi per consigliare percorsi di ricerca alternativi e per suggerire delle informazioni relative ai risultati di ricerca originale. Per stabilire questi collegamenti trasversali con ulteriori informazioni, che consente l’esplorazione del repository, vengono usate le tecnologie semantiche.

La base per l’esplorazione è costituita dalle risorse LOD e dalle relazioni. Per ampliare e raffinare i risultati della ricerca e per consentire i successivi percorsi di ricerca, le query di ricerca, i risultati di ricerca devono essere allineati a entità semantiche che sono collegate da relazioni basate sul contenuto. Questo permette  di estendere l’ambito di ricerca con  la possibilità di indagare il contesto semantico, i riferimenti temporali diversi, o i riferimenti geografici che sono correlati alla query di ricerca o ai risultati di ricerca originale.
Lo sfruttamento semantico di un repository, se è costituito da dati testuali o multimediali, esige che il contenuto dei suoi documenti siano associati a corrispondenti entità semantiche. Questo processo di mappatura è indicata come il riconoscimento di entità con una propria denominazione (named entity). In primo luogo, esso comprende l’individuazione di entità con nome nelle risorse dei  metadati  o nella stessa risorsa, se rappresentati in formato testuale. Queste named entity vengono estratte con l’ausilio di tecniche linguistiche (NLP) e vengono mappate con  entità semantiche dalle risorse LOD (entity mapping). Named entity potrebbero essere associate a varie entità semantiche con significati diversi. Queste ambiguità sono causate dal fenomeno della polisemia del linguaggio naturale e possono essere risolte da disambiguazione di tipo word sense sulla base di informazioni contestuali aggiuntive.
A differenza dei motori di ricerca strettamente RDF come sindice o sig.ma, è ora possibile cercare i documenti e le entità semantiche, allo stesso tempo. Entità semantiche assegnate ai documenti estendono le funzionalità di ricerca per parole chiave tradizionale seuendo magari le relazioni in molteplici direzioni.
Tutto questo deve bene accordarsi con le questioni della geolocalizzazione e della qualità dei dati anche dal puto di vista temporale, nonché con una visualizzazione grafica che renda l’utente in grado di trovare ciò che cerca.

Concludo citando da Europeana
Open Linked Data is:
• • •

A technology to combine the many pieces of information we get from data providers. A way to share that data with other parties. A way to give users the best possible search experience.

Ecco alcuni vantaggi di Open Linked Data per Museo Torino:
1.    I Linked Open Data aiutano a generare significativi collegamenti tra le pagine.
2.    Diventare un’autorità per il patrimonio informativo culturale
3.    Analizzare dati e creare APIs da parte di utenti può generare altre utenze che diversamente, probabilmente, non sarebbero mai raggiunte
4.    Migliorare la customer experience attraverso una maggiore qualità delle informazioni restituite all’utente
5.    Riutilizzo diretto in altri domini quali : educazione, istruzione, turismo, scienza.

Get your Data out!

Wishing you the Next Web of Linked Open Data!

Grazie Gian Luca! Buon Anno di cuore a te e ai tuoi cari.

This entry was posted in Education, Environment, Tecnologia, accesso, business, knowledge, piattaforme, transparency, web search and tagged , , , , , . Bookmark the permalink. Post a comment or leave a trackback: Trackback URL.

Post a Comment

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Subscribe without commenting

Improve the web with Nofollow Reciprocity.