titticimmino.com

Social Life in Social Network

 






Linked Open Data : Educational and Crowdsourcing opportunities

According to a concise definition on LinkedData.org, the Web enables us to link related documents. Similarly it enables us to link related data. The term Linked Data refers to a set of best practices for publishing and connecting structured data on the Web.

civil war dataacross state

Civil War Data 150 (“CWD150”), is a collaborative project to share and connect Civil War related data across local, state and federal institutions during the sesquicentennial of the American Civil War, beginning in April of 2011. The project will utilize Linked Open Data to find and create connections between archives and help increase the discovery of these resources by researchers and the general public alike.

CWD150 is exploring the use of Linked Open Data within libraries, archives and museums, and extending the usability and availability of structured data. Linked Open Data allows us to identify named entities (in this case, regimentsofficersbattles, battlefields, flags, etc), and use standardized World Wide Web formats to link data to these entities.  For instance, the Library of Congress has a photo of soldiers from the 23rd New York Infantry.  By using this format to link that photo to the National Park Service’s description of the 23rd New York, others are able to not only follow that link to learn more about that regiment (like when and where it was formed), but they can also follow other links to any other photos or books or journals that have used the same format to describe itself as pertaining to the 23rd New York. Because these web formats for linking data are not unique to libraries or archives, they give us the opportunity to link data not only between institutions, but to other data and websites on the World Wide Web.
One of the first steps of this project, and any Linked Data project, is to build a common language for the entities we’re talking about.  In this case, we may use a source that most Civil War scholars and historians agree is authoritative, like the descriptions and histories of regiments maintained online by the National Park Service.  With that as a basis, we can then take data from various sources, like the descriptions describing the Library of Congress photos, and create links.  Some links may be able to be parsed out using algorithms and scripts, but many more will require human judgment.
If we’re going through a (virtual) stack of photos, it’s relatively easy for a person to identify whether or not this is a portrait, a battlefield, or a group photo, but this information is extremely useful to help us begin categorizing and linking photos to things.  For these sorts of tasks, we’re creating data games that help users make these sorts of identifications, and can also be integrated into middle or high school curriculum.   Students will interact with photographs, journals, maps, and personal information of actual Civil War soldiers, while contributing important information to the project.
More complicated questions may require a little more research, for which we’ll ask help not only from students, but from American Civil War enthusiasts who have more familiarity with the topic.  Suppose we’ve sorted a collection of photos into three groups: portraits, battlefields, and group photos.  We might next create a stack of the photos described as battlefields, and ask users to place them on a map.
As you can see, the more information that is contributed, and the more links that are made, the more useful this information becomes!

So what do we do with this web of data we’ve created? One major difference is that these collections of links, using a standard format, give us the ability to discover and present data in any number of web applications that can be created and modified by selecting one or another element.  For instance, we may have started with a collection of photos of the 23rd New York, but once we’ve linked various sets of data together, now we can see their troop movements on a timeline or a map.  We can follow them through their various battles; we can read what the soldiers wrote home about; we can learn how many died in battle, and how many returned home after the war.  At any point, it’s possible to follow the links back to the source data at the participating institutions.
Another key difference is that Linked Data can give us the ability to deduce information based on a single input.  For instance, a survival probability application may let a user choose a town, and the application would show which regiment they would’ve joined, which battles they would have served in, and what the probability of survival would have been based on regimental casualties.
Creating links across various sources will enable unique presentation and discovery never before possible with Civil War data.
Partners

The Archives of Michigan. SeekingMichigan.org, a joint project with the Archives of Michigan and Library of Michigan, provides a unique digital combination of presentation and discovery of state holdings, including a large collection of Civil War related assets.
The Internet Archive. The Internet Archive is a non-profit, digital library based in San Francisco that has been archiving the web since 1996. The Internet Archive maintains one of the largest, public web archives in the world, a freely-accessible archive of over 150 billion web pages harvested from 1996 to the present, as well as almost 2 million public domain texts, hundreds of thousands of still and moving images, video and audio files, and tens of thousands of software titles and educational resources.
Freebase. Freebase is an open, Creative Commons licensed repository of Structured data.  Freebase has information about approximately 12 million Topics or Entities and is growing every day.  In addition to an enormous repository of data, Freebase provides a robust application programming interface (“API”) and a hosted application development platform that makes it easy to build and share Freebase applications.
Digital Scholarship Lab, University of Richmond. Since 2007 the Digital Scholarship Lab has been developing innovative digital humanities projects that contribute to research and teaching at and beyond the University of Richmond. It seeks to reach a wide audience by developing projects that integrate thoughtful interpretation in the humanities and social sciences with innovations in new media.  Its projects focus on a wide range of topics, but especially on the history and geography of nineteenth-century America.

via civilwardata150.net

Posted in Education, Environment, piattaforme, www | Tagged , , | Leave a comment

Linked Open Data: cui prodest? Pensieri sparsi su dati.piemonte.it

Linked Open Data,  cui prodest?

La condivisione della conoscenza e in particolare gli open data sono  una preziosa risorsa per la società, ma avere un sito web o pubblicare  una relazione on-line potrebbe non essere sufficiente per rispondere alle attese di apertura di questo momento.
Il valore dei dati non dipende solo dal loro ambito, ma anche dal formato in cui l’informazione  che essi trasportano è condivisa. Il formato determina il valore della risorsa nella misura in cui il pubblico può sfruttarla per l’analisi e il riutilizzo..

I dati devono essere pubblicati proattivamente in un formato machine-processable in modo che l’utente possa ordinare, ricercare e trasformare le informazioni  per i suoi obiettivi. Quando parliamo di benefici relativi ad un’informazione, solitamente pensiamo all’uomo, eppure v’è un beneficio anche per la macchina: questa, infatti, svolge un ruolo fondamentale sulle nostre capacità di consumare informazioni. E non mi riferisco all’effetto domino che la macchina ha avuto e ha sull’incremento del consumo delle informazioni, dovuto all’abbattimento dei costi di distribuzione. Possiamo riferirci per esempio all’effetto della ricerca di informazioni sul web, oppure all’ordinamento in un foglio di calcolo delle spese, come pure alla rappresentazione grafica delle informazioni, il visualdata. Ma un computer non può eseguire le operazioni sopra tirate in ballo con ogni qualsivoglia formato di file. Le informazioni devono essere strutturate: pensiamo alla necessità di ordinare delle informazioni in maniera temporale o anche spaziale: una macchina può mantenere un elenco cronologico di una serie di informazioni solo se il file è redatto con un formato di data ad hoc. Una relazione che sia scritta in formato machine-processable in grado per esempio di tenere traccia cronologica di una serie di informazioni/eventi permette l’analisi di queste/i a supporto di una ottimizzazione delle decisioni, permette il controllo dell’evoluzione dello stato dell’arte della materia oggetto della relazione, educando in modo sostenibile alla misurazione e alla valutazione anche del processo, non solo dei risultati! E che dire della possibilità che la macchina avrebbe di poter processare il file anche in base alle coordinate geospaziali? Linkando infatti opportuni dati geospaziali si potrebbero avere ulteriori informazioni sul percorso stradale più efficiente o sui parcheggi limitrofi alla zona in evidenza… Linked Open Data: l’enciclopedia degli specchi delle possibilità, se solo si ri-usassero i dati in formato adatto!

Dunque abbiamo bisogno di dati aperti e anche  linked.  La geolocalizzazione è un esempio di opportunità che i LOD offrono: sviluppo sostenibile dell’ambiente, sicurezza, salute, educazione, sono alcuni degli ambiti di utulizzo. Dal punto di vista medico, si potrebbero correlare i dati sulla qualità dell’aria e l’incidenza dei problemi respiratori di abitanti in una determinata area;  da una consulenza ambientale si potrebbe valutare l’entità dell’impatto ambientale che una struttura (ponte, autostrada) avrebbe sull’habitat .

E perché non aggiungere alla geolocalizzazione dei servizi anche dati relativi alla qualità degli stessi?

Un esempio di applicazioni web a tal proposito è il sito eatsure.ca che, come si comprende,  mostra su una mappa interattiva, l’elenco georeferenziato dei ristoranti con unità di informazioni relative alle ispezioni  sulla qualità di cibo e strutture, di cui sono stati oggetto.

Date uno sguardo alle figure in basso

eatsure1

Cliccando, ecco i dettagli:

eatsure2

Un evidente sapiente ri-utilizzo di dati.piemonte del Commercio, di recente rilasciati, no?

I dati.pimeonte  sono il primo esempio di open data a livello regionale in Italia, e per ora unico. Sono dati pubblicati in CSV, ma tale formato non basta per il riuso degli stessi.

Scienziati, ricercatori, analisti, economisti richiedono i dati alla rinfusa, e che siano scaricabili, richiedono l’accesso per la lettura ottica dei dati, per poter combinarli con altri data set. Il CSV risponde a questi bisogni ma non in modo adeguato. I dati dovrebbero essere offerti in forma più strutturata, per esempio in XML e JSON.

I programmatori per la creazione di applicazioni (di civic apps), raramente vogliono dati di massa in quanto in tal caso si richiederebbe  loro di sviluppare processi e sistemi di storage di un database per la conservazione dei dati fino ad oggi. I programmatori preferiscono di gran lunga open data  APIs , che puntano a una fonte di dati  in tempo reale. Le APIs dovrebbe offrire al programmatore la flessibilità della richiesta su come i dati vengono restituiti, per dati di esempio in JSON, XML o CSV o anche come open linked data in RDF.

La categoria dei cittadini non tecnicamente esperti, ma interessati, annovera casualmente utenti che non  hanno interesse a scaricare un csv contenente centinaia o migliaia di dati in elenco: essi si limitano ad effettuare la ricerca attraverso il set di dati per vedere se un dato per loro rilevante è presente o meno, oppure  vogliono ordinare il set in base ad un certo indicatore (frequenza di partecipanti, di iscritti, di assicurati, di visitatori etc). Le esigenze di questo gruppo sono più soddisfatte quando i dati vengono resi disponibili online in un ordinamento coerente, o scaricabili ma in un formato interattivo che permette la ricerca, il filtraggio e la visualizzazione dei dati. Il download di una massa di dati in CSV costituisce una barriera di accesso inutile per una significativa percentuale di cittadini.

I vantaggi della scelta di un formato opportuno sono visibili non solo per il consumatore, a qualunque categoria egli appartenga, ma anche per chi pubblica i dati. Ci sono un gran numero di dispositivi, macchine, programmi e siti web attraverso cui  le persone potranno, direttamente e indirettamente consumare e utilizzare i dati del governo. Più i governi rendono più facile collegare, incorporare, condividere e socializzare i propri dati in questi dispositivi, macchine, programmi e siti web,  più in generale le persone avranno accesso ai dati – forse senza nemmeno saperlo. La pubblicazione tramite CSV riduce la probabilità che i  dati siano scoperti o condivisi; che la gente discuta, collabori o riusi  i vostri dati, oppure che la gente crei visualizzazioni – tabelle, grafici e cartine, una volta che il CSV è stato scaricato, cosa succede? Nessuno lo sa. Non sarebbe interessante per il data publisher sapere da chi, come e dove i propri dati vengono utilizzati? Questo è l’anello mancante dell’ impegno civico! Certo, si può vedere il numero di pagine viste e contare il numero di download, ma questo è tutto ciò che si sa. Non è possibile misurare una qualsiasi delle attività indirette. Quante volte, i dati sono stati twittati? Quante volte si è discusso su Facebook? Quante volte sono stati integrati i dati su tutti i tipi di siti web e blog su Internet? Quante applicazioni li stanno incorporando?

Per non parlare del risparmio  sui costi. Ci sono costi reali associati alla condivisione dei dati pubblici. Due dei costi diretti sono il costo dello storage e il costo della banda per fornire i dati. Quando un’agenzia pubblica un CSV, essa sostiene il costo di trasmissione per consegnare l’intero file a tutti coloro che lo scaricano, anche se dopo il download e aver trovato il valore richiesto, poi gettano via il file. Consentendo ai consumatori di accedere a dati selettivamente, solo ai record che vogliono, si riduce la quantità di dati trasferiti, riducendo i costi di banda. Come si può permettere alle persone di scegliere in modo selettivo i registri? L’attivazione di API consente applicazioni, widget e controlli,  fornendo lo stream  di dati in piccoli chunks o in risposta a esplicite richieste di ricerca o filtri.

I dati pubblici devono essere online, interattivi, integrabile e linkabili.

E non dimenticare che:
The Best Thing to do with Your Data will be thought of by Someone Else (The Many Minds Principle).

Cui prodest scelus, is fecit!

Posted in Education, Environment, Tecnologia, accesso, connecting, knowledge, transparency | Tagged , , | 3 Comments

federalregister.gov: the Federal Register 2.0 prototype for open access to government information

WASHINGTON-The U.S. Government Printing Office (GPO) and the National
Archives’ Office of the Federal Register (OFR) launch the Federal
Register 2.0 prototype, a user-friendly online version of the Federal
Register. This daily journal of government has provided the public
with access to government information and federal regulations for the
past 75 years.  Federal Register 2.0 features a new layout that
organizes the content by topics similar to a newspaper Web site.  The
site displays individual sections for Money, Environment, World,
Science and Technology, Business and Industry, and Health and Public
Welfare. The Web site has improved search and navigation tools to
guide readers to the most popular topics and relevant documents. Users
can submit comments and stay connected through social media.

The first copy of the Federal Register came off GPO presses on March
14, 1936.  GPO partners with OFR to provide the information in the
Federal Register to the American people in both print and electronic
form.  GPO coordinated the development aspects of the new Web site in
collaboration with OFR. GPO’s Federal Digital System (FDsys), a
content management system and preservation repository, feeds content
into Federal Register 2.0 and acts as the holder of the official
content and archived information.

Link to site: www.FederalRegister.gov

YouTube Preview Image

“Federal Register 2.0 is a landmark achievement for the National
Archives, OFR and GPO,” said Public Printer Bob Tapella. “This is an
example of how the legislative branch and executive branch work
together to make government information available and easily
accessible for the American people. For 75 years, GPO has never missed
a print deadline for the Federal Register and now we look forward to
working with OFR to support Federal Register 2.0.”

“Federal Register 2.0 is an advance in the open government initiative
of the Obama administration by being able to make the Federal Register
readily available and easily understood,” said Director of the Federal
Register Ray Mosley.

The GPO is the federal government’s primary centralized resource for
gathering, cataloging, producing, providing, authenticating, and
preserving published U.S. government information in all its forms. GPO
is responsible for the production and distribution of information
products and services for all three branches of the federal
government. In addition to publication sales, GPO makes government
information available at no cost to the public through GPO’s Federal
Digital System (www.fdsys.gov) and through partnerships with
approximately 1,220 libraries nationwide participating in the Federal
Depository Library Program. For more information, please visit
www.gpo.gov.

Follow GPO on Twitter http://twitter.com/USGPO

(via Jonathan Gray)

Posted in accesso, transparency | Tagged | Leave a comment
Improve the web with Nofollow Reciprocity.