Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Tecnologie semantiche
per il giornalismo
Web semantico e complessità della conoscenza
Matteo Brunati
SpazioDati | @dagoney...
Come affrontiamo il
discorso
Contesto traContesto tra
Web of Data eWeb of Data e
Web as ContentWeb as Content
Strumenti pe...
obiettivo: quale?
consapevolezza
scenari e il mondo
del possibile
collegamenti tra mondi diversi
...uno spunto per
partire...
WHAT and WHYWHAT and WHY
“la fonte, il dato”
devono tornare ad
essere un tema centrale
#fact-checking
http://datadrivenjournalism.net/news_and_analysis/How_to_become_a_data_journalist_Day_3
http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp:...
http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp:...
quindi sembra facile oggi...
Ed invece no: siamo tutti nella stessa barca.
Il Web crea innovazione distruttiva in tutti gli ambiti,
e serve una nuova d...
modellimodelli
di businessdi business
intermediazioneintermediazione
competenzecompetenze
catena delcatena del
valorevalor...
ma qualche percorso
esiste, e si sta
consolidando...
:) no, ok, scherzavo...
http://datajournalismhandbook.org/1.0/en/
ecco il temaecco il tema
dei DATIdei DATI
approfondiamo
questi dati allora...
http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/
fontifonti
“sporche”“sporche”
fontifon...
diamo uno sguardo
a questi dati strutturati...
fontifonti
strutturatestrutturate
WebWeb
di datidi dati
Per capire il WEB dei dati, serve fare un ripasso
su cosa sia il WEB
sappiamo cos’è il WEB ed abbiamo
capito perchè è nato?
IlWeb in un paper nel 1989,edIlWeb in un paper nel 1989,ed
aveva già molto oltre semplici linkaveva già molto oltre sempli...
Il web come spazio diIl web come spazio di
condivisione dellecondivisione delle
informazioni,che PERMANE,einformazioni,che...
http://www.garrygolden.net/2010/01/30/davos-2010-ideas-lab-talks-from-mit-
group-on-nature-of-social-and-connected-intelli...
principio del Least Power,principio del Least Power,
ovvero umiltà del designovvero umiltà del design
con il riuso che è insito nellacon il riuso che è insito nella
trasparenza della struttura del Web...trasparenza della str...
risorserisorse
rappresentazionirappresentazioni
azioniazioni
1. GET
2. POST
3. PUT
4. DELETE
URI = nomi
HTTP ACTIONS = azioni
cos’è uncos’è un
testo?testo?
contenutocontenuto
contenitorecontenitore
paragraf
titoli
piè di pagina
immagini
[paragrafo] Paperino è a casa a Milano. [fne paragrafo]
questo testo è all’interno di un documento,
nel mio disco fsso.
se...
http://www.slideshare.net/busaco/semantic-web-in-the-browser-from-a-blind-web-to
Il problema è che la “macchina” capisce c...
Ed ecco perché si va verso il mondo
dei Linked Data
Linked Data è pubblicare i dati online,
ma non solo sul Web,
ma anche NELWeb
legami tra dati e contesti che devono emergerelegami tra dati e contesti che devono emergere
LINKED OPEN DATA CLOUD
http://www.linkeddata.org
Diversi livelli diDiversi livelli di
avvicinamento inavvicinamento in
questo percorsoquesto percorso
I dati Linked sono fa...
Linked Data è una delle sintesi migliori delLinked Data è una delle sintesi migliori del
vecchio nome “Semantic Web”vecchi...
http://www.guardian.co.uk/help/insideguardian/2010/jan/25/news-linked-data-summit
Ce ne sono molte ormai
in giro... e dovete sapere che
ce ne saranno sempre di più...
http://data.nature.com/
http://data.nytimes.com/
http://dati.camera.it
http://it.dbpedia.org/
Così un po' abbiamo digerito
l'idea del Semantic Web: rendere
la macchina capace di tracciare LINK
e RELAZIONI con il cont...
“A thing is defned by its relationships”
http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships...
Queste relazioni non sono un fne,
ma sono un percorso...
http://www.teodorapetkova.com/poiesis-of-relationships/semantic-w...
...percorsi che sono pensati per le macchine:
ovviamente come non pensare
alla SEO? :)
SEO = Search Engine Optimization,
ovvero come farsi trovare
dai motori di ricerca:
che sono di nuovo “macchine”
:)
e questo Web di Dati oggi è già dentro
le pagine tradizionali, in forme ibride...
per farti trovare quel contenuto che...
...
Ci sono alcuni determinati formati nelle pagine,
tutti col nome “dati strutturati”
http://webdatacommons.org/structureddat...
http://www.stateofdigital.com/semantic-web-business-models-marketing-perspective/
BestBuy con i dati strutturati nella pag...
è un tema moltoè un tema molto
attuale,quindi meritaattuale,quindi merita
attenzioneattenzione
e non è più solo accademia, da tempo:
è Mercato.Anche con il supporto
di progetti europei che stimolano la diffusione e la...
questa natura a livelli diquesta natura a livelli di
struttura del documentostruttura del documento si puòsi può
vedere su...
per provare a vedereper provare a vedere
questi strati diquesti strati di
informazione strutturatainformazione strutturata...
ma io “giornalista”, con questi Linked Data,
perchè devo averci a che fare?
stimolare i programmatoristimolare i programma...
http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/
fontifonti
“sporche”“sporche”
fontifon...
fontifonti
“sporche”“sporche”
WebWeb
di documentidi documenti
contenuto noncontenuto non
strutturato come i testistruttura...
ne avremo sempre più dine avremo sempre più di
quello non strutturato,quello non strutturato,
perché siamo PIGRI :)perché ...
e di più...e di più...
ed ancora,eed ancora,e
sono tanti asono tanti a
dirlo...dirlo...
Anche se chi liAnche se chi li
pubblica, sarà semprepubblica, sarà sempre
più attentopiù attento
http://seoblog.giorgiotav...
Contenuto nonContenuto non
strutturatostrutturato
Text mining / data miningText mining / data mining
+
=
report ed oggetti...
“What I do is text analysis,which covers the
aggregation of texts,machine learning,natural
language processing,applied to ...
ed ora proviamo a capire come funziona
il text mining con uno strumento
che ci dirà “qualcosa” su un testo...
https://dandelion.eu/products/datatxt/
API,ovvero oggettiAPI,ovvero oggetti
manipolabili daimanipolabili dai
programmatori...
Named entity extractionNamed entity extraction
Text similarityText similarity
https://dandelion.eu/products/datatxt/
Class...
Messy data,datiMessy data,dati
semi-strutturatisemi-strutturati
E che ci faccio?
Messy data,datiMessy data,dati
semi-strutturatisemi-strutturati
CONTENT ENRICHMENTCONTENT ENRICHMENT
scoprire informazioni...
http://lod2.eu/BlogPost/1146-from-messy-data-to-linked-data-lod-enabled-google-refine.html
come migliorare una fonte semi-strutturata
http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/sparqlRecon
http://towcenter.org/wp-content/uploads/2014/05/Tow-Center-Data-Driven-Journalism.pdf
spunto perspunto per
pensarepensare
Ed ora, mettiamo le mani in pasta...
Text analytics su GDrive usando le dandelion API
Demo RASFF - http://bit.ly/RASFF_data
WebWeb
di datidi dati
ContenutoCont...
Grazie :)
dagoneye.it
job: brunati@spaziodati.eu
personal: matt@blog.dagoneye.it
Tecnologie semantiche per il giornalismo @ SISSA
Tecnologie semantiche per il giornalismo @ SISSA
Tecnologie semantiche per il giornalismo @ SISSA
Tecnologie semantiche per il giornalismo @ SISSA
Prochain SlideShare
Chargement dans…5
×

Tecnologie semantiche per il giornalismo @ SISSA

1 376 vues

Publié le

Introduzione al tema dei dati strutturati e Linked Data ed a quelli non strutturati presenti nel Web. Come usarli nel giornalismo e nella comunicazione? Bisogna sapere che esistono come primo passaggio.
Lezione per il master di comunicazione della scienza alla SISSA ( Trieste ), preparata con Alessio Cimarelli ( dataninja.it )

Publié dans : Technologie
  • Soyez le premier à commenter

Tecnologie semantiche per il giornalismo @ SISSA

  1. 1. Tecnologie semantiche per il giornalismo Web semantico e complessità della conoscenza Matteo Brunati SpazioDati | @dagoneye Alessio Cimarelli dataninja.it | @jenkin27
  2. 2. Come affrontiamo il discorso Contesto traContesto tra Web of Data eWeb of Data e Web as ContentWeb as Content Strumenti perStrumenti per giocare congiocare con entrambientrambi
  3. 3. obiettivo: quale? consapevolezza scenari e il mondo del possibile collegamenti tra mondi diversi
  4. 4. ...uno spunto per partire...
  5. 5. WHAT and WHYWHAT and WHY “la fonte, il dato” devono tornare ad essere un tema centrale #fact-checking
  6. 6. http://datadrivenjournalism.net/news_and_analysis/How_to_become_a_data_journalist_Day_3
  7. 7. http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml
  8. 8. http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml
  9. 9. quindi sembra facile oggi...
  10. 10. Ed invece no: siamo tutti nella stessa barca. Il Web crea innovazione distruttiva in tutti gli ambiti, e serve una nuova disciplina per capirne le dinamiche Web ScienceWeb Science http://en.wikipedia.org/wiki/Web_Science_Trust
  11. 11. modellimodelli di businessdi business intermediazioneintermediazione competenzecompetenze catena delcatena del valorevalore anche il giornalismo è in costante cambiamento
  12. 12. ma qualche percorso esiste, e si sta consolidando...
  13. 13. :) no, ok, scherzavo...
  14. 14. http://datajournalismhandbook.org/1.0/en/ ecco il temaecco il tema dei DATIdei DATI
  15. 15. approfondiamo questi dati allora...
  16. 16. http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/ fontifonti “sporche”“sporche” fontifonti strutturatestrutturate WebWeb di documentidi documenti WebWeb di datidi dati
  17. 17. diamo uno sguardo a questi dati strutturati... fontifonti strutturatestrutturate WebWeb di datidi dati
  18. 18. Per capire il WEB dei dati, serve fare un ripasso su cosa sia il WEB
  19. 19. sappiamo cos’è il WEB ed abbiamo capito perchè è nato?
  20. 20. IlWeb in un paper nel 1989,edIlWeb in un paper nel 1989,ed aveva già molto oltre semplici linkaveva già molto oltre semplici link ai documentiai documenti
  21. 21. Il web come spazio diIl web come spazio di condivisione dellecondivisione delle informazioni,che PERMANE,einformazioni,che PERMANE,e decentralizzatodecentralizzato a chi devo chiedere dia chi devo chiedere di inserire un link?inserire un link? avevo l’email e gliavevo l’email e gli allegati:cosa mi offre inallegati:cosa mi offre in più?più?
  22. 22. http://www.garrygolden.net/2010/01/30/davos-2010-ideas-lab-talks-from-mit- group-on-nature-of-social-and-connected-intelligence-5-videos/
  23. 23. principio del Least Power,principio del Least Power, ovvero umiltà del designovvero umiltà del design
  24. 24. con il riuso che è insito nellacon il riuso che è insito nella trasparenza della struttura del Web...trasparenza della struttura del Web... http://www.shirky.com/writings/view_source.html
  25. 25. risorserisorse rappresentazionirappresentazioni azioniazioni
  26. 26. 1. GET 2. POST 3. PUT 4. DELETE URI = nomi HTTP ACTIONS = azioni
  27. 27. cos’è uncos’è un testo?testo? contenutocontenuto contenitorecontenitore paragraf titoli piè di pagina immagini
  28. 28. [paragrafo] Paperino è a casa a Milano. [fne paragrafo] questo testo è all’interno di un documento, nel mio disco fsso. se lo pubblico online, avrà una forma ed un indirizzo per essere trovato URIURI HTMLHTML
  29. 29. http://www.slideshare.net/busaco/semantic-web-in-the-browser-from-a-blind-web-to Il problema è che la “macchina” capisce che ad un certoIl problema è che la “macchina” capisce che ad un certo indirizzo c'è un contenuto in HTML, ma nonindirizzo c'è un contenuto in HTML, ma non comprende di cosa parla quel contenuto,comprende di cosa parla quel contenuto, è ciecaè cieca
  30. 30. Ed ecco perché si va verso il mondo dei Linked Data
  31. 31. Linked Data è pubblicare i dati online, ma non solo sul Web, ma anche NELWeb
  32. 32. legami tra dati e contesti che devono emergerelegami tra dati e contesti che devono emergere
  33. 33. LINKED OPEN DATA CLOUD http://www.linkeddata.org
  34. 34. Diversi livelli diDiversi livelli di avvicinamento inavvicinamento in questo percorsoquesto percorso I dati Linked sono fattiI dati Linked sono fatti per essere letti daiper essere letti dai programmiprogrammi
  35. 35. Linked Data è una delle sintesi migliori delLinked Data è una delle sintesi migliori del vecchio nome “Semantic Web”vecchio nome “Semantic Web” Linked Data è già OGGI una delle fonti, ed è quella più complessa,perché pensata per le macchine
  36. 36. http://www.guardian.co.uk/help/insideguardian/2010/jan/25/news-linked-data-summit
  37. 37. Ce ne sono molte ormai in giro... e dovete sapere che ce ne saranno sempre di più...
  38. 38. http://data.nature.com/
  39. 39. http://data.nytimes.com/
  40. 40. http://dati.camera.it
  41. 41. http://it.dbpedia.org/
  42. 42. Così un po' abbiamo digerito l'idea del Semantic Web: rendere la macchina capace di tracciare LINK e RELAZIONI con il contenuto, andando oltre alla pagina come elemento atomico del contenuto...
  43. 43. “A thing is defned by its relationships” http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/
  44. 44. Queste relazioni non sono un fne, ma sono un percorso... http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/
  45. 45. ...percorsi che sono pensati per le macchine: ovviamente come non pensare alla SEO? :)
  46. 46. SEO = Search Engine Optimization, ovvero come farsi trovare dai motori di ricerca: che sono di nuovo “macchine” :)
  47. 47. e questo Web di Dati oggi è già dentro le pagine tradizionali, in forme ibride... per farti trovare quel contenuto che... FacebookFacebook OpenGraphOpenGraph Google Rich SnippetsGoogle Rich Snippets via Google Knowledgevia Google Knowledge GraphGraph Open DataOpen Data ( Community e( Community e gov )gov ) Google CardsGoogle Cards sulle SERPsulle SERP
  48. 48. Ci sono alcuni determinati formati nelle pagine, tutti col nome “dati strutturati” http://webdatacommons.org/structureddata/index.html#results-2013-1
  49. 49. http://www.stateofdigital.com/semantic-web-business-models-marketing-perspective/ BestBuy con i dati strutturati nella pagina
  50. 50. è un tema moltoè un tema molto attuale,quindi meritaattuale,quindi merita attenzioneattenzione
  51. 51. e non è più solo accademia, da tempo: è Mercato.Anche con il supporto di progetti europei che stimolano la diffusione e la commercializzazione dei frutti della ricerca... http://www.stom-project.eu/
  52. 52. questa natura a livelli diquesta natura a livelli di struttura del documentostruttura del documento si puòsi può vedere su sindice.comvedere su sindice.com
  53. 53. per provare a vedereper provare a vedere questi strati diquesti strati di informazione strutturatainformazione strutturata inspector.sindice.cominspector.sindice.com
  54. 54. ma io “giornalista”, con questi Linked Data, perchè devo averci a che fare? stimolare i programmatoristimolare i programmatori ed i tecnici a darmi unaed i tecnici a darmi una mano, consapevole chemano, consapevole che esistono quei dati eesistono quei dati e quelle fontiquelle fonti chiedere lumi a chi li hachiedere lumi a chi li ha pubblicati,come con quellipubblicati,come con quelli Open DataOpen Data + semplici:stimolare+ semplici:stimolare feedback e miglioramentofeedback e miglioramento continuocontinuo
  55. 55. http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/ fontifonti “sporche”“sporche” fontifonti strutturatestrutturate WebWeb di documentidi documenti WebWeb di datidi dati
  56. 56. fontifonti “sporche”“sporche” WebWeb di documentidi documenti contenuto noncontenuto non strutturato come i testistrutturato come i testi ““messy” data,messy” data, ovvero semi-strutturatoovvero semi-strutturato Big ContentBig ContentOpen Data,Open Data, ed annessied annessi
  57. 57. ne avremo sempre più dine avremo sempre più di quello non strutturato,quello non strutturato, perché siamo PIGRI :)perché siamo PIGRI :)
  58. 58. e di più...e di più...
  59. 59. ed ancora,eed ancora,e sono tanti asono tanti a dirlo...dirlo...
  60. 60. Anche se chi liAnche se chi li pubblica, sarà semprepubblica, sarà sempre più attentopiù attento http://seoblog.giorgiotave.it/seo-semantica-18/5065
  61. 61. Contenuto nonContenuto non strutturatostrutturato Text mining / data miningText mining / data mining + = report ed oggetti che diano un senso e con cui “giocare”
  62. 62. “What I do is text analysis,which covers the aggregation of texts,machine learning,natural language processing,applied to text fles to understand the context. There is a specifc set of skills for data journalists to learn,as it is more and more becoming common place to fnd information in text fles, ranging from material published by governments to corporations. And if you can learn those skills you can start to fnd meaningful patterns in these documents.” http://blogs.dw.de/innovation/data-science-the-software-that-is-out-there-is-getting-easier-to-use/
  63. 63. ed ora proviamo a capire come funziona il text mining con uno strumento che ci dirà “qualcosa” su un testo...
  64. 64. https://dandelion.eu/products/datatxt/ API,ovvero oggettiAPI,ovvero oggetti manipolabili daimanipolabili dai programmatori / macchineprogrammatori / macchine
  65. 65. Named entity extractionNamed entity extraction Text similarityText similarity https://dandelion.eu/products/datatxt/ Classifcation on customClassifcation on custom categoriescategories API,ovvero oggettiAPI,ovvero oggetti manipolabili daimanipolabili dai programmatori / macchineprogrammatori / macchine
  66. 66. Messy data,datiMessy data,dati semi-strutturatisemi-strutturati E che ci faccio?
  67. 67. Messy data,datiMessy data,dati semi-strutturatisemi-strutturati CONTENT ENRICHMENTCONTENT ENRICHMENT scoprire informazioniscoprire informazioni collegate in maniera velocecollegate in maniera veloce attorno ad un temaattorno ad un tema DATA CLEANINGDATA CLEANING pulire i dati con Openpulire i dati con Open Refne, confrontandoli conRefne, confrontandoli con fonti pulite e condivisefonti pulite e condivise DATA WORKFLOWDATA WORKFLOW pubblicare i dati puliti epubblicare i dati puliti e trattati nella propriatrattati nella propria storia come Linked Datastoria come Linked Data
  68. 68. http://lod2.eu/BlogPost/1146-from-messy-data-to-linked-data-lod-enabled-google-refine.html
  69. 69. come migliorare una fonte semi-strutturata http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/sparqlRecon
  70. 70. http://towcenter.org/wp-content/uploads/2014/05/Tow-Center-Data-Driven-Journalism.pdf spunto perspunto per pensarepensare
  71. 71. Ed ora, mettiamo le mani in pasta...
  72. 72. Text analytics su GDrive usando le dandelion API Demo RASFF - http://bit.ly/RASFF_data WebWeb di datidi dati ContenutoContenuto non strutturatonon strutturato https://dandelion.eu/products/datatxt/nex/demo/ http://www.google.com/webmasters/tools/richsnippets https://developers.facebook.com/tools/debug/og/object/ Ovvero confrontare le testate dei giornali nel modo in cuiOvvero confrontare le testate dei giornali nel modo in cui fanno parte del Web dei dati / non strutturatofanno parte del Web dei dati / non strutturato
  73. 73. Grazie :) dagoneye.it job: brunati@spaziodati.eu personal: matt@blog.dagoneye.it

×