Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It
1. CORSO DI LAUREA MAGISTRALE
in
INFORMATICA UMANISTICA
(EDITORIA ELETTRONICA)
Il web 2.0 e la blogosfera italiana.
Metodi statistici applicati
ai corpora dell’italiano
dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
CANDIDATA RELATORE
Dott.ssa Mariagiovanna Scarale Prof. Mirko Tavosanis
CONTRORELATORE
Prof. Felice Dell’Orletta
2. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
WEB 2.0
Dinamico e
Democratico
Collaborazione
Integrazione
Partecipazione
Intelligenza Collettiva
UTENTE
Forum
Chat
Wiki
Social
Network
Mashups
Podcasting
DI COSA STIAMO PARLANDO?
3. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
RICERCA E ANALISI:
-FASE 1:
Analisi della blogosfera italiana ed evoluzione del
fenomeno dei blog nel corso degli anni;
-FASE 2:
Analisi statistica dei corpora dei blog giornalistici e letterari
mediante il tool Read-It.
4. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
FASE 1:
CHE COSA?
Stabilire una panoramica della blogosfera italiana oggi.
COME?
Ricerca e analisi campionaria.
PERCHÉ?
Per capire se e come si sta evolvendo il fenomeno dei blog in Italia.
5. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
• Motore di ricerca per blog: Twingly;
• 10 chiavi di ricerca appartenenti al lessico di base dell’italiano:
(‘questo’, ‘quello’, ‘quindi’, ‘perché’, ‘comunque’, ‘mio’, ‘di’, ‘invece’, ‘loro’, ‘il’);
• Ultimo risultato di ogni SERP*;
• 50 blog per chiave di ricerca**;
• 500 blog in totale;
• Analisi degli ultimi 10 post per ogni blog*** per un totale di 5000 post;
• Suddivisione in macrocategorie. *Il browser di riferimento forniva un massimo di 50 pagine per risultato;
** I risultati ripetuti sono stati sostituiti con quelli immediatamente precedenti;
***In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi
del post immediatamente successivo.
IL CAMPIONE:
6. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
•DIARISTICI: blog scritti in prima persona che seguono la tipica struttura del diario
(narrazione e descrizione di eventi personali in modo costante);
•TEMATICI: comprendono i blog giornalistici (che trattano notizie) e quelli specialistici
(che si occupano di tematiche particolari che non sono definite “notizie”)*;
•LETTERARI: blog che presentano scritti in prosa o poesie;
•INCLASSIFICABILI: blog di citazioni, blog fotografici e blog impossibili da classificare;
* Secondo l’accezione di “notizia” presente sul dizionario De Mauro, versione 2015: “Notizia:
1a. informazione su qcs. o qcn.: non ho più sue notizie da una settimana; 1b. comunicazione di un fatto di
pubblico interesse, spec. recente, diffusa attraverso i mezzi di informazione: una importante notizia di prima
pagina; 1c. informazione, ragguaglio pubblicato su una rivista specialistica: notizie sugli ultimi ritrovamenti
archeologici; 1d. nota apposta dall’autore di un testo per fornire indicazioni o chiarimenti su un’opera: notizie
bibliografiche; 2. nozione, conoscenza, dato specifico: ricostruire la storia di un popolo in base a notizie certe”.
LE MACROCATEGORIE:
7. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog diaristici:
https://popa86.wordpress.com/
https://infugaperlavittoria.wordpress.com/
8. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog tematici
http://aquariusreportages.blogspot.it/
http://francescorubiconto.blogspot.it/
https://lpiersantelli.wordpress.com/
9. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog letterari
https://parisigiuseppetesti.wordpress.com/
http://parisigiuseppetesti.wordpress.com/
https://anothersea.wordpress.com/
10. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog letterari
http://inchiostrofusaedraghi.blogspot.it/
https://parisigiuseppetesti.wordpress.com/
11. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog inclassificabili:
http://pazzoperrepubblica.blogspot.it/
http://itsaurorablr.tumblr.com/
http://fallen-nefilim.tumblr.com/
12. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
DIARISTICI e INCLASSIFICABILI:
• unici mezzi di interazione;
• scrittura rapida e non revisionata;
• espressività grafica (lettura endofasica, abbreviazioni, variazioni grafiche);
LETTERARI:
• community;
• scrittura controllata, revisionata, in neostandard;
• scrittura rapida e revisionata con espressività grafica;
TEMATICI:
• commenti di approfondimento e di chiarimento;
• community;
• scrittura rapida e non revisionata con espressività grafica;
• scrittura revisionata in neostandard;
13. ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
https://parisigiuseppetesti.wordpress.com/
BLOG LETTERARI
https://scintilledanima.wordpress.com/
14. ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
BLOG TEMATICI
http://www.helptecnoblog.com/
http://guidami.info/
15. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
COSA È EMERSO DALLA PRIMA ANALISI?
RISULTATI GENERALI
DIARISTICO 30 6%
TEMATICO 323 64,6%
LETTERARIO 100 20%
INCLASSIFICABILE 47 9,4%
TOTALE 500 100%
16. CATEGORIA N°
BLOG DIARISTICI: 30
Scritti da donne 24
Scritti da uomini 6
BLOG TEMATICI: 323
Blog giornalistici 189
Blog specialistici: 134
- Recensioni 41
- Makeup/salute/benessere 13
- Cucina 14
- Spiritualità/religione 16
- Elettronica (tutorial e altro) 3
- Musica/teatro (pagine specifiche di gruppi o artisti) 8
- Hobby/sport 15
- Viaggio/turismo 7
- Satira 4
- Animali 4
- Sociale/Associazioni/Enti pubblici 4
- Marketing/pubblicità/varie 5
BLOG LETTERARI 100
BLOG INCLASSIFICABILI: 47
Citazione/Fotografici/Personali/Femminili 26
Citazione/Fotografici/Personali/Maschili 8
Citazioni (letterarie/giornalistiche)/Fotografici/Non Personali 13
Le macrocategorie e le
sottocategorie nello specifico
17. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Le ricerche precedenti:
• TAVOSANIS (2007): analisi su 100 blog e 100 post;
• SCARALE (2013): analisi su 100 blog e 100 post;
• SCARALE (2015): analisi su 500 blog e 2000 post;
Prima di procedere è stato necessario normalizzare i dati, che presentano, una diversa
numerosità calcolandone le frequenze relative* e trasformandoli in percentuali.
COSA È CAMBIATO NEGLI ANNI?
19. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
FASE 2:
CHE COSA?
Analisi statistica dei corpora dei blog giornalistici e letterari.
COME?
Mediante il text tool Read-It.
PERCHÉ?
Per valutarne la leggibilità, le somiglianze e le differenze dal punto di vista linguistico.
20. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
• Tratto dai 500 blog analizzati nella Fase 1 della ricerca;
• 100 blog giornalistici (in totale 563.647 parole);
• 100 blog letterari (in totale 302.384 parole);
• Analisi con Read-It degli ultimi 10 post per ogni blog*, per un totale di 2000 post;
• Calcolo della media pesata (il peso è il numero di token di ogni post)** dei risultati di
ogni post ;
• Calcolo della media delle medie pesate di ogni post per ogni blog;
• Calcolo della media delle medie di ogni blog per categoria.
*In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo.
** il text tool non permetteva di analizzare i corpora al completo, perché costituiti da troppe pagine. Per questo motivo si è optato per l’analisi basata
sulle medie pesate di ogni post e di ogni blog.
IL CAMPIONE:
21. ANNO ACCADEMICO 2014/2015
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
READ-IT: ANALISI DELLA LEGGIBILITÀ 2.0
Il primo strumento avanzato per la valutazione della leggibilità di testi in lingua italiana;
Classificazione probabilistica basata su algoritmi di apprendimento supervisionato;
A partire da un corpus di addestramento accuratamente selezionato come rappresentativo dei
livelli di leggibilità da considerare (es. “semplice” e “complesso”), il sistema “impara” a
riconoscere le caratteristiche linguistiche estratte automaticamente dal risultato
dell'annotazione linguistica del testo;
Il punteggio di leggibilità di un nuovo testo sarà calcolato sulla base della maggior somiglianza
del suo profilo linguistico ad uno dei livelli di leggibilità definiti;
Analisi sofisticata delle strutture linguistiche sottostanti al testo;
Identificare i luoghi di complessità del testo;
Fornire un supporto utile per la semplificazione testuale;
Avvicinare anche persone con uno scarso livello di istruzione, stranieri e persone con
disabilità linguistico-cognitive, all’informazione.
22. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
I NOSTRI DATI
23. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Giornalistici
( σ )
Letterari
( σ )
Dylan Base 60,41% 16,94% 0,21 0,18
Dylan Lessicale 72,31% 74,43% 0,18 0,20
Dylan Sintattico 83,67% 39,93% 0,12 0,24
Dylan Globale 88,88% 73,44% 0,12 0,19
Gulpease 51,62 82,09 3,91 26,44
Caratteristiche estratte dal testo:
•DYLAN BASE: Misure tradizionali della leggibilità di un testo: lunghezza della frase (n. medio di parole) e lunghezza
delle parole (n. medio caratteri). È un’approssimazione dell’indice Gulpease.
•DYLAN LESSICALE: Caratteristiche lessicali del testo: composizione del vocabolario (V) e ricchezza lessicale (R),
numero totale di token (N).
•DYLAN SINTATTICO: Caratteristiche grammaticali: tratti morfosintattici e sintattici.
•DYLAN GLOBALE: Combinazione dei tre modelli precedenti.
•GULPEASE: [61;80] difficoltà per chi ha la licenza elementare;
[41;60] difficoltà per chi ha la licenza media;
[0;40] difficoltà per chi ha un diploma superiore;
24. ANNO ACCADEMICO 2014/2015
PROFILO DI BASE
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Numero totale periodi in token: 38,30 25,82
Lunghezza media dei periodi: 26,28 15,30
Lunghezza media delle parole
in caratteri:
5,12 4,62
Caratteristiche estratte dal testo: Profilo di base
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
25. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
PROFILO LESSICALE
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Giornalistici
( σ )
Letterari
( σ )
Composizione del vocabolario
Percentuale di lemmi appartenente al VdB: 68,22% 82,47% 0,05 0,44
Lemmi in base al repertorio del VdB:
Fondamentale: 80,15% 81,12% 0,03 0,10
Alto uso: 15,24% 12,50% 0,03 0,08
Alta disponibilità: 4,61% 6,96% 0,01 0,10
Rapporto tipo/unità: 0,70 0,49 0,04 0,22
Densità Lessicale: 0,57 0,56 0,02 0,05
Caratteristiche estratte dal testo: Profilo Lessicale
•VdB: lessemi che tutti usano in larga misura per costruire qualsiasi tipo di testo. Sono poco meno di 7000 lessemi,
suddivisi a loro volta in tre fasce: lessico Fondamentale (2000 lessemi, il 90% di un testo), di Alto Uso (2500-3000
lessemi, con meno frequenza) e di Alta Disponibilità (2300 lessemi con minor frequenza);
•Rapporto Tipo /Unità (TTR): ricchezza lessicale come funzione del numero di parole diverse;
•Densità Lessicale: la proporzione di elementi lessicali - i sostantivi, i verbi e gli aggettivi che sono portatori del
significato - rispetto agli elementi grammaticali - le preposizioni, gli avverbi e le congiunzioni che indicano i rapporti
sintattici fra gli elementi significativi.
26. PROFILO SINTATTICO
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Giornalistici
( σ )
Letterari
( σ )
Categorie morfo-sintattiche
Sostantivi: 19,53% 20,81% 0,02 0,10
Nomi Propri: 7,18% 2,71% 0,03 0,03
Aggettivi: 6,43% 15,32% 0,01 0,85
Verbi: 13,29% 16,88% 0,02 0,14
Congiunzioni: 4,29% 7,61% 0,01 0,19
Coordinanti: 73,38% 68,38% 0,07 1,14
Subordinanti: 26,26% 30,80% 0,07 0,30
Articolazione interna del periodo:
Numero medio di proposizioni per periodo: 2,84 2 0,54 1,32
Proposizioni principali vs subordinate
Principali: 65,19% 74,78% 0,07 0,17
Subordinate: 34,81% 25,22% 0,07 0,68
Articolazione interna della proposizione:
Numero medio di parole per proposizione: 9,64 7,72 1,57 1,80
Numero medio di dipendenti /testa verbale: 2,03 1,83 0,16 0,78
Profondità dell'albero sintattico:
Media delle altezze massime: 6,45 3,95 0,90 1,55
Profondità media strutt. nom. complesse: 1,31 1,14 0,08 0,24
Profondità media catene di subordinazione: 1,19 0,82 0,19 0,42
Lunghezza delle relazioni di dipendenza:
Lunghezza media: 2,46 2,20 0,20 0,84
Media delle lunghezze massime: 9,85 9,87 2,03 40,41
Caratteristiche estratte dal testo: Profilo Sintattico
27. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
CONCLUDENDO
28. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Come si sono evoluti i blog in Italia?
- La maggior parte dei blog italiani è di tipo tematico;
- Crescita di blog tematici (+6% rispetto al 2007) e letterari
(+19% rispetto al 2007);
- Battuta d’arresto dei blog diaristici (- 25% rispetto al 2007)
colpa dei social network?
29. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Che tipo di lingua e di errori emergono?
Espedienti Linguistici ‘nn’ per
non
‘x’ per per
GIORNALISTICI 1 su 189 0
LETTERARI (tutti
nello stesso blog)
10 su 100 1 su 100
• Un nuovo tipo di giornalismo e di letteratura;
• Italiano neostandard (blog tematici)
• Errori involontari;
• Commenti come chat e forum;
• Scrittura rapida e abbastanza revisionata;
• Espedienti linguistici e fenomeni di compensazione ridotti (espressività grafica e
punteggiatura creativa).
GIORNALISTICI E LETTERARI
30. ANNO ACCADEMICO 2014/2015
DIFFERENZE
BLOG GIORNALISTICI BLOG LETTERARI
Più curati dal punto di vista grafico, stilistico ed editoriale; Meno curati dal punto di vista grafico, stilistico ed editoriale;
Coerenza linguistica e tematica tra post diversi (deviazione
standard σ minima);
Minore coerenza linguistica e tematica tra post diversi
(deviazione standard σ elevata);
Sono più difficili da leggere:
- Gulpease 51.62;
- Media altezze massime albero sintattico 6.45;
- Profondità media catene di subordinazione 1.19;
Richiedono meno competenze per essere compresi:
- Gulpease 82.09 (σ 26.44);
- Media altezze massime albero sintattico 3.95;
- Profondità media catene di subordinazione 0.82;
Post più lunghi:
- Lunghezza media periodi 26.28;
- Lunghezza media parole in caratteri 5.12;
- Num. medio proposizioni per periodo 2.84;
- Media altezze massime albero sintattico 6.45;
Hanno post più brevi:
- Lunghezza media periodi 15.30 (σ 12.56);
- Lunghezza media parole in caratteri 4.62;
- Num. medio proposizioni per periodo 2 (σ 1.32);
- Media altezze massime albero sintattico 3.95 (σ 1.55);
Nomi propri 7.18%. Sostantivi 20.81%, aggettivi 15.32%, verbi 16.88% e
congiunzioni 7.61%;
Lemmi appartenenti al VdB ad Alto Uso: 15.24% Lemmi appartenenti al VdB (Fondamentale 81.12% e ad Alta
Disponibilità 6.96%);
Struttura del periodo complessa, con un maggiore
incassamento gerarchico delle proposizioni:
- Media altezze massime albero sintattico 6.45;
- Profondità media catene di subordinazione 1.19;
Struttura del periodo più semplice (versi poetici: Read-It
considera una frase terminata quando c’è un ritorno a capo o
un simbolo di punteggiatura forte):
- Media altezze massime albero sintattico 3.95 (σ 1.55);
- Profondità media catene di subordinazione 0.82;
31. ANNO ACCADEMICO 2014/2015
SOMIGLIANZE
BLOG GIORNALISTICI E BLOG LETTERARI
• Periodi paratattici;
• Proposizioni principali
- giornalistici 65.19%;
- letterari 74.78%;
• Congiunzioni Coordinanti
- giornalistici 73.38%;
- letterari 68.38%;
• Scrittura rapida e revisionata;
• Scrittura progettata per altri tipi di pubblicazione, in alcuni casi;
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
32. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Ripetere la ricerca tra qualche anno per stabilire come si sta evolvendo la blogosfera.
• I blog diaristici diminuiranno ancora?
• I blog letterari aumenteranno?
• I blog tematici si stabilizzeranno, diminuiranno o aumenteranno?
Ripetere la ricerca utilizzando solo i blog letterari, con un nuovo approccio orientato al
genere narrativo.
Ripetere lo studio tra qualche anno utilizzando lo stesso campione di blog giornalistici per
capire, confermare o confutare l’idea che esista davvero uno standard linguistico coerente
nei post dei blog di questa categoria.
Sviluppi futuri?
33. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Grazie per
l’attenzione.
Mariagiovanna Scarale