SlideShare une entreprise Scribd logo
1  sur  33
CORSO DI LAUREA MAGISTRALE
in
INFORMATICA UMANISTICA
(EDITORIA ELETTRONICA)
Il web 2.0 e la blogosfera italiana.
Metodi statistici applicati
ai corpora dell’italiano
dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
CANDIDATA RELATORE
Dott.ssa Mariagiovanna Scarale Prof. Mirko Tavosanis
CONTRORELATORE
Prof. Felice Dell’Orletta
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
WEB 2.0
Dinamico e
Democratico
Collaborazione
Integrazione
Partecipazione
Intelligenza Collettiva
UTENTE
Forum
Chat
Wiki
Social
Network
Mashups
Podcasting
DI COSA STIAMO PARLANDO?
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
RICERCA E ANALISI:
-FASE 1:
Analisi della blogosfera italiana ed evoluzione del
fenomeno dei blog nel corso degli anni;
-FASE 2:
Analisi statistica dei corpora dei blog giornalistici e letterari
mediante il tool Read-It.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
FASE 1:
CHE COSA?
Stabilire una panoramica della blogosfera italiana oggi.
COME?
Ricerca e analisi campionaria.
PERCHÉ?
Per capire se e come si sta evolvendo il fenomeno dei blog in Italia.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
• Motore di ricerca per blog: Twingly;
• 10 chiavi di ricerca appartenenti al lessico di base dell’italiano:
(‘questo’, ‘quello’, ‘quindi’, ‘perché’, ‘comunque’, ‘mio’, ‘di’, ‘invece’, ‘loro’, ‘il’);
• Ultimo risultato di ogni SERP*;
• 50 blog per chiave di ricerca**;
• 500 blog in totale;
• Analisi degli ultimi 10 post per ogni blog*** per un totale di 5000 post;
• Suddivisione in macrocategorie. *Il browser di riferimento forniva un massimo di 50 pagine per risultato;
** I risultati ripetuti sono stati sostituiti con quelli immediatamente precedenti;
***In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi
del post immediatamente successivo.
IL CAMPIONE:
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
•DIARISTICI: blog scritti in prima persona che seguono la tipica struttura del diario
(narrazione e descrizione di eventi personali in modo costante);
•TEMATICI: comprendono i blog giornalistici (che trattano notizie) e quelli specialistici
(che si occupano di tematiche particolari che non sono definite “notizie”)*;
•LETTERARI: blog che presentano scritti in prosa o poesie;
•INCLASSIFICABILI: blog di citazioni, blog fotografici e blog impossibili da classificare;
* Secondo l’accezione di “notizia” presente sul dizionario De Mauro, versione 2015: “Notizia:
1a. informazione su qcs. o qcn.: non ho più sue notizie da una settimana; 1b. comunicazione di un fatto di
pubblico interesse, spec. recente, diffusa attraverso i mezzi di informazione: una importante notizia di prima
pagina; 1c. informazione, ragguaglio pubblicato su una rivista specialistica: notizie sugli ultimi ritrovamenti
archeologici; 1d. nota apposta dall’autore di un testo per fornire indicazioni o chiarimenti su un’opera: notizie
bibliografiche; 2. nozione, conoscenza, dato specifico: ricostruire la storia di un popolo in base a notizie certe”.
LE MACROCATEGORIE:
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog diaristici:
https://popa86.wordpress.com/
https://infugaperlavittoria.wordpress.com/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog tematici
http://aquariusreportages.blogspot.it/
http://francescorubiconto.blogspot.it/
https://lpiersantelli.wordpress.com/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog letterari
https://parisigiuseppetesti.wordpress.com/
http://parisigiuseppetesti.wordpress.com/
https://anothersea.wordpress.com/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog letterari
http://inchiostrofusaedraghi.blogspot.it/
https://parisigiuseppetesti.wordpress.com/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Alcuni esempi di blog inclassificabili:
http://pazzoperrepubblica.blogspot.it/
http://itsaurorablr.tumblr.com/
http://fallen-nefilim.tumblr.com/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
DIARISTICI e INCLASSIFICABILI:
• unici mezzi di interazione;
• scrittura rapida e non revisionata;
• espressività grafica (lettura endofasica, abbreviazioni, variazioni grafiche);
LETTERARI:
• community;
• scrittura controllata, revisionata, in neostandard;
• scrittura rapida e revisionata con espressività grafica;
TEMATICI:
• commenti di approfondimento e di chiarimento;
• community;
• scrittura rapida e non revisionata con espressività grafica;
• scrittura revisionata in neostandard;
ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
https://parisigiuseppetesti.wordpress.com/
BLOG LETTERARI
https://scintilledanima.wordpress.com/
ANNO ACCADEMICO 2014/2015
I COMMENTI (se attivi):
BLOG TEMATICI
http://www.helptecnoblog.com/
http://guidami.info/
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
COSA È EMERSO DALLA PRIMA ANALISI?
RISULTATI GENERALI
DIARISTICO 30 6%
TEMATICO 323 64,6%
LETTERARIO 100 20%
INCLASSIFICABILE 47 9,4%
TOTALE 500 100%
CATEGORIA N°
BLOG DIARISTICI: 30
Scritti da donne 24
Scritti da uomini 6
BLOG TEMATICI: 323
Blog giornalistici 189
Blog specialistici: 134
- Recensioni 41
- Makeup/salute/benessere 13
- Cucina 14
- Spiritualità/religione 16
- Elettronica (tutorial e altro) 3
- Musica/teatro (pagine specifiche di gruppi o artisti) 8
- Hobby/sport 15
- Viaggio/turismo 7
- Satira 4
- Animali 4
- Sociale/Associazioni/Enti pubblici 4
- Marketing/pubblicità/varie 5
BLOG LETTERARI 100
BLOG INCLASSIFICABILI: 47
Citazione/Fotografici/Personali/Femminili 26
Citazione/Fotografici/Personali/Maschili 8
Citazioni (letterarie/giornalistiche)/Fotografici/Non Personali 13
Le macrocategorie e le
sottocategorie nello specifico
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Le ricerche precedenti:
• TAVOSANIS (2007): analisi su 100 blog e 100 post;
• SCARALE (2013): analisi su 100 blog e 100 post;
• SCARALE (2015): analisi su 500 blog e 2000 post;
Prima di procedere è stato necessario normalizzare i dati, che presentano, una diversa
numerosità calcolandone le frequenze relative* e trasformandoli in percentuali.
COSA È CAMBIATO NEGLI ANNI?
ANNO ACCADEMICO 2014/2015
Categoria 2007 2013 2015
Diario 31% 23% 6%
Tematici 59% 62% 65%
Letterari 10% 15% 29%
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
FASE 2:
CHE COSA?
Analisi statistica dei corpora dei blog giornalistici e letterari.
COME?
Mediante il text tool Read-It.
PERCHÉ?
Per valutarne la leggibilità, le somiglianze e le differenze dal punto di vista linguistico.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
• Tratto dai 500 blog analizzati nella Fase 1 della ricerca;
• 100 blog giornalistici (in totale 563.647 parole);
• 100 blog letterari (in totale 302.384 parole);
• Analisi con Read-It degli ultimi 10 post per ogni blog*, per un totale di 2000 post;
• Calcolo della media pesata (il peso è il numero di token di ogni post)** dei risultati di
ogni post ;
• Calcolo della media delle medie pesate di ogni post per ogni blog;
• Calcolo della media delle medie di ogni blog per categoria.
*In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo.
** il text tool non permetteva di analizzare i corpora al completo, perché costituiti da troppe pagine. Per questo motivo si è optato per l’analisi basata
sulle medie pesate di ogni post e di ogni blog.
IL CAMPIONE:
ANNO ACCADEMICO 2014/2015
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
READ-IT: ANALISI DELLA LEGGIBILITÀ 2.0
Il primo strumento avanzato per la valutazione della leggibilità di testi in lingua italiana;
Classificazione probabilistica basata su algoritmi di apprendimento supervisionato;
A partire da un corpus di addestramento accuratamente selezionato come rappresentativo dei
livelli di leggibilità da considerare (es. “semplice” e “complesso”), il sistema “impara” a
riconoscere le caratteristiche linguistiche estratte automaticamente dal risultato
dell'annotazione linguistica del testo;
Il punteggio di leggibilità di un nuovo testo sarà calcolato sulla base della maggior somiglianza
del suo profilo linguistico ad uno dei livelli di leggibilità definiti;
Analisi sofisticata delle strutture linguistiche sottostanti al testo;
Identificare i luoghi di complessità del testo;
Fornire un supporto utile per la semplificazione testuale;
Avvicinare anche persone con uno scarso livello di istruzione, stranieri e persone con
disabilità linguistico-cognitive, all’informazione.
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
I NOSTRI DATI
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Giornalistici
( σ )
Letterari
( σ )
Dylan Base 60,41% 16,94% 0,21 0,18
Dylan Lessicale 72,31% 74,43% 0,18 0,20
Dylan Sintattico 83,67% 39,93% 0,12 0,24
Dylan Globale 88,88% 73,44% 0,12 0,19
Gulpease 51,62 82,09 3,91 26,44
Caratteristiche estratte dal testo:
•DYLAN BASE: Misure tradizionali della leggibilità di un testo: lunghezza della frase (n. medio di parole) e lunghezza
delle parole (n. medio caratteri). È un’approssimazione dell’indice Gulpease.
•DYLAN LESSICALE: Caratteristiche lessicali del testo: composizione del vocabolario (V) e ricchezza lessicale (R),
numero totale di token (N).
•DYLAN SINTATTICO: Caratteristiche grammaticali: tratti morfosintattici e sintattici.
•DYLAN GLOBALE: Combinazione dei tre modelli precedenti.
•GULPEASE: [61;80] difficoltà per chi ha la licenza elementare;
[41;60] difficoltà per chi ha la licenza media;
[0;40] difficoltà per chi ha un diploma superiore;
ANNO ACCADEMICO 2014/2015
PROFILO DI BASE
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Numero totale periodi in token: 38,30 25,82
Lunghezza media dei periodi: 26,28 15,30
Lunghezza media delle parole
in caratteri:
5,12 4,62
Caratteristiche estratte dal testo: Profilo di base
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
PROFILO LESSICALE
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Giornalistici
( σ )
Letterari
( σ )
Composizione del vocabolario
Percentuale di lemmi appartenente al VdB: 68,22% 82,47% 0,05 0,44
Lemmi in base al repertorio del VdB:
Fondamentale: 80,15% 81,12% 0,03 0,10
Alto uso: 15,24% 12,50% 0,03 0,08
Alta disponibilità: 4,61% 6,96% 0,01 0,10
Rapporto tipo/unità: 0,70 0,49 0,04 0,22
Densità Lessicale: 0,57 0,56 0,02 0,05
Caratteristiche estratte dal testo: Profilo Lessicale
•VdB: lessemi che tutti usano in larga misura per costruire qualsiasi tipo di testo. Sono poco meno di 7000 lessemi,
suddivisi a loro volta in tre fasce: lessico Fondamentale (2000 lessemi, il 90% di un testo), di Alto Uso (2500-3000
lessemi, con meno frequenza) e di Alta Disponibilità (2300 lessemi con minor frequenza);
•Rapporto Tipo /Unità (TTR): ricchezza lessicale come funzione del numero di parole diverse;
•Densità Lessicale: la proporzione di elementi lessicali - i sostantivi, i verbi e gli aggettivi che sono portatori del
significato - rispetto agli elementi grammaticali - le preposizioni, gli avverbi e le congiunzioni che indicano i rapporti
sintattici fra gli elementi significativi.
PROFILO SINTATTICO
Giornalistici
𝑿 (𝒙𝒑)
Letterari
𝑿 (𝒙𝒑)
Giornalistici
( σ )
Letterari
( σ )
Categorie morfo-sintattiche
Sostantivi: 19,53% 20,81% 0,02 0,10
Nomi Propri: 7,18% 2,71% 0,03 0,03
Aggettivi: 6,43% 15,32% 0,01 0,85
Verbi: 13,29% 16,88% 0,02 0,14
Congiunzioni: 4,29% 7,61% 0,01 0,19
Coordinanti: 73,38% 68,38% 0,07 1,14
Subordinanti: 26,26% 30,80% 0,07 0,30
Articolazione interna del periodo:
Numero medio di proposizioni per periodo: 2,84 2 0,54 1,32
Proposizioni principali vs subordinate
Principali: 65,19% 74,78% 0,07 0,17
Subordinate: 34,81% 25,22% 0,07 0,68
Articolazione interna della proposizione:
Numero medio di parole per proposizione: 9,64 7,72 1,57 1,80
Numero medio di dipendenti /testa verbale: 2,03 1,83 0,16 0,78
Profondità dell'albero sintattico:
Media delle altezze massime: 6,45 3,95 0,90 1,55
Profondità media strutt. nom. complesse: 1,31 1,14 0,08 0,24
Profondità media catene di subordinazione: 1,19 0,82 0,19 0,42
Lunghezza delle relazioni di dipendenza:
Lunghezza media: 2,46 2,20 0,20 0,84
Media delle lunghezze massime: 9,85 9,87 2,03 40,41
Caratteristiche estratte dal testo: Profilo Sintattico
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
CONCLUDENDO
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Come si sono evoluti i blog in Italia?
- La maggior parte dei blog italiani è di tipo tematico;
- Crescita di blog tematici (+6% rispetto al 2007) e letterari
(+19% rispetto al 2007);
- Battuta d’arresto dei blog diaristici (- 25% rispetto al 2007)
colpa dei social network?
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Che tipo di lingua e di errori emergono?
Espedienti Linguistici ‘nn’ per
non
‘x’ per per
GIORNALISTICI 1 su 189 0
LETTERARI (tutti
nello stesso blog)
10 su 100 1 su 100
• Un nuovo tipo di giornalismo e di letteratura;
• Italiano neostandard (blog tematici)
• Errori involontari;
• Commenti come chat e forum;
• Scrittura rapida e abbastanza revisionata;
• Espedienti linguistici e fenomeni di compensazione ridotti (espressività grafica e
punteggiatura creativa).
GIORNALISTICI E LETTERARI
ANNO ACCADEMICO 2014/2015
DIFFERENZE
BLOG GIORNALISTICI BLOG LETTERARI
Più curati dal punto di vista grafico, stilistico ed editoriale; Meno curati dal punto di vista grafico, stilistico ed editoriale;
Coerenza linguistica e tematica tra post diversi (deviazione
standard σ minima);
Minore coerenza linguistica e tematica tra post diversi
(deviazione standard σ elevata);
Sono più difficili da leggere:
- Gulpease 51.62;
- Media altezze massime albero sintattico 6.45;
- Profondità media catene di subordinazione 1.19;
Richiedono meno competenze per essere compresi:
- Gulpease 82.09 (σ 26.44);
- Media altezze massime albero sintattico 3.95;
- Profondità media catene di subordinazione 0.82;
Post più lunghi:
- Lunghezza media periodi 26.28;
- Lunghezza media parole in caratteri 5.12;
- Num. medio proposizioni per periodo 2.84;
- Media altezze massime albero sintattico 6.45;
Hanno post più brevi:
- Lunghezza media periodi 15.30 (σ 12.56);
- Lunghezza media parole in caratteri 4.62;
- Num. medio proposizioni per periodo 2 (σ 1.32);
- Media altezze massime albero sintattico 3.95 (σ 1.55);
Nomi propri 7.18%. Sostantivi 20.81%, aggettivi 15.32%, verbi 16.88% e
congiunzioni 7.61%;
Lemmi appartenenti al VdB ad Alto Uso: 15.24% Lemmi appartenenti al VdB (Fondamentale 81.12% e ad Alta
Disponibilità 6.96%);
Struttura del periodo complessa, con un maggiore
incassamento gerarchico delle proposizioni:
- Media altezze massime albero sintattico 6.45;
- Profondità media catene di subordinazione 1.19;
Struttura del periodo più semplice (versi poetici: Read-It
considera una frase terminata quando c’è un ritorno a capo o
un simbolo di punteggiatura forte):
- Media altezze massime albero sintattico 3.95 (σ 1.55);
- Profondità media catene di subordinazione 0.82;
ANNO ACCADEMICO 2014/2015
SOMIGLIANZE
BLOG GIORNALISTICI E BLOG LETTERARI
• Periodi paratattici;
• Proposizioni principali
- giornalistici 65.19%;
- letterari 74.78%;
• Congiunzioni Coordinanti
- giornalistici 73.38%;
- letterari 68.38%;
• Scrittura rapida e revisionata;
• Scrittura progettata per altri tipi di pubblicazione, in alcuni casi;
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
 Ripetere la ricerca tra qualche anno per stabilire come si sta evolvendo la blogosfera.
• I blog diaristici diminuiranno ancora?
• I blog letterari aumenteranno?
• I blog tematici si stabilizzeranno, diminuiranno o aumenteranno?
 Ripetere la ricerca utilizzando solo i blog letterari, con un nuovo approccio orientato al
genere narrativo.
 Ripetere lo studio tra qualche anno utilizzando lo stesso campione di blog giornalistici per
capire, confermare o confutare l’idea che esista davvero uno standard linguistico coerente
nei post dei blog di questa categoria.
Sviluppi futuri?
Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
ANNO ACCADEMICO 2014/2015
Grazie per
l’attenzione.
Mariagiovanna Scarale

Contenu connexe

En vedette

AI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarek
AI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarekAI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarek
AI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarekŁukasz Rogala
 
Konsultacje społeczne Nowego Studium i strategii Wrocław 2030
Konsultacje społeczne Nowego Studium i strategii Wrocław 2030Konsultacje społeczne Nowego Studium i strategii Wrocław 2030
Konsultacje społeczne Nowego Studium i strategii Wrocław 2030Wroclaw
 
Space elevator- a stage for cheap space exploration and tourism
Space elevator- a stage for cheap space exploration and tourismSpace elevator- a stage for cheap space exploration and tourism
Space elevator- a stage for cheap space exploration and tourismMOHAMMED FAZIL
 
Colin Woon - The bigger the business, the bigger the SEO challenge
Colin Woon - The bigger the business, the bigger the SEO challengeColin Woon - The bigger the business, the bigger the SEO challenge
Colin Woon - The bigger the business, the bigger the SEO challengeMarketing Festival
 
Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...
Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...
Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...Marketing Festival
 
Types of Research Studies
Types of Research Studies Types of Research Studies
Types of Research Studies Shahd Al Ali
 
E chapter 9 changes matter part2
E chapter 9 changes matter part2E chapter 9 changes matter part2
E chapter 9 changes matter part2omneya_ghis ghis
 
Wyzwania w komunikacji z pokoleniem Y
Wyzwania w komunikacji z pokoleniem YWyzwania w komunikacji z pokoleniem Y
Wyzwania w komunikacji z pokoleniem YSzymon Góralski
 

En vedette (12)

Διεθνής Ημέρα Μουσείων 2016
Διεθνής Ημέρα Μουσείων 2016Διεθνής Ημέρα Μουσείων 2016
Διεθνής Ημέρα Μουσείων 2016
 
AI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarek
AI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarekAI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarek
AI&SEO - jak sztuczna inteligencja może zmienić rynek wyszukiwarek
 
Konsultacje społeczne Nowego Studium i strategii Wrocław 2030
Konsultacje społeczne Nowego Studium i strategii Wrocław 2030Konsultacje społeczne Nowego Studium i strategii Wrocław 2030
Konsultacje społeczne Nowego Studium i strategii Wrocław 2030
 
(not provided) po mojemu
(not provided) po mojemu(not provided) po mojemu
(not provided) po mojemu
 
Space elevator- a stage for cheap space exploration and tourism
Space elevator- a stage for cheap space exploration and tourismSpace elevator- a stage for cheap space exploration and tourism
Space elevator- a stage for cheap space exploration and tourism
 
Colin Woon - The bigger the business, the bigger the SEO challenge
Colin Woon - The bigger the business, the bigger the SEO challengeColin Woon - The bigger the business, the bigger the SEO challenge
Colin Woon - The bigger the business, the bigger the SEO challenge
 
Health Plan
Health PlanHealth Plan
Health Plan
 
Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...
Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...
Michal Pastier - How I learned about effective marketing from Bugs Bunny, Pix...
 
Types of Research Studies
Types of Research Studies Types of Research Studies
Types of Research Studies
 
E chapter 9 changes matter part2
E chapter 9 changes matter part2E chapter 9 changes matter part2
E chapter 9 changes matter part2
 
Akka (BeJUG)
Akka (BeJUG)Akka (BeJUG)
Akka (BeJUG)
 
Wyzwania w komunikacji z pokoleniem Y
Wyzwania w komunikacji z pokoleniem YWyzwania w komunikacji z pokoleniem Y
Wyzwania w komunikacji z pokoleniem Y
 

Similaire à Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Similaire à Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It (14)

Corso Web 2.0: Web feed e aggregatori
Corso Web 2.0: Web feed e aggregatoriCorso Web 2.0: Web feed e aggregatori
Corso Web 2.0: Web feed e aggregatori
 
Presentazione Blog
Presentazione BlogPresentazione Blog
Presentazione Blog
 
12. I blog
12. I blog12. I blog
12. I blog
 
Lezione 4: Web feed e aggregatori
Lezione 4: Web feed e aggregatoriLezione 4: Web feed e aggregatori
Lezione 4: Web feed e aggregatori
 
20. Social networks
20. Social networks20. Social networks
20. Social networks
 
Report umbria online 2906
Report umbria online 2906Report umbria online 2906
Report umbria online 2906
 
Analisi del fenomeno dei blog
Analisi del fenomeno dei blogAnalisi del fenomeno dei blog
Analisi del fenomeno dei blog
 
Cv linkedin ferrara
Cv linkedin ferraraCv linkedin ferrara
Cv linkedin ferrara
 
5.1 web 2.0, blog
5.1 web 2.0, blog5.1 web 2.0, blog
5.1 web 2.0, blog
 
15. La forma breve e il microblogging
15. La forma  breve e il microblogging15. La forma  breve e il microblogging
15. La forma breve e il microblogging
 
19. Social network sites
19. Social network sites19. Social network sites
19. Social network sites
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
Maria cristinamonaco cv
Maria cristinamonaco cvMaria cristinamonaco cv
Maria cristinamonaco cv
 
Lezione 3: I blog e la blogosfera
Lezione 3: I blog e la blogosferaLezione 3: I blog e la blogosfera
Lezione 3: I blog e la blogosfera
 

Plus de Mariagiovanna Scarale

Web Mining e analisi di reti sociali
Web Mining e analisi di reti socialiWeb Mining e analisi di reti sociali
Web Mining e analisi di reti socialiMariagiovanna Scarale
 
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et MaturitéL'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et MaturitéMariagiovanna Scarale
 
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)Mariagiovanna Scarale
 
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)Mariagiovanna Scarale
 
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)Mariagiovanna Scarale
 
IL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALEIL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALEMariagiovanna Scarale
 
Hanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMINGHanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMINGMariagiovanna Scarale
 
Strumenti statistici per l'analisi della distribuzione dei fatti linguistici
Strumenti statistici per l'analisi della distribuzione dei fatti linguisticiStrumenti statistici per l'analisi della distribuzione dei fatti linguistici
Strumenti statistici per l'analisi della distribuzione dei fatti linguisticiMariagiovanna Scarale
 
VISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna ScaraleVISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna ScaraleMariagiovanna Scarale
 

Plus de Mariagiovanna Scarale (12)

Web Mining e analisi di reti sociali
Web Mining e analisi di reti socialiWeb Mining e analisi di reti sociali
Web Mining e analisi di reti sociali
 
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et MaturitéL'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
L'opera di Flaubert tra Realismo e Romanticismo. Jeunesse et Maturité
 
Valutazione dell'Accessibilità
Valutazione dell'AccessibilitàValutazione dell'Accessibilità
Valutazione dell'Accessibilità
 
Valutazione dell'usabilità
Valutazione dell'usabilità Valutazione dell'usabilità
Valutazione dell'usabilità
 
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
Adattamento dispositivo (Progettazione interfacce e valutazione dell'usabilità)
 
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
Adattabilità (Progettazione interfacce e valutazione dell'usabilità)
 
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
Il software MARIE (Progettazione interfacce e valutazione dell'usabilità)
 
IL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALEIL DIRITTO D'AUTORE NELL'ERA DIGITALE
IL DIRITTO D'AUTORE NELL'ERA DIGITALE
 
Hanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMINGHanging out, messing around and geeking out. GAMING
Hanging out, messing around and geeking out. GAMING
 
Tra filologia e programmazione
Tra filologia e programmazioneTra filologia e programmazione
Tra filologia e programmazione
 
Strumenti statistici per l'analisi della distribuzione dei fatti linguistici
Strumenti statistici per l'analisi della distribuzione dei fatti linguisticiStrumenti statistici per l'analisi della distribuzione dei fatti linguistici
Strumenti statistici per l'analisi della distribuzione dei fatti linguistici
 
VISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna ScaraleVISUAL DESIGN di Mariagiovanna Scarale
VISUAL DESIGN di Mariagiovanna Scarale
 

Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

  • 1. CORSO DI LAUREA MAGISTRALE in INFORMATICA UMANISTICA (EDITORIA ELETTRONICA) Il web 2.0 e la blogosfera italiana. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 CANDIDATA RELATORE Dott.ssa Mariagiovanna Scarale Prof. Mirko Tavosanis CONTRORELATORE Prof. Felice Dell’Orletta
  • 2. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 WEB 2.0 Dinamico e Democratico Collaborazione Integrazione Partecipazione Intelligenza Collettiva UTENTE Forum Chat Wiki Social Network Mashups Podcasting DI COSA STIAMO PARLANDO?
  • 3. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 RICERCA E ANALISI: -FASE 1: Analisi della blogosfera italiana ed evoluzione del fenomeno dei blog nel corso degli anni; -FASE 2: Analisi statistica dei corpora dei blog giornalistici e letterari mediante il tool Read-It.
  • 4. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 FASE 1: CHE COSA? Stabilire una panoramica della blogosfera italiana oggi. COME? Ricerca e analisi campionaria. PERCHÉ? Per capire se e come si sta evolvendo il fenomeno dei blog in Italia.
  • 5. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 • Motore di ricerca per blog: Twingly; • 10 chiavi di ricerca appartenenti al lessico di base dell’italiano: (‘questo’, ‘quello’, ‘quindi’, ‘perché’, ‘comunque’, ‘mio’, ‘di’, ‘invece’, ‘loro’, ‘il’); • Ultimo risultato di ogni SERP*; • 50 blog per chiave di ricerca**; • 500 blog in totale; • Analisi degli ultimi 10 post per ogni blog*** per un totale di 5000 post; • Suddivisione in macrocategorie. *Il browser di riferimento forniva un massimo di 50 pagine per risultato; ** I risultati ripetuti sono stati sostituiti con quelli immediatamente precedenti; ***In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo. IL CAMPIONE:
  • 6. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 •DIARISTICI: blog scritti in prima persona che seguono la tipica struttura del diario (narrazione e descrizione di eventi personali in modo costante); •TEMATICI: comprendono i blog giornalistici (che trattano notizie) e quelli specialistici (che si occupano di tematiche particolari che non sono definite “notizie”)*; •LETTERARI: blog che presentano scritti in prosa o poesie; •INCLASSIFICABILI: blog di citazioni, blog fotografici e blog impossibili da classificare; * Secondo l’accezione di “notizia” presente sul dizionario De Mauro, versione 2015: “Notizia: 1a. informazione su qcs. o qcn.: non ho più sue notizie da una settimana; 1b. comunicazione di un fatto di pubblico interesse, spec. recente, diffusa attraverso i mezzi di informazione: una importante notizia di prima pagina; 1c. informazione, ragguaglio pubblicato su una rivista specialistica: notizie sugli ultimi ritrovamenti archeologici; 1d. nota apposta dall’autore di un testo per fornire indicazioni o chiarimenti su un’opera: notizie bibliografiche; 2. nozione, conoscenza, dato specifico: ricostruire la storia di un popolo in base a notizie certe”. LE MACROCATEGORIE:
  • 7. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Alcuni esempi di blog diaristici: https://popa86.wordpress.com/ https://infugaperlavittoria.wordpress.com/
  • 8. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Alcuni esempi di blog tematici http://aquariusreportages.blogspot.it/ http://francescorubiconto.blogspot.it/ https://lpiersantelli.wordpress.com/
  • 9. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Alcuni esempi di blog letterari https://parisigiuseppetesti.wordpress.com/ http://parisigiuseppetesti.wordpress.com/ https://anothersea.wordpress.com/
  • 10. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Alcuni esempi di blog letterari http://inchiostrofusaedraghi.blogspot.it/ https://parisigiuseppetesti.wordpress.com/
  • 11. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Alcuni esempi di blog inclassificabili: http://pazzoperrepubblica.blogspot.it/ http://itsaurorablr.tumblr.com/ http://fallen-nefilim.tumblr.com/
  • 12. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 I COMMENTI (se attivi): DIARISTICI e INCLASSIFICABILI: • unici mezzi di interazione; • scrittura rapida e non revisionata; • espressività grafica (lettura endofasica, abbreviazioni, variazioni grafiche); LETTERARI: • community; • scrittura controllata, revisionata, in neostandard; • scrittura rapida e revisionata con espressività grafica; TEMATICI: • commenti di approfondimento e di chiarimento; • community; • scrittura rapida e non revisionata con espressività grafica; • scrittura revisionata in neostandard;
  • 13. ANNO ACCADEMICO 2014/2015 I COMMENTI (se attivi): https://parisigiuseppetesti.wordpress.com/ BLOG LETTERARI https://scintilledanima.wordpress.com/
  • 14. ANNO ACCADEMICO 2014/2015 I COMMENTI (se attivi): BLOG TEMATICI http://www.helptecnoblog.com/ http://guidami.info/
  • 15. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari COSA È EMERSO DALLA PRIMA ANALISI? RISULTATI GENERALI DIARISTICO 30 6% TEMATICO 323 64,6% LETTERARIO 100 20% INCLASSIFICABILE 47 9,4% TOTALE 500 100%
  • 16. CATEGORIA N° BLOG DIARISTICI: 30 Scritti da donne 24 Scritti da uomini 6 BLOG TEMATICI: 323 Blog giornalistici 189 Blog specialistici: 134 - Recensioni 41 - Makeup/salute/benessere 13 - Cucina 14 - Spiritualità/religione 16 - Elettronica (tutorial e altro) 3 - Musica/teatro (pagine specifiche di gruppi o artisti) 8 - Hobby/sport 15 - Viaggio/turismo 7 - Satira 4 - Animali 4 - Sociale/Associazioni/Enti pubblici 4 - Marketing/pubblicità/varie 5 BLOG LETTERARI 100 BLOG INCLASSIFICABILI: 47 Citazione/Fotografici/Personali/Femminili 26 Citazione/Fotografici/Personali/Maschili 8 Citazioni (letterarie/giornalistiche)/Fotografici/Non Personali 13 Le macrocategorie e le sottocategorie nello specifico
  • 17. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Le ricerche precedenti: • TAVOSANIS (2007): analisi su 100 blog e 100 post; • SCARALE (2013): analisi su 100 blog e 100 post; • SCARALE (2015): analisi su 500 blog e 2000 post; Prima di procedere è stato necessario normalizzare i dati, che presentano, una diversa numerosità calcolandone le frequenze relative* e trasformandoli in percentuali. COSA È CAMBIATO NEGLI ANNI?
  • 18. ANNO ACCADEMICO 2014/2015 Categoria 2007 2013 2015 Diario 31% 23% 6% Tematici 59% 62% 65% Letterari 10% 15% 29%
  • 19. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 FASE 2: CHE COSA? Analisi statistica dei corpora dei blog giornalistici e letterari. COME? Mediante il text tool Read-It. PERCHÉ? Per valutarne la leggibilità, le somiglianze e le differenze dal punto di vista linguistico.
  • 20. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 • Tratto dai 500 blog analizzati nella Fase 1 della ricerca; • 100 blog giornalistici (in totale 563.647 parole); • 100 blog letterari (in totale 302.384 parole); • Analisi con Read-It degli ultimi 10 post per ogni blog*, per un totale di 2000 post; • Calcolo della media pesata (il peso è il numero di token di ogni post)** dei risultati di ogni post ; • Calcolo della media delle medie pesate di ogni post per ogni blog; • Calcolo della media delle medie di ogni blog per categoria. *In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo. ** il text tool non permetteva di analizzare i corpora al completo, perché costituiti da troppe pagine. Per questo motivo si è optato per l’analisi basata sulle medie pesate di ogni post e di ogni blog. IL CAMPIONE:
  • 21. ANNO ACCADEMICO 2014/2015 Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari READ-IT: ANALISI DELLA LEGGIBILITÀ 2.0 Il primo strumento avanzato per la valutazione della leggibilità di testi in lingua italiana; Classificazione probabilistica basata su algoritmi di apprendimento supervisionato; A partire da un corpus di addestramento accuratamente selezionato come rappresentativo dei livelli di leggibilità da considerare (es. “semplice” e “complesso”), il sistema “impara” a riconoscere le caratteristiche linguistiche estratte automaticamente dal risultato dell'annotazione linguistica del testo; Il punteggio di leggibilità di un nuovo testo sarà calcolato sulla base della maggior somiglianza del suo profilo linguistico ad uno dei livelli di leggibilità definiti; Analisi sofisticata delle strutture linguistiche sottostanti al testo; Identificare i luoghi di complessità del testo; Fornire un supporto utile per la semplificazione testuale; Avvicinare anche persone con uno scarso livello di istruzione, stranieri e persone con disabilità linguistico-cognitive, all’informazione.
  • 22. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 I NOSTRI DATI
  • 23. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Giornalistici 𝑿 (𝒙𝒑) Letterari 𝑿 (𝒙𝒑) Giornalistici ( σ ) Letterari ( σ ) Dylan Base 60,41% 16,94% 0,21 0,18 Dylan Lessicale 72,31% 74,43% 0,18 0,20 Dylan Sintattico 83,67% 39,93% 0,12 0,24 Dylan Globale 88,88% 73,44% 0,12 0,19 Gulpease 51,62 82,09 3,91 26,44 Caratteristiche estratte dal testo: •DYLAN BASE: Misure tradizionali della leggibilità di un testo: lunghezza della frase (n. medio di parole) e lunghezza delle parole (n. medio caratteri). È un’approssimazione dell’indice Gulpease. •DYLAN LESSICALE: Caratteristiche lessicali del testo: composizione del vocabolario (V) e ricchezza lessicale (R), numero totale di token (N). •DYLAN SINTATTICO: Caratteristiche grammaticali: tratti morfosintattici e sintattici. •DYLAN GLOBALE: Combinazione dei tre modelli precedenti. •GULPEASE: [61;80] difficoltà per chi ha la licenza elementare; [41;60] difficoltà per chi ha la licenza media; [0;40] difficoltà per chi ha un diploma superiore;
  • 24. ANNO ACCADEMICO 2014/2015 PROFILO DI BASE Giornalistici 𝑿 (𝒙𝒑) Letterari 𝑿 (𝒙𝒑) Numero totale periodi in token: 38,30 25,82 Lunghezza media dei periodi: 26,28 15,30 Lunghezza media delle parole in caratteri: 5,12 4,62 Caratteristiche estratte dal testo: Profilo di base Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
  • 25. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 PROFILO LESSICALE Giornalistici 𝑿 (𝒙𝒑) Letterari 𝑿 (𝒙𝒑) Giornalistici ( σ ) Letterari ( σ ) Composizione del vocabolario Percentuale di lemmi appartenente al VdB: 68,22% 82,47% 0,05 0,44 Lemmi in base al repertorio del VdB: Fondamentale: 80,15% 81,12% 0,03 0,10 Alto uso: 15,24% 12,50% 0,03 0,08 Alta disponibilità: 4,61% 6,96% 0,01 0,10 Rapporto tipo/unità: 0,70 0,49 0,04 0,22 Densità Lessicale: 0,57 0,56 0,02 0,05 Caratteristiche estratte dal testo: Profilo Lessicale •VdB: lessemi che tutti usano in larga misura per costruire qualsiasi tipo di testo. Sono poco meno di 7000 lessemi, suddivisi a loro volta in tre fasce: lessico Fondamentale (2000 lessemi, il 90% di un testo), di Alto Uso (2500-3000 lessemi, con meno frequenza) e di Alta Disponibilità (2300 lessemi con minor frequenza); •Rapporto Tipo /Unità (TTR): ricchezza lessicale come funzione del numero di parole diverse; •Densità Lessicale: la proporzione di elementi lessicali - i sostantivi, i verbi e gli aggettivi che sono portatori del significato - rispetto agli elementi grammaticali - le preposizioni, gli avverbi e le congiunzioni che indicano i rapporti sintattici fra gli elementi significativi.
  • 26. PROFILO SINTATTICO Giornalistici 𝑿 (𝒙𝒑) Letterari 𝑿 (𝒙𝒑) Giornalistici ( σ ) Letterari ( σ ) Categorie morfo-sintattiche Sostantivi: 19,53% 20,81% 0,02 0,10 Nomi Propri: 7,18% 2,71% 0,03 0,03 Aggettivi: 6,43% 15,32% 0,01 0,85 Verbi: 13,29% 16,88% 0,02 0,14 Congiunzioni: 4,29% 7,61% 0,01 0,19 Coordinanti: 73,38% 68,38% 0,07 1,14 Subordinanti: 26,26% 30,80% 0,07 0,30 Articolazione interna del periodo: Numero medio di proposizioni per periodo: 2,84 2 0,54 1,32 Proposizioni principali vs subordinate Principali: 65,19% 74,78% 0,07 0,17 Subordinate: 34,81% 25,22% 0,07 0,68 Articolazione interna della proposizione: Numero medio di parole per proposizione: 9,64 7,72 1,57 1,80 Numero medio di dipendenti /testa verbale: 2,03 1,83 0,16 0,78 Profondità dell'albero sintattico: Media delle altezze massime: 6,45 3,95 0,90 1,55 Profondità media strutt. nom. complesse: 1,31 1,14 0,08 0,24 Profondità media catene di subordinazione: 1,19 0,82 0,19 0,42 Lunghezza delle relazioni di dipendenza: Lunghezza media: 2,46 2,20 0,20 0,84 Media delle lunghezze massime: 9,85 9,87 2,03 40,41 Caratteristiche estratte dal testo: Profilo Sintattico
  • 27. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 CONCLUDENDO
  • 28. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Come si sono evoluti i blog in Italia? - La maggior parte dei blog italiani è di tipo tematico; - Crescita di blog tematici (+6% rispetto al 2007) e letterari (+19% rispetto al 2007); - Battuta d’arresto dei blog diaristici (- 25% rispetto al 2007) colpa dei social network?
  • 29. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Che tipo di lingua e di errori emergono? Espedienti Linguistici ‘nn’ per non ‘x’ per per GIORNALISTICI 1 su 189 0 LETTERARI (tutti nello stesso blog) 10 su 100 1 su 100 • Un nuovo tipo di giornalismo e di letteratura; • Italiano neostandard (blog tematici) • Errori involontari; • Commenti come chat e forum; • Scrittura rapida e abbastanza revisionata; • Espedienti linguistici e fenomeni di compensazione ridotti (espressività grafica e punteggiatura creativa). GIORNALISTICI E LETTERARI
  • 30. ANNO ACCADEMICO 2014/2015 DIFFERENZE BLOG GIORNALISTICI BLOG LETTERARI Più curati dal punto di vista grafico, stilistico ed editoriale; Meno curati dal punto di vista grafico, stilistico ed editoriale; Coerenza linguistica e tematica tra post diversi (deviazione standard σ minima); Minore coerenza linguistica e tematica tra post diversi (deviazione standard σ elevata); Sono più difficili da leggere: - Gulpease 51.62; - Media altezze massime albero sintattico 6.45; - Profondità media catene di subordinazione 1.19; Richiedono meno competenze per essere compresi: - Gulpease 82.09 (σ 26.44); - Media altezze massime albero sintattico 3.95; - Profondità media catene di subordinazione 0.82; Post più lunghi: - Lunghezza media periodi 26.28; - Lunghezza media parole in caratteri 5.12; - Num. medio proposizioni per periodo 2.84; - Media altezze massime albero sintattico 6.45; Hanno post più brevi: - Lunghezza media periodi 15.30 (σ 12.56); - Lunghezza media parole in caratteri 4.62; - Num. medio proposizioni per periodo 2 (σ 1.32); - Media altezze massime albero sintattico 3.95 (σ 1.55); Nomi propri 7.18%. Sostantivi 20.81%, aggettivi 15.32%, verbi 16.88% e congiunzioni 7.61%; Lemmi appartenenti al VdB ad Alto Uso: 15.24% Lemmi appartenenti al VdB (Fondamentale 81.12% e ad Alta Disponibilità 6.96%); Struttura del periodo complessa, con un maggiore incassamento gerarchico delle proposizioni: - Media altezze massime albero sintattico 6.45; - Profondità media catene di subordinazione 1.19; Struttura del periodo più semplice (versi poetici: Read-It considera una frase terminata quando c’è un ritorno a capo o un simbolo di punteggiatura forte): - Media altezze massime albero sintattico 3.95 (σ 1.55); - Profondità media catene di subordinazione 0.82;
  • 31. ANNO ACCADEMICO 2014/2015 SOMIGLIANZE BLOG GIORNALISTICI E BLOG LETTERARI • Periodi paratattici; • Proposizioni principali - giornalistici 65.19%; - letterari 74.78%; • Congiunzioni Coordinanti - giornalistici 73.38%; - letterari 68.38%; • Scrittura rapida e revisionata; • Scrittura progettata per altri tipi di pubblicazione, in alcuni casi; Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
  • 32. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015  Ripetere la ricerca tra qualche anno per stabilire come si sta evolvendo la blogosfera. • I blog diaristici diminuiranno ancora? • I blog letterari aumenteranno? • I blog tematici si stabilizzeranno, diminuiranno o aumenteranno?  Ripetere la ricerca utilizzando solo i blog letterari, con un nuovo approccio orientato al genere narrativo.  Ripetere lo studio tra qualche anno utilizzando lo stesso campione di blog giornalistici per capire, confermare o confutare l’idea che esista davvero uno standard linguistico coerente nei post dei blog di questa categoria. Sviluppi futuri?
  • 33. Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 Grazie per l’attenzione. Mariagiovanna Scarale