SlideShare une entreprise Scribd logo
1  sur  15
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A. L.T .A.C. 2
Obiettivo del corso: sviluppare competenze di gestione di Taltac2 attraverso M.A.D.I.T.

•Trattamento
automatico
•Lessicale

Unità di testo = PAROLE

•Testuale

Unità di contesto = frammenti/documenti

•Contenuto

Ricerca di parole chiave,misure di specificità

•Corpus

Struttura del testo, DNA del testo
T.A. L .T.A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

Analisi lessicale:

1. Misure lessico-metriche
2. Analisi dei segmenti ripetuti
3. Tagging (grammaticale e semantico)
4. Confronti lessicali
5. Analisi delle specificità
6. Linguaggio peculiare (parole rilevanti, TFIDF)
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

Analisi testuale:

1. Analisi delle concordanze
2. Estrazione informazioni con query
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

Quale tipologia di testo analizza lo strumento?

Risposte a DOMANDE APERTE/TESTI INTERI:
•

Testi da blog
•

Testi di focus group
•

Articoli di giornale

•

Opere di un autore

VARIABILI
CATEGORIALI
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

Da cosa è composto IL CORPUS?
= INSIEME DI FRAMMENTI

Insieme di risposte a domanda aperta

1 frammento = 1 risposta

o
Intero libro/manuale

1 frammento = 1 capitolo
T.A.L. T .A.C. 2

1 Corpus = più frammenti

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

sezione
sezione
sezione

Es. corpus = raccolta di articoli

= abstract, testo articolo,
titolo, rif. bibliografico
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

Come costruire il corpus affinché Taltac2 lo legga?

LE REGOLE DELLA SINTASSI
ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo)
con 2 VARIABILI (testata e mese di pubblicazione)
****ARTICOLO1*TESTATA=repubblica*MESE=gennaio
++++ occhiello
Sjdfsjfoijwfpw sjodjsaodjapid aidhosjdoiljdap osjdosdjopsa sojdojdo
++++ titolo
ksjhlihdL AJHsaj AsjlkJSò
++++ testo
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

LE REGOLE DELLA SINTASSI
ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo)
con 2 VARIABILI (testata e mese di pubblicazione)

****ARTICOLO1*TESTATA=repubblica*MESE=gennaio

*NOMEVAR=NOME MODALITA’
Indica che
inizia una variabile

No segni di
interpunzione
né spazi

RIGHE DI
IDENTIFICAZIONE
FRAMMENTO

Qualsiasi carattere ma non *
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

1. Se un frammento non presenta 1
modalità?
*NOMEVAR=nullo
****ARTICOLO1*TESTATA=repubblica*MESE=nullo
2. Quante variabili sono ammesse?

Al massimo 99
1 o più frammenti non contenga 1 o più
sezioni

3. Lo strumento ammette che:

Tutti i frammenti non abbiano VAR associate
Tutti i frammenti non presentino sezioni
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

In quale formato redarre il corpus?

Scrivere il testo in Word,
salvarne una versione = .doc

In quale formato salvare il corpus?

Salvare il testo in
testo delimitato da tabulazione = .txt

Dove salvare i documenti?
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

In quali ambienti vengono salvati i file prodotti dallo
strumento?
CARTELLA DI LAVORO = CARTELLA DI SESSIONE

File di risultato

file di testo .txt

Primo step: Inserimento corpus in Taltac e costruzione del
vocabolario
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

Prima esercitazione: costruzione del corpus oggetto
dell’analisi
Obiettivo: costruire il file di testo rispetto alle seguenti
indicazioni

Il file di testo è composto da: 3 FRAMMENTI DI 2 VARIABILI SUDDIVISI IN 2 SEZIONI
LA DOMANDA: Pensando alla sua esperienza con la Facoltà di Psicologia, mi
può descrivere una situazione in cui NON è stato pienamente soddisfatto?
Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere
una situazione in cui è stato pienamente soddisfatto?
I RISPONDENTI: PSICOLOGI NEO LAUREATI
VARIABILI: data = mese di dicembre (I,II,III,IV settimana)
luogo = it. Centro, sud, nord, e estero
SEZIONE: dom 1 e dom 2
T.A. L.T .A. C . 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

Lessico, testuale, del contenuto e del corpus
LESSICO: il significato del termine è stabilito dai parlanti, è negoziato nell’interazione
(il significato è quello del dizionario).
CONCETTO: si stabilisce che il significato del termine ha una modalità d’uso entro
un particolare campo di applicazione in cui il termine vale per tutti allo stesso modo.
COSTRUTTO: il significato del termine è stabilito all’interno di una determinata
teoria in uno specifico testo.

Come usare lo strumento secondo riferimenti scientifici?
L’INDICE IS DI MORRONE, l’incidenza delle occorrenze del segmento rispetto alle
occorrenze delle forme semplici che lo compongono” (Bolasco, 1999).
La formula per il calcolo dell’indice di Morrone è la seguente:
L fsegm
IS = [ ∑ ---------- ] * P
i=1 ffgi
“per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto
fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente),
moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene
presenti nel segmento. Tale indice è sempre positivo, si annulla quando il segmento è
composto solo da parole vuote, ed ha il suo massimo valore uguale a L2.” (
Bolasco, 1999).
L’INDICE IS RELATIVO, ottenuto rapportando l’indice al suo massimo valore ottenuto,
collocandosi su un continuum di valori che va da 0 a 1.
Laddove per “parole piene” si intende “parole chiave per l’analisi in corso”, mentre per “parole vuote”
si intende “parole che non esprimono aspetti rilevanti rispetto all’analisi o parole strumentali alla
costruzione sintatticamente corretta delle proposizioni” (Tuzzi, 2003).[
Pretrattamento:
•
•
•
•

normalizzazione
eliminazione forme/taglio di soglia
correzione errori ortografici e grammaticali
disambiguazione: es famiglia, es. analisi
dei segmenti, es. utilizzo delle maiuscole
(attenzione conflitto con normalizzazione),
analisi dei segmenti
• categorizzazione

Contenu connexe

En vedette

Sentiment analysis of tweets
Sentiment analysis of tweetsSentiment analysis of tweets
Sentiment analysis of tweets
Vasu Jain
 
Presentación. diagnostico de rincon la portada. emilia copa
Presentación. diagnostico de rincon la portada. emilia copaPresentación. diagnostico de rincon la portada. emilia copa
Presentación. diagnostico de rincon la portada. emilia copa
CIDES UMSA
 
Presentacion modelos de cuidado ana sulcata
Presentacion modelos de cuidado ana sulcataPresentacion modelos de cuidado ana sulcata
Presentacion modelos de cuidado ana sulcata
CIDES UMSA
 
Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...
Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...
Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...
CIDES UMSA
 
Presentación iniciativa ciudadana eliana estrada
Presentación iniciativa ciudadana eliana estradaPresentación iniciativa ciudadana eliana estrada
Presentación iniciativa ciudadana eliana estrada
CIDES UMSA
 
Presentacion genero y educacion temprana maya crone
Presentacion genero y educacion temprana maya cronePresentacion genero y educacion temprana maya crone
Presentacion genero y educacion temprana maya crone
CIDES UMSA
 
Presentación desarrollo infantil carla fuentes
Presentación desarrollo infantil carla fuentesPresentación desarrollo infantil carla fuentes
Presentación desarrollo infantil carla fuentes
CIDES UMSA
 

En vedette (17)

Google datastore & search api
Google datastore & search apiGoogle datastore & search api
Google datastore & search api
 
Social media analysis in R using twitter API
Social media analysis in R using twitter API Social media analysis in R using twitter API
Social media analysis in R using twitter API
 
Emploi: Faire face aux tests Rorschah et TAT
Emploi: Faire face aux tests Rorschah et TATEmploi: Faire face aux tests Rorschah et TAT
Emploi: Faire face aux tests Rorschah et TAT
 
Sentiment analysis of tweets
Sentiment analysis of tweetsSentiment analysis of tweets
Sentiment analysis of tweets
 
Sentiment Analysis in Twitter
Sentiment Analysis in TwitterSentiment Analysis in Twitter
Sentiment Analysis in Twitter
 
Sentiment Analysis of Twitter Data
Sentiment Analysis of Twitter DataSentiment Analysis of Twitter Data
Sentiment Analysis of Twitter Data
 
Presentación. diagnostico de rincon la portada. emilia copa
Presentación. diagnostico de rincon la portada. emilia copaPresentación. diagnostico de rincon la portada. emilia copa
Presentación. diagnostico de rincon la portada. emilia copa
 
Redescubriendo el verdadero thaki. enseñanzas de los yatiris mayores de tiwanaku
Redescubriendo el verdadero thaki. enseñanzas de los yatiris mayores de tiwanakuRedescubriendo el verdadero thaki. enseñanzas de los yatiris mayores de tiwanaku
Redescubriendo el verdadero thaki. enseñanzas de los yatiris mayores de tiwanaku
 
Presentacion modelos de cuidado ana sulcata
Presentacion modelos de cuidado ana sulcataPresentacion modelos de cuidado ana sulcata
Presentacion modelos de cuidado ana sulcata
 
Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...
Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...
Presentación proyecto cuidar a los niños para emancipar a las mujeres eliana ...
 
Presentación iniciativa ciudadana eliana estrada
Presentación iniciativa ciudadana eliana estradaPresentación iniciativa ciudadana eliana estrada
Presentación iniciativa ciudadana eliana estrada
 
Presentacion genero y educacion temprana maya crone
Presentacion genero y educacion temprana maya cronePresentacion genero y educacion temprana maya crone
Presentacion genero y educacion temprana maya crone
 
Presentación desarrollo infantil carla fuentes
Presentación desarrollo infantil carla fuentesPresentación desarrollo infantil carla fuentes
Presentación desarrollo infantil carla fuentes
 
Historia de la educación especial en bolivia 2011
Historia de la educación especial en bolivia 2011Historia de la educación especial en bolivia 2011
Historia de la educación especial en bolivia 2011
 
Introduction à Twitter
Introduction à TwitterIntroduction à Twitter
Introduction à Twitter
 
Présentation sur Twitter et le microblogging
Présentation sur Twitter et le microbloggingPrésentation sur Twitter et le microblogging
Présentation sur Twitter et le microblogging
 
Text Mining with R -- an Analysis of Twitter Data
Text Mining with R -- an Analysis of Twitter DataText Mining with R -- an Analysis of Twitter Data
Text Mining with R -- an Analysis of Twitter Data
 

Similaire à Presentacion taltac2 (6)

Tesina 2009
Tesina 2009Tesina 2009
Tesina 2009
 
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
Progetto e realizzazione di uno strumento per la modifica sistematica di codi...
 
Vb.net
 Vb.net Vb.net
Vb.net
 
Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...
Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...
Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...
 
Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...
Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...
Sistemi autore, linguaggio controllato e manualistica aziendale: scrivere per...
 
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
Classificazione di frasi in linguaggio naturale per il riconoscimento di inte...
 

Plus de CIDES UMSA (10)

Presentacion sistematizacion comparativa de politicas publicas de proteccion ...
Presentacion sistematizacion comparativa de politicas publicas de proteccion ...Presentacion sistematizacion comparativa de politicas publicas de proteccion ...
Presentacion sistematizacion comparativa de politicas publicas de proteccion ...
 
Presentacion el cuidado en la familia cecilia salazar
Presentacion el cuidado en la familia cecilia salazarPresentacion el cuidado en la familia cecilia salazar
Presentacion el cuidado en la familia cecilia salazar
 
Presentación cuidado como derecho social. cecilia salazar
Presentación cuidado como derecho social. cecilia salazarPresentación cuidado como derecho social. cecilia salazar
Presentación cuidado como derecho social. cecilia salazar
 
Municipio escuela cepad
Municipio escuela cepadMunicipio escuela cepad
Municipio escuela cepad
 
Analisis de interesados
Analisis de interesadosAnalisis de interesados
Analisis de interesados
 
Servicios sociales eeuu
Servicios sociales eeuuServicios sociales eeuu
Servicios sociales eeuu
 
Presentación cuidado. fernanda wanderley
Presentación cuidado. fernanda wanderleyPresentación cuidado. fernanda wanderley
Presentación cuidado. fernanda wanderley
 
Presentación cuidado. fernanda wanderley
Presentación cuidado. fernanda wanderleyPresentación cuidado. fernanda wanderley
Presentación cuidado. fernanda wanderley
 
Presentación cuidado. cecilia salazar
Presentación cuidado. cecilia salazarPresentación cuidado. cecilia salazar
Presentación cuidado. cecilia salazar
 
Bolivia obstaculos eng
Bolivia obstaculos engBolivia obstaculos eng
Bolivia obstaculos eng
 

Dernier

Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
nico07fusco
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
lorenzodemidio01
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
sasaselvatico
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 

Dernier (20)

Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
CHIẾN THẮNG KÌ THI TUYỂN SINH VÀO LỚP 10 THPT MÔN NGỮ VĂN - PHAN THẾ HOÀI (36...
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Presentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informaticaPresentazione tre geni della tecnologia informatica
Presentazione tre geni della tecnologia informatica
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Storia-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptxStoria-CarloMagno-TeccarelliLorenzo.pptx
Storia-CarloMagno-TeccarelliLorenzo.pptx
 
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
Esame di Stato 2024 - Materiale conferenza online 09 aprile 2024
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Una breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opereUna breve introduzione ad Elsa Morante, vita e opere
Una breve introduzione ad Elsa Morante, vita e opere
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptxAdducchio.Samuel-Steve_Jobs.ppppppppppptx
Adducchio.Samuel-Steve_Jobs.ppppppppppptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 

Presentacion taltac2

  • 1. Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car T.A. L.T .A.C. 2 Obiettivo del corso: sviluppare competenze di gestione di Taltac2 attraverso M.A.D.I.T. •Trattamento automatico •Lessicale Unità di testo = PAROLE •Testuale Unità di contesto = frammenti/documenti •Contenuto Ricerca di parole chiave,misure di specificità •Corpus Struttura del testo, DNA del testo
  • 2. T.A. L .T.A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Analisi lessicale: 1. Misure lessico-metriche 2. Analisi dei segmenti ripetuti 3. Tagging (grammaticale e semantico) 4. Confronti lessicali 5. Analisi delle specificità 6. Linguaggio peculiare (parole rilevanti, TFIDF)
  • 3. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Analisi testuale: 1. Analisi delle concordanze 2. Estrazione informazioni con query
  • 4. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Quale tipologia di testo analizza lo strumento? Risposte a DOMANDE APERTE/TESTI INTERI: • Testi da blog • Testi di focus group • Articoli di giornale • Opere di un autore VARIABILI CATEGORIALI
  • 5. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Da cosa è composto IL CORPUS? = INSIEME DI FRAMMENTI Insieme di risposte a domanda aperta 1 frammento = 1 risposta o Intero libro/manuale 1 frammento = 1 capitolo
  • 6. T.A.L. T .A.C. 2 1 Corpus = più frammenti Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car sezione sezione sezione Es. corpus = raccolta di articoli = abstract, testo articolo, titolo, rif. bibliografico
  • 7. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Come costruire il corpus affinché Taltac2 lo legga? LE REGOLE DELLA SINTASSI ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione) ****ARTICOLO1*TESTATA=repubblica*MESE=gennaio ++++ occhiello Sjdfsjfoijwfpw sjodjsaodjapid aidhosjdoiljdap osjdosdjopsa sojdojdo ++++ titolo ksjhlihdL AJHsaj AsjlkJSò ++++ testo
  • 8. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car LE REGOLE DELLA SINTASSI ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione) ****ARTICOLO1*TESTATA=repubblica*MESE=gennaio *NOMEVAR=NOME MODALITA’ Indica che inizia una variabile No segni di interpunzione né spazi RIGHE DI IDENTIFICAZIONE FRAMMENTO Qualsiasi carattere ma non *
  • 9. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car 1. Se un frammento non presenta 1 modalità? *NOMEVAR=nullo ****ARTICOLO1*TESTATA=repubblica*MESE=nullo 2. Quante variabili sono ammesse? Al massimo 99 1 o più frammenti non contenga 1 o più sezioni 3. Lo strumento ammette che: Tutti i frammenti non abbiano VAR associate Tutti i frammenti non presentino sezioni
  • 10. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car In quale formato redarre il corpus? Scrivere il testo in Word, salvarne una versione = .doc In quale formato salvare il corpus? Salvare il testo in testo delimitato da tabulazione = .txt Dove salvare i documenti?
  • 11. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car In quali ambienti vengono salvati i file prodotti dallo strumento? CARTELLA DI LAVORO = CARTELLA DI SESSIONE File di risultato file di testo .txt Primo step: Inserimento corpus in Taltac e costruzione del vocabolario
  • 12. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Prima esercitazione: costruzione del corpus oggetto dell’analisi Obiettivo: costruire il file di testo rispetto alle seguenti indicazioni Il file di testo è composto da: 3 FRAMMENTI DI 2 VARIABILI SUDDIVISI IN 2 SEZIONI LA DOMANDA: Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui NON è stato pienamente soddisfatto? Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui è stato pienamente soddisfatto? I RISPONDENTI: PSICOLOGI NEO LAUREATI VARIABILI: data = mese di dicembre (I,II,III,IV settimana) luogo = it. Centro, sud, nord, e estero SEZIONE: dom 1 e dom 2
  • 13. T.A. L.T .A. C . 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Lessico, testuale, del contenuto e del corpus LESSICO: il significato del termine è stabilito dai parlanti, è negoziato nell’interazione (il significato è quello del dizionario). CONCETTO: si stabilisce che il significato del termine ha una modalità d’uso entro un particolare campo di applicazione in cui il termine vale per tutti allo stesso modo. COSTRUTTO: il significato del termine è stabilito all’interno di una determinata teoria in uno specifico testo. Come usare lo strumento secondo riferimenti scientifici?
  • 14. L’INDICE IS DI MORRONE, l’incidenza delle occorrenze del segmento rispetto alle occorrenze delle forme semplici che lo compongono” (Bolasco, 1999). La formula per il calcolo dell’indice di Morrone è la seguente: L fsegm IS = [ ∑ ---------- ] * P i=1 ffgi “per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente), moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene presenti nel segmento. Tale indice è sempre positivo, si annulla quando il segmento è composto solo da parole vuote, ed ha il suo massimo valore uguale a L2.” ( Bolasco, 1999). L’INDICE IS RELATIVO, ottenuto rapportando l’indice al suo massimo valore ottenuto, collocandosi su un continuum di valori che va da 0 a 1. Laddove per “parole piene” si intende “parole chiave per l’analisi in corso”, mentre per “parole vuote” si intende “parole che non esprimono aspetti rilevanti rispetto all’analisi o parole strumentali alla costruzione sintatticamente corretta delle proposizioni” (Tuzzi, 2003).[
  • 15. Pretrattamento: • • • • normalizzazione eliminazione forme/taglio di soglia correzione errori ortografici e grammaticali disambiguazione: es famiglia, es. analisi dei segmenti, es. utilizzo delle maiuscole (attenzione conflitto con normalizzazione), analisi dei segmenti • categorizzazione