Professional Documents
Culture Documents
14/10/15
LEZIONE 9
LINGUISTICA COMPUTAZIONALE
E STUDIO DEL LESSICO
Francesca Masini
http://www.unibo.it/docenti/francesca.masini
14/10/15
I prossimi passi
Introduzione light alla linguistica computazionale
Presentazione di alcuni strumenti computazionali utili per lo
14/10/15
Strumenti principali
Corpora
Corpus Query Systems (sistemi di interrogazione)
14/10/15
14/10/15
Tipi di corpora
Per tipo di testi
Su base diamesica
Esempi
Corpus di italiano scritto
Corpus La Stampa 1992-2001
Una lettrice ci scrive: Leggo del forte calo di presenze turistiche nella zona di
Gressoney nel mese di luglio. La bellezza dei luoghi, le numerose possibilita' di svago
offerte meritano certamente una sosta e, perche' no, una vacanza lunga. Non
altrettanto meritano la sufficienza e la ''ruvidezza'' con cui si viene trattati da alcuni
negozianti, che paiono infastiditi dai turisti estivi. Forse preferiscono quelli dei mesi
invernali, perche' non si dimostrano a mio giudizio troppo disponibili ne spendono
quasi mai un sorriso in piu. Sono certa che questa mia impressione, condivisa gli
amici con i quali ho trascorso il fine settimana, non puo' essere estesa a tutta la valle,
ma di sicuro non e' esagerata. Un po' di cordialita' in piu' forse non risolvera' la crisi,
ma fara tornare con maggior convinzione i turisti, anche d'estate.
14/10/15
Tipi di corpora
Un altro esempio di corpus scritto
Incipit di Pinocchio di Carlo Collodi (estratto)
14/10/15
Tipi di corpora
Forma dialogica
Pause, sovrapposizioni,
esitazioni, ecc.
Conversation Analysis
Informazione
extralinguistica
[CONFUSIONE]
posta
io il documento ce l'ho
C: grazie mi dice per cortesia me la pesa per sapere quanti_ soldi
devo mettere di francobollo?
B: mille e cinque
C: me le da' lei per cortesia grazie? poi l'imbuco fuori ahah
c'entrera' nella buca?
D: scusi? un foglio per la raccomandata andata e ritorno
A: il cartoncino dell'Unicef?
B: signora e' tornato al mittente il ventinove dicembre
A: senta com'e' il cartoncino dell
B:
eh?
A: il cartoncino dell'Unicef
B: vuole una cartolina dell'Unicef? no signora non ne abbiamo
[CONFUSIONE]
B: una firma qui
F: un foglio per una raccomandata ahah stanno li
G: eccola li' signora sotto l' <?>
F: ahah si' si
G: va be' oh
F: grazie
G: prego
14/10/15
Tipi di corpora
Per tipo di codifica
Non annotato (testo bruto)
I due testi che abbiamo visto poco fa
Google
Annotato
Lemmatizzato
14/10/15
10
Come estrarle
Programmi di interrogazione (Corpus Query Systems), che si
basano a loro volta su un preciso linguaggio di interrogazione
(Corpus Query Language)
Software autonomi, esterni rispetto al corpus
Software incorporati nel corpus stesso
14/10/15
11
Liste di frequenza
Lista di frequenza di tutte le parole (occorrenze, forme) in un corpus
20094
3657
2213
ah
1475 c'e'
13414
che
3527
io
2185
poi
1453 gli
11391
di
3525
si
2142
mi
1319 noi
10572
3484
perche'
1986
allora
1281 mh
10155
3233
questo
1980
della
1260 dei
8496
e'
3079
1980
ha
1258 incomprensibile
8179
non
2953
le
1876
piu'
1257 me
7903
la
2817
sono
1757
ho
1240 ecco
7613
eh
2734
se
1745
questa
1209 quello
7067
il
2648
anche
1651
cosa
1178 ahah
6666
un
2619
lo
1607
bene
1165 xyz
5421
in
2599
ci
1593
1154 f
5000
per
2517
come
1588
cioe'
1141 fatto
4346
si'
2433
da
1502
quindi
1135 delle
3911
una
2385
con
1496
1101 fare
3879
no
2385
del
1496
pero'
1101 ti
3745
ma
2232
va
1491
al
...
14/10/15
12
Le leggi di Zipf
Chi era Zipf?
George Kingsley Zipf
Padre della linguistica statistica
1949 Human Behaviour and the Principle of Least-Effort
14/10/15
13
Liste di frequenza
Lista dei nomi (lemmi) in un corpus ordinati per frequenza
articolo
85,081
vita
28,039
scuola
22,745
anno
79,090
persona
27,803
governo
22,667
numero
78,791
punto
27,266
gruppo
22,164
lavoro
53,905
diritto
26,932
uomo
21,945
parte
51,569
mondo
26,791
regione
21,203
legge
46,763
paese
26,007
informazione
20,589
servizio
41,214
sistema
25,883
base
20,287
tempo
40,549
ora
24,742
fatto
19,291
caso
38,245
cosa
24,515
storia
19,140
giorno
36,583
progetto
23,885
pagina
19,086
comma
35,594
consiglio
23,548
centro
18,922
stato
33,114
decreto
23,525
intervento
18,671
presidente 32,148
senso
23,376
ministro
18,667
attivit
31,950
commissione 23,087
livello
18,628
volta
30,606
corso
23,022
programma
18,218
modo
29,459
ricerca
23,015
termine
18,097
fine
29,238
problema
22,781
14/10/15
14
Liste di frequenza
Liste di strutture / pattern (e.g. ADJ ADJ NOUN) ordinate per frequenza
1152
1114
323
176
164
163
153
122
113
92
85
72
71
70
67
62
62
61
60
59
55
54
52
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ultimi
ex
nuovo
gran
attuale
stesso
ex
ex
prossimi
medio
prossimo
unica
buon
stesso
nuova
ultimo
primo
ex
prossimo
ex
italiana
primo
assoluta
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
vent'
NOUN
primo
NOUN
primo
NOUN
lunga
NOUN
primo
NOUN
primo
NOUN
Sant'
NOUN
pubblico
NOUN
vent'
NOUN
lungo
NOUN
primo
NOUN
vera
NOUN
primo
NOUN
pubblico
NOUN
joint
NOUN
disperato
NOUN
grande
NOUN
parlamentare NOUN
primo
NOUN
Gran
NOUN
editori
NOUN
gran
NOUN
buona
NOUN
anno
ministro
ministro
superiora|superiore
ministro
ministro
uffizio
ministero
anno
termine
gennaio
novit
tempo
ministero
ventura|venture
tentativo
successo
dc
luglio
maestro
giornale
premio
fede
14/10/15
15
Concordanze
Strumento per estrarre dai corpora delle parole insieme ai loro
14/10/15
KWIC
16
14/10/15
Random
Ordinato
a sinistra
17
14/10/15
18
14/10/15
19
19/10/15
LEZIONE 10
SKETCHENGINE: TUTORIAL
Francesca Masini
http://www.unibo.it/docenti/francesca.masini
20
19/10/15
21
SketchEngine
Programma di concordanze che permette di analizzare il
19/10/15
22
In pratica...
Sito web dello SketchEngine
http://the.sketchengine.co.uk/
necessario registrarsi: https://the.sketchengine.co.uk/register/
Acquistando una licenza
Creando un account di prova che dura 30 giorni (30-days trial account)
19/10/15
23
Campo Query
Query Types
Simple, Lemma, Phrase, Word (Form), Character, CQL
Simple
mangiare (forma di citazione): estrae tutte le forme
mangi (forma): estrae solo la forma richiesta
mangiare la torta (stringa con elementi nella loro forma di
Lemma
andare: estrae tutte le forme
In pi da qui possibile specificare la POS (part-of-speech)
Per esempio ottenere tutte le forme del lemma sapere in quanto
19/10/15
24
Campo Query
Phrase
mangia la torta: estrae solo la forma richiesta
mangiare la torta: estrae solo la forma richiesta (anche
se nella forma di citazione)
Word (Form)
andai: solo parole singole (se vogliamo cercare una
stringa andiamo su phrase)
Posso cercare una forma e attribuirle una POS, e.g.:
studio nei casi in cui verbo (e NON nome)
Rossi vs. rossi (Match case)
Character
k: estra tutte le parole che contengono una k
19/10/15
25
19/10/15
26
19/10/15
27
quadre [ ] e contiene
il tipo di attributo (e.g. word)
il segno di uguale (=)
il valore dellattributo racchiuso tra virgolette doppie
(e.g. spensierato)
[word=spensierato]
Se vogliamo trovare tutte le forme flesse del
19/10/15
28
operatori
pseudo-
[word="pseudo.*"]
19/10/15
29
parole:
[lemma="buttare"] [] {1,2} [word="via"]
promettente
([tag="NOUN"] [lemma="promettente"]) | ([lemma="promettente"]
[tag="NOUN"])
[] = qualsiasi parola
{X,Y} = quantit compresa tra X e Y
| = oppure
19/10/15
30
diverse da automobile:
[word=".*bile" & !lemma="automobile"]
[word=".*bile" & !lemma="automobile|stabile|mobile|nobile"]
! = not
19/10/15
31
Campo Context
Query (Lemma) = tirare (POS=verb)
Lemma filter Right context: mulino
finestra 5 323 risultati
finestra 15 370 risultati
solo 15 risultati
19/10/15
32
Manipolare la concordanza
Cerchiamo il lemma prendere come verbo
Sort: permette di ordinare i risultati in ordine
alfabetico o inverso
Simple sort
Left context
Node (e.g. per ordinare le forme del lemma andare)
Right context
Multilevel sort
Second level: 1R (Word)
Third level: 2R (Word)
19/10/15
33
Manipolare la concordanza
Sample
Crea un sottoinsieme casuale di risultati, molto utile nel
caso di item con altissima frequenza
prendere: 864.768 risultati!
Filter
Permette di affinare ulteriormente la ricerca
Filter: positive
Selected token: first
Search span: from -5 to 5 (5 parole a sinistra e cinque parole a destra)
Query: Lemma = esempio; POS = noun
Risultati: 8707
19/10/15
34
Manipolare la concordanza
Frequency
Frequency limit(permette di fissare una soglia minima di
frequenza)
Creare liste di frequenza
Livelli
andare Node (word): prendere, preso, prende, presa, prese,
presi, prendono, prendendo, prendo, prendi, prender,
prendiamo, prenda, prendeva, prendersi, ...
Selezionare P per vedere tutte le occorrenze
andare 1R (word): in, il, la, atto, un, a le, parte, una, per,
andare 1R 2R (word): in considerazione, in esame, atto che, in
giro, il nome, il via, ...
andare 1R 2R 3R (word): il nome di, in considerazione {.|la|le|,},
atto che l, il posto di,
19/10/15
35
Manipolare la concordanza
Collocations
Scegliere
Attribute: scegliere lemma
Range: lasciare from -5 to 5
Il metodo di estrazione delle collocazioni
Lasciare Sort by: logDice
avere, posizione,
19/10/15
36
Altre funzioni
Funzione Thesaurus
Aiuta a trovare parole simili
abitazione
19/10/15
Word Sketches
Condensato di informazioni sul comportamento
37
19/10/15
Word Sketches
Relazioni grammaticali
N_modifier: N che modificano il nostro N
ufficio stampa
postN_V: V che hanno per soggetto N
maestra sgridare
preN_V: V che hanno per oggetto N
fortificare citt
preADV_V: V che sono seguiti da ADV
scorrere velocemente
e_o: X che compare in coordinazione con Y
sporco brutto
38
19/10/15
39
Sketch-Diff
Word Sketch Differences
Prende in entrata due parole, per ciascuna crea uno
Facciamo un po di pratica!
20-21,26-27/10/15
LEZIONI 11-14
SKETCHENGINE: ESERCIZI
Francesca Masini
http://www.unibo.it/docenti/francesca.masini
40
20-21,26-27/10/15
41
Esercizi
1.
2.
3.
4.
5.
6.
20-21,26-27/10/15
42
Esercizi
Formulate la seguente query in CQL:
cercare una sequenza formata da un verbo seguito dallavverbio
via;
cercare una sequenza formata da un nome, la preposizione da e
un altro nome;
cercare sequenze formate o dal verbo fare o dal verbo dare
seguito da un articolo e da un nome suffissato in -ata.
8. Immaginate di dover compilare lentrata di un lemma per un
dizionario combinatorio (destinato ad apprendenti avanzati
dellitaliano come L2). Raccogliete i dati per compilare lentrata
sfruttando le conoscenze che ora avete dello SketchEngine
7.