You are on page 1of 42

TEORIA DEL LESSICO

A.A. 2015/2016 INTRODUZIONE AGLI STRUMENTI


COMPUTAZIONALI PER LO STUDIO DEL LESSICO
Francesca Masini
http://www.unibo.it/docenti/francesca.masini

14/10/15

Masini - Teoria del lessico - Lezione 9

LEZIONE 9
LINGUISTICA COMPUTAZIONALE
E STUDIO DEL LESSICO
Francesca Masini
http://www.unibo.it/docenti/francesca.masini

14/10/15

Masini - Teoria del lessico - Lezione 9

I prossimi passi
Introduzione light alla linguistica computazionale
Presentazione di alcuni strumenti computazionali utili per lo

studio del lessico ( lexical computing)


Introduzione ai corpora
Cos un corpus?
Tipi di corpora
Alcuni esempi di corpora

Cos un sistema di interrogazione (Corpus Query System)?


Cos unespressione regolare?
Approfondimento sullo SketchEngine
itWac e gli altri web corpora
Tutorial ed esercitazione in laboratorio
Altri corpora dellitaliano (se abbiamo tempo!)
Repubblica, CORIS/CODIS, Pais

14/10/15

Masini - Teoria del lessico - Lezione 9

Cos la linguistica computazionale


La linguistica computazionale si occupa dellanalisi e

dellelaborazione del linguaggio naturale per mezzo del computer


Analisi e sfruttamento di dati linguistici con mezzi informatici
Sviluppo di programmi in grado di gestire dati linguistici
Simulazione del linguaggio umano (Artificial Intelligence)

Noi ci focalizzeremo sul primo punto, e in particolare sul lexical

computing, ovvero quellinsieme di strumenti e metodi che


mirano a studiare i fenomeni lessicali
Sfruttare tali dati per costruire risorse lessicali digitali
Cfr. anche la lessicografia computazionale

Strumenti principali
Corpora
Corpus Query Systems (sistemi di interrogazione)

14/10/15

Masini - Teoria del lessico - Lezione 9

Che cos un corpus?


David Crystal (1991), A dictionary of linguistics and phonetics
A collection of linguistic data, either written texts or a transcription

of recorded speech, which can be used as a starting-point of


linguistic description or as a means of verifying hypotheses about
a language
I corpora quindi sono raccolte di testi che possono diventare
strumenti utili nello studio di una lingua
Raccolta di testi digitalizzati!
John Sinclair (1991), Corpus, Concordance, Collocation
A collection of naturally occurring language texts, chosen to
characterize a state or variety of a language
Questa seconda definizione suggerisce che un corpus possa/
debba essere rappresentativo di una data variet di lingua,
sebbene questo punto sia molto controverso ( dimensione)

14/10/15

Masini - Teoria del lessico - Lezione 9

Tipi di corpora
Per tipo di testi
Su base diamesica

Scritto vs. parlato


Su base diafasica (di sottocodice)

Generico vs. linguaggio settoriale

Esempi
Corpus di italiano scritto
Corpus La Stampa 1992-2001
Una lettrice ci scrive: Leggo del forte calo di presenze turistiche nella zona di
Gressoney nel mese di luglio. La bellezza dei luoghi, le numerose possibilita' di svago
offerte meritano certamente una sosta e, perche' no, una vacanza lunga. Non
altrettanto meritano la sufficienza e la ''ruvidezza'' con cui si viene trattati da alcuni
negozianti, che paiono infastiditi dai turisti estivi. Forse preferiscono quelli dei mesi
invernali, perche' non si dimostrano a mio giudizio troppo disponibili ne spendono
quasi mai un sorriso in piu. Sono certa che questa mia impressione, condivisa gli
amici con i quali ho trascorso il fine settimana, non puo' essere estesa a tutta la valle,
ma di sicuro non e' esagerata. Un po' di cordialita' in piu' forse non risolvera' la crisi,
ma fara tornare con maggior convinzione i turisti, anche d'estate.

14/10/15

Masini - Teoria del lessico - Lezione 9

Tipi di corpora
Un altro esempio di corpus scritto
Incipit di Pinocchio di Carlo Collodi (estratto)

Cera una volta...


Un re! diranno subito i miei piccoli lettori.
No, ragazzi, avete sbagliato. Cera una volta un pezzo di legno.
Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che dinverno si mettono nelle
stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze.
Non so come andasse, ma il fatto gli che un bel giorno questo pezzo di legno capit nella bottega di
un vecchio falegname, il quale aveva nome mastrAntonio, se non che tutti lo chiamavano maestro
Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia
matura.
Appena maestro Ciliegia ebbe visto quel pezzo di legno, si rallegr tutto e dandosi una fregatina di mani
per la contentezza, borbott a mezza voce:
Questo legno capitato a tempo: voglio servirmene per fare una gamba di tavolino.
Detto fatto, prese subito lascia arrotata per cominciare a levargli la scorza e a digrossarlo, ma quando
fu l per lasciare andare la prima asciata, rimase col braccio sospeso in aria, perch sent una vocina
sottile, che disse raccomandandosi:
Non mi picchiar tanto forte!

14/10/15

Masini - Teoria del lessico - Lezione 9

Tipi di corpora

A: perche' io difatti non trovavo


B: signora questa e' dell'uno dicembre
A: perche' non trovavo questa cosetta gialla appunto non
B: ma aveva gia' ritirato una raccomandata lei perche' questo
e' un secondo avviso

Corpus di italiano parlato


Corpus LIP
Testo RA3

R sta per Roma


Parlante A
Registrazione n. 3
Caratteristiche

A: questo io e' un secondo avviso perche' m'avevano rotto la

Forma dialogica

Pause, sovrapposizioni,

esitazioni, ecc.
Conversation Analysis

Informazione

extralinguistica
[CONFUSIONE]

posta
io il documento ce l'ho
C: grazie mi dice per cortesia me la pesa per sapere quanti_ soldi
devo mettere di francobollo?
B: mille e cinque
C: me le da' lei per cortesia grazie? poi l'imbuco fuori ahah
c'entrera' nella buca?
D: scusi? un foglio per la raccomandata andata e ritorno
A: il cartoncino dell'Unicef?
B: signora e' tornato al mittente il ventinove dicembre
A: senta com'e' il cartoncino dell
B:
eh?
A: il cartoncino dell'Unicef
B: vuole una cartolina dell'Unicef? no signora non ne abbiamo
[CONFUSIONE]
B: una firma qui
F: un foglio per una raccomandata ahah stanno li
G: eccola li' signora sotto l' <?>
F: ahah si' si
G: va be' oh
F: grazie
G: prego

14/10/15

Masini - Teoria del lessico - Lezione 9

Tipi di corpora
Per tipo di codifica
Non annotato (testo bruto)
I due testi che abbiamo visto poco fa
Google

Annotato
Lemmatizzato

Ogni occorrenza nel corpus ricondotta a lemma


Il lemma fa quindi parte dellinformazione associata a ogni singola occorrenza

bello / belli / bella / belle lemma BELLO


Etichettato (taggato) per parte del discorso (POS da parts-of-speech)
Ogni occorrenza nel corpus ricondotta a una parte del discorso
bello / belli / bella / belle ADJ
Visualizzazione con annotazione
belle/ADJ/bello

14/10/15

Masini - Teoria del lessico - Lezione 9

10

Come si possono sfruttare i corpora?


Quali informazioni possiamo estrarre da un corpus e in

che modo possiamo estrarle?


Quali informazioni
Liste di frequenza
Concordanze
Collocati
E molto altro ancora

Come estrarle
Programmi di interrogazione (Corpus Query Systems), che si
basano a loro volta su un preciso linguaggio di interrogazione
(Corpus Query Language)
Software autonomi, esterni rispetto al corpus
Software incorporati nel corpus stesso

14/10/15

11

Masini - Teoria del lessico - Lezione 9

Liste di frequenza
Lista di frequenza di tutte le parole (occorrenze, forme) in un corpus

20094

3657

2213

ah

1475 c'e'

13414

che

3527

io

2185

poi

1453 gli

11391

di

3525

si

2142

mi

1319 noi

10572

3484

perche'

1986

allora

1281 mh

10155

3233

questo

1980

della

1260 dei

8496

e'

3079

1980

ha

1258 incomprensibile

8179

non

2953

le

1876

piu'

1257 me

7903

la

2817

sono

1757

ho

1240 ecco

7613

eh

2734

se

1745

questa

1209 quello

7067

il

2648

anche

1651

cosa

1178 ahah

6666

un

2619

lo

1607

bene

1165 xyz

5421

in

2599

ci

1593

1154 f

5000

per

2517

come

1588

cioe'

1141 fatto

4346

si'

2433

da

1502

quindi

1135 delle

3911

una

2385

con

1496

1101 fare

3879

no

2385

del

1496

pero'

1101 ti

3745

ma

2232

va

1491

al

...

14/10/15

Masini - Teoria del lessico - Lezione 9

12

Le leggi di Zipf
Chi era Zipf?
George Kingsley Zipf
Padre della linguistica statistica
1949 Human Behaviour and the Principle of Least-Effort

Legge di Zipf sulla frequenza


In un testo ci sono sempre poche parole (type) molto frequenti e molte parole

poco frequenti, ovvero frequenza e rango sono inversamente proporzionali


type = una data forma
token = occorrenza singola di quella forma in un testo
frequenza = numero di occorrenze (token) di un type in dato testo
rango = posto che una forma occupa nelle liste di frequenza
rango 1 = vocabolo di frequenza massima

Legge di Zipf sui significati


Le parole pi frequenti sono semanticamente pi generiche

14/10/15

Masini - Teoria del lessico - Lezione 9

13

Liste di frequenza
Lista dei nomi (lemmi) in un corpus ordinati per frequenza
articolo

85,081

vita

28,039

scuola

22,745

anno

79,090

persona

27,803

governo

22,667

numero

78,791

punto

27,266

gruppo

22,164

lavoro

53,905

diritto

26,932

uomo

21,945

parte

51,569

mondo

26,791

regione

21,203

legge

46,763

paese

26,007

informazione

20,589

servizio

41,214

sistema

25,883

base

20,287

tempo

40,549

ora

24,742

fatto

19,291

caso

38,245

cosa

24,515

storia

19,140

giorno

36,583

progetto

23,885

pagina

19,086

comma

35,594

consiglio

23,548

centro

18,922

stato

33,114

decreto

23,525

intervento

18,671

presidente 32,148

senso

23,376

ministro

18,667

attivit

31,950

commissione 23,087

livello

18,628

volta

30,606

corso

23,022

programma

18,218

modo

29,459

ricerca

23,015

termine

18,097

fine

29,238

problema

22,781

14/10/15

Masini - Teoria del lessico - Lezione 9

14

Liste di frequenza
Liste di strutture / pattern (e.g. ADJ ADJ NOUN) ordinate per frequenza
1152
1114
323
176
164
163
153
122
113
92
85
72
71
70
67
62
62
61
60
59
55
54
52

ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ

ultimi
ex
nuovo
gran
attuale
stesso
ex
ex
prossimi
medio
prossimo
unica
buon
stesso
nuova
ultimo
primo
ex
prossimo
ex
italiana
primo
assoluta

ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ
ADJ

vent'
NOUN
primo
NOUN
primo
NOUN
lunga
NOUN
primo
NOUN
primo
NOUN
Sant'
NOUN
pubblico
NOUN
vent'
NOUN
lungo
NOUN
primo
NOUN
vera
NOUN
primo
NOUN
pubblico
NOUN
joint
NOUN
disperato
NOUN
grande
NOUN
parlamentare NOUN
primo
NOUN
Gran
NOUN
editori
NOUN
gran
NOUN
buona
NOUN

anno
ministro
ministro
superiora|superiore
ministro
ministro
uffizio
ministero
anno
termine
gennaio
novit
tempo
ministero
ventura|venture
tentativo
successo
dc
luglio
maestro
giornale
premio
fede

14/10/15

Masini - Teoria del lessico - Lezione 9

15

Concordanze
Strumento per estrarre dai corpora delle parole insieme ai loro

cotesti allo scopo di osservare i diversi usi (semantici e


sintattici) di una parola e la sua distribuzione
Rappresentazione KWIC = Key Word In Context
Nodo / parola chiave (keyword / search word)
si trova al centro della rappresentazione
pu essere una forma, un lemma o (in alcuni programmi) anche

una stringa di pi parole


Contesto di occorrenza (span)
pu essere pi o meno ampio
pu essere ordinato alfabeticamente, sia a destra sia a sinistra

14/10/15

KWIC

Masini - Teoria del lessico - Lezione 9

16

14/10/15

Random

Ordinato
a sinistra

Masini - Teoria del lessico - Lezione 9

17

14/10/15

Masini - Teoria del lessico - Lezione 9

18

Corpora e programmi di interrogazione


Corpora senza programma di interrogazione incorporato
LIP (Corpus di italiano parlato) Solo trascrizione
Qualsiasi raccolta di testi digitalizzati
Programmi di interrogazione su cui possibile caricare

dei testi e analizzarli


MonoConc
Wordsmith
AntConc

14/10/15

Masini - Teoria del lessico - Lezione 9

19

Corpora e programmi di interrogazione


Corpora con un programma di interrogazione incorporato
Su cd-rom
LIZ (Letteratura Italiana Zanichelli)
Online
Italiano
LIP (Corpus di italiano parlato) Versione online (BADIP)
la Repubblica
Corpus di italiano scritto (CORIS)
Inglese
British National Corpus (BNC) Versione di Mark Davies
Corpus of Contemporary American English (COCA)
Programmi con corpora gi incorporati
SketchEngine

19/10/15

Masini - Teoria del lessico - Lezione 10

LEZIONE 10
SKETCHENGINE: TUTORIAL
Francesca Masini
http://www.unibo.it/docenti/francesca.masini

20

19/10/15

Masini - Teoria del lessico - Lezione 10

21

SketchEngine
Programma di concordanze che permette di analizzare il

comportamento di una parola nel suo contesto


Raccolta di corpora (attualmente oltre 300) di numerose lingue
(attualmente 69, pi varianti diatopiche), solitamente lemmatizzati e
taggati per parti del discorso (molto spesso si tratta di corpus estratti
dal web)
Afrikaans, Albanian, Arabic, Azerbaijani, Bengali, Bosnian, Bulgarian, Catalan,

Chinese, Croatian, Czech, Danish, Dutch, English (American, British), Estonian,


Filipino, Finnish, French, German, Greek, Gujarati, Hebrew, Hindi, Hungarian,
Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Kazakh, Korean, Kyrgyz, Latin,
Latvian, Lithuanian, Macedonian, Malay, Malayalam, Maltese, Maori, Nepali,
Norwegian, Persian, Polish, Portuguese (Brazilian, European), Romanian, Russian,
Samoan, Scottish Gaelic, Serbian, Setswana, Slovak, Slovenian, Spanish
(American, European), Swahili, Swedish, Tamil, Tatar, Telugu, Thai, Turkish,
Turkmen, Ukrainian, Urdu, Uzbek, Vietnamese, Welsh, Yoruba

La funzione Word Sketch (un condensato di informazioni sul

comportamento grammaticale e collocazionale di una parola)

19/10/15

Masini - Teoria del lessico - Lezione 10

22

In pratica...
Sito web dello SketchEngine
http://the.sketchengine.co.uk/
necessario registrarsi: https://the.sketchengine.co.uk/register/
Acquistando una licenza
Creando un account di prova che dura 30 giorni (30-days trial account)

Dopo la registrazione necessario scegliere un corpus


Per il laboratorio prendiamo un corpus di italiano: itWac
itWac (1,909,535,703 tokens 1,591,491,087 parole)
ItTenTen (3,076,908,415 tokens 2,588,873,046 parole)

Cominciamo dalle concordanze (concordance)

19/10/15

Masini - Teoria del lessico - Lezione 10

23

Campo Query
Query Types
Simple, Lemma, Phrase, Word (Form), Character, CQL
Simple
mangiare (forma di citazione): estrae tutte le forme
mangi (forma): estrae solo la forma richiesta
mangiare la torta (stringa con elementi nella loro forma di

citazione): estrae tutte le forme

Lemma
andare: estrae tutte le forme
In pi da qui possibile specificare la POS (part-of-speech)
Per esempio ottenere tutte le forme del lemma sapere in quanto

nome (e NON verbo)

19/10/15

Masini - Teoria del lessico - Lezione 10

24

Campo Query
Phrase
mangia la torta: estrae solo la forma richiesta
mangiare la torta: estrae solo la forma richiesta (anche
se nella forma di citazione)
Word (Form)
andai: solo parole singole (se vogliamo cercare una
stringa andiamo su phrase)
Posso cercare una forma e attribuirle una POS, e.g.:
studio nei casi in cui verbo (e NON nome)
Rossi vs. rossi (Match case)
Character
k: estra tutte le parole che contengono una k

19/10/15

Masini - Teoria del lessico - Lezione 10

25

CQL (Corpus Query Language)


Si basa sulle espressioni regolari (ER), ovvero:
una notazione algebrica che permette di definire in

maniera formale e rigorosa pattern di stringhe


Da: Lenci, Montemagni & Pirrelli (2005: 111)

Le ER si basano su una sintassi, che costituita

da un numero finito di elementi (attributi e valori) e da


una serie di regole che li combinano tra loro

19/10/15

Masini - Teoria del lessico - Lezione 10

26

CQL (Corpus Query Language)


Gli attributi che possiamo usare per costruire le ER

allinterno dello SketchEngine sono:


word (forma): mangi
lemma: mangiare
tag (=POS, parte del discorso): NOUN

Il Tagset, ovvero la lista di tutte le abbreviazioni usate

per le parti del discorso, disponibile in un link a destra


http://sslmit.unibo.it/~baroni/collocazioni/itwac.tagset.txt

lempos (lemma+POS): mangiare-v

-v (verbo), -n (nome), -j (aggettivo), -r (avverbio), -i

(preposizione), -x (articolo e preposizione articolata), -p


(pronome), -c (congiunzione)

19/10/15

Masini - Teoria del lessico - Lezione 10

27

CQL (Corpus Query Language)


Nelle ER ogni elemento racchiuso tra parentesi

quadre [ ] e contiene
il tipo di attributo (e.g. word)
il segno di uguale (=)
il valore dellattributo racchiuso tra virgolette doppie

(e.g. spensierato)
[word=spensierato]
Se vogliamo trovare tutte le forme flesse del

lemma spensierato, useremo lattributo lemma


[lemma=spensierato]

19/10/15

Masini - Teoria del lessico - Lezione 10

28

CQL (Corpus Query Language)


Se vogliamo trovare tutti i nomi che precedono

l'aggettivo promettente digiteremo:


[tag="NOUN"] [lemma="promettente]

possibile usare anche caratteri jolly e altri

operatori

Per esempio, la stringa .* (punto asterisco) sta per

qualsiasi sequenza di caratteri (da 0 a infinito)

Trovare tutte le parole che finiscono per -bilissimo


[word=".*bilissimo"]
Trovare tutte le parole che cominciano per

pseudo-

[word="pseudo.*"]

19/10/15

Masini - Teoria del lessico - Lezione 10

29

CQL (Corpus Query Language)


Trovare tutte le sequenze di buttare via interrotte da 1 o 2

parole:
[lemma="buttare"] [] {1,2} [word="via"]

Trovare tutte le sequenze di buttare seguito da via o da gi:


[lemma="buttare"] ([word="via"]|[word="gi"])
Trovare tutti i nomi che si combinano con l'aggettivo

promettente
([tag="NOUN"] [lemma="promettente"]) | ([lemma="promettente"]

[tag="NOUN"])

[] = qualsiasi parola
{X,Y} = quantit compresa tra X e Y
| = oppure

19/10/15

Masini - Teoria del lessico - Lezione 10

30

CQL (Corpus Query Language)


Trovare tutte le parole che finiscono con -bile che siano

etichettate come aggettivi:


[word=".*bile" & tag="ADJ"]
& = and

Trovare tutte le parole che finiscono con -bile e che siano

diverse da automobile:
[word=".*bile" & !lemma="automobile"]
[word=".*bile" & !lemma="automobile|stabile|mobile|nobile"]
! = not

Un altro esempio: trovare tutte le parole che cominciano

con pseudo-, escludendo pseudo da solo:


[word="pseudo.*" & !word="pseudo"]

19/10/15

Masini - Teoria del lessico - Lezione 10

31

Campo Context
Query (Lemma) = tirare (POS=verb)
Lemma filter Right context: mulino
finestra 5 323 risultati
finestra 15 370 risultati

Query (Lemma) = piovere (POS=verb)


Lemma filter Left context: essere
Left context = essere (finestra 3) 1933 risultati
Left context = avere (finestra 3) 1140 risultati

POS filter Right context (finestra 1): NOUN


1621 risultati

piovere benedizioni, piovono pietre, piovvero cappelli, piovere ricorsi,

Query (Simple) = dare scampo 215 risultati


Lemma filter Left context: non (finestra 3), modalit none

solo 15 risultati

19/10/15

Masini - Teoria del lessico - Lezione 10

32

Manipolare la concordanza
Cerchiamo il lemma prendere come verbo
Sort: permette di ordinare i risultati in ordine

alfabetico o inverso
Simple sort
Left context
Node (e.g. per ordinare le forme del lemma andare)
Right context

Multilevel sort
Second level: 1R (Word)
Third level: 2R (Word)

19/10/15

Masini - Teoria del lessico - Lezione 10

33

Manipolare la concordanza
Sample
Crea un sottoinsieme casuale di risultati, molto utile nel
caso di item con altissima frequenza
prendere: 864.768 risultati!

Filter
Permette di affinare ulteriormente la ricerca
Filter: positive
Selected token: first
Search span: from -5 to 5 (5 parole a sinistra e cinque parole a destra)
Query: Lemma = esempio; POS = noun
Risultati: 8707

19/10/15

Masini - Teoria del lessico - Lezione 10

34

Manipolare la concordanza
Frequency
Frequency limit(permette di fissare una soglia minima di
frequenza)
Creare liste di frequenza
Livelli
andare Node (word): prendere, preso, prende, presa, prese,
presi, prendono, prendendo, prendo, prendi, prender,
prendiamo, prenda, prendeva, prendersi, ...
Selezionare P per vedere tutte le occorrenze
andare 1R (word): in, il, la, atto, un, a le, parte, una, per,
andare 1R 2R (word): in considerazione, in esame, atto che, in
giro, il nome, il via, ...
andare 1R 2R 3R (word): il nome di, in considerazione {.|la|le|,},
atto che l, il posto di,

19/10/15

Masini - Teoria del lessico - Lezione 10

35

Manipolare la concordanza
Collocations
Scegliere
Attribute: scegliere lemma
Range: lasciare from -5 to 5
Il metodo di estrazione delle collocazioni
Lasciare Sort by: logDice

Collocati per prendere


considerazione, atto, decisione, giro, mano, parte, esame,

avere, posizione,

19/10/15

Masini - Teoria del lessico - Lezione 10

36

Altre funzioni
Funzione Thesaurus
Aiuta a trovare parole simili
abitazione

edificio 0.459 237633; appartamento 0.454 98325; alloggio 0.411

79262; casa 0.374 1401759; immobile 0.369 86039; residenza


0.36 98927; villa 0.351 76446; albergo 0.346 105641; palazzo
0.345 183393; locale 0.324 142854; stanza 0.315 157744;
giardino 0.311 135945; villaggio 0.307 111667; negozio 0.307
157802;
viaggiare
percorrere 0.267 65,314; camminare 0.259 57,572; girare 0.255
141,040; correre 0.254 181,866; muovere 0.253 176,551; volare
0.235 55,863; spostare 0.232 89,893; navigare 0.228 29,303;
incontrare 0.226 205,737; trasportare 0.226 46,233;

19/10/15

Masini - Teoria del lessico - Lezione 10

Word Sketches
Condensato di informazioni sul comportamento

grammaticale e collocazionale di una parola


Cosa cattura
Nomi: ufficio, maestra, ufficio, citt, ...
Verbi: andare, mangiare, prendere, ...
Aggettivi: rosso, brutto, metodico, ...
Avverbi: ancora, velocemente, ...

Cosa non cattura


Parole poco frequenti (sineddoche, deindustrializzare, ecc.)

37

19/10/15

Masini - Teoria del lessico - Lezione 10

Word Sketches
Relazioni grammaticali
N_modifier: N che modificano il nostro N
ufficio stampa
postN_V: V che hanno per soggetto N
maestra sgridare
preN_V: V che hanno per oggetto N
fortificare citt
preADV_V: V che sono seguiti da ADV
scorrere velocemente
e_o: X che compare in coordinazione con Y
sporco brutto

38

19/10/15

Masini - Teoria del lessico - Lezione 10

39

Sketch-Diff
Word Sketch Differences
Prende in entrata due parole, per ciascuna crea uno

Word Sketch e poi li mette a confronto


Aiuta a differenziare i quasi-sinonimi
casa vs. abitazione
prendere vs. assumere

Facciamo un po di pratica!

20-21,26-27/10/15

Masini - Teoria del lessico - Lezioni 11-14

LEZIONI 11-14
SKETCHENGINE: ESERCIZI
Francesca Masini
http://www.unibo.it/docenti/francesca.masini

40

20-21,26-27/10/15

Masini - Teoria del lessico - Lezioni 11-14

41

Esercizi
1.
2.
3.
4.

5.

6.

Cercate tutte le forme flesse del verbo cadere e ordinatele per


frequenza.
Cercate tutte le occorrenze di potere come verbo.
Cercate tutti i nomi che sono modificati dallaggettivo basso.
Cercate il lemma mangiare, create un campione di 1000 risultati con
la funzione Sample e:
ordinate i risultati per la 1a posizione a destra e la 2a posizione a
destra (in questo ordine)
create la corrispondente lista di frequenza
Fare lo Word Sketch di un nome (carta), un verbo (correre), un
aggettivo (bianco) e un avverbio (avanti). Analizzare brevemente i
risultati.
Scegliete due quasi-sinonimi (stupido-cretino, uccidere-massacrare,
ecc.) e cercate di coglierne le differenze usando lo strumento Sketch
Difference.

20-21,26-27/10/15

Masini - Teoria del lessico - Lezioni 11-14

42

Esercizi
Formulate la seguente query in CQL:
cercare una sequenza formata da un verbo seguito dallavverbio
via;
cercare una sequenza formata da un nome, la preposizione da e
un altro nome;
cercare sequenze formate o dal verbo fare o dal verbo dare
seguito da un articolo e da un nome suffissato in -ata.
8. Immaginate di dover compilare lentrata di un lemma per un
dizionario combinatorio (destinato ad apprendenti avanzati
dellitaliano come L2). Raccogliete i dati per compilare lentrata
sfruttando le conoscenze che ora avete dello SketchEngine
7.

Un dizionario di questo tipo dovr presentare il maggior numero possibile di


informazioni sulluso effettivo della parola nei vari contesti, sulle relazioni
sintagmatiche che essa intrattiene con le altre parole, ecc.
4 lemmi per 4 gruppi: anno, basso, famiglia, uscire

You might also like