You are on page 1of 62

1

la statistica: a cosa serve?

• ogni studio (in medicina, biologia, .......) è fatto per


rispondere ad un quesito (ipotesi )
occorre quindi
• formalizzare l’ipotesi (di solito riguarda un insieme ampio:
popolazione)
• pianificare l’esperimento:
∗ Quale disegno dello studio? quali informazioni
raccogliere? quali unità sperimentali? quante unità
sperimentali?
∗ come selezionare le unità sperimentali in modo che
esse siano ’’rappresentative’’ del fenomeno che si vuole
analizzare? → definizione del campione
• dopo aver raccolto le informazioni è necessario organizzarle
e sintetizzarle → statistica descrittiva
• quello che è stato osservato è relativo solo al campione ma in
generale si vuole poter estendere i risultati dell’osservazione
sul campione alla popolazione (sconosciuta) → Inferenza
∗ Dal momento che i risultati variano da campione a
campione (a causa della variabilità biologica delle unità
che lo compongono) l’inferenza può essere fatta solo
ricorrendo a modelli probabilistici
2

Esempio:
Use of a postoperative lumbar corset after lumbar spinal arthrodesis for degenerative conditions of the spine. A prospective

randomized trial. 1: J Bone Joint Surg Am. 2008 Oct;90(10):2062-8.

• Background: Lumbosacral corsets and braces have been


used to treat a variety of spinal disorders. Although their
use after lumbar arthrodesis for degenerative conditions has
been reported, there is a lack of evidence on which to base
guidelines on their use.
• Objective: The purpose of this study was to evaluate the
effect of a postoperative corset on the outcome of lumbar
arthrodesis.
• su quali soggetti?
Patients between eighteen and eighty years of age were
eligible for the study if they were scheduled to undergo
a posterior lumbar spinal arthrodesis for back pain due to
degenerative disc disease and/or neurologic symptoms related
to spinal stenosis, spondylolisthesis, and/or degenerative
scoliosis for which two years of nonoperative therapy had
failed.
3

• Quale tipo di studio?


(1) Patients identified as being eligible for the study were first
seen by a nurse study coordinator, the nature of the study was
explained, and informed consent was obtained.
(2) The patients were then randomized to either the
experimental (treatment with a postoperative external lumbar
corset) or the control group with use of sequentially numbered,
opaque, sealed envelopes.
(3) The attending surgeons and patients were blinded to the
randomization group until after the surgery.
• Quali informazioni?
baseline characterisitcs of patients (demographics) and the
disease (diagnosis)
DPQ (Dallas Pain Questionnaire) and SF-36 (Short Form-36
instrument) questionnaires preoperatively and then at one and
two years postoperatively.
Clinical and radiographic assessments were performed by
independent blinded evaluators preoperatively and at one and
two years postoperatively.
4

The Dallas Pain Questionnaire:


a 16-item visual analog tool for evaluating subjects cognitions
about the percentage that chronic pain affects four aspects of the
patients lives: 1) daily activities (personal care, lifting, walking,
sitting, standing, and sleeping); 2) work and leisure activities
(social life, travelling, and vocational) ; 3) anxiety-depression
and 4) social interest ( interpersonal relationship, social support,
and punishing responses)
Each item contains its own visual analog scale divided into five
to eight small segments in which the subject is asked to mark
an X which indicates where his or her pain impact falls on that
continuum.
Scoring of the four general factors is accomplished by assigning
values for each item of 0 to the left-hand segment, 1 to the next
segment, 2 to the next segment, and so on to the last segment.
These individual ratings are summed and multiplied by a
constant for a percentage of pain impact for that general area of
life events.
Items I through VII are summed and multiplied by 3 to obtain
the percentage of pain impact on Daily Activities. Items VIII
through X, XI through XIII, and XIV through XVI are each
summed and multiplied by 5 to determine pain impacts for areas
of Work/Leisure, Anxiety/Depression, and Social Activities,
respectively.
5

1.
6

..........
7

• Quale la risposta al trattamento?


The primary outcome measure was the Dallas Pain
Questionnaire (DPQ). Patients completed the questionnaire
preoperatively and then at one and two years postoperatively
• Quale differenza ritenuta clinicamente rilevante?
20 punti di differenza tra i due bracci di trattamento a 1 e due
anni dopo la chirurgia
• Su quanti soggetti?
Ninety patients were randomized to one of the two treatments.
8

• organizzazione delle osservazioni


• Caratteristiche dei soggetti nello studio
9

Risultati

Cosa si può concludere?


• Dal grafico si nota che dopo 1 anno e due anni le medie di
DPQ score per i soggetti trattati sono iferiori→ migliore
qualità di vita
• la differenza osservata è clinicamente rilevante?
• Si può ritenere il trattamento efficace?
• Si può ritenere che su un altro campione di soggetti con
le stesse caratteristiche cliniche si otterrebbero gli stessi
risutati?
• C’è evidenza per suggerire il trattamento a tutti i soggetti con
le stesse caratteristiche cliniche?
10

C’è evidenza per suggerire il trattamento a tutti i


soggetti con le stesse caratteristiche cliniche?
• Inferenza: applicazione di un modello probabilistico: test
d’ipotesi
• In base a quanto risultato sul campione di 90 soggetti
(studiato ) non si è raggiunto un livello di evidenza tale da
indicare che sulla popolazione (ignota ) di soggetti con con
’’posterior lumbar spinal arthrodesis for back pain due to
degenerative disc disease and/or neurologic symptoms related
to spinal stenosis, spondylolisthesis, and/or degenerative
scoliosis for which two years of nonoperative therapy had
failed ’’ l’utilizzo del corsetto sia vantaggioso
• CONCLUSION: Regardless of the treatment method, the
patients had substantial improvement in the disease-specific
and general health measures by two years postoperatively.
At two years, there was no difference in the DPQ category
scores (the primary outcome parameter) of the two treatment
groups. This study does not indicate a significant advantage
or disadvantage to the use of a postoperative lumbar corset
following spinal arthrodesis for degenerative conditions of
the lumbar spine.
11

Statistica descrittiva

• Ogni studio o esperimento produce una serie di dati. Le sue


dimensioni possono variare da poche misurazioni a molte
migliaia di osservazioni.
• Su ogni individuo si possono rilevare diverse caratteristiche:
sesso, età, gruppo sanguigono,peso, altezza, pressione
diastolica, sistolica, reazioni immunitarie, senzazione del
dolore, qualità della vita, ......
• Come rilevare le caratteristiche?
• alcune sono soggette ad un processo di ’’classificazione’’
(es: sesso, gruppo sanguigno, sintomi della malattia, effetti
collaterali della terapia.....)
∗ ogni caratteristica si attribuisce ad una e una sola
’’categoria’’ (es: maschio, femmina, gruppo A,B,AB,0....)
quindi le categorie devono prevedere tutte le possibilità di
classificazione
• altre sono soggette ad un processo di ’’conteggio’’ es: numero
di articolazioni dolenti o tumefatte.......
• altre necessitano di un ’’processo di misura’’ es: peso, altezza,
dolore misurato sulla scala analogica visiva.....
∗ il processo di misura è eseguito mediante uno strumento
di misura caratterizzato da un grado di precisione
12

il processo di misura è eseguito mediante uno strumento di


misura caratterizzato da un grado di precisione

∗ Grado di precisione appropriato per lo strumento →


dipende dall’utilizzo
∗ si supponga di misurare il peso con una bilancia
∗ il peso di una persona adulta di solito si approssima all’hg
(scala di misura della bilancia)
∗ ad esempio non è rilevante distinguere tra 50.01 e
50.02 Kg → il peso vero (sconosciuto) è compreso
nell’intervallo 50 e 50.1 kg
∗ Il peso degli ingredienti di una ricetta di cucina di solito si
approssima al grammo (scala della bilancia)
∗ Nei laboratori si usano le bilancie di precisione
∗ Analitiche con divisione 0,01 e 0,001 grammi o 0,0001 e
0,00001 grammi
13

Scale di misura

• nominale: dati ottenuti per ’’attributi’’. I valori rientrano in


categorie non ordinate; ad esempio tipo di artriti nell’adulto o
giovanili
• ordinale: dati ottenuti per ’’attributi’’ ma è possibile definire
un ordinamento tra le categorie
∗ Es grado di diffusione della malattia
• per intervalli : l’origine e l’unità di misura sono arbitrari.
∗ Es: temperatura misurata in gradi Celsius o Farenhait il
tempo misurato sui differenti calendari.
∗ Scelta l’unità di misura, è quantificabile la differenza tra
diverse misure.
∗ Es. la differenza tra 10 e 20 gradi e la stessa che tra 20 e 30
gradi
• per rapporti: ha un’origine ’’reale’’: lo ’’0’’ ha il significato
di quantità nulla.
∗ Es: peso, altezza, età, calorie.....
∗ Valori negativi non dovrebbero essere posibili (se non in
casi particolari, per convenzione).
∗ E’ possibile quantificare il rapporto. Es: 40 anni sono il
doppio di 20 anni
• E’ ESSENZIALE INDICARE L’UNITA’ DI MISURA
14

Variabile: ogni caratteristica che si misura sulle unità


sperimentali
classificazione:
• Categoriche: misurate con scala nominale o ordinale
• Numeriche: misurate con scala per intervalli o rapporti
∗ discrete : possono assumere solo determinati valori della
scala di misura
∗ Es: misure derivate da un processo di conteggio (numero
di articolazioni dolenti). Valori possibili 1,2,3,..... ma
non 1.5,2.8 ....
∗ continue : possono assumere tutti i possibili valori della
scala di misura
∗ Es: altezza. Valori possibili 1m, 2m , 1.58m,
1.6543m.....con ogni possibile nunero di cifre decimali
15

Variabili continue e discrete: attenzione alle diffferenze


• Le variabili discrete possono assumere solo determinati
valori nell’unità di misura
• Le variabili continue possono apparire come discrete, a causa
dell’approssimazione introdotta nel processo di misura
quello che si può conoscere è solo un’intervallo entro il quale
si troverà il valore vero
• Esempio: scala analoga visiva per misurare il grado di dolore
al risveglio
∗ Questa scala e una barra di lunghezza 10 cm con le
estremità indicate da due sensazioni opposte
∗ il soggetto pone un segno nel punto più vicino alla sua
’’sensazione’’
∗ la misura del dolore è la distanza dall’inizio della barra fino
al segno posto dal soggetto
2.0
1.5
1.0

Nessun dolore Massimo dolore


0.5
0.0

0 2 4 6 8 10
16

• utilizziamo una griglia come strumento per misurare la


distanza dall’origine
1 2
2.0

2.0
1.5

1.5
1.0

1.0
Nessun dolore Massimo dolore Nessun dolore Massimo dolore
0.5

0.5
0.0

0.0
0 2 4 6 8 10 0 2 4 6 8 10

3 4
2.0

2.0
1.5

1.5
1.0

1.0
Nessun dolore Massimo dolore Nessun dolore Massimo dolore
0.5

0.5
0.0

0.0

0 2 4 6 8 10 0 2 4 6 8 10

1) tra 2 e 3 cm
2) tra 2 e 2.5 cm
3) tra 2.25 e 2.625 cm
4) tra 2.25 e 2.5 cm
Non si conoscerà la distanza esatta
Il grado di precisione aumenta all’aumentare delle linee nella
griglia.
Il grado di precisione desiderato dipende dal problema
17

Una serie completa di dati non fornisce necessariamente


informazioni facilmente interpretabili
La statistica descrittiva ha come obiettivo di organizzare
e sintetizzare le osservazioni
Utilizzando rappresetnazioni grafiche e misure di sintesi
numerica
Entrambe differiscono a seconda del tipo di dati
• rappresentazioni grafiche
Le più comuni (tra quelle appropriate)
scala nominale: diagrammi areolari, istogrammi con barre
distanziate....
scala ordinale: istogrammi con barre distanziate
scala numerica discreta: istogrammi con barre distanziate, box
plot
scala numerica continua: istogrammi con barre contigue, box
plot
• misure di sintesi numerica
indici di tendenza centrale e di dispersione ( )
scala nominale: moda.
scala ordinale: moda, mediana
scala numerica: moda, mediana (range interquartile) media
(dev. standard)
18

Sintesi dei dati su scala nominale


Si supponga di avere N unità sperimentali da classificare
• Si elencano tutte le possibili modalità della variabile
[supponiamo k=1...K]
• Si classifica ognuna delle unità sperimentali in una delle
modalità k
• Si raggruppano i dati utilizzando una tabella: ad ogni
modalità è associato
∗ il numero di volte in cui è osservata la modalità nk
∗ la percentuale pk = (nk /N ) × 100
• Nota bene: valgono le seguenti proprietà
K
∗ k=1 nk = n1 + n2 + ... + nK = N
K
∗ k=1 pk = p1 + p2 + ... + pK = 100
• Inoltre:
∗ le percentuali consentono di confrontare distribuzioni
relative a casistiche di differente numerosità
• Rappresentazione grafica: diagramma a barre o diagramma
areolare
19

Esempio 1: scala nominale:


Use of a Postoperative Lumbar Corset After Lumbar Spinal
Arthrodesis for Degenerative Conditions of the Spine

Confrontiamo graficamente le due distribuzioni con


diagrammi a barre o pie/chart
20

Esempio 1) Rappresentazione grafica : diagramma a barre


treatm ent group contro l group

35

35
30

30
25

25
20

20
15

15
10

10
5

5
0

0
sp deg.sp is.sp Jun.sd ps ia.in cong.st sp deg.sp is.sp Jun.sd ps ia.in cong.st

Nota bene:
• In ordinata è riportata la %, uguale scala per i due gruppi
∗ è consigliabile scegliere come valore massimo per l’asse
un numero di poco superiore al valore massimo di %
• In ascissa sono riportate le modalità di diagnosi
∗ l’ordine in cui sono disposte le barre è arbitrario (ma
uguale nei due grafici)
∗ le barre sono staccate l’una dall’altra
∗ l’ampiezza delle barre è arbitraria
21

Esempio 1) scala nominale: Rappresentazione grafica con


diagrammi circolari (PIE CHART)
• per costruire i diagrammi circolari:
• Campione di n soggetti suddivisi in 1, 2...K categorie con
percentuale p1, p2, ...pK
Il totale di (100)% corrisponde a 360o
ogni percentuale corrisponde ad un angolo di ak =
360 × (pk /100)
Nota bene: in generale non sono consigliati per più di 6
categorie
evento treat area contr area
Spondylosis/stenosis 30% 108.0 34% 122.4
Degenerative spondylolisthesis 35% 126.0 34% 122.4
Isthmic spondylolisthesis 22% 79.2 14% 50.4
Junctional syndrome 3% 10.8 6% 21.6
Pseudarthrosis 5% 18.0 6% 21.6
Iatrogenic/postoperative instability 5% 18.0 3% 10.8
Congenital stenosis 0% 0.0 3% 10.8
Esempio il 30% corrisponde ad un angolo di 360*30/100=108
22

Rappresentazione grafica
treatment group control group

sp
sp

deg.sp
cong.st
deg.sp cong.st
ia.in
ia.in
ps
ps
Jun.sd
Jun.sd
is.sp is.sp

Nota bene:
• Pie charts are a very bad way of displaying information. The
eye is good at judging linear measures and bad at judging
relative areas.
• A bar chart is a preferable way of displaying this type of data.
23

Esempio 2) scala ordinale


Manual Therapy, Physical Therapy, or Continued Care by a
General Practitioner for Patients with Neck Pain
Ann Intern Med. 2002 May 21;136(10):713-22.
• manual therapy: is defined as the use of passive movements
to help restore normal spinal function . Forty-five minute
treatment sessions were scheduled once per week, for a
maximum of six treatments
• physical therapy: Active exercise therapy involves
participation by the patient and includes active exercises (to
improve strength or range of motion), postural exercises,
stretching, relaxation exercises, and functional exercises.
• Continued Care by a General Practitioner : Each patient in
this group received standardized care from his or her general
practitioner,
Cosa è meglio?
• Neck pain is a common problem, but the effectiveness of
frequently applied conservative therapies has never been
directly compared.
• Measurements: Treatment was considered successful if the
patient reported being ’’completely recovered’’ or ’’much
improved’’ Physical dysfunction, pain intensity, and disability
were also measured.
24

Esempio 2) Risultati:
• l’articolo riporta solo la % di successi, suddivisi nelle due
categorie qui solo a scopo di esemplificazione
gruppo no success much improved totally recovered
manual 31.7 40.2 28.2
physical 49.2 25.4 25.4
gen. pract. 64.1 20.6 15.3
25

Esempio 2: scala ordinale - rappresentazione grafica


ma nual physical general pract.

70

70

70
60

60

60
50

50

50
40

40

40
%

%
30

30

30
20

20

20
10

10

10
0

0
n.s m.i. t.r. n.s m.i. t.r. n.s m.i. t.r.

• In ordinata è riportata la %
∗ è consigliabile scegliere come valore massimo per l’asse
un valore di poco superiore alla freq. massima, comune ai
due grafici
• In ascissa sono riportate le modalità di risposta
∗ le barre sono riportate nello stesso ordine ’’naturale’’ delle
modalità
∗ le barre sono staccate l’una dall’altra
∗ l’ampiezza delle barre è arbitraria
26

Esempio 3 : variabile discreta


The English version of hand functional disability scale is
a validated instrument for measuring hand involvement in
patients with systemic sclerosis (SSc).
Reliability and validity of the Italian version of the hand functional disability scale in patients with systemic sclerosis.Clin

;
Rheumatol. 2007 Nov 27

The Italian version of hand functional disability scale was


tested on patients with SSc.
27

Esempio 3 : variabile numerica discreta


soggetti senza artralgie
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 2 2 3 4 7 7 8 11 18 23 23 60

soggetti con artralgie


0 0 0 0 0 0 0 1 1 2 3 4 5 6 6 6 7 7 8 8 9 12 14 15 15 18 21 21 21 24 25 26 30 31 35 70 71

c o n a r tr a lg ie s e n z a a r tr a lg ie
20

20
15

15
N

N
10

10
5
5
0

0 5 12 21 30 70 0 7 18 60

D HI D HI

la barra si riduce ad una linea, la frequenza è concentrata su un


signolo valore
l’ordinamento delle barre rispetta l’ordine naturale dei punteggi
le barre sono distanziate, infatti, coerentemente con la
definizione di variabile numerica discreta, non esistono
valori intermedi tra un punteggio e l’altro
28

Esempio 4: Variabile continua


L’agopuntura, in aggiunta ad altri farmaci, è efficace per il
controllo del dolore in pazienti con artrite reumatoide?
• I soggetti considerati nello studio
∗ ’’Some degree of disease activity had to be present, and
pharmacological treatment had to be stable for at least 1
month before the study, including analgesics, non-steroidal
anti-inflammatory drugs, glucocorticoids’’
• Disegno dello studio:
∗ superficial acupuncture at non-acupuncture points
group (CoAC) or an acupuncture group (AC) using
computer-generated random numbers. Starting from that
point, the patients received a total of ten sessions of AC or
controlAC, twice a week for 5 consecutive weeks.
• Misura: variazione del dolore fine trattamento-baseline
(∆V AS)
• Come riportare i risultati?
29

Controllo: CoAc
[1] -8.75 -6.39 -5.50 -5.46 -5.06 -5.05 -4.89 -4.85 -4.73 -4.13 -4.12 -4.09 -4.07 -3.95 -3.93 -3.91 -3.87 -3.83 -3.76 -3.71

[21] -3.71 -3.69 -3.20 -3.15 -3.04 -2.99 -2.80 -2.63 -2.53 -2.52 -2.51 -2.51 -2.43 -2.35 -2.27 -2.25 -2.12 -1.95 -1.70 -1.68

[41] -1.52 -1.42 -1.41 -1.36 -1.32 -1.27 -1.26 -1.16 -1.12 -1.12 -0.98 -0.97 -0.96 -0.94 -0.93 -0.90 -0.90 -0.89 -0.87 -0.74

[61] -0.73 -0.64 -0.63 -0.58 -0.58 -0.48 -0.47 -0.46 -0.41 -0.30 -0.28 -0.22 -0.20 -0.07 0.00 0.05 0.13 0.13 0.20 0.23

[81] 0.28 0.40 0.63 0.64 0.92 0.98 0.99 1.02 1.06 1.13 1.19 1.32 1.83 1.88 2.04 2.07 2.09 2.13 2.21 3.60

Agopuntura: AC
[1] -7.99 -7.68 -7.20 -6.97 -6.94 -6.67 -6.33 -6.29 -6.27 -6.02 -5.96 -5.92 -5.89 -5.74 -5.26 -5.23 -5.03 -5.00 -4.80 -4.75

[21] -4.70 -4.55 -4.50 -4.35 -4.27 -3.94 -3.77 -3.63 -3.47 -3.46 -3.46 -3.46 -3.41 -3.31 -3.23 -3.22 -3.17 -3.05 -3.03 -3.01

[41] -2.92 -2.92 -2.73 -2.47 -2.46 -2.41 -2.37 -2.21 -2.18 -2.17 -2.13 -1.90 -1.78 -1.65 -1.60 -1.42 -1.40 -1.34 -1.30 -1.28

[61] -1.28 -1.16 -1.01 -0.94 -0.84 -0.78 -0.74 -0.73 -0.71 -0.56 -0.22 -0.12 -0.12 -0.05 0.20 0.32 0.33 0.56 0.59 0.61

[81] 0.61 0.71 0.75 0.95 1.09 1.26 1.27 1.43 1.48 1.65 1.74 1.76 1.77 1.90 2.39 2.71 2.96 3.25 3.55 3.59

Esempio 4 Risultati dello studio


variazione del dolore: VAS fine trattamento- VAS baseline
Come confrontare le distribuzioni?
30

Esempio 4: variabile continua


Per rappresentare la distribuzione possiamo raggruppare i
dati in classi tenendo conto che
• L’informazione sulla singola osservazione non è più
considerata
• tutte le osservazioni che sono collocate nella stessa classe
sono identificate con il valore centrale della classe
Le classi devono avere un’ampiezza ’’ragionevole’’ per limitare
la perdita di informazione
Si preferisce definire classi della stessa ampiezza
Per agevolare la definizione delle classi, si possono scegliere
come estremi della prima e dell’ultima calsse valori di poco
inferiori al il minimo e di poco superiori al massimo
Scegliamo, ad esempio
∗ classi di ampiezza 1: minimo -9, massimo 4
∗ Estremi di classe non ambigui : ciascun valore deve essere
attribuito ad una sola classe
∗ Per convenienza fissiamo classi aperte a sinistra (estremo
inferiore non incluso)
∗ Es: classe -9,-8 comprende valori > di −9 e ≤ −8;
indicata con (–9 - -8]
31

Esempio 4: tabella di frequenza assoluta


• Si ordinano i dati in senso crescente
• Si scelgono classi comuni per le due distribuzioni
• Si contano le osservazioni contenute in ogni classe
• Se le due distribuzioni sono basate su un numero di soggetti
diverso è necessario riportare anche le %
classi val.centr CoAC (N=100) AC(N=100)
(-9 – -8] -8.5 1 0
(-8 – -7] -7.5 0 3
(-7 – -6] -6.5 1 7
(-6 – -5] -5.5 4 8
(-5 – -4] -4.5 7 7
(-4 – -3] -3.5 12 15
(-3 – -2] -2.5 12 11
(-2 – -1] -1.5 13 12
(-1 – 0] -0.5 25 11
(0 – 1] 0.5 12 10
(1 – 2] 1.5 7 10
(2 – 3] 2.5 5 3
(3-4] 3.5 1 3
Rappresentazione grafica: ISTOGRAMMA
32

Esempio 4: Caratteristiche dell’istogramma


C oAC AC

25

25
20

20
15

15
N

N
10

10
5
5
0

0
-1 0 -8 -6 -4 -2 0 2 4 -1 0 -8 -6 -4 -2 0 2 4

d e lta V A S d e lta V A S

• La base di ciascuna barra coincide con l’ampiezza della


classe
• L’altezza coincide con la frequenza
∗ Nota bene: di solito si preferisce riportare in ordinata la
%
• L’area di ciascuna barra è proporzionale alla frequenza della
classe
∗ la rappresentazione è corretta in quanto la base è uguale
per tutte le classi
∗ Nota bene: la scala delle ordinate e delle ascisse deve
essere uguale per le due distribuzioni
• Fornisce un’idea sulla ’’forma’’ della distribuzione
33

rappresentazione migliore → rendere l’area della barra uguale


alla frequenza
la frequenza specifica
• si consideri la distribuzione di N valori suddivisa in K classi
k=1,2,...,K
• L’ampiezza della classe (ak ) è data dalla differenza tra i due
estremi di classe
• ciascuna classe ha una frequenza (assoluta)
nk = n1, n2, ..., nK
• la frequenza relativa è data da fk =nk /N
• la frequenza specifica (o densità di frequenza) si ottiene
dividendo la frequenza relativa per l’ampiezza di classe:
dk = fk /ak
• esempio N=100
∗ classe (-9 - -6]: nk = 2 fk = 2/100=0.02
dk = 0.02/3 = 0.007
Vantaggi
• è sempre corretta
• è adeguata per
rappresentare istogrammi con classi con ampiezza variabile
confrontare tra loro istogrammi sulla stessa variabile
34

Gli indici di tendenza centrale: Media (aritmetica)


• Media (artimetica)
• si ottiene come somma di tutti i valori /totale
• dal momento che si deve utilizzare una operazione di somma
ed una di divisione è definita solo per variabili misurate su
scala numerica
Es: quantità di dolore alla schiena prima della terapia (VAS )
in 5 soggetti
4,8, 5.0, 5.3, 5.5, 5.7
media = 4.8+5+5.3+5.5+5.7
5 = 5.26
• ha lo svantaggio di essere influenzata dai valori estremi
∗ es: sostituendo il quinto soggetto con un altro con VAS=7.0
media = 4.8+5+5.3+5.5+7
5 = 5.52
∗ es: sostituendo il primo soggetto con uno can VAS= 3.7
media = 3.7+5+5.3+5.5+5.7
5
= 5.04
35

Sintesi numerica dei dati: Misure di tendenza centrale


Mediana (scala intervallare, per rapporto, numerica
discreta, scala ordinale):
• è quell’osservazione tale per cui metà delle osservazioni è
minore di essa e metà delle osservazioni è maggiore di essa.
• Per calcolarla è necessario ordinare le osservazioni in senso
crescente
• si calcola la posizione : oss. numero N+1
2
∗ (a) es: N dispari x1 =4.8, x2=5, x3 =5.3, x4 = 5.5, x5 =5.7
posizione: 6/2 osservazione n. 3:
mediana = 5.3
∗ (b) Es: N pari: x1 =4.8, x2=5.5, x3 =5.8, x4 = 5.7
posizione: 5/2=2.5 quindi tra la seconda e la terza
(interpolazione):
mediana=x2 + 0.5 ∗ (x3 − x2)
mediana = 5.5 + 0.5 ∗ (5.8 − 5.5) = 5.65
• ha il vantaggio di non essere influenzata dai valori estremi
∗ infatti, in (a) con x1 = 3.7 e x5 = 7 la mediana è 5.3
36

Sintesi numerica dei dati: Misure di tendenza centrale


Moda (per tutte le scale di misura)
• è l’osservazione che si verifica con maggior frequenza
• Non sempre può essere definita e non sempre è unica
∗ es: x1 =4.8, x2=5, x3 =5.3, x4 = 5.5, x5 =5.7
la moda non esiste: hanno tutte frequenza 1
∗ es: x1 =4.8, x2=5, x3 =5, x4 = 5.5, x5 =5.7
moda= 5
∗ es: x1 =4.8, x2=5, x3 =5, x4 = 5.5, x5 =5.5
moda= 5, 5.5
non è consigliata per variabili misurate su scala numerica
37

variabili misurate su scala nominale:


Esempio 1
tr e a tm e n t g r o u p c o n tr o l g r o u p

35

35
30

30
25

25
20

20
15

15
10

10
5
5
0

0
s p d e g .s p is .s p J u n .s d p s i a .i n c o n g .s t s p d e g .s p i s .s p J u n .s d p s i a .i n c o n g .s t

• si può utilizzare solo la moda


trattamento: Degenerative spondylolisthesis (35%)
Controllo: Degenerative spondylolisthesis e
Spondylosis/stenosis (34%)
38

variabili misurate su scala ordinale:


Esempio titolo di studio su un gruppo di 100 persone
modalità elem. medie inf. medie sup . laurea spec.
freq. 5 15 25 40 15
metodo dell’ordinamento
calcolo nell’esempio del titolo di studio
• elenco ’’ordinato’’
[1,] ’’e’’ ’’e’’ ’’e’’ ’’e’’ ’’e’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’

[2,] ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’ ’’m.i’’

[3,] ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’

[4,] ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’

[5,] ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’m.s’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’

[6,] ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’

[7,] ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’

[8,] ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’

[9,] ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’l’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’

[10,] ’’s’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’ ’’s’’

• 101/2=51
• mediana in corrispondenza della 51a osservazione→ laurea
39

• Calcolo della mediana su variabili ordinali: metodo della


frequenza cumulata
• Esempio titolo di studio su un gruppo di 100 persone
modalità elem. medie inf. medie sup . laurea spec.
freq. 5 15 25 40 15
freq. cum. 5 20 45 85 100
• il metodo riportato precedentemente corrisponde a trovare
la modalità corrispondente a quella che per prima supera il
valore (N+1)/2 sulla frequenza cumulata
(N+1)/2=51→ la mediana è laurea
40

Calcolo della mediana


Esempio 2: Manual Therapy, Physical Therapy, or Continued
Care by a General Practitioner for Patients with Neck Pain Ann
Intern Med. 2002 May 21;136(10):713-22.
Variabile ordinale
• Se si ha a disposizione la distribuzione di frequenza è più
rapido usare il metodo della freq. cumulata
gruppo no success much improved totally recovered
manual 31.7 40.2 28.2
physical 49.2 25.4 25.4
gen. pract. 64.1 20.6 15.3
• utilizzo della freq. cumulata → prima modalità che supera
50%
gruppo no success much improved totally recovered
manual 31.7 71.9(31.7+40.2) 100 (31.7+40.2+28.2)
physical 49.2 74.6(49.2+25.4) 100(49.2+25.4+25.4)
gen. pract. 64.1 84.7(64.1+20.6) 100 (64.1+20.6+15.3)
mediana:
manual: much improved
physical: much improved
gen. pract.: no success
41

variabili misurate su scala numerica: mediana


Esempio 3: misura di DHI in soggetti con e senza artralgie
variabile discreta: metodo dell’ordinamento
• Si ordinano i dati in senso crescente
• si trova il valore che corrisponde alla posizione (N+1)/2
• senza artralgie (37)
0000000000000000000000

1 1 2 2 2 3 4 7 7 8 11 18 23 23 60

• con artralgie (37)


000000011234566677889

12 14 15 15 18 21 21 21 24 25 26 30 31 35 70 71

• posizione: 38/2 =19→ quindi la 19a lascia 18 osservazioni a


dx e 18 a sx
• 0 per soggetti senza artralgie
• 8 per i soggetti con artralgie
42

variabili misurate su scala numerica: media


Esempio3: misura di DHI in soggetti con e senza artralgie
• senza artralgie (37)
0000000000000000000000

1 1 2 2 2 3 4 7 7 8 11 18 23 23 60

• con artralgie (37)


000000011234566677889

12 14 15 15 18 21 21 21 24 25 26 30 31 35 70 71

Media: 37
xi x1+x2 +...+x36 +x36
notazione sintetica x = i=1
37 = 37
dove xi indica l’osservazione ia
Nel caso dell’esempio
senza artralgie
x = 0+0+...+1+...+23+60
37
= 4.65 → 5 punti
con artralgie
x = 0+0+...+1+...+70+71
37 = 14.11 → 14 punti
43

media pesata
La media si può scrivere in forma più sintetica utilizzando la
distribuzione di frequenza
• senza artralgie (37)
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 2 2 3 4 7 7 8 11 18 23 23 60

• con artralgie (37)


0 0 0 0 0 0 0 1 1 2 3 4 5 6 6 6 7 7 8 8 9 12 14 15 15 18 21 21 21 24 25 26 30 31 35 70 71

x ∗f
x = j 37j j dove gli xj sono i valori distinti di punteggio,
ciascuno con frequenza fj
esempio:
x = 0∗22+1∗2+...+23∗2+60∗1
37
=4.65 → 5
x = 0∗7+1∗2+...+70∗1+71∗1
37 =14.11 → 14
questa è indicata come media pesata, infatti le frequenze di
ciascun valore rappresentano i relativi pesi
proprietà della media
N
N*x = i=1 xi
N
i=1 (xi − x) = 0
è influenzata dai valori estremi
44

quale indice è migliore per rappresentare la tendenza


centrale?
Mediana: con artralgie 8, senza artralgie 0
Media: con artralgie 14, senza artralgie 5
c o n a r tr a lg ie s e n z a a r tr a lg ie
20

20
15

15
N

N
10

10
5
5
0

0 5 12 21 30 70 0 7 18 60

D HI D HI

• I valori sono concentrati maggiormente su valori piccoli


(distribuzione asimmetrica)
la media è influenzata da pochi valori molto elevati
la mediana è un indice migliore
45

Mediana: variabile su scala numerica continua


variazione del dolore fine trattamento-baseline nello studio ’’superficial acupuncture at non-acupuncture points group

(CoAC) or an acupuncture group (AC)’’

metodo dell’ordinamento: consigliabile quando si hanno i


dati in ordine crescente
Controllo: CoAc
-8.75 -6.39 -5.50 -5.46 -5.06 -5.05 -4.89 -4.85 -4.73 -4.13 -4.12 -4.09 -4.07 -3.95 -3.93 -3.91 -3.87 -3.83 -3.76 -3.71

[21] -3.71 -3.69 -3.20 -3.15 -3.04 -2.99 -2.80 -2.63 -2.53 -2.52 -2.51 -2.51 -2.43 -2.35 -2.27 -2.25 -2.12 -1.95 -1.70 -1.68

[41] -1.52 -1.42 -1.41 -1.36 -1.32 -1.27 -1.26 -1.16 -1.12 -1.12 -0.98 -0.97 -0.96 -0.94 -0.93 -0.90 -0.90 -0.89 -0.87 -0.74

[61] -0.73 -0.64 -0.63 -0.58 -0.58 -0.48 -0.47 -0.46 -0.41 -0.30 -0.28 -0.22 -0.20 -0.07 0.00 0.05 0.13 0.13 0.20 0.23

[81] 0.28 0.40 0.63 0.64 0.92 0.98 0.99 1.02 1.06 1.13 1.19 1.32 1.83 1.88 2.04 2.07 2.09 2.13 2.21 3.60

Agopuntura: AC
[1] -7.99 -7.68 -7.20 -6.97 -6.94 -6.67 -6.33 -6.29 -6.27 -6.02 -5.96 -5.92 -5.89 -5.74 -5.26 -5.23 -5.03 -5.00 -4.80 -4.75

[21] -4.70 -4.55 -4.50 -4.35 -4.27 -3.94 -3.77 -3.63 -3.47 -3.46 -3.46 -3.46 -3.41 -3.31 -3.23 -3.22 -3.17 -3.05 -3.03 -3.01

[41] -2.92 -2.92 -2.73 -2.47 -2.46 -2.41 -2.37 -2.21 -2.18 -2.17 -2.13 -1.90 -1.78 -1.65 -1.60 -1.42 -1.40 -1.34 -1.30 -1.28

[61] -1.28 -1.16 -1.01 -0.94 -0.84 -0.78 -0.74 -0.73 -0.71 -0.56 -0.22 -0.12 -0.12 -0.05 0.20 0.32 0.33 0.56 0.59 0.61

[81] 0.61 0.71 0.75 0.95 1.09 1.26 1.27 1.43 1.48 1.65 1.74 1.76 1.77 1.90 2.39 2.71 2.96 3.25 3.55 3.59

Mediana: posizione (101/2)=50.5 → tra la 50a e la 51a


CoAc: 50a → −1.12; 51a → −0.98
mediana=-1.12+0.5*(-0.98+1.12)=-1.05
AC: 50a → −2.17; 51a → −2.13
mediana=-2.17+0.5*(-2.13+2.17)=-2.15
46

Misure di tenenza centrale: variabile su scala numerica


continua (Esempio 4)
∗ variazione del dolore fine trattamento-baseline (∆V AS) nello studio ’’superficial acupuncture at
non-acupuncture points group (CoAC) or an acupuncture group (AC)’’

Controllo: CoAc
[1] -8.75 -6.39 -5.50 -5.46 -5.06 -5.05 -4.89 -4.85 -4.73 -4.13 -4.12 -4.09 -4.07 -3.95 -3.93 -3.91 -3.87 -3.83 -3.76 -3.71

[21] -3.71 -3.69 -3.20 -3.15 -3.04 -2.99 -2.80 -2.63 -2.53 -2.52 -2.51 -2.51 -2.43 -2.35 -2.27 -2.25 -2.12 -1.95 -1.70 -1.68

[41] -1.52 -1.42 -1.41 -1.36 -1.32 -1.27 -1.26 -1.16 -1.12 -1.12 -0.98 -0.97 -0.96 -0.94 -0.93 -0.90 -0.90 -0.89 -0.87 -0.74

[61] -0.73 -0.64 -0.63 -0.58 -0.58 -0.48 -0.47 -0.46 -0.41 -0.30 -0.28 -0.22 -0.20 -0.07 0.00 0.05 0.13 0.13 0.20 0.23

[81] 0.28 0.40 0.63 0.64 0.92 0.98 0.99 1.02 1.06 1.13 1.19 1.32 1.83 1.88 2.04 2.07 2.09 2.13 2.21 3.60

Agopuntura: AC
[1] -7.99 -7.68 -7.20 -6.97 -6.94 -6.67 -6.33 -6.29 -6.27 -6.02 -5.96 -5.92 -5.89 -5.74 -5.26 -5.23 -5.03 -5.00 -4.80 -4.75

[21] -4.70 -4.55 -4.50 -4.35 -4.27 -3.94 -3.77 -3.63 -3.47 -3.46 -3.46 -3.46 -3.41 -3.31 -3.23 -3.22 -3.17 -3.05 -3.03 -3.01

[41] -2.92 -2.92 -2.73 -2.47 -2.46 -2.41 -2.37 -2.21 -2.18 -2.17 -2.13 -1.90 -1.78 -1.65 -1.60 -1.42 -1.40 -1.34 -1.30 -1.28

[61] -1.28 -1.16 -1.01 -0.94 -0.84 -0.78 -0.74 -0.73 -0.71 -0.56 -0.22 -0.12 -0.12 -0.05 0.20 0.32 0.33 0.56 0.59 0.61

[81] 0.61 0.71 0.75 0.95 1.09 1.26 1.27 1.43 1.48 1.65 1.74 1.76 1.77 1.90 2.39 2.71 2.96 3.25 3.55 3.59

100
media=( i=1 xi)/100
CoAc: [−8.75 + (−6.39) + ... + 3.60]/100 = −1.45
AC: [−7.99 + (−7.68) + ... + 3.59]/100 = −2.05
47

Sintesi
C oAC AC

25

25
20

20
15

15
N

N
10

10
5

5
0

0
-1 0 -8 -6 -4 -2 0 2 4 -1 0 -8 -6 -4 -2 0 2 4

d e lta V A S d e lta V A S

CoAc:
mediana=-1.05, media=-1.45
AC:
mediana=-2.15, media=-2.05
• la differenza tra media e mediana è maggiore per il gruppo
CoAc perchè l’asimmetria della distribuzione è maggiore
• il gruppo AC sembra avere ottenuto risultati migliori in
termini di riduzione del dolore
48

Sintesi numerica dei dati: la necessità delle misure di


dispersione
d ati A da ti B

300

300
250

250
200

200
Frequency

Frequency
150

150
100

100
50

50
0

0
-5 0 5 10 15 20 25 -5 0 5 10 15 20 25

x x

Entrambe le distribuzioni hanno


media=10 e mediana=10
Ma i dati sono diversamente dispersi attorno all’indice di
tendenza centrale
quindi necessario fornire anche un indice di dispersione
49

Sintesi numerica dei dati: le misure di dispersione


Appropriati per variabili numeriche (scala discreta o
continua)
range: massimo valore osservato - minimo valore osservato
gli altri dipendono dall’indice di tendenza centrale
• misura di disperisione attorno alla mediana
• → campo di variazione interquartile
• misura di dispersione attorno alla media
• →deviazione standard (varianza, devianza)
50

Sintesi numerica dei dati: le misure di dispersione attorno


alla mediana: campo di variazione interquartile
• differenza tra il 30 quartile (Q3) e il 10 quartile (Q1).
• Q3 è il valore che suddivide la distribuzione dei valori
ordinati lasciando alla sua sinistra 75% e alla sua destra il
25% dei valori:
• Q1 è il valore che suddivide la distribuzione dei valori
ordinati lasciando alla sua sinistra 25% e alla sua destra il
75% dei valori
• Tra Q3 e Q1 sono comprese il 50% delle osservazioni
• escludiamo la ’’coda’’ sinistra della distribuzione (i valori più
bassi, idenificati da Q1)
• escludiamo la ’’coda’’ destra della distribuzione (i valori più
alti, idenificati da Q3)
51

Calcolo dei quartili


Per ottenere i quartili si procede analogamente a quanto
illustrato per la mediana

(1) si ordinano le osservazioni in senso crescente


(2) Q1 è in corrispondenza alla posizione (N + 1)/4
(3) Q3 è in corrispondenza alla posizione 3 · (N + 1)/4
(4) Se le posizioni ottenute per Q1 e Q3 presentano valori
decimali si ricorre all’interpolazione lineare
Esempio: N=16
4,6,6,6,7,7,7,7,8,8,8,8,9,9,10,10
Q1 si trova in corrispondenza di (16 + 1)/4 = 4.25
tra la 4a e la 5a osservazione:
x4 + 0.25 · (x5 − x4) = 6 + 0.25 · (7 − 6) = 6.25
Q3 si trova in corrispondenza di 3·(16 + 1)/4 = 12.75
tra la 12a e la 13a osservazione:
x12 + 0.75 · (x13 − x12) = 8 + 0.75 · (9 − 8) = 8.75
52

Calcolo dei quartili


Esempio 3: valori di DHI in pazienti con e senza artralgie
scala numerica discreta (metodo dell’ordinamento)
si procede analogamente alla mediana
• senza artralgie (37)
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 2 2 3 4 7 7 8 11 18 23 23 60

• con artralgie (37)


0 0 0 0 0 0 0 1 1 2 3 4 5 6 6 6 7 7 8 8 9 12 14 15 15 18 21 21 21 24 25 26 30 31 35 70 71

• Q3: 38*0.75=28.5 tra la 28a e la 29a


• consideraimo la 28a
senza artralgie : la 28a è 3
con altralgie: la 28a è 21
• Q1: 38/4= 9.5 quindi tra la 9a e la 10a
• consideriamo la 10a
senza artralgie: la 10a è 0
con atralgie: la 10a è 2
• quindi range interquartile
con artralgie 21-2=19
senza artralgie 3-0=3
53

Una rappresentazione grafica basata su mediana e range


interquartile
i diagrammi box-plot
• forniscono una visualizzazione del ’’centro’’ della
distribuzione, della dispersione e dei valori ’’outliers’’
Esempio: distribuzione dei punteggi DHI
distribuzione di DHI per artralgie
70
60
50
40
30
20
10
0

con senza

Il centro è la mediana (riga nera): 8 e 0


l’altezza è (Q3-Q1): 20 e 4
le linee tratteggiate (wiskers) sono le ’’distanze’’ dai bordi di
1.5×(Q3-Q1)
in basso: Q1-1.5×(Q3-Q1)
sono entrambi < 0 → riportati a 0
in alto: Q3+1.5×(Q3-Q1)
con: 21+1.5*20=51→ riportato a 35
e senza 3.5+1.5*4=9.5→riportato a 8
54

Indice di dispersione per la media


la deviazione standard
√ devianza
• dev. standard= varianza → varianza = N−1
• calcolo della
N

dev = (xi − x)2
i=1
• calcolo della varianza
dev
s2 =
N −1
N-1 sono i gradi di libertà:
N
infatti sono legati alla proprietà della media i=1(xi −x) = 0
per cui solo N-1 sono gli scarti indipendenti
• deviazione standard

s = s2
• utilizzando la distribuzione di frequenza della variabile, con
(j = 1, 2, ...J) valori distinti, ciascuno con frequenza fj
J
dev. = i=1 fj ∗ (xj − x)2
55

Calcolo della deviazione standard


Esempio 3: misura di DHI in soggetti con e senza artralgie
scala numerica discreta
• senza artralgie (37) media=4.65
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 2 2 3 4 7 7 8 11 18 23 23 60

devianza
dev.=22 ∗ (0 − 4.65)2 + 2 ∗ (1 − 4.65)2 + .... + 1 ∗ (60 −
4.65)2 =4504.43 punti2
varianza
s2 = 4504.43
36 = 125.12 punti2
dev. standard

s= 125.12 = 11.19 punti
• con artralgie (37) media=14.11
0 0 0 0 0 0 0 1 1 2 3 4 5 6 6 6 7 7 8 8 9 12 14 15 15 18 21 21 21 24 25 26 30 31 35 70 71

devianza
dev.=7 ∗ (0 − 14.11)2 + 2 ∗ (1 − 14.11)2 + .... + 1 ∗ (71 −
14.11)2 =10447.57 punti2
varianza
s2 = 10447.57
36 = 290.21 punti2

dev. standard

s= 290.21 = 17.04 punti
56

Misure di variabilità
Esempio 4: variazione del dolore fine trattamento-baseline (∆V AS) nello studio ’’superficial
acupuncture at non-acupuncture points group (CoAC) or an acupuncture group (AC)’’

variabile su scala numerica continua


Calcolo dei quartili
metodo dell’ordinamento
Q1: posizione 101/4=25.25 → tra la 25a e la 26a
Q3: posizione 3*101/4=→75.75 tra la 75a e la 76a
Controllo: CoAc

[1] -8.75 -6.39 -5.50 -5.46 -5.06 -5.05 -4.89 -4.85 -4.73 -4.13 -4.12 -4.09 -4.07 -3.95 -3.93 -3.91 -3.87 -3.83 -3.76 -3.71

[21] -3.71 -3.69 -3.20 -3.15 -3.04 -2.99 -2.80 -2.63 -2.53 -2.52 -2.51 -2.51 -2.43 -2.35 -2.27 -2.25 -2.12 -1.95 -1.70 -1.68

[41] -1.52 -1.42 -1.41 -1.36 -1.32 -1.27 -1.26 -1.16 -1.12 -1.12 -0.98 -0.97 -0.96 -0.94 -0.93 -0.90 -0.90 -0.89 -0.87 -0.74

[61] -0.73 -0.64 -0.63 -0.58 -0.58 -0.48 -0.47 -0.46 -0.41 -0.30 -0.28 -0.22 -0.20 -0.07 0.00 0.05 0.13 0.13 0.20 0.23

[81] 0.28 0.40 0.63 0.64 0.92 0.98 0.99 1.02 1.06 1.13 1.19 1.32 1.83 1.88 2.04 2.07 2.09 2.13 2.21 3.60

• la 25a è -3.04 e la 26a è -2.99, la 75a è 0 e la 76a è 0.05


Q1=−3.04 + 0.25 ∗ (−2.99 + 3.04) =-3.0275
Q3=0+0.75*(0.05-0)=0.04
• range interquartile 3.07 mediana=-1.05
57

Esempio 4: variazione del dolore fine trattamento-baseline (∆V AS) nello studio ’’superficial
acupuncture at non-acupuncture points group (CoAC) or an acupuncture group (AC)’’

variabile su scala numerica continua


Calcolo dei quartili
metodo dell’ordinamento
Q1: posizione 101/4=25.25 → tra la 25a e la 26a
Q3: posizione 3*101/4=→75.75 tra la 75a e la 76a
Agopuntura: AC

[1] -7.99 -7.68 -7.20 -6.97 -6.94 -6.67 -6.33 -6.29 -6.27 -6.02 -5.96 -5.92 -5.89 -5.74 -5.26 -5.23 -5.03 -5.00 -4.80 -4.75

[21] -4.70 -4.55 -4.50 -4.35 -4.27 -3.94 -3.77 -3.63 -3.47 -3.46 -3.46 -3.46 -3.41 -3.31 -3.23 -3.22 -3.17 -3.05 -3.03 -3.01

[41] -2.92 -2.92 -2.73 -2.47 -2.46 -2.41 -2.37 -2.21 -2.18 -2.17 -2.13 -1.90 -1.78 -1.65 -1.60 -1.42 -1.40 -1.34 -1.30 -1.28

[61] -1.28 -1.16 -1.01 -0.94 -0.84 -0.78 -0.74 -0.73 -0.71 -0.56 -0.22 -0.12 -0.12 -0.05 0.20 0.32 0.33 0.56 0.59 0.61

[81] 0.61 0.71 0.75 0.95 1.09 1.26 1.27 1.43 1.48 1.65 1.74 1.76 1.77 1.90 2.39 2.71 2.96 3.25 3.55 3.59

• la 25a è -4.27 e la 26a è -3.94, la 75a è 0.2 e la 76a è 0.32


Q1= -4.27+0.25*(-3.94+4.27)=-4.19
Q3=0.2+0.75*(0.32-0.2)=0.29
• range interquartile 4.48 mediana=-2.19
58

Misure di variabilità: variabile su scala numerica continua


Calcolo della deviazione standard
Esempio 4
Controllo: CoAc
[1] -8.75 -6.39 -5.50 -5.46 -5.06 -5.05 -4.89 -4.85 -4.73 -4.13 -4.12 -4.09 -4.07 -3.95 -3.93 -3.91 -3.87 -3.83 -3.76 -3.71

[21] -3.71 -3.69 -3.20 -3.15 -3.04 -2.99 -2.80 -2.63 -2.53 -2.52 -2.51 -2.51 -2.43 -2.35 -2.27 -2.25 -2.12 -1.95 -1.70 -1.68

[41] -1.52 -1.42 -1.41 -1.36 -1.32 -1.27 -1.26 -1.16 -1.12 -1.12 -0.98 -0.97 -0.96 -0.94 -0.93 -0.90 -0.90 -0.89 -0.87 -0.74

[61] -0.73 -0.64 -0.63 -0.58 -0.58 -0.48 -0.47 -0.46 -0.41 -0.30 -0.28 -0.22 -0.20 -0.07 0.00 0.05 0.13 0.13 0.20 0.23

[81] 0.28 0.40 0.63 0.64 0.92 0.98 0.99 1.02 1.06 1.13 1.19 1.32 1.83 1.88 2.04 2.07 2.09 2.13 2.21 3.60

Agopuntura: AC
[1] -7.99 -7.68 -7.20 -6.97 -6.94 -6.67 -6.33 -6.29 -6.27 -6.02 -5.96 -5.92 -5.89 -5.74 -5.26 -5.23 -5.03 -5.00 -4.80 -4.75

[21] -4.70 -4.55 -4.50 -4.35 -4.27 -3.94 -3.77 -3.63 -3.47 -3.46 -3.46 -3.46 -3.41 -3.31 -3.23 -3.22 -3.17 -3.05 -3.03 -3.01

[41] -2.92 -2.92 -2.73 -2.47 -2.46 -2.41 -2.37 -2.21 -2.18 -2.17 -2.13 -1.90 -1.78 -1.65 -1.60 -1.42 -1.40 -1.34 -1.30 -1.28

[61] -1.28 -1.16 -1.01 -0.94 -0.84 -0.78 -0.74 -0.73 -0.71 -0.56 -0.22 -0.12 -0.12 -0.05 0.20 0.32 0.33 0.56 0.59 0.61

[81] 0.61 0.71 0.75 0.95 1.09 1.26 1.27 1.43 1.48 1.65 1.74 1.76 1.77 1.90 2.39 2.71 2.96 3.25 3.55 3.59
 100
2
i=1 (xi −x)
s= 99
CoAc
 : media=-1.45
(−8.75+1.45)2 +...+(3.60−1.45)2
s= 99
= 2.21
AC:
media=-2.05
(−7.99−2.05)2 +...+(3.59−2.05)2
s= 99 = 2.83
59

Esempio N. 4 sintesi (1)


CoAC AC
25

25
20

20
15

15
N

N
10

10
5

5
0

-10 -8 -6 -4 -2 0 2 4 -10 -8 -6 -4 -2 0 2 4

delta VAS delta VAS

• CoAC
mediana=-1.05 range interquartile 3.07
media=-1.45 dev. standard=2.21
• AC
mediana=-2.19 range interquartile= 4.48
media=-2.05 dev. standard=2.83
60

Esempio N. 4 sintesi (2)


d is tr ib u z io n e d i d e lta V A S p e r g r u p p o

4
2
0
-2
-4
-6
-8

AC C oA c

linea centrale: mediana


bordi del ’’box’’: Q1 e Q3
per individuare gli outliers (valori esterni agli ’’wiskers’’)
• AC
mediana -2.18; Q1=-4.19; Q3=0.29
outliers: ( non ci sono)
• CoAc
mediana -1.05; Q1=-3.03; Q3=0.04
outliers: (uno solo)
61

Istogramma e box-plot
CoAC AC

25

25
20

20
15

15
N

N
10

10
5

5
0

0
-10 -8 -6 -4 -2 0 2 4 -10 -8 -6 -4 -2 0 2 4

delta VAS delta VAS

distribuzione di delta VAS per gruppo


4
2
0
-2
-4
-6
-8

AC CoAc

• La distribuzione in CoAc è meno simmetrica rispetto a quella


in AC → la mediana è più spostata rispetto al centro
• la distribuzione in CoAc è meno dispersa rispetto a quella in
AC → il ’’box’’ è meno ampio
62

Riassunto
• la rappresentazione grafica e la sintesi dipendono dalla scala
di misura
• Per le variabili su scala nominale ed ordinale
si usano i diagrammi a barre le misure di tendenza centrale
sono la moda e la mediana (solo su scala ordinale)
• Per le variabili su scala numerica discreta
le barre si riducono a ’’linee’’, è possibile usare i box plot
le misure di tendenza centrale sono la moda,la mediana e la
media
le misure di dispersione sono il range interquartile e la
deviazione standard
• Per le variabili su scala numerica continua
si usano gli istogrammi e i box plot
le misure di tendenza centrale sono la moda,la mediana e la
media
le misure di dispersione sono il range interquartile e la
deviazione standard
• Se la distribuzione è asimmetrica è preferibile usare mediana
e range interquartile

You might also like