You are on page 1of 43

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Dicionar explicativ de statistic


Selecie i organizare: Valentin Clocotici

A B C D E F G H I K L M N O P Q R S T U V
A
Abatere (Deviation)
Prin abatere se nelege diferena dintre o dat i o valoare de referin (de regul media). Vezi abatere
standard.
Abatere standard (Standard Deviation SD)
Abaterea standard a unei mulimi de numere este rdcina medie ptrat (RMS) a mulimii abaterilor
fiecrui element de la media mulimii.

Poate fi definit ca rdcina ptrat a dispersiei mulimii de numere.


Abaterea standard este o msur a gradului de mprtiere a elementelor, se msoar n aceeai unitate
de msur ca i datele iniiale i se raporteaz, de regul, mpreun cu media.
Este de remarcat c definiia are loc considernd c mulimea de plecare reprezint ntreaga populaie.
Pentru un eantion se va vedea Abatere standard de sondaj.
Abatere standard de sondaj (Sample Standard Deviation, S)
Abaterea standard de sondaj s este un estimator al abaterii standard a populaiei, bazat pe un eantion
aleator.
Ca statistic, msoar gradul de mprtiere a eantionului n jurul mediei de sondaj. Presupunnd c
exist n elemente n eantion, cu valorile {x1, x2, . . . , xn}, avnd media M = (x1 + x2 + . . . + xn)/n,
atunci
s = { [(x1 - M)2 + (x2 - M)2 + . . . + (xn - M)2]/(n-1) }
Ptratul abaterii standard de sondaj, s2, dispersia de sondaj, este un estimator nedeplasat al dispersiei
populaiei.
Abaterea standard a populaiei (Population Standard Deviation)
Parametru reprezentnd abaterea standard a valorilor unei variabile pentru o populaie.
Amplitudine (Range)
Este definit ca xmaxxmin, unde xmax i xmin sunt valorile extreme ale unui set de numere observate.
Ofer o imagine a ntinderii datelor, dependent ns de numrul de valori observate. Cu ct se
msoar mai multe elemente, cu att ansa de a observa valori mai deprtate crete, deci ansa de a
obine o amplitudine mai mare.
Amplitudine interquartil (Interquartile Range IQR, Hspread)
Se definete ca diferena dintre quartila a treia i quartila ntia. Are semnificaia lungimii unui interval
pe care se distribuie 50% dintre observaii. De remarcat c intervalul nu este centrat pe quartila a doua
(mediana). Este utilizat, n mod nefundamentat teoretic, pentru a obine un interval centrat pe median,

1 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

(Me-IQR/2;Me+IQR/2), interval care conine aproximativ 50% dintre observaii, gradul de aproximare
fiind dependent de forma distribuiei.
Applet
Un applet este un program (de regul interactiv) ncrcat automat dintro pagin web. Nu este o
noiune specific statisticii i este prezent aici doar pentru a lega o adres web specializat pentru
appleturi dedicate unor prelucrri statistice: tools page
(http://www.stat.berkeley.edu/users/stark/Java/index.htm)
Aproximare normal (Normal approximation)
Aproximarea normal const n aproximarea unei arii de sub histograma datelor, transformate n uniti
standard, prin aria corespunztoare de sub curba normal standard.
De exemplu, se dorete o aproximare pentru aria de sub histograma de probabilitate binomial cu
parametrii n = 50 i p = 0,30 situat ntre 9.5 i 17.5 (aria exact este de 0,742). Pentru aproximarea
normal se standardizeaz limitele intervalului utiliznd media np = 15 i abaterea standard (n p
(1-p))1/2 = 3.24. Rezult c aria aproximant este cea de sub curba normal situat ntre (9.5 15)/3.24 = -1.697 i (17.5 - 15)/3.24 = 0.772, adic 0,735, o valoare apropiat de cea corect.
Pentru aproximarea distribuiilor discrete se vor utiliza coreciile de continuitate.
Asociere (Association)
Dou variabile sunt asociate dac repartiia valorilor luate de o variabil este diferit dup domenii de
valori distincte ale celeilalte variabile. n aceast situaie se poate interpreta c o parte din variabilitatea
uneia poate fi explicat de cealalt variabil. Vizual, asocierea poate fi detectat printro diagram de
mprtiere (scatterplot) n care norul de puncte prezint configuraii particulare, interpretabile ca
tendine (forme liniare, curbilinii etc.). Asocierea liniar poate fi msurat prin coeficientul de corelaie
(o asociere de tipul maremare, micmic este o asociere pozitiv, n timp ce o asociere maremic,
micmare este o asociere negativ)
Asociere liniar (Linear association)
Dou variabile sunt asociate liniar dac o modificare a unei variabile este asociat cu o midificare
proporional n cea de a doua variabil, factorul de proporionalitate fiind constant n domeniul
msurat. Gradul de asociere liniar este msurat prin coeficientul de corelaie (liniar), cu valori n
[-1,+1], valorile extreme nsemnnd asocieri perfecte, negative sau pozitive. Vezi coeficient de
corelaie.
Asociere neliniar (Nonlinear Association)
Relaia dintre dou variabile este neliniar dac o modificare n una dintre variabile este asociat cu o
modificare a celeilalte variabile, modificare dependent de valoarea primei variabile. Situaia contrar
este cea a unei asocieri liniare, n care modificrile sunt proporionale, factorul de proporionalitate
fiind constant (deci independent).
Ateptare, Valoare ateptat (Expectation, Expected Value)
Valoarea ateptat a unei v.a. este media ei, gndit ca media la limit a valorilor v.a. obinute n
experimente independente repetate. Se noteaz uzual cu Exp(X) sau cu E(X). n cazul unei v.a.
discrete, valoarea ateptat este media poderat a valorilor posibile, ponderile fiind probabilitile cu
care v.a. ia diferitele valori.
Se poate gndi valoarea ateptat a unei v.a. ca punctul de echilibru al histogramei probabilitilor,
dac aceasta ar fi o plac tiat dintrun material uniform.
Proprietile uzuale sunt
Exp(X+Y) = Exp(X) + Exp(Y)
2 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Exp (XY) = Exp(X)Exp(Y), dac X i Y sunt independente


Exp(aX ) = aExp(X).
Valoarea ateptat a unei statistici este media distribuiei de sondaj a statisticii.
Autoselecie (Self-Selection)
Situaia de autoselecie apare atunci cnd indivizii decid singuri dac sunt n grupul de control sau n
cel de tratament i este ntlnit n studiul comportamentului uman. De exemplu, studiile efectului
fumatului asupra sntii implic autoselecia: persoanele decid singure dac fumeaz sau nu.
Autoselecia exclude situaia de experiment i produce un studiu observaional. n situaia de
autoselecie, cercettorul trebuie s fie precaut n privina confundrii posibile a factorilor care
influeneaz deciziile individuale de apartenen la unul dintre grupuri.
Axiomele probabilitii (Axioms of Probability)
Se numete probabilitate orice funcie definit pe mulimea evenimentelor, cu valori reale i care
ndeplinete urmtoare trei axiome: (1) probabilitate unui eveniment este nenegativ, P(A)0; (2)
probabilitatea evenimentului total este egal cu 1, P(W)=1; (3) probabilitatea reuniunii a dou
evenimente incompatibile este egal cu suma probabilitilor, adic dac AB = , atunci P(AB)=
P(A)+P(B). n cazul cnd mulimea evenimentelor este infinit, suma se extinde la o reuniune infinit
de evenimente incompatibile P( Ai) = S P(Ai).
Probabilitatea unui eveniment se interpreteaz ca ansa de realizare a evenimentului i se exprim,
uneori, ca procentaj. Astfel, un eveniment A cu P(A)=1/4 poate fi gndit ca un eveniment care se
realizeaz n 25% din cazuri (un caz din patru).
Proprieti ale probabilitii: (1) dac AB, atunci P(A)P(B); (2) P(A)1; (3) P(non A) = 1 P(A); (4)
P()=0; (5) P(AB) = P(A)+P(B)P(AB).
Pentru cazul cnd toate evenimentele elementare sunt egal probabile, P({wi})=1/n (n fiind numrul finit
de evenimente elementare), atunci P(A) = nA/n, unde nA este numrul evenimentelor elementare care
compun evenimentul A. Regula se interpreteaz sub forma: probabilitatea evenimentului este egal cu
numrul cazurilor favorabile raportat la numrul total de cazuri posibile.

B
Bias (Bias)
Un estimator, sau un proces de msurare, se zice deplasat dac, n medie, valoarea sa difer de
mrimea estimat (msurat) adevrat. Deplasarea este media acestei diferene. Deplasarea poate fi
datorat i modului de conducere, evaluare a unui experiment. Vezi i deplasarea de nonrspuns.
Bin (Bin)
Limita unui interval de clas. Valorile care realizeaz partiionarea n intervale de clas.
Bivariat (Bivariate)
Termenul se aplic atunci cnd sunt implicate dou variabile.De exemplu, date bivariate apar atunci
cnd se efectueaz dou msurtori pentru fiecare element al unui eantion.
n plus fa de datele univariate, apar probleme cum ar fi distribuia comun a variabilelor, corelaia
dintre variabile, regresia unei variabile n funcie de cealalt etc.
Boxplot (Boxplot)
O diagram de tip boxplot reflect grafic rezumarea prin cele 5 valori a unei distribuii: valoarea
minim, prima quartil, mediana, a treia quartil i valoarea maxim.

3 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Prin compararea intervalelor figurate se obine o imagine a gradului de mprtiere a valorilor n


domeniul observat.
De regul, se marcheaz pe diagram i valorile aberante: situate la mai mult de 1,5D sub prima
quartil sau peste a treia quartil, unde D noteaz distana dintre prima i a treia quartil (intervalul
interquartil) n figura anterioar, poziia valorii aberante este distorsionat din necesiti de
prezentare. Uneori, ntre valorile aberante se face distincia celor situate la mai mult de 3D de quartilele
extreme.
Prin reprezentarea simultan a celor cinci valori pentru grupuri diferite, se ofer suport pentru o
comparare rapid a grupurilor.

C
Cadru, cadru de sondaj (Frame, sampling frame)
Prin cadru (frame) de sondaj se nelege o colecie de elemente de unde se extrage eantionul. n mod
ideal, cadrul este chiar populaia. Diferena dintre cadrul de sondaj i populaie poate fi o surs de
apariie a unei deplasri (biais).
Cauzalitate, relaie cauzal (Causation, causal relation)
Dou variabile sunt n relaie de cauzalitate dac modificarea valorii uneia dintre ele (cauza) produce
modificarea valorii celeilalte (efectul). Nu exist nici o legtur ntre relaia de cauzalitate i relaia de
asociere din statistic. Dou variabile pot fi asociate statistic fr a exista nici o relaie de cauzalitate
ntre ele, n timp ce dou variabile n relaie de cauzalitate pot avea o corelaie nesemnificativ statistic.
Coeficient de corelaie (Correlation coefficient)
Coeficientul de corelaie (Pearson) este o msur a asocierii liniare dintre dou variabile, cu alte
cuvinte a gradului n care reprezentarea bivariat sub forma unei diagrame de mprtiere se apropie de
o dreapt. Notnd cu X i Y cele dou variabile i cu xi, yi, i=1,,n, valorile variabilelor, formula de
calcul este

.
Coeficientul de corelaie ia valori ntre 1 i +1, inclusiv, cu semnificaia de asociere pozitiv/negativ
dup semnul coeficientului i de lips de asociere pentru rXY = 0. Semnificaia statistic (aproximativ)
este obinut aplicnd un test Student cu statistica

4 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

, avnd n-2 grade de libertate.


Confundare (Confounding)
Dou variabile sunt confundate dac este imposibil s se determine care variabil este asociat efectului
observat.
Atunci cnd se compar un grup de control i un grup experimental (supus unui tratament oarecare) i
cnd diferenele dintre grupuri, altele dect tratamentul aplicat, produc diferene ntre rezultate
nedifereniabile de efectul tratamentului, aceste diferene se zic confundate cu efectul tratamentului
(dac acesta exist). De exemplu, diferenele ntre maladiile fumtorilor i nefumtorilor pot fi
confundate cu calitile individuale difereniate ale subiecilor. Confundarea poate afecta studiile
observaionale i experimentele care nu sunt randomizate. Vezi i paradoxul lui Simpson.
Consisten (Consistency)
Un estimator se zice consistent dac tinde s se apropie de parametrul pe carel estimeaz o dat cu
mrirea volumului eantionului.
Statisticile uzuale sunt consistente.
Contrabalansare (Counterbalancing)
Este procedura prin care se ncearc reducerea riscului de confundare. De exemplu, ntrun experiment
n care un subiect este supus mai multor probe, ordinea acestora este diferit astfel nct fiecare ordine
posibil s fie egal prezent. n acest fel se elimin confundarea cu variabila (ascuns) a ordinii de
prezentare a probelor.
Controale istorice (Historical Controls)
Uneori, grupul experimental este comparat cu un grup de control care aparine altei epoci istorice. n
asemenea cazuri, fenomenul de confundare este mult mai mare, deoarece de la o epoc la alta se
modific muli factori ale cror efecte pot fi confundate cu efectul tratamentului.
Control (Control)
Exist cel puin trei sensuri ale cuvntului "control" n statistic: un element al unui grup de control, un
experiment controlat i controlul pentru o posibil variabil confundat (a controla o variabil nseamn
a ncerca separarea efectului ei de efectul tratamentului).
Convenia punctului extrem (Endpoint Convention)
La gruparea datelor continue, trebuie s se decid n ce interval s se includ o valoare care este egal
unui punct de divizare. Regula de includere constituie convenia punctului extrem. Exist dou
convenii utilizate: (1) se include punctul din stnga i se exclude cel din dreapta, cu excepia
intervalului din extremitatea dreapt care include ambele capete; (2) se include punctul din dreapta i se
exclude cel din stnga, cu excepia intervalului din extremitatea stng care include ambele capete.
Convergen n probabilitate (Convergence in probability)
Un ir de variabile aleatorii X1, X2, X3 . . . converge n probabilitate dac exist o v.a. X astfel nct
pentru orice e>0, irul
P(|X1 - X| < e), P(|X2 - X| < e), P(|X3 - X| < e), . . .
converge la 1.

5 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Corecia de populaie finit (Finite Population Correction)


Atunci cnd eantionarea este fr repunere, ca n sondajul aleatoriu simplu, eroarea standard a sumei
de sondaj i a mediei de sondaj depinde de fraciunea extras din populaie: cu ct volumul eantionului
este mai mare, cu att mai mic este eroarea standard. Ajustarea erorii standard n acest caz este
denumit corecia de populaie finit. Sondajul cu repunere este similar celui dintro populaie infinit.
Eroarea standard pentru un sondaj fr repunere este mai mic dect cea pentru un sondaj cu repunere
cu factorul de corecie ((N -n)/(N - 1)). Se verific imediat c acest factor corespunde intuiiei pentru
n=1 sau n=N.
Corecie de continuitate (Continuity Correction)
Corecia de continuitate apare atunci cnd o distribuie discret (cum ar fi cea binomial) este
aproximat printro distribuie continu (cum ar fi cea normal) i const extinderea intervalului cu
jumti de uniti de msur: o valoare k din distribuia discret devine un interval (k-1/2,k+1/2) din
distribuia continu.
Corelaie ecologic (Ecological Correlation)
Noiunea se utilizeaz atunci cnd se estimeaz corelaia dintre mediile grupurilor de subieci i nu ntre
subieci. Rezultatul poate s estimeze incorect asocierea variabilelor. Noiunea este specific studilor
ecologice.
Curba F (F Curve)
Printro curb F se nelege o familie de curbe care depind de doi parametri, n1 i n2, numii grade de
libertate. Expresia analitic este

unde Geste funcia lui Euler, dat de


.
Cteva curbe din familie sunt prezentate n imaginea urmtoare:

Funcia f este densitatea de probabilitate pentru repartiia F(n1;n2) i se observ asimetria pozitiv
pronunat pentru valori mici ale gradelor de libertate, ca i atenuarea acestei asimetrii pentru valori
mari ale parametrilor.
Curba c2 (Chi-square Curve)
Curba c2 este o familie de curbe care depind de un parametru, n, numit grade de libertate (d.f.).

6 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Expresia analitic este

,
unde Geste funcia lui Euler, dat de
.
2

Curba c este o aproximare pentru histograma probabilitilor statisticii c2 pentru modelul multinomial
dac numrul ateptat de rezultate din fiecare categorie este suficient de mare.
Funcia f este densitatea de probabilitate pentru repartiia c2.
Pentru n suficient de mare, forma graficului se apropie de alura curbei normale.

Curba normal (Normal curve)


Curba normal reprezint grafic densitatea de probabilitate a repartiiei normale. Pentru repartiia
normal standard se obine imaginea urmtoare, mai cunoscut sub denumirea de clopotul lui Gauss.

Expresia analitic, n cazul unei repartiii normale cu parametrii m i s, este:

Pentru m=0 i s=1 se obine expresia analitic a funciei normale standard, reprezentat n figura
precedent.
Este de reinut c graficul este simetric iar aria de sub curb este egal cu 1.
Curba normal standard (Standard Normal Curve)
Vezi Distribuia normal.

7 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Curba Student, t (Student's t curve)


Prin curba Student se nelege graficul densitii de probabilitate a repartiiei Student (de fapt o familie
de curbe indexat prin numrul gradelor de libertate).
Curba este simetric i are o form apropiat de curba normal standard ctre care tinde o dat cu
mrirea numrului de grade de libertate. Se poate observa c probabilitile extreme sunt mai mari
dect n cazul curbei normale.

Cazul cel mai des ntlnit de utilizare este acela n care se consider o populaie aproape normal
distribuit cu media . Fie un eantion aleator de volum n avnd media egal cu M i abaterea standard
egal cu s. Definim v.a. T prin
T = (M - )/(s/n).
Pentru valori mici ale lui n se poate considera c T este repartizat Student cu n 1 grade de libertate.
Adic
P(a < T < b) @ aria de sub curba S(n 1) delimitat de x = a i x = b.

D
Date multivariate (Multivariate Data)
Un set de msurtori efectuate asupra a dou sau mai multor variabile, o observaie fiind ansamblul
valorilor pentru un anumit element (individ) din eantion.
Deplasare (Bias)
Vezi Bias.
Deplasare de nonrspuns (Nonresponse bias)
Dac cei care rspund ntrun studiu difer de cei care nu rspund ntrun mod dependent de variabila
urmrit, atunci apare o deplasare (biais) datorat nonrspunsurilor. De exemplu, ntrun anchet
sociologic prin telefon, efectuat dupamiaza, nu vor fi prini cei care lucreaz n acel timp. Dac
rezultatele obinute urmresc ntreaga populaie, este evident c apare o deplasare de nonrspuns.
Deplasare de selecie (Selection Bias)
Este tendina sistematic dintro procedur de sondaj de a include i/sau exclude uniti de sondaj de
un anumit tip. O asemenea deplasare este posibil atunci cnd formarea eantionului este la latitudinea
unei persoane. Pentru eliminarea riscului de apariie a deplasrii de selecie se utilizeaz scheme de

8 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

sondaj probabilist care nu mai las loc la opiuni personale.


Diagram de mprtiere (Scatterplot)
Pentru date bivariate, diagrama de mprtiere este obinut prin reprezentarea grafic a punctelor de
coordonate (xi,yi), unde xi i yi sunt valorile celor dou variabile studiate care se refer la un acelai
element din eantion.
Din analiza formei norului de puncte astfel obinut se pot obine informaii privind repartiia comun a
celor dou variabile, repartiiile marginale (fiecare variabil fiind considerat separat), precum i
informaii despre asocierea variabilelor.
Mai este denumit diagram XY.
Diagrama reziduurilor (Residual Plot)
O diagram a reziduurilor lund pe axa Ox o variabil explicativ (independent) sau explicat
(dependent). Forma norului de puncte obinut conduce la concluzii asupra adecvanei modelului.
Dispersie (Variance)
Dispersia unei liste de valori este ptratul abaterii standard, adic media ptratelor abaterilor numerelor
de la media lor.
Dispersia unei variabile aleatoare X, notat Var(X), este valoarea ateptat a diferenei ptrate dintre
variabil valoarea ei ateptat:
Var(X) = Exp((X E(X))2).
Dispersia unei variabile aleatoare este ptratul erorii standard (SE) a variabilei .
Dispersie de sondaj (Sample Variance)
Dispersia de sondaj s2 este un estimator al dispersiei populaiei, bazat pe un eantion aleatoriu.
Ca statistic, msoar gradul de mprtiere a eantionului n jurul mediei de sondaj. Presupunnd c
exist n elemente n eantion, cu valorile {x1, x2, . . . , xn}, avnd media M = (x1 + x2 + . . . + xn)/n,
atunci
s2 = [(x1 - M)2 + (x2 - M)2 + . . . + (xn - M)2]/(n-1)
Se observ c este ptratul abaterii standard de sondaj, s. Dispersia de sondaj este un estimator
nedeplasat al dispersiei populaiei.
Distribuia c2 (Chi-square distribution)
O v.a. continu X este repartizat c2 dac are ca funcie de repartiie
, pentru x>0 i F(x) = 0, n rest
n care f este funcia c2.

O v.a. repartizat c2 are valoarea ateptat (media) egal cu n i dispersia egal cu 2n. De regul, o v.a.
repartizat c2 este notat cu simbolul c2.
Dac Z1, Z2, , Zn sunt v.a. independente repartizate normal standard, N(0;1), atunci suma ptratelor
lor este o v.a. repartizat c2 cu n grade de libertate.
Distribuia cumulativ de probabilitate (Cumulative Probability Distribution Function cdf)
Este o alt denumire a funciei de repartiie

9 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Distribuia de probabilitate comun (Joint Probability Distribution)


Dac X1, X2, . . . , X k sunt v.a., distribuia comun de probabilitate d probabilitatea evenimentelor
determinate de mulimea v.a. considerate, n sensul c pentru orice colecie de mulimi numerice {A1,
. . . , Ak}, distribuia comun determin
P( (X1 A1) i (X2 A2) i . . . i (Xk Ak) ).
Distribuia geometric (Geometric Distribution)
Distribuia geometric descrie numrul de ncercri efectuate pn la obinerea unui succes, inclusiv
ncercarea succes, ncercrile fiind independente i avnd aceeai probabilitate de succes. Distribuia
geometric depinde doar de un parametru, p, probabilitatea unui succes i atribuie probabilitatea p(1 p)k1 evenimentului care necesit k ncercri pn la primul succes.
Valoarea ateptat este 1/p, eroarea standard a distribuiei fiind (1-p)/p.
Distribuie (Distribution)
Termenul distribuie se poate referi la o mulime de date observate (empirice) sau la o v.a. Distribuia
unei mulimi de date numerice arat cum se repartizeaz aceste date peste mulimea numerelor reale.
Distribuia este caracterizat complet de funcia de distribuie (repartiie) empiric. Distribuia de
probabilitate a unei v.a. este, n mod similar, caracterizat complet de funcia de repartiie a v.a.
Distribuie strmb (Skewed Distribution)
O distribuie care nu este simetric. Vezi i indice de asimetrie.
Distribuie aproape normal (Nearly normal distribution).
O mulime de valori (realizri ale unei v.a.) se spune c are o distribuie aproape normal dac
histograma valorilor n uniti abateri standard urmeaz o curb normal. Mai precis, s presupunem c
media este i abaterea standard este s. Atunci numerele sunt repartizate aproape normal dac, pentru
orice a < b, proporia numerelor dintre a i b este aproximativ egal cu aria de sub curba normal
delimitat de (a - )/s i (b - )/s.
Distribuie bimodal (Bimodal)
O distribuie care are dou valori mod.
Distribuie binomial (Binomial Distribution)
O variabil aleatoare are o distribuie binomial cu parametrii n i p, notat uneori Bi(n,p), dac
reprezint numrul de "succese" ntrun numr fixat n de ncercri aleatorii independente, fiecare
ncercare avnd aceeai probabilitate p de a produce un "succes". n acest caz, probabilitatea apariiei a
k succese (i deci a n-k insuccese) este
.
Valoarea medie (ateptat) a unei variabile aleatoare distribuit binomial este np, iar abaterea
standard este (np(1 - p)).
Distribuie binomial negativ (Negative Binomial Distribution)
Fie o secven de ncercri independente cu aceeai probabilitate de succes p n fiecare ncercare.
Numrul de ncercri efectuate pn se obin r succese are o o distribuie binomial negativ cu
parametrii n i r. Notnd numrul menionat de ncercri cu N, are loc

10 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

pentru k = r, r+1, r+2, . . . i zero pentru k < r.


Distribuie de frecvene (Frequency Distribution)
Fie o variabil discret care are (grupate sau nu) k nivele sau o variabil continu care este prezentat
grupat n k intervale. Se numete distribuie de frecvene ansamblul {f1, f2, , fk}, unde fi noteaz
numrul de observaii din nivelul k, sau din intervalul k (frecvena absolut a clasei k).
Dac frecvenele sunt exprimate relativ, ca raport fi / n, n fiind volumul eantionului, atunci se vorbete
de o distribuie de frecvene relative.
Pentru o variabil continu, frecvenele pot fi cumulate (absolute sau relative), frecvena cumulat a
unui interval reprezentnd suma frecvenelor (absolute sau relative) pentru toate intervalele anterioare
(inclusiv intervalul curent).
O distribuie de frecvene se prezint sub form tabelar sau sub form grafic de histogram sau de
poligon de frecvene.
Distribuie de probabilitate (Probability Distribution)
Distribuia de probabilitate a unei v.a specific, n general, probabilitile cu care v.a. ia valori n orice
submulime de numere reale.
Pentru o v.a. discret, distribuia de probabilitate poate specificat preciznd probabilitile cu care v.a.
ia valorile posibile. Pentru v.a. continue, distribuia de probabilitate poate fi caracterizat prin
densitatea de probabilitate.
Distribuie de sondaj (Sampling distribution)
Distribuia de sondaj a unui estimator este distribuia de probabilitate a valorilor estimatorului calculate
pentru toate eantioanele de acelai volum.
De exemplu, pentru a obine distribuia de sondaj a mediei, se vor considera toate eantioanele de
acelai volum n, se va calcula media fiecrui eantion i se determin distribuia de probabilitate a
valorilor astfel obinute.
Dac variabila studiat are o repartiie normal N(m,s2), sau dac n este mai mare dect 30, distribuia
de sondaj este normal,
.
Distribuia de sondaj are un rol important n statistica inferenial.
Distribuie F (F Distribution)
Funcia de repartiie F (FisherSnedecor) are ca densitate de probabilitate curba F. Funciile acestei
clase de repartiii teoretice sunt difereniate de doi parametri, n1 i n2, numii grade de libertate. Din
aceast cauz se utilizeaz notaia F(n1,n2).
Pentru o v.a. X repartizat F(n1,n2) se demonstreaz c

ntre quantilele distribuiei exist relaia:


.

11 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Repartiia F este utilizat pentru testarea ipotezelor n care se compar dou dispersii.
Ca rezultat important menionm:
Dac X1 i X2 sunt dou v.a. repartizate c2 cu n1 i, respectiv, n2 grade de libertate, atunci v.a.
X definit prin

este repartizat F(n1,n2).


Teorema arat c raportul a dou dispersii de sondaj dintro populaie normal are o repartiie F i de
aici provine denumirile uzuale: n1 gradele de libertate ale numrtorului i, respectiv, n2 gradele de
libertate ale numitorului.
Alt rezultat important este:
Dac v.a. T este repartizat Student cu n grade de libertate, atunci X = T2 este repartizat F(1;n).
Distribuie c2 (Chi Square Distribution)
Funcia de repartiiec2 are ca densitate de probabilitate funcia avnd drept grafic curba c2. Funciile
acestei clase de repartiii sunt difereniate de un parametru numit grade de libertate, n.
Media unei v.a. repartizat c2 este n, valoarea mod este n2, mediana este aproximativ n0,7.
Distribuia c2 este utilizat direct sau indirect n teste de semnificaie.
Distribuie hipergeometric (Hypergeometric Distribution)
Distribuia hipergeometric cu parametrii N, G i n este distribuia obiectelor "bune" ntrun sondaj
aleator simplu (fr repunere) de volum n, dintro populaie de N obiecte dintre care G sunt "bune".
Probabilitatea asignat obinerii a exact g obiecte bune ntrun eantion este

,
unde g n, g G i n - g N - G (probabilitatea este zero n caz contrar).
Valoarea ateptat este nG/N iar eroarea standard este

((N-n)/(N-1)) (n G/N (1-G/N) ).


Distribuie multimodal (Multimodal Distribution)
O distribuie cu mai mult de o valoare mod. Histograma unei distribuii multimodale are mai multe
vrfuri.
Distribuie multinomial (Multinomial Distribution)
Fie o secven de ncercri independente, fiecare avnd un rezultat care aparine unei categorii din k
posibile. Fie pj probabilitatea ca fiecare ncercare s produc o ieire din categoria j, j = 1, 2, . . . , k,
deci
p1 + p2 + . . . + pk = 1.

12 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Numrul de ieiri de fiecare tip are o distribuie multinomial. n particular, probabilitatea ca n n


ncercri s apar n1 rezultate de tip 1, n2 rezultate de tip 2, , nk rezultate de tip k este
n!/(n1! n2! . . . nk!) p1n1 p2n2 . . . pknk,
unde n1, . . . , nk sunt ntregi nenegativi cu suma n; probabilitatea este zero n rest.
Distribuie normal (Normal distribution)
Prin definiie, o v.a. X are o repartiie normal cu parametrii m i s dac densitatea sa de probabilitate
este
.

Se demonstreaz c m i s 2 este media, respectiv dispersia, v.a. X. Conform definiiei funciei de


repartiie,

i se poate demonstra c pentru orice a b, probabilitatea ca a < (X-m)/s < b este


P(a < (X-m)/s < b) =
= aria de sub curba normal standard delimitat de x = a i x = b
formul care permite calcularea probabilitilor asociate cu repartiia normal doar cunoscnd
probabilitile asociate repartiiei normale standard.
Notaie uzual este X~N(m,s2). Pentru distribuia normal standard se obine X~N(0,1).
Distribuie Poisson (Poisson Distribution)
Distribuia Poisson este o distribuie de probabilitate discret care depinde de un parametru, m. Dac X
este o v.a. avnd distribuia Poisson cu parametrul m, atunci
P(X = k) =e-m mk /k!, k = 0, 1, 2, . . . ,

i 0 pentru alte valori ale lui k.


Valoarea medie (ateptat) a distribuiei Poisson este m (valoarea parametrului), iar abaterea standard
este m.
Distribuie simetric (Symmetric Distribution)
Distribuia de probabilitate a variabilei aleatoare X este simetric dac exist un numr a astfel nct
ansa ca X>=a+b este aceeai cu ansa ca X<=a-b pentru orice valoare b. O list de numere are o
distribuie simetric dac exist un numr a astfel nct procentajul numerelor din list care sunt mai
mari sau egale cu a+b este acelai cu procentajul numerelor din list care sunt mai mici sau egale cu
a-b, pentru orice numr b. n ambele cazuri, histograma sau curba de probabilitate este simetric fa
de dreapta x=a.
Distribuie Student, t (Student's t distribution)
Distribuia Student, notat S(n) sau tn, este utilizat, de regul, n verificarea ipotezelor statistice pe
baza rezultatelor obinute n eantioane de volum redus, n 30, sau atunci cnd aproximarea cu o
repartiie normal este nesatisfctoare.
Parametrul n al repartiiei poart denumirea de grade de libertate i poate lua valorile 1, 2, . Prin
definiie, densitatea de probabilitate a repartiiei Student este

13 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

.
O v.a. repartizat Student cu n grade de libertate are media egal cu zero i dispersia n / (n2), pentru
n > 2.
Pentru n > 30, se poate aproxima repartiia Student prin repartiia normal standard N(0;1).
Distribuie uniform (Uniform Distribution)
Este aceea n care probabilitatea de apariie a oricrei valori este aceeai (constant), rezultatele sunt
egal probabile. Histograma conine n acest caz dreptunghiuri de nlimi egale, motiv pentru care
distribuia uniform mai este denumit dreptunghiular (rectangular).
Domeniu (Range)
Vezi amplitudine.
Dublu orb, Experiment dublu orb (Double-Blind, Double-Blind Experiment)
ntrun experiment dublu orb, nici subiecii i nici cei care evalueaz subiecii nu tiu cine este n grupul
experimental i cine n grupul de control.

E
Efect de transport (Carryover Effect)
Apare n planurile experimentale intrasubieci (fiecare subiect este evaluat la fiecare nivel al factorului)
i se datoreaz faptului c evaluarea unui subiect la un nivel al factorului este influenat de faptul c
subiectul a fost evaluat la nivele anterioare. De exemplu, fornd situaia de dragul exemplificrii, un
acelai copil nu poate fi nvat s citeasc prin dou metode diferite (dup prima metod el tie deja s
citeasc).
Dac efectele de transport sunt importante, atunci se va renuna la planul intrasubieci n favoarea unui
plan experimental ntresubieci (la fiecare nivel al factorului se consider un alt grup de subieci).
Efect placebo (Placebo effect)
Credina subiectului sau cunoaterea de ctre acesta a faptului c este tratat poate s aib un efect care
se confund cu efectul real al unui tratament. Astfel, subiecii crora li se administreaz un placebo
contro durerilor raporteaz o reducere semnificativ statistic a durerii ntrun experiment randomizat n
care se compar cu subieci care nu primesc nici un tratament. Acest efect psihologic, care nu este un
efect biochimoc direct este numit efect placebo. Vezi i experiment orb.
Efect principal (Main Effect)
ntrun experiment factorial, efectul principal al unui factor evideniaz influena factorului asupra
variabilei dependente. Efectul principal se apreciaz direct prin compararea mediilor calculate separat
pentru fiecare nivel al factorului, medierea fiind efectuat dup toate nivelele celorlali factori.
n analiza dispersional se testeaz semnificaia fiecrui efect principal al factorilor considerai.
Vezi i efect simplu.
Efect simplu (Simple Effect)
Prin efect simplu se nelege efectul unui factor considernd un singur nivel al unui alt factor. De
regul, evidenierea efectelor simple urmeaz stabilirii interaciunii factorilor i urmrete stabilirea
14 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

acelor nivele ale celui de al doilea factor la care factorul considerat are efect.
Efectul tratamentului (Treatment Effect)
Este efectul pe care tratamentul l are asupra comportrii unei variabile de interes.
Eficien (Efficiency)
Eficiena unei statistici reprezint gradul n care statistica rmne stabil la schimbarea eantionului
(fluctuaia de sondaj este mai mic). Deoarece este dificil de definit i de estimat eficiena unei statistici,
se utilizeaz doar sub forma de eficien relativ: se spune c o statistic A este mai eficient dect o
statistic B dac eroarea standard a lui A este mai mic dect eroarea standard a lui B. Eficiena
relativ poate s depind de distribuia datelor: media este mai eficient dect mediana pentru date
normal repartizate, dar are o eficien mai mic pentru date cu asimetrie pronunat.
Eroare aleatoare (Random Error)
Toate msurtorile sunt afectate de erori. Acestea se pot clasifica n erori sistematice (bias) care
afecteaz toate msurtorile n acelai mod i erori aleatorii specifice fiecrei msurtori. Se
presupune c acestea sunt repartizate cu media zero i se datoreaz unor cauze multiple neconsiderate
n cercetare.
Eroare de sondaj (Sampling error)
n estimarea bazat pe un eantion aleator, diferena dintre valoarea estimatorului i parametrul estimat
poate fi scris ca suma a dou componente: deplasarea (biais) i eroarea de sondaj. Deplasarea este
eroarea medie a estimatorului, calculat dup toate eantioanele posibile, i nu este o cantitate aleatorie
(este eroarea sistematic a msurtorilor). Eroarea de sondaj este acea component a erorii care
variaz de la eantion la eantion i are un caracter aleatoriu: depinde de norocul extragerii anumitor
elemente la formarea eantionului. Poate fi privit ca variaia datorat ansei.
Media, valoarea ateptat a erorilor de sondaj este egal cu zero.
Eroarea standard a estimatorului este o msur a mrimii tipice a erorii de sondaj.
Eroare ptrat medie (Mean Squared Error MSE)
Eroarea medie ptratic a unui estimator X al unui parametru p este valoarea ateptat a ptratului
diferenei dintre valoarea estimatorului i parametru:
MSE(X) = Exp( (X-p)2 ).
MSE msoar ct de departe este estimatorul de cea ce ncearc s estimeze, ca medie n experimente
repetate. Indicatorul combin tendina estimatorului de a sub sau supraaprecia valoarea adevrat
(bias) i variabilitatea estimatorului (SE, eroarea standard). Poate fi scris ca:
MSE(X) = (bias(X))2 + (SE(X))2.
Eroare sistematic (Systematic error)
O eroare care afecteaz toate msurtorile n mod similar. De exemplu, dac gradaiile unei rigle sunt
mai mici (10cm de pe rigl sunt mai mici dect valoarea real pentru 10cm), orice distan apare ca
fiind mai mare (ignornd erorile aleatorii). Erorile sistematice nu au tendina de a avea media egal cu
zero.
Eroare standard (Standard Error SE)
Eroarea standard a unei variabile aleatoare este o msur a deprtrii de valoarea ateptat, adic a

15 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

mprtierii n experimente repetate.


SE(X) = {Exp [ (X - Exp (X))2 ] } .
Definiia este similar definiiei abaterii standard.
Eroare standard (Standard Error)
Prin eroare standard se nelege abaterea standard a valorilor unei funcii fixate, valori obinute pentru
toate eantioanele posibile de un acelai volum.
Eroarea rdcinii medie ptrat (Root-mean-square error RMSE)
Dac X este un estimator al parametrului p, atunci RMSE(X) este rdcina ptrat a erorii medii
ptrate a estimatorului:
RMSE(X) = ( Exp( (X-p)2 ) ).
Este o msur a erorii ateptate a estimatorului.
Erori de tipul I i de tipul II (Type I and Type II errors)
Se refer la testarea ipotezelor. O eroare de tip I apare atunci cnd ipoteza nul este respins n mod
eronat (ea fiind adevrat). O eroare de tip II se refer la situaia cnd ipoteza nul nu este respins
dei ea este fals.
Riscul apariiei unei erori de tip I este egal cu nivelul de semnificaie, a.
Riscul unei erori de tip II se noteaz cu b, diferena 1b constituind puterea testului.
Este de notat c nu este posibil s se minimizeze simultan cele dou riscuri.
Eantioane independente (Independent Samples)
Eantioane independente sunt acelea n care probabilitatea ca un element s fie selectat nu depinde de
faptul c un alt element a fost deja selectat n cellalt eantion. Nu exist nici o corelare ntre
elementele celor dou eantioane.
Eantioane perechi (Matched Samples)
Dou eantioane n care elementele sunt clar perechi (de exemplu msurtori efectuate pe perechi de
gemeni identici), sau n care elementele unui eantion sunt selectate pentru a se potrivi elementelor
celuilalt eantion.
O situaie special este atunci cnd acelai eantion este evaluat nainte i dup o aciune suplimentar
(aceieai atlei evaluai nainte i dup o curs), aici perechea find msurtorile efectuate pe acelai
element.
Se mai utilizeaz denumirea de eantioane corelate sau dependente.
Eantion (Sample)
Prin eantion se nelege o colecie (submulime) de elemente din populaie.
Eantion aleator (Random Sample)
Un eantion aleatoriu este un eantion ale crui elemente sunt selectate aleatoriu dintro populaie dat
n aa fel nct ansa obinerii oricrui eantion particular poate fi calculat.
Numrul de elemente din eantion se numete volumul eantionului.
Un eantion aleatoriu poate fi obinut cu sau fr repunerea elementului selectat ntre extrageri.
Eantion aleator simplu (Simple Random Sample)

16 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Un sondaj aleatoriu simplu de n uniti dintro populaie const n extragerea elementelor eantionului
printro procedur care asigur aceeai probabilitate de selecie pentru orice submulime de n uniti a
populaiei. Eantionul astfel obinut se numete aleator simplu. Probabilitatea ca eantionul s fie o
anumit submulime de cardinal n este atunci

Un sondaj aleatoriu simplu este un sondaj fr repunere (un element selectat nu mai poate fi ales a
doua oar). De exemplu, o procedur de selectare a unui eantion de volum n dintro populaie cu N
>= n uniti poate fi obinut prin asignarea unui numr aleatoriu ntre zero i unu la fiecare unitate a
populaiei i reinerea acelor uniti care corespund la cele mai mari n numere.
Eantion de convenien (Convenience Sample)
Un eantion format datorit uurinei de al obine. De exemplu, pentru a afla opinia studenilor
intervievm studenii unei grupe. Un asemenea eantion, nefiind aleatoriu, nu este, de regul,
reprezentativ pentru ntreaga populaie (i nici nu se poate spune ct de nereprezentativ este).
Eantion de tip Cluster (Cluster Sample)
ntro eantionare de tip cluster, unitatea de eantionare este o colecie de elemente ale populaiei
(blocuri) i nu un element al populaiei. De exemplu, ntrun studiu sociologic, se ncepe prin a
extragerea unor blocuri difereniate geografic.
Eantion probabilist (Probability Sample)
Eantion obinut printrun mecanism aleatoriu, astfel nct fiecare element al populaiei are o ans
cunoscut de a fi selectat.
Eantion sistematic (Systematic sample)
Un eantion sistematic se obine prin numerotarea elementelor mulimii unitilor de selecie i
extragerea fiecrui al klea element. Eantioanele sistematice nu sunt aleatorii, dar dac ordinea n care
se face numerotarea este sistematic, atunci eantioanelor sunt ca i cum ar fi aleatorii.
Eantion stratificat (Stratified Sample)
Un eantion obinut n urma unui sondaj stratificat.
Estimaie (Estimation)
Prin estimaie a unui parametru se nelege o valoare care aproximeaz valoarea parametrului. De
regul, estimaia este valoarea, obinut dintrun eantion, a unui estimator. De exemplu, o estimaie a
mediei populaiei se obine utiliznd media aritmetic (estimatorul) i calculndo pe baza datelor unui
eantion.
Sunt utilizate dou tipuri de estimaii: estimaii punctuale i estimaii sub form de interval. De
exemplu, a spune c astzi sunt 15oC este o estimaie punctual, n timp ce a spune c astzi sunt ntre

12 oC i 18oC este o estimaie de interval. A se vedea i interval de ncredere.

Estimaie bootstrap (Bootstrap estimate)


Ideea metodelor bootstrap este aceea de a presupune, n scopul estimrii, c eantionul este populaia
cercetat.i de a utiliza eroarea standard de sondaj din eantion ca estimaie a erorii standard de sondaj
pentru populaie.
Estimaie de verosimilitate maxim (Maximum Likelihood Estimate MLE)
Estimaia de verosimilitate maxim a unui parametru, obinut dintro mulime de date observate, este

17 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

acea valoare posibil a parametrului pentru care probabilitatea de a observa datele efectiv observate
este maxim. Presupunnd c parametrul este p i c observm datele x, estimaia de verosimilitate
maxim a lui p este q care maximizeaz P(a observa x atunci cnd valoarea lui p este q).
De exemplu, presupunem c se dorete estimarea ansei ca aruncnd o moned s obinem pajura (o
faet fixat). Datele disponibile sunt numrul x de ori de apariie a pajurei n n aruncri
independente. Cum distribuia implicat este binomial cu parametrii n (cunoscut) i p (necunoscut).
Probabilitatea de a observa x pajure n n ncercri este, notnd cu q ansa unui succes,
qx(1-q)n-x.
Estimaia de verosimilitate maxim a lui p este acea valoare a lui q care maximizeaz aceast
probabilitate. Se obine q = x/n, adic proporia de apariii a faetei dorite n cele n aruncri.
Estimator (Estimator)
Un estimator este o regul de ghicire, pe baza datelor dintrun eantion aleator, a valorii unui
parametru al populaiei. n general, o statistic este utilizat ca estimator. Estimatorul este o variabil
aleatoare tocmai pentru c valoarea lui depinde de eantionul obinut n mod aleatoriu. Un exemplu
este media eantionului, care estimeaz media populaiei.
Cele trei caracteristici importante ale unui estimator sunt deplasarea (bias), consistena i eficiena
relativ.
Eveniment (Event)
Un eveniment este o submulime a spaiului ieirilor. Un eveniment determinat de o v.a. este de forma
A=(X A). Atunci cnd v.a. X este observat, se interpreteaz c evenimentul A sa realizat dac X
A i c A nu sa realizat dac X A.
O colecie de evenimente {A1, A2, A3, . . . } este exhaustiv dac se realizeaz ntotdeauna cel puin
un eveniment din colecie
S = A1 U A2 U A3 U . . .
unde S este spaiul ieirilor.
Eveniment aleator (Random Event)
Vezi experiment aleator.
Eveniment sigur (Certain Event)
Un eveniment sigur este un eveniment a crui probabilitate este egal cu 1. Trebuie totui avut n
vedere c se poate ca un eveniment sigur s nu se produc, dei ansa de a nu se produce este 0.
Evenimente dependente (Dependent Events)
Dou evenimente sunt dependente dac ele nu sunt independente.
Evenimente disjuncte sau mutual exclusive (Disjoint or Mutually Exclusive Events)
Dou evenimente sunt disjuncte dac apariia unuia dintre ele exclude apariia celuilalt (cele dou
evenimente nu pot s apar simultan). Dou evenimente disjuncte sunt incompatibile.
Evenimente incompatibile
Dac AB = , atunci ele sunt incompatibile. Vezi evenimente disjuncte.
Evenimente independente (Independent events)
Dac P(A|B) = P(A), adic P(AB)=P(A)P(B), atunci evenimentele se numesc independente
(probabilitatea de realizare a lui A nu este modificat de realizarea lui B).

18 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Experiment (Experiment)
Distincia dintre un experiment i un studiu observaional este aceea c n primul caz experimentatorul
decide cine este supus unui tratament.
Experiment aleator (Random Experiment)
Un experiment sau o ncercare al crui rezultat nu este perfect predictibil, dar pentru care frecvenele
relative ale rezultatelor ntrun numr mare de repetri sunt predictibile. De notat c aleatoriu este
diferit de haotic, care nu implic n mod necesar regularitate pe termen lung.
Experiment controlat (Controlled experiment)
Un experiment care utilizeaz compararea dintre un grup experimental (supus unui tratament) i un
grup de control (nesupus tratamentului).
Experiment controlat randomizat (Randomized Controlled Experiment)
Este un experiment n care asignarea indivizilor la grupul de control i la grupul experimental se
realizeaz aleatoriu. n acest mod se reduce ansa de confundare a efectului tratamentului efectuat cu
efectul altor factori.
Experiment necontrolat (Uncontrolled Experiment)
Un experiment n care nu exist grup de control, deci nu se utilizeaz o metod de comparare pentru a
decide asupra rezultatului unui tratament. Experimentatorul interpreteaz i apreciaz rezultatele
obinute.

F
Factor (Factor)
Denumirea de factor este utilizat ca alternativ, cu ncrctura de neles proprie totui, la denumirea
de variabil independent. Se poate astfel vorbi de experimente unifactoriale, bifactoriale,
multifactoriale, dup numrul de factori (variabile independente) considerai pentru explicarea unui
anumit efect (variabil dependent).
Pot fi considerai factori intersubieci (betweensubjects factors) n cazul n care grupuri diferite de
subieci sunt utilizate pentru fiecare nivel al factorului, sau factori intrasubieci (withinsubjects
factors) n cazul n care acelai grup de subieci este utilizat pentru fiecare nivel al factorului. Evident
c se pot utiliza i denumirile variabil intersubieci sau variabil intrasubieci.
Funcia de repartiie (Distribution Function)
Funcia de repartiie a unei variabile aleatoare este definit prin
F(x) = P( X <= x), oricare ar fi x real.
Funcia de repartiie, calculat pentru x, msoar ansa ca v.a. X ia valori mai mici sau egale cu x.
Rezult imediat c limita la - este 0, iar limita la + este 1.
Cunoaterea funciei de repartiie a unei v.a. permite calcularea probabilitilor cu care v.a. ia valori n
anumite intervale.
Funcie de densitate de probabilitate (Probability density function)
Pentru o v.a. continu, numim densitate de probabilitate acea funcie (dac exist), f, astfel nct funcia
de repartiie se poate calcula prin relaia

19 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Funcia de repartiie este, n acest caz, absolut continu.


Funcia densitate de probabilitate permite calculul probabilitii ca v.a. s aparin unui interval:
P(a<= X <=b) = (aria de sub graficul lui f limitat de a i b), unde a <= b,
Funcie de distribuie empiric (Distribution Function, Empirical)
Funcia (cumulativ) de distribuie empiric a unui set de valori numerice este definit, pentru orice
valoare real x, ca proporia de observaii mai mici sau egale cu x. Diagrama unei astfel de funcii este
un grafic de tip scar, n care limea unei trepte depinde de distana dintre date consecutive, iar
nlimea depinde de numrul de valori egale cu x. Funcia este monoton i are limita 0 spre - i 1
spre +.

G
Grade de libertate (degrees of freedom, d.f.)
n general, prin numr de grade de libertate al unei mrimi se nelege numrul variabilelor
independente a cror variaie nu sufer nici o restricie i care definesc mrimea considerat. Altfel
spus, numrul gradelor de libertate este egal cu numrul variabilelor independente, care definesc
mrimea considerat, minus numrul de restricii la care sunt supuse.
De exemplu, media aritmetic a n numere are n-1 grade de libertate, deoarece pentru a obine o valoare
impus se pot alege arbitrar n-1 valori, a na valoare fiind n acel moment fixat de restricia ca
valoarea mediei s fie egal cu valoarea impus (altfel spus, n valori i o restricie, deci n = n-1).
Un alt punct de vedere este acela c numrul gradelor de libertate este egal cu numrul valorilor
independente care sunt necesare estimrii minus numrul parametrilor estimai n pai anteriori: de
exemplu, pentru estimarea dispersiei se consider cele n valori, dar este necesar estimarea prealabil a
mediei, deci n1 grade de libertate.
Graficul mediilor (Graph of Averages)
Pentru date bivariate, un grafic al mediilor este diagrama valorilor medii ale unei variabile, fie ea y,
obinute pentru intervale de valori ale celeilalte variabile, fie ea x, n raport de mijloacele intervalelor x
considerate. Intuitiv, are loc o netezire a valorilor y pe intervale x, valorile obinute fiind reprezentate la
abscisele mijloacelor intervalelor x respective.
Grup de control (Control group)
Este, ntrun experiment controlat, mulimea subiecilor care nu sunt supui tratamentului. Rezultatele
se vor compara cu cele din grupul experimental pentru a decide asupra efectului tratamentului.
Grup de tratament (Treatment group)
Este format din elementele care primesc (urmeaz) tratamentul, n opoziie cu cele din grupul de
control. Diferenele observate ntre cele dou grupuri evideniaz efectul tratamentului.

H
Heteroscedasticitate (Heteroscedasticity)
La date bivariate, variabila y prezint heteroscedasticitate dac mprtierea valorilor y depinde de x.
Grafic, seciunile verticale n diagrama de mprtiere prezint distribuii diferite ale norilor de puncte.
Noiunea contrar este cea de homoscedasticitate.

20 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Histogram (Histogram)
O histogram este o diagram care rezum distribuia datelor. Pornind de la o mprire n intervale de
clase, histograma este o mulime de dreptunghiuri avnd ca baze intervalele de clase i ariile
proporionale cu numrul de observaii aparinnd intervalelor de clas. Astfel, nlimea unui
dreptunghi este calculat ca raportul dintre numrul de observaii din intervalul de clas i lungimea
respectivului interval. Axa vertical a unei histograme este astfel o scal de densitate. n construcia
unei histograme este important convenia punctului extrem.
Histogram de probabilitate (Probability Histogram)
ntro histogram de probabilitate se reprezint grafic probabilitile cu care v.a. aparine la intervalele
de grupare (n loc de frecvenele relative se utilizeaz probabilitile).
Homoscedasticitate (Homoscedasticity)
La date bivariate, variabila y prezint homoscedasticitate dac mprtierea valorilor y nu depinde de x.
Grafic, seciunile verticale n diagrama de mprtiere prezint distribuii similare ale norilor de puncte.
Noiunea contrar este cea de heteroscedasticitate.

I
Iluzia regresiei (Regression Fallacy)
Este atribuirea efectului regresiei unei cauze externe.
Independen (Independence)
Dou evenimente A i B sunt independente statistic dac P(AB) = P(A)P(B). Aceasta este echivalent
cu a spune c apariia unui eveniment nu d nici o informaie despre realizarea celuilalt eveniment:
P(A|B) = P(A).
Dou v.a. X i Y sunt independente dac toate evenimentele determinate de acestea sunt independente
(de exemplu, evenimentul {a < X <= b} este independent de {c < Y <= d} pentru orice a, b, c i d. Cu
alte cuvinte valoarea luat de o variabil nu ofer nici o informaie despre valoarea luat de cealalt
variabil.
O colecie de mai mult de dou v.a. este independent dac pentru orice submulime proprie de v.a.
orice eveniment determinat de variabilele din submulime este independent de orice eveniment
determinat de variabilele din mulimea complementar.
Dou sau mai multe v.a. {X1, X2, . . . , } sunt independente i identic distribuite dac variabilele au
aceeai distribuie de probabilitate i sunt independente.
Dou observaii sunt independente dac obinerea primei observaii nu influeneaz obinerea celeilalte
observaii. Echivalent, includerea n eantion a unui element nu influeneaz includerea altui element.
Dou statistici sunt independente dac sunt calculate din eantioane independente (sunt formate din
observaii independente). Este evident c aceast precizare completeaz definiia dat la independena
v.a.
Inegalitatea Chebychev (Chebychev's Inequality)
Pentru liste: Pentru orice k>0, proporia elementelor listei care difer de media aritmetic cu cel puin k
abateri standard este cel mult 1/k2.
Pentru v.a.: Pentru orice k>0, probabilitatea ca o v.a. X s difere cu cel puin k erori standard de
valoarea ateptat este cel mult 1/k2.
Inegalitatea lui Markov (Markov's Inequality)
Pentru serii numerice nenegative: procentajul de numere care sunt cel puin egale cu o constant a>0

21 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

nu este mai mare dect media aritmetic divizat prin a.


Pentru v.a.: dac X este o v.a. nenegativ, atunci P(X>= a) <= Exp(X)/a, a>0.
Indice de aplatizare (Kurtosis)
Mai este denumit coeficient de boltire. mpreun cu indicele de asimetrie, face parte din indicii de
apreciere a formei unei distribuii. Un indice de aplatizare mare arat o repartiie cu cozi mari (sunt
prezente categorii deprtate de medie), n timp ce un indice de aplatizare mic arat o repartiie n care
sunt prezente mai puine categorii deprtate de medie.
Formula de calcul este bazat pe momentul centrat de ordinul 4:

unde s2 este dispersia de sondaj.


n cazul unei repartiii apropiate de repartiia normal, coeficientul de aplatizare este n jurul valorii 3
(teoretic, repartiia normal are indicele de aplatizare b2 = 3, b2 fiind o estimaie a lui b2). Pe baza
acestui rezultat se definete excesul ca fiind
E = b2 3. Pentru E > 0, repartiia se numete leptocurtic, iar pentru E < 0, se numete platicurtic.
Dac E = 0, repartiia este mezocurtic.
La aproximarea prin repartiia normal, probabilitile laterale reale vor fi mai mari dect cele
aproximate n cazul unei repartiii platicurtice i vor fi mai mici n cazul unei repartiii leptocurtice.
Aproximarea este cu att mai bun cu ct excesul de sondaj este mai apropiat de 0.
Observaie. Unii autori numesc excesul ca fiind indicele de aplatizare.
Indice de asimetrie (Skewness)
Denumit i coeficientul de asimetrie, evalueaz gradul de asimetrie a unei repartiii. Caracterizeaz,
mpreun cu indicele de aplatizare, forma repartiiei (ilustrat de reprezentarea grafic sub form de
histogram). Definiia este bazat pe momentul centrat de ordinul 3:

Indicele de asimetrie este negativ sau pozitiv dup cum repartiia de sondaj este asimetric spre stnga
sau, respectiv, spre dreapta. O distribuie simetric, cum este distribuia normal, are asimetria nul,
deci b1 = 0.
n general, cu rare excepii provenite din realitate, o distribuie asimetric pozitiv are media mai mare
dect mediana, relaia inversnduse pentru distribuiile cu asimetrie negativ.

22 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Unii autori consider drept coeficient de asimetrie (b1)2, valoarea obinut caracteriznd gradul de
asimetrie, dar nu i sensul asimetriei.
Interaciune (Interaction)
Exist interaciune ntre dou variabile independente dac efectul unei variabile asupra variabilei
dependente este diferit dup nivelul celeilalte variabile.
Lund ca exemplu un studiu n care se urmrete efectul consumului de alcool i a oboselii (variabile
independente) asupra timpului de reacie la un stimul (variabila dependent), se poate intui c un
consum mare de alcool are un efect mai mare la un grad nalt de oboseal dect la un grad sczut de
oboseal, prin urmare exist interaciune ntre cele dou variabile.
Interaciunea poate fi detectat prin analiza dispersional (ANOVA) sau, grafic, prin plotarea separat
a liniilor/coloanelor unui tabel de contingen poligoane paralele vor susine lipsa de interaciune.
Interval de clas (Class Interval)
Pentru rezumarea datelor continue (reprezentri grafice, calculul anumitor statistici, raportare), este
necesar uneori gruparea datelor. Aceasta se realizeaz prin divizarea domeniului valorilor n intervale
disjuncte, numite intervale de clas (sau intervale de grupare), astfel nct fiecare valoare s fie
coninut ntrun interval de clas. Vezi i convenia punctului extrem.
Interval de ncredere (Confidence Interval)
Un interval de ncredere pentru un parametru este un interval construit pe baza datelor observate n aa
fel nct probabilitatea ca valoarea adevrat a parametrului s aparin intervalului de ncredere s
poat fi fixat independent de date (de regul, naintea culegerii datelor). Dac notm cu l valoarea
parametrului i cu m1, m2 limitele intervalului de ncredere, atunci P(m1<l<m2)=1-a,
unde a este pragul (nivelul) de ncredere al intervalului, iar 1-a se numete sigurana statistic. Ca
exprimare, se poate spune c (m1; m2) este intervalul de ncredere a parametrului l cu sigurana
statistic 1-a sau la pragul de ncredere a.
Dac m1 sau m2 sunt infinite, atunci intervalul de ncredere se mai numete unilateral, n situaia
contrar vorbinduse de un interval de ncredere bilateral.
Interval de ncredere bazat pe repartiia normal
Dac pentru estimarea unui parametru l se utilizeaz o statistic, notat stat, normal distribuit, cu
eroarea standard sstat cunoscut, atunci intervalul de ncredere bilateral, la nivelul de ncredere, este
(stat z1-a/2 sstat, stat + z1-a/2 sstat)
unde z1-a/2 este quantila de ordin 1-a/2 a repartiiei normale standard.
Astfel, pentru media aritmetic m a populaiei se obine intervalul
,
unde s este abaterea standard a populaiei, iar n este volumul eantionului de unde sa calculat media

23 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

de sondaj.
Interval de ncredere bazat pe repartiia Student
Situaia uzual este aceea n care eroarea standard a statisticii este i ea estimat din eantion. n acest
caz, intervalul de ncredere devine
(stat tn;1-a/2 sstat, stat + tn;1-a/2 sstat),
unde tn;1-a/2 este quantila de ordin 1-a/2 a repartiiei Student cu n grade de libertate (asociate
statisticii), iar sstat este eroarea standard estimat a statisticii.
n cazul mediei aritmetice, intervalul de ncredere bilateral este astfel
,
unde s este abaterea standard de sondaj (estimaie a abaterii standard a populaiei), iar n este volumul
eantionului.
Interval semiinterquartil (Semi-interquartile Range)
Ca msur a mprtierii, intervalul semiinterquartil este definit ca jumtate din diferena dintre quartila
a patra i quartila a doua: Q = (Q3-Q1)/2.
Este raportat de regul mpreun cu mediana, acceptnduse astfel c jumtate dintre observaii sunt
situate n intervalul (Me - Q; Me + Q), afirmaie care este departe de realitate n cazul distribuiilor cu
asimetrie pronunat.
Invarian, rezisten, stabilitate a unei statistici (Resistant)
O statistic se zice rezistent (stabil) dac prin modificarea (coruperea) unei date statistica nu se
modific prea mult. De exemplu, media nu este rezistent, n timp ce mediana este.
Ipotez alternativ (Alternative Hypothesis)
n testarea ipotezelor statistice, o ipoteza nul (cu semnificaia tipic a lipsei unui efect) este opus unei
negaii a ei, ipoteza alternativ (semnificnd uzual existena aparent a unui efect). Ipoteza nul
constituie baza raionamentului prin care se calculeaz probabilitatea de apariie a situaiei observate.
Dac aceast probabilitate este suficient de mic (prin comparaia cu un prag de semnificaie fixat),
atunci se spune c datele de sondaj nu susin ipoteza nul i aceasta este respins n favoarea ipotezei
alternative. Este de remarcat c aceast decizie nu nseamn c situaia observat este caracteristic
ipotezei alternative, sau c ipoteza nul este fals, sau c ipoteze alternativ este adevrat.
Ipotez nul (Null hypothesis)
n testarea ipotezelor statistice, prin ipoteza nul se nelege acea ipotez sub care se poate preciza
repartiia statisticii testului. Astfel, ipoteza nul este cea falsificabil (pentru care se poate decide
falsitatea, n sensul paradigmei falsificabilitii din filosofia cercetrii tiinifice) pe baza datelor
experimentale. De regul, ipoteza nul exprim c nu este prezent ceva, c nu exist nici un efect, c
nu exist nici o diferen (de unde i motivaia istoric a termenului de ipotez nul).
mprtiere (Spread)
Arat gradul de modificare a valorilor unei variabile de la o observaie la alta. Ca termeni sinonimi sunt
variana, variabilitatea, dispersia. Importana aprecierii gradului de mprtiere este dat de nsi
motivaia statisticii: pentru o variabil constant nu este nevoie de statistic.
Pentru msurarea mprtierii se utilizeaz diferii indicatori statistici: IQV, quantile, dispersia, abaterea
standard etc.
Este de notat, totui, c nu exist o msur absolut a mprtierii, gradul de mprtiere poate fi
apreciat doar relativ, prin comparare.

24 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Intuitiv, gradul de mprtiere a unei variabile poate fi apreciat prin asimilarea histogramei cu o
grmad de nisip, despre mprtierea creia ne formm imediat o prere.

K
Kurtosis
Vezi indice de aplatizare.

L
Legea empiric a mediilor (Empirical Law of Averages)
Legea afirm c dac se repet un experiment aleatoriu, n mod independent i n condiii identice,
atunci proporia de ncercri cu un rezultat dat converge la o limit interpretat ca probabilitate. Legea
empiric a mediilor st la baza teoriei probabilitilor ca frecvene i este mai degrab o presupunere
asupra funcionrii lumii reale, dect o lege matematic sau fizic.
Legea mediilor (Law of Averages)
Legea mediilor afirm c dac X1, X2, X3, . . . , sunt v.a. independente cu aceeai distribuie de
probabilitate, iar E(X) este valoarea ateptat comun, atunci pentru orice e > 0,
P{|(X1 + X2 + . . . + Xn)/n - E(X) | < e}
converge la 1 dup n. Echivalent, irul de medii de sondaj
X1, (X1+X2)/2, (X1+X2+X3)/3, . . .
converge n probabilitate ctre E(X).
n cuvinte, legea mediilor afirm c media observaiilor independente ale unor v.a., care au aceeai
distribuie de probabilitate, se apropie de valoarea ateptat a v.a. pe msur ce crete numrul de
observaii. Acesta este, de fapt, fundamentul multor aplicaii statistice.
Legea numerelor mari (Law of Large Numbers)
Legea numerelor mari afirm c n ncercri repetate, independente i cu aceeai probabilitate p de
succes n fiecare ncercare se tinde ca procentajul succeselor s fie egal cu p. Mai precis, ansa ca
procentajul succeselor s difere de probabilitatea p cu mai mult de un o cantitate fixat, e > 0, converge
la zero atunci cnd numrul de ncercri tinde la infinit, pentru orice e > 0. De notat c, spre deosebire
de diferena dintre procentajul succeselor i probabilitatea unui succes, diferena dintre numrul de
succese realizate i numrul ateptat de succese, np, tinde s creasc pe msur ce n crete.
Legea rdcinii ptrate (Square-Root Law)
Legea rdcinii ptrate afirm c eroarea standard (SE) a sumei de sondaj a n extrageri aleatorii cu
repunere dintro urn cu bilete numerotate este
SE(suma de sondaj) = nSD(urn),
iar eroarea standard a mediei de sondaj a n extrageri aleatorii cu repunere dintro urn cu bilete
numerotate este
SE(media de sondaj) = n-SD(urn),

25 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

unde SD(urn) este abaterea standard a numerelor de pe biletele din urn (incuznd valorile repetate)
Limit de clas (Class Boundary)
La date continue grupate pe intervale, o limit de clasa este extremitatea din stnga a unui interval de
clas i extremitatea din dreapta a intervalului anterior.
Linia abaterilor standard (SD line)
ntro diagram de mprtiere, linia abaterilor standard este dreapta care trece prin punctul avnd
drept coordonate mediile celor dou variabile i care are panta egal cu raportul abaterilor standard ale
celor dou variabile.
Din ecuaia liniei abaterilor standard,

se poate vedea c un punct de coordonate (x,y) de pe dreapt este caracterizat prin aceea c valorile x
i y sunt egal deprtate n uniti abateri standard de mediile corespunztoare.
Un punct situat deasupra liniei abaterilor standard este mai deprtat de media variabilei y dect de
media variabilei x, n uniti abateri standard.
Localizare, Msur de ~ (Location, Measure of)
O msur de localizare este o rezumare, printro singur valoare, a unei distribuii i ofer informaii
asupra locului unde sunt localizate valorile. Vezi media, mediana, valoarea mod.

M
Marginea erorii (Margin of error)
O msur a incertitudinii din estimaia unui parametru, noiune neacceptat de toi statisticienii i
suficient de neclar. n mod tipic, atunci cnd este utilizat, reprezint eroarea standard a estimaiei sau
dublul acesteia.
Msur de mprtiere (Spread, Measure of)
Un indicator statistic pentru aprecierea gradului de mprtiere a unei variabile. Cunoaterea gradului
de mprtiere mrete puterea de predicie a indicatorului de tendin central asociat. De exemplu,
media are o putere de predicie mai bun dac este asociat cu o abatere standard mic.
Fiecare tip de variabil are anumii indicatori de mprtiere adecvai. Pentru variabilele nominale se
utilizeaz IQV (indicele de variaie calitativ) sau entropia, pentru variabilele ordinale se utilizeaz IQV
sau un sistem de quantile, iar pentru variabilele continue sunt utilizate amplitudinea, abaterea standard,
un sistem de quantile etc.
Media de sondaj (Sample Mean)
Este media aritmetic a unui eantion (aleatoriu) dintro populaie. Presupunnd c exist n date, {x1,
x2, . . . , xn}, media de sondaj este (x1 + x2 + . . . + xn)/n.
Ca statistic, este utilizat frecvent pentru estimarea mediei populaiei.
Valoarea ateptat a mediei de sondaj este media populaiei.
ntrun sondaj cu repunere, abaterea standard a mediei de sondaj este egal

unde s este abaterea standard a populaiei iar n este volumul eantionului. ntrun sondaj fr repunere,
abaterea standard a mediei de sondaj este egal cu

26 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

unde primul factor reprezint corecia de populaie finit, iar N este volumul populaiei. Pentru
, cele dou formule devin egale.
Media geometric (Geometric Mean)
Media geometric a n numere {x1, x2, x3, . . . , xn} este rdcina de ordin n a produsului lor:
(x1x2x3 . . . xn)1/n.
Dac numerele reprezint, de exemplu, ritmuri de cretere, atunci media geometric exprim ritmul
mediu de cretere.
Media populaiei (Population Mean)
Este media numerelor dintro populaie numeric. Aceast valoare este un parametru al populaiei, spre
deosebire de media calculat dintrun eantion, care este doar o estimaie a parametrului.
Media redus (Trimmed Mean)
Media redus se calculeaz prin eliminarea unui procentaj din valorile extreme, sau a unui numr de
valori extreme i calcularea mediei aritmetice pentru valorile pstrate. n acest mod se obine o
influen mai mic a valorilor extreme, ca i o fluctuaie de sondaj mai mic n cazul distribuiilor
asimetrice. Pe de alt parte, n cazul distribuiilor simetrice, media redus este mai puin eficient dect
media aritmetic. Media redus poate fi o opiune bun atunci cnd distribuia de sondaj conine valori
aberante.
Cazuri particulare sunt mediana (media redus 100%) i media aritmetic (obinut ca o medie redus
0%).
Median (Median)
Valoarea de mijloc a unei distribuii, este definit drept cel mai mic numr astfel nct jumtate dintre
valori s nu fie mai mari dect el. Cu alte cuvinte, jumtate dintre valori sunt mai mici sau egale cu
mediana, jumtate sunt mai mari dect mediana. De remarcat c, dei este utilizat n general ca un
indicator de tendin central, mediana ofer mai degrab informaii asupra repartizrii observaiilor
(indicator de mprtiere). De regul, mediana este raportat mpreun cu quartilele distribuiei n
aazisa rezumare prin cinci valori.
Dac x1, x2, . . . , xN sunt valorile observate, mediana este calculat, dup ordonarea cresctoare a
valorilor, x(1) <= x(2)<= . . . <= x(N), prin

.
Este de notat c mediana realizeaz minimul sumei abaterilor absolute ale valorilor distribuiei de la un
punct fixat:
S |xi m| este minim pentru m egal cu mediana distribuiei (n cazul unui numr par de valori,
mediana aa cum a fost definit nu este singura valoare cu aceast proprietate.
Medie (Average)
Un termen suficient de vag, precizat de context. Uzual, reprezint media aritmetic, dar poate desemna
mediana, valoarea mod, media geometric etc.

27 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Mod, Valoare mod (Mode)


Valoarea mod este cea mai frecvent valoare dintro mulime de valori. Grafic, dintro histogram, o
valoare mod este identificat printrun maxim relativ. O distribuie poate avea astfel mai multe valori
mod (distribuii unimodale, bimodale etc.).
Moment (Moment)
Momentul de ordin k al unui ir de valori este valoarea medie a valorilor ridicate la puterea k. Astfel,
dac lista este x1, x2, . . . , xN, momentul de ordin k este

( x1k + x2k + xNk )/N.


Momentul de ordin k al unei v.a. X este valoarea ateptat a v.a. Xk, adic Exp(Xk).
Multiplicitate n testarea ipotezelor (Multiplicity in hypothesis tests)
n testarea ipotezelor, dac se verific mai multe ipoteze alternative (n teste separate, evident), nivelul
de semnificaie real al testelor combinate este diferit de nivelul de semnificaie al unui test individual. n
aceste situaii se recomand aplicarea unei proceduri de comparaie multipl sau analiza varianei.

N
Necorelat (Uncorrelated)
Un set de date bivariate este necorelat dac are un coeficient de corelaie egal cu zero. Dou variabile
aleatoare sunt necorelate dac valoarea ateptat a produsului lor este egal cu produsul valorilor
ateptate ale celor dou variabile.
Dac dou variabile aleatoare sunt independente, atunci ele sunt necorelate (relaia invers nu este
adevrat, n general).
Nedeplasat() (Unbiased)
Se spune despre o statistic pentru care deplasarea (biasul) este zero.
Nici o cauzalitate fr manipulare (No causation without manipulation)
Un dicton atribuit lui Paul Holland. Dac nu s-au controlat condiiile (de exemplu, dac situaia
cercetat este un studiu observaional i nu un experiment), atunci este impropriu s se trag concluzia
unei legturi cauzale ntre rezultat i condiii. Vezi i post hoc ergo propter hoc.
Nivel al unui factor (Level of a Factor)
Prin nivel al unui factor se nelege o valoare luat de factorul respectiv (factor este o variabila
independent dintrun studiu). Un factor trebuie s aib cel puin dou nivele pentru a putea evidenia
influena sa.
Nonrspuns (Nonresponse)
n anumite studii (eantion format prin apel telefonic, chestionar prin pot etc.) se poate ntmpla ca
unii subieci s nu rspund. Numrul acestor nonrspunsuri poate influena reprezentativitatea
eantionului sau denatura prediciile.

O
Odds
Termen intraductibil aproape n limba romn, reprezint, pentru un eveniment, raportul dintre
28 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

probabilitatea ca evenimentul s se realizeze i probabilitatea ca evenimentul s nu se realizeze. Este o


ansa n favoarea evenimentului considerat.
De exemplu, presupunnd c un eveniment are n rezultate posibile, toate egal probabile, i c un numr
de k rezultate pot fi interpretate drept ctig, restul de n-k fiind interpretate drept pierdere, ansa
(odds) n favoarea ctigului este de (k/n)/((n-k)/n) = k/(n-k), care este egal cu numrul cazurilor
favorabile supra numrul cazurilor nefavorabile. Dei odds nu este sinonim unei probabiliti, cele dou
noiuni sunt convertibile una n cealalt: dac ansa n favoarea unui eveniment este q, atunci
probabilitatea evenimentului este q/(1+q); dac probabilitatea unui eveniment este p, ansele (odds) n
favoarea evenimentului sunt p/(1-p) iar ansele mpotriva evenimentului sunt (1-p)/p.
Orb, Experiment orb (Blind, Blind Experiment)
Intrun experiment orb, subiecii nu cunosc dac aparin grupului de control sau celui experimental. De
regul, n studii medicale, subiecilor din grupul de control li se administreaz un placebo, pentru a se
asigura condiia de experiment orb.

P
Paradoxul lui Simpson (Simpson's Paradox)
Ceea ce este adevrat pentru pri nu este n mod necesar adevrat i pentru ntreg. Vezi i confundare.
Parametru (Parameter)
Prin parametru se nelege o proprietate numeric a unei populaii. Astfel media populaiei este un
parametru al populaiei. Cunoaterea valorii adevrate a parametrului face inutil operaiunea statistic
de estimare a acestuia dintrun eantion. Cum, de regul, valoarea unui parametru nu este cunoscut,
acesta se va estima prin valoarea unei statistici (estimatorul parametrului) calculate dintrun eantion.
Percentil (Percentile)
Percentila de ordin p a unei serii numerice (observate) este cel mai mic numr astfel nct cel puin p%
dintre numere nu sunt mai mari dect el. Percentila de ordin p a unei v.a. este cel mai mic numr astfel
nct probabilitatea ca v.a. s ia valori nu mai mari dect el s fie p. Vezi i quantile.
Placebo
Un tratament fictiv care nu are efect farmacologic. Este administrat grupului de control.
Plan factorial (Factorial Design)
Noiunea apare atunci cnd se planific experimentele n aa fel nct s se poat decide asupra
influenelor mai multor factori i a interaciunilor dintre factori asupra unei variabile dependente.
Un plan factorial complet apare atunci cnd se fac determinri experimentale pentru fiecare combinaie
posibil de nivele ale factorilor.
Exist i posibilitatea reducerii numrului de determinri prin aceea c anumite combinaii de nivele nu
sunt studiate. n acest caz se utilizeaz planuri factoriale particulare: ptrate latine etc.
Plan intrasubieci (Within-subjects Design)
Este un plan de experiene n care una sau mai multe variabile independente sunt variabile
intrasubieci.
ntrun asemenea plan, fiecare subiect fiind evaluat la fiecare nivel al factorului, se pot evidenia
diferenele dintre subieci. De observat c ntrun plan ntresubieci aceste diferene nu sunt
evideniabile i sunt, prin urmare, incluse n erori. Considerarea unui plan intrasubieci mrete puterea
testelor de semnificaie.
De remarcat, totui, c efectele de transport (carryover effects) pot impune alegerea unui plan
29 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

experimental ntresubieci.
Plan ntresubieci (Between-subjects Design)
Este un plan de experiene n care variabilele independente sunt variabile ntresubieci. Nu se pot
evidenia diferenele dintre subieci.
Poligon de frecvene (Frequency Polygon)
Reprezentare grafic a unei distribuii de frecvene pentru o variabil continu: pe axa Ox se reprezint
intervalele de grupare; pentru fiecare interval se reprezint punctul de coordonate (ci, fi), unde ci este
mijlocul intervalului iar fi este frecvena corespunztoare; punctele astfel obinute sunt unite prin
segmente.
Un poligon de frecvene ofer o imagine a formei distribuiei. Dac frecvenele sunt relative, atunci se
obine poligonul frecvenelor relative care permite aproximarea procentajului de observaii situate ntre
dou valori x, similar utilizrii densitii de probabilitate.
Dac frecvenele sunt (relative) cumulate, se obine poligonul frecvenelor (relative) cumulate, care
permite, similar funciei de repartiie, aproximarea quantilelor distribuiei.
Populaie (Population)
O colecie de elemente (uniti) care sunt de interes pentru studiu. O mare parte a statisticii are ca
obiect estimarea numeric a parametrilor populaiei pornind de la observarea unui eantion.
Populaie int (Target Population)
Prin populaie int se nelege ntregul grup de interes ntro cercetare, adic acel grup pentru care
cercettorul dorete s obin concluzii i studiul efectuat.
Post hoc ergo propter hoc
"Dup aceasta, deci din cauza acesteia." O eroare de logic, cunoscut de mult, care afirm existena
unei relaii cauzale datorit observrii unei corelaii (asocieri).
Precizie (Precision)
Precizia este o msur a ct de aproape este un estimator de valoarea adevrat a unui parametru. Este
exprimat uzual n termeni de imprecizie i asociat cu eroarea standard a estimatorului. O precizie mai
mic se reflect ntro valoare mai mare a erorii standard.
Prima facie
La prima vedere. O eviden prima facie este informaia care sprijin concluzia la o privire sumar,
imediat. La o analiz mai profund, s-ar putea ca aceasta s nu reziste, s existe o alt explicaie.
Probabilitate (Probability)
Probabilitatea unui eveniment este un numr p[0,1], interpretat deseori procentual, p%. nelesul,
semnificaia, unei probabiliti este subiectul teoriei probabilitilor, cu meniunea c dup coala
tiinific, interpretrile pot fi diferite. Totui, orice regul de asignare a probabilitilor la evenimente
trebuie s satisfac axiomele probabilitii.
Probabilitate condiionat (Conditional probability)
Se numete probabilitatea evenimentului A condiionat de evenimentul B, notat P(A|B), raportul
P(A|B) = P(AB)/P(B), unde P(B)0, interpretat ca probabilitatea de apariie a evenimentului A tiind
c sa realizat evenimentul B.
Procentaj de sondaj (Sample Percentage)

30 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Este procentajul elementelor dintrun eantion (aleatoriu) care au o anumit proprietate. Ca statistic,
este utilizat frecvent pentru estimarea procentajului elementelor cu aceeai proprietate din populaie.
Valoarea ateptat a procentajului de sondaj este procentajul din populaie, n cazul n care eantionul
este simplu aleatoriu sau aleatoriu cu repunere.
Abaterea standard a procentajului de sondaj este, pentru un sondaj cu repunere, (p(1-p)/n ), unde p
este procentajul din populaie iar n este volumul eantionului. Pentru un sondaj fr repunere dintro

populaie finit, abaterea standard este egal produsul dintre corecia de populaie finit i (p(1-p)/n ).
Abaterea standard a procentajului de sondaj este estimat adesea prin procedeul de bootstrap.

Proporie (procentaj) din populaie (Population Percentage)


Parametru al populaiei, care arat proporia elementelor din populaie avnd o anumit proprietate.
Punct de rupere (Breakdown Point)
Punctul de rupere al unui estimator este cea mai mic fraciune de observaii care pot fi corupte pentru
ca estimatorul s ia orice valoare dorim.
Punctul mediilor (Point of Averages)
ntro diagram de mprtiere, scatterplot, prin punctul mediilor se nelege punctul care are drept
coordonate mediile aritmetice al variabilelor considerate.
Puterea unui test (Power)
Noiune referitoare la testarea ipotezelor, puterea unui test vis--vis de o ipotez alternativ este
probabilitatea ca n test s se resping, n mod corect, ipoteza nul atunci cnd ipoteza alternativ este
adevrat. Puterea unui test este definit ca 1-b, unde b este riscul unei erori de spea a IIa.
Puterea unui test depinde de test, de nivelul de semnificaie, de volumul eantionului, de repartiia
populaiei i de ali factori.
p-value, valoare de probabilitate (Probability Value, pvalue)
Presupunem o familie de teste ale unei ipoteze nule, definite de valori ale nivelului de semnificaie p.
Prin pvalue asociat ipotezei nule, pentru setul de date considerat, se nelege cel mai mic nivel de
semnificaie p pentru care ipoteza nul se respinge n toate testele.
Astfel, ntrun test unilateral, dac X este statistica testului i notm cu xp valoarea critic astfel nct
respingem H0 pentru X < xp , notm cu x valoarea observat a lui X, atunci P-value pentru ipoteza nul
i observaiile disponibile este cea mai mic valoare p nct x < xp.
Majoritatea programelor dedicate calculelor statistice ofer, la procedurile de testare a ipotezelor,
valoarea de probabilitate. Dac pvalue este mai mic sau egal cu nivelul de semnificaie a, atunci se
respinge ipoteza nul.

Q
Quantil (Quantile)
Quantila de ordin q a unei liste de valori numerice (0 < q <= 1) este cel mai mic numr astfel nct o
proporie q de elemente ale listei sunt mai mici sau cel mult egale cu el. Adic, dac lista conine n
elemente, quantila de ordin q este cel mai mic numr Q astfel nct nq elemente ale listei sunt mai mici
sau egale cu Q.
Problema determinrii quantilei de un anumit ordin se complic atunci cnd lista de valori reprezint un
eantion dintro anumit populaie. n acest caz, valoarea calculat drept quantil trebuie s se refere la
populaie i nu la eantion, adic se calculeaz o estimaie a quantilei din populaie. Formulele utilizate
de diverse aplicaii dedicate prelucrrilor statistice pot fi diferite (diferenele nu sunt ns majore), astfel
31 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

nct valorile furnizate sunt diferite pentru acelai set de intrri. Diferena pornete de la ipoteze
suplimentare considerate (distribuie uniform, distribuie normal etc.) care se reflect n formule de
interpolare diferite. Regula de aur n aceste situaii este: valorile furnizate de astfel de programe se
utilizeaz ca atare, menionnduse programul utilizat.
Se utilizeaz curent notaia qp pentru quantila de ordin p.
Quartile (Quartiles)
Quantilele de ordin 25%, 50% i 75% (adic q0,25, q0,5, q0,75) sunt denumite quartile. Ansamblul
quartilelor realizeaz deci o mprire a datelor n patru seturi de volume egale. Quartila a doua este
mediana distribuiei.

R
Rdcina medie ptrat (Root-mean-square RMS)
Este definit ca rdcina ptrat a mediei ptratelor elementelor. Este o msur a mrimii medii a
elementelor.

Rang percentil (Percentile Rank)


Rangul percentil al unui element dintro repartiie de valori numerice este definit ca proporia
numerelor care sunt mai mici sau egale cu numrul considerat. Este utilizat pentru fixarea locului
ierarhic ocupat de un element: dac un elev are nota 9,25 la matematic i 94% dintre elevi au note mai
mici sau egale cu 9,25, atunci rangul percentil al elevului este 94.
Rata de descoperire fals (False Discovery Rate)
n testarea unei colecii de ipoteze, rata de descoperire fals este proporia ipotezelor nule respinse n
mod eronat (raportul dintre numrul de erori de tip I i numrul de ipoteze nule respinse), cu convenia
c rata de descoperire fals este zero dac nu sa respins nici o ipotez nul.
Rata de nonrspuns (Nonresponse rate)
Este proporia de nonrspunsuri din eantionul planificat. O rat mare de nonrspuns conduce la o
deplasare de nonrspuns.
Regiune de respingere (Rejection region)
n testarea ipotezelor statistice, regiunea de respingere este format din mulimea acelor valori, la care
apartenena statisticii testului conduce la respingerea ipotezei nule.
Regresia ctre medie (Regression Toward the Mean, Regression Effect)
Presupunem c se msoar dou variabile (cum ar fi nlimea tatlui i a unui fiu) pentru elementele
unei populaii statistice i c ntre acestea exist o corelaie pozitiv (cum este de ateptat ntre
nlimi). Dac, pentru o observaie, prima valoare msurat este peste media, atunci i cea de a doua
valoare tinde s fie deasupra mediei, dar la o distan mai mic n uniti abateri standard dect prima
valoare. Pentru exemplul considerat, ar rezulta c fii prinilor nali tind s aib o nlime mai
apropiat de medie (regresia ctre medie). n cazul unei corelaii negative, apropierea este din cellalt
sens.
Regresie liniar (Regression, Linear Regression)
Date fiind valorile observate pentru dou variabile, X i Y, fie acestea (xi,yi), i=1,,n, prin funcie de
32 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

regresie se va nelege acea funcie Y = f(X) care aproximeaz cel mai bine setul de date observate. De
regul, criteriul ales este acela al celor mai mici ptrate, adic acea funcie f pentru care se minimizeaz
suma S(yi-f(xi))2. Dac f este o funcie liniar, atunci se obine regresia liniar, reprezentat grafic
printro dreapt (dreapta de regresie).
Dreapta de regresie, mpreun cu abaterile standard ale variabilelor X i Y, sau cu coeficientul de
corelaie, pot constitui o rezumare rezonabil a distribuiei comune a celor dou variabile. Adecvana
modelului liniar este mai bun atunci cnd diagrama de mprtiere are form de elips.
Regula de multiplicare (Multiplication rule)
Probabilitatea ca evenimentele A i B s apar simultan (se produce evenimentul AB) este produsul
dintre probabilitatea condiionat P(A|B) i P(B).
Regula fundamental de numrare (Fundamental Rule of Counting)
Dac o secven de experimente sau ncercri T1, T2, T3, . . . , Tk poate produce, respectiv, n1, n2,
n3, , nk rezultate posibile i dac numerele n1, n2, n3, , nk nu depind de ieiri, ntreaga secven
de k experimente are n1 n2 n3 . . . nk ieiri posibile.
Regula lui Bayes (Bayes' Rule)
Dac evenimentele A1 , A2 ,....., An constituie o partiie a spaiului de sondaj S i P(Ai ) > 0, " i, iar B
este un eveniment cu P(B) > 0, atunci

Probabilitile P(Ai) sunt numite probabiliti a priori i sunt cunoscute (determinate pe baza
cunoaterii anterioare). Regula lui Bayes permite actualizarea acestor probabiliti utiliznd informaia
suplimentar c a avut loc evenimentul B.
n cazul cnd partiia este format din A i nonA, regula devine
P(A|B) = P(B|A) P(A) / ( P(B|A)P(A) + P(B|nonA) P(nonA) ).
Reziduu (Residual)
Este definit ca diferena dintre o valoare observat i valoarea prognozat de un model. Diagrama
acestor reziduuri n regresia liniar poate s arate inadecvarea modelului.

S
Scal de densitate (Density Scale)
Gradaiile axei verticale a unei reprezentri grafice (histogram) sunt procentaje pe unitate de ax
orizontal. Aceasta este denumit scal de densitate i msoar ct de dense sunt observaiile n fiecare
interval X. Vezi i densitate de probabilitate.
Scal de rapoarte (Ratio Scale)
Scala de rapoarte este similar scalei de intervale, cu deosebirea c exist un punct zero adevrat.
Exemplul clasic este al scalei Kelvin de msurare a temperaturilor, care are un punct de zero absolut: o
temperatur de 200K este de dou ori mai mare dect o temperatur de 100K.
De remarcat c scala Fahrenheit nu respect aceast cerin, dar este o scal de intervale: diferena
dintre 10F i 20F este aceeai ca diferena dintre 15F i 25F.
33 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Scor (Score)
Este o denumire alternativ pentru o valoare observat.
Scor studentizat (Studentized score)
Prin scor studentizat se nelege transformata Z (valoarea observat a statisticii minus valoarea
ateptat, totul mprit la eroarea standard estimat a statisticii).
Scor z (z-score)
Valoarea observat a statisticii Z. Se obine prin transformarea Z a scorurilor observate.
Semnificaie, Nivel de semnificaie, Semnificaie statistic (Significance, Significance level, Statistical
significance)
Nivelul de semnificaie al unui test statistic este probabilitatea (riscul) de a respinge, n mod eronat,
ipoteza nul dei aceasta este adevrat: nivelul de semnificaie msoar riscul de apariie a unei erori
de tip I.
Un fapt statistic este semnificativ dac produce respingerea ipotezei nule. De exemplu, testnd ipoteza
Toate lebedele sunt albe, un fapt semnificativ este gsirea unei lebede negre. De remarcat, n acest
context, c observarea orictor lebede albe nu produce nimic semnificativ. Se poate interpreta i prin
aceea c ipoteza nul reflect starea actual de cunoatere, deci semnificativ este un fapt care respinge
ipoteza nul modificnd astfel nivelul de cunoatere.
Este de notat, totui, c un fapt semnificativ statistic nu este, n mod neaprat, semnificativ n lumea
real.
Siguran statistic (Confidence Level)
Este probabilitatea ca un interval de ncredere al unui parametru s conin valoarea adevrat a
parametrului. Este notat uzual cu 1-a, a fiind pragul (nivelul) de ncredere al intervalului. Sensul este
acela c dac se construiesc n mod repetat intervale de ncredere plecnd de la eantioane diferite,
procentajul intervalelor care conin valoarea adevrat a parametrului va tinde ctre sigurana statistic.
Sondaj (eantionaj) prin cote (Quota Sampling)
ntrun eantionaj prin cote, populaia este segmentat iniial n subgrupuri mutual exclusive, ca n
eantionajul stratificat. Din fiecare subgrup se aleg uniti n proporii specificate. Acest pas produce
caracterul neprobabilist al eantionajului prin cote.
De exemplu, dac se tie c studenii de la Informatic reprezint 5% din totalul studenilor unei
universiti, atunci gruparea populaiei este dat de faculti, se tie proporia fiecrui grup, prin urmare
ntrun eantion se va urmri ca doar 5% s fie studeni de la Informatic.
Ca avantaje se pot cita viteza i costuri mai mici n obinerea informaiei i un mai mare grad de
acceptare sociologic.
Sondaj aleator (Random Sampling)
Este acea tehnic de sondaj n care fiecare element din eantion este ales la ntmplare i fiecare
element al populaiei are o probabilitate cunoscut (chiar dac neegal posibil) de a fi selectat n
eantion. n acest mod se reduce probabilitatea unei deplasri (bias).
Sondaj aleator simplu (Simple Random Sampling)
Este un eantionaj aleatoriu, n care fiecare element al populaiei are aceeai ans de a fi selectat n
eantion. Orice eantion de volum dat are, n consecin, aceeai probabilitate de a fi ales.
Sondaj independent (Independent Sampling)

34 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Este operaiunea de eantionaj n care se obin eantioane independente.


Sondaj prin grupuri (Cluster Sampling)
n sondajul de tip cluster, populaia este divizat n grupuri (clustere) i este selectat un eantion din
mulimea de clustere. Toate elementele clusterelor selectate sunt incluse n eantionul final.
Aceast tehnic este utilizat, de regul, atunci cnd cercettorul nu poate avea o list complet a
elementelor populaiei, dar poate dispune de o list complet a grupurilor. De asemenea, dac un
sondaj aleatoriu ar produce o mulime de elemente foarte dispersat teritorial astfel nct urmrirea
tuturora ar fi foarte scump.
De exemplu, un studiu zonal pe o problem de agricultur ar fi mai economic dac se aleg la ntmplare
o serie de localiti rurale i se realizeaz studiul doar n aceste localiti (cu urmrirea tuturor
activitilor de interes din fiecare localitate selectate).
Sondaj spaial (Spatial Sampling)
Se refer la situaia n care sondajul se realizeaz pe elemente spaiale (de exemplu selectarea unor
parcele ntrun studiu privind agricultura).
Sondaj stratificat (Stratified Sampling)
Exist adesea factori care induc o mprire a populaiei n subpopulaii (grupuri, straturi) i se dorete
estimarea modului n care un anumit interes variaz n funcie de aceste subpopulaii. Aceast mprire
de facto a populaiei trebuie s fie luat n consideraie pentru a obine un eantion reprezentativ.
Sondajul stratificat realizeaz acest fapt, eantionul final fiind obinut prin reunirea eantioanelor
extrase din fiecare strat al populaiei. Structura eantionului final trebuie s respecte, de regul,
proporiile fiecrui strat n populaie.
Tehnicile de sondaj stratificat sunt prin urmare utilizate atunci cnd populaia nu este omogen, dar se
pot identifica straturi omogene. Aceste tehnici pot fi utile i atunci cnd se dorete estimarea
parametrilor pentru fiecare subpopulaie.
Spaiul rezultatelor (Outcome Space)
Mulimea tuturor rezultatelor (ieirilor) posibile ntrun experiment.
Standardizare (Standardize)
Transformarea n uniti standard.
Statistica c2 (Chi-square Statistic)

Statistica c2 este utilizat pentru a msura potrivirea dintre date categoriale i un model multinomial
care prognozeaz frecvena relativ a rezultatelor din fiecare categorie posibil. S presupunem c
exist n ncercri independente, fiecare avnd un rezultat din k posibile. Presupunem c n fiecare
ncercare probabilitatea de apariie a rezultatului i este pi, i = 1, 2, . . . , k, aceleai pentru toate
ncercrile. Pentru orice i, numrul de apariii a rezultatului i este atunci
expectedi = npi.

Dac modelul este corect, ne vom atepta atunci ca numrul de rezultate i s fie, cu mici abateri,
valoarea ateptat anterioar. Notm cu observedi numrul de apariii observate ale rezultatului de tip i

n cele n ncercri, i = 1, 2, . . . , k. Statistica c2 rezum atunci discrepanele dintre valorile ateptate i


valorile observate prin:
c2 = (observed1 - expected1)2/expected1 + (observed2 - expected2)2/expected2 + . . . +

35 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

(observedk - expectedk)2/expectedk.
Dac modelul este corect i n este suficient de mare, atunci distribuia de sondaj a statisticii c2 tinde
ctre o distribuie c2 cu k - 1 grade de libertate.
Statistic (Statistic)
Prin statistic se nelege un numr care poate fi calculat din date, fr implicarea unor parametri
necunoscui. Ca funcie de eantion aleatoriu, o statistic este o variabil aleatoare. De exemplu: media,
abaterea standard, valoarea maxim etc. sunt statistici.
Statisticile sunt utilizate pentru estimarea parametrilor i pentru testarea ipotezelor.
Statistic descriptiv (Descriptive Statistics)
Conine acele metode care permit rezumarea coleciilor de date ntro form simpl i explicit,
inteligibil. Metodele statisticii descriptive pot fi mprite n metode numerice i metode grafice. Prin
metodele numerice se obin rezumate numerice cum ar fi media, abaterea standard etc. Prin metodele
grafice se obin reprezentri vizuale ale datelor, utile pentru identificarea structurii datelor
(patternurilor). Primele metode sunt mai precise i mai obiective, dar doar utilizarea ambelor categorii
de metode pot s duc la un rezultat satisfctor.
Statistic inferenial (Inferential Statistics)
Conine metodele prin care se obin informaii despre o populaie pe baza datelor unui eantion aleator
din populaia de interes. Principalele metode sunt estimarea i testarea ipotezelor.
Este partea principal a statisticii, deoarece interesul unui cercettor este ndreptat, de regul, ctre
cunoaterea populaiei i nu ctre eantion.
Statistica testului (Test Statistic)
Este o statistic, proprie unui test, pentru care se cunoate repartiia n condiiile ipotezei H0. Pe baza
valorii calculate a statisticii testului se ia decizia in test: dac statistica aparine, la un nivel de
semnificaie stabilit, regiunii de respingere a testului, atunci se respinge ipoteza H0 n favoarea ipotezei
alternative. Fiecare test statistic conine i modul de definire a statisticii testului respectiv.
Statistic Z (Z statistic)
O statistic Z este o statistic a unui test a crei distribuie sub ipoteza nul are valoarea ateptat egal
cu zero i poate fi aproximat suficient de bine de curba normal.
n mod uzual, o statistic Z este construit prin standardizarea unei alte statistici dup formula
Z = ( original Exp(original) ) / SE(original).
Statistic t (Student) (Z statistic)
O statistic t este o statistic a unui test a crei distribuie sub ipoteza nul este sau poate fi aproximat
suficient de bine de repartiia Student.
Strat (Stratum)
n sondajul aleatoriu, un eantion este extras adesea separat din diferite submulimi disjuncte ale
populaiei. Fiecare asemenea submulime este denumit strat.
Estimatorii bazai pe eantioane aleatorii stratificate pot s aib erori de sondaj mai mici dect
estimatorii calculai pentru eantioane aleatorii simple de aceeai mrime, dac variabilitatea medie a
variabilei de interes n straturi este mai mic dect cea din ntreaga populaie (cu alte cuvinte dac

36 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

apartenent la straturi este asociat cu variabila).


De exemplu, pentru a determina preul mediu al locuinelor, este mai avantajos s se utilizeze o
stratificare dup zona geografic, deoarece preurile variaz enorm dup localizare. Se poate mpri
ara n regiuni, acestea n zone urbane, suburbane, rurale; extragerea va fi apoi aleatorie din fiecare
zon astfel determinat.
Studiu de eantion (Sample Survey)
Este un studiu bazat pe un eantion i nu pe ntreaga populaie.
Studiu longitudinal (Longitudinal study)
Un studiu longitudinal privete indivizi n momente diferite de timp, scopul fiind cel al evalurii
efectului trecerii timpului asupra variabilelor observate. Posibilitatea de confundare cu alte efecte este
mai mic dect ntrun studiu secional (transversal).
Studiu observaional (Observational Study)
Este un studiu n care datele sunt obinute prin simpla observare, investigare. Noiunea contrar este
cea de experiment controlat.
Studiu transversal, secional (Cross-sectional study)
ntrun studiu transversal se compar diferite elemente la un moment de timp, cu alte cuvinte subiecii
aparin la o seciune prin populaie (cum ar fi persoane de vrste diferite, msurate la acelai moment
de timp). n acest caz, diferenele dintre elemente se pot confunda cu efectul urmrit. De exemplu,
urmrind opiniile cetenilor ntrun studiu transversal, diferena dintre opinii poate fi atribuit
procesului de mbtrnire, dei aceasta poate fi explicat prin educaia diferit primit de cei
chestionai.
Subiect, Subiect experimental (Subject, Experimental Subject)
Un element al grupului de control sau a celui experimental (de tratament).
Suma de sondaj (Sample Sum)
Este suma valorilor msurate ntrun eantion aleator.
Valoarea ateptat a sumei de sondaj este de n ori media populaiei, unde n este volumul eantionului.
Abaterea standard a sumei de sondaj, pentru un sondaj cu repunere, este
unde s este abaterea standard a populaiei iar n este volumul eantionului. n cazul unui sondaj fr
repunere dintro populaie finit, formula devine
.
unde N este volumul populaiei.

T
Tabel de contingen (Contingency Table)
Este un tabel cu dou intrri care conine frecvenele observaiilor dup nivelele a dou variabile
categoriale (sau continue discretizate), cu alte cuvinte repartiia comun a celor dou variabile. O
variabil determin liniile, iar cealalt determin coloanele tabelului. Este uzual s se completeze cu o
linie de total i cu o coloan de total, acestea indicnd distribuiile fiecrei variabile.
Printrun test c2 de independen se poate verifica asocierea dintre variabile (deci dac distribuia unei

37 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

variabile depinde de nivelul celeilalte variabile).


Tendin central (Central Tendency)
Indicatorii de tendin central sunt msuri pentru localizarea mijlocului sau centrului distribuiei.
Deoarece noiunea de centru este suficient de vag, indicatorii de tendin central cuprind statistici
diverse, cele mai uzuale fiind media, mediana, valoarea mod, media redus, fiecare oferind o
caracterizare diferit pentru datele procesate.
Teorema de limit central (Central Limit Theorem)
Teorema de limit central explic de ce relativ multe distribuii tind s fie apropiate de distribuia
normal. O form a teoremei este urmtoarea:
Fie X1, X2, v.a. independente, identic distribuite, avnd media m i abaterea standard s. Dac notm
Sn = X1+X2++Xn, atunci

unde F(x) este funcia de repartiie a variabilei normale standard.


Formula anterioar poate fi rescris i pentru media Sn/n.
Teoria probabilitilor (Probability, Theories of)
O teorie a probabilitilor este un mod de atribuire a unui sens la afirmaii probabiliste de genul ansa
ca o pionez s cad cu vrful n sus este de 2/3." Astfel, o teorie a probabilitilor conecteaz teoria
matematic a probabilitilor (care este un set de consecine a axiomelor probabilitii) cu lumea real a
observaiilor i experimentelor. Exist mai multe teorii ale probabilitii.
Potrivit teoriei probabilitilor ca frecvene, probabilitatea unui eveniment este limita frecvenei
relative a apariiilor evenimentului n ncercri independente repetate n aceleai condiii.
Potrivit teoriei subiective a probabilitilor, probabilitatea este un numr care msoar ct de
puternic este ncrederea noastr c un eveniment poate s apar. Acest numr este pe o scal de la 0
(sau 0%) la 1 (sau 100%), unde 0 arat c suntem siguri c evenimentul nu poate s apar, 1 arat c
suntem siguri de apariia evenimentului.
Potrivit teoriei ieirilor egal verosimile, dac un experiment are n ieiri posibile, nu exist nici un
motiv pentru care unul dintre rezultate s apar n mod preferenial fa de celelalte. Rezult c ansa
de apariie a oricrui rezultat este 100%/n.
Fiecare teorie are limitele ei, aprtorii i detractorii ei.
Teoria probabilitilor ca frecvene (Frequency theory of probability)
Vezi teoria probabilitilor.
Test bilateral (Two-sided Hypothesis test)
Denumete un test n care ipoteza alternativ nu precizeaz sensul abaterii de la ipoteza nul. De
exemplu, dac ipoteza nul este = 0, atunci ipoteza alternativ este < 0 sau (adic 0, fr
precizarea abaterii lui de la 0).
ntrun test bilateral, probabilitatea critic a testului se refer la ansa ca statistica testului s fie mai
deprtat de valoarea nul dect valoarea calculat a statisticii, fr a preciza sensul n care are loc
deprtarea.
Regiunea de respingere a unui test bilateral conine o reuniune de dou intervale.
Test exact Fisher pentru egalitatea a dou procentaje (Fisher's exact test for the equality of two
percentages)
S considerm dou populaii cu elemente 0 i 1. Fie p1 proporia de elemente 1din prima populaie i

38 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

p2 proporia de elemente 1din a doua populaie. Fie n1 i n2 volumele a dou eantioane extrase din
cele dou populaii, iar G numrul total de 1 din ambele eantioane. Dorim s testm ipoteza nul
p1 = p2. Dac ipoteza nul este adevrat, cele dou eantioane reunite formeaz un eantion din
populaiile reunite. Alocarea eleementelor 1 ntre eantioane este de ateptat s fie, cu variaii
aleatoare, proporional cu volumele eantioanelor. Depinznd de G i de volumele eantioanelor, sub
ipoteza nul, elementele primului eantion pot fi considerate ca formnd un un eantion aleator de
volum n1 fr repunere dintro mulime avnd N = n1 + n2 elemente, dintre care G sunt egale cu 1.
Astfel, sub ipoteza nul, numrul elementelor 1 din primul eantion are o distribuie hipergeometric cu
parametrii N, G i n1. Testul exact Fisher utilizeaz aceast distribuie pentru determinarea numrului
de elemente 1 din primul eantion pentru care se respinge ipoteza nul.
Test unilateral (One-sided Test)
Un test unilateral este un test statistic n care ipoteza alternativ precizeaz sensul abaterii de la ipoteza
nul (i nu este, pur i simplu, negaia acesteia). Noiunea contrar este test bilateral.
Testarea ipotezelor (Hypothesis testing)
Testarea ipotezelor statistice este formalizat ca procesul de a decide ntre respingerea i nerespingerea
unei ipoteze nule pe baza unui set de observaii. Pot s apar dou tipuri de erori: respingerea ipotezei
nule dei ea este adevrat (eroare de tip I); nerespingerea ipotezei nule, dei ea este fals (eroare de
tip II). De menionat c, n situaiile practice, nu se poate ti dac sa comis o eroare i de ce tip este
ea. Modul de abordare este atunci acela de minimiza riacul de producere a unei erori. n mod tipic, se
specific a priori riscul producerii unei erori de tip I, risc notat uzual cu a i denumit nivelul de
semnificaie a testului. Pentru un nivel de semnificaie dat, este apoi aleas acea regul de decizie (test)
care are cea mai mic probabilitate de producere a unei erori de tip II cnd ipoteza alternativ este
adevrat. Probabilitatea de a respinge n mod corect ipoteza nul atunci cnd ipoteza alternativeste
adevrat este numit puterea testului n raport cu ipoteza alternativ.
Test t ( t test)
Se aplic un test t (Student) atunci cnd statistica testului se consider repartizat Student. De regul,
testele t sunt utilizate pentru verificarea ipotezelor privind media populaiei, atunci cnd eantioanele
sunt de dimensiuni reduse (<=30) i distribuia populaiei este cunoscut ca fiind aproape normal.
Testul t pentru un coeficient de corelaie (t test for correlation coefficient)
Fie r coeficientul de corelaie estimat dintrun eantion de volum n. n ipoteza H0: r = 0, statistica

este repartizat Student cu n2 grade de libertate, astfel nct se poate aplica regula de decizie dintrun
test t (bilateral sau unilateral).
Test z (z-test)
Un test bazat pe o statistic Z (repartizat normal standard).
Transformare (Transformation)
Printro transformare se convertete o list de valori ntro alt listde valori, sau o variabil ntro alt
variabil. O transformare afin este o transformare de tipul y = ax + b, unde x este variabila iniial, iar
y este variabila nou (transformat). Astfel, standardizarea unei variabile este o transformare afin.
Transformrile afine cu a > 0 au un efect simplu asupra mediei, medianei, valorii mod i quantilelor:
noile valori sunt obinute din cele vechi dup exact aceeai formul de transformare. Dac a < 0, atunci
media, mediana i valoarea mod sunt obinute prin aceeai transformare, n timp ce quantilele au

39 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

ordinea inversat. Efectul unei transformri afine asupra abaterii standard este acela c valoarea
transformat se nmulete cu |a| pentru a obine noua abatere standard.
Transformare afin (Affine transformation)
Vezi transformare.
Transformarea z a lui Fisher (Fishers z Transformation)
Deoarece repartiia de sondaj a coeficientului de corelaie r (Fisher) nu este normal, testarea
semnificaiei coeficientului de corelaie este dificil de efectuat direct. Din aceast cauz, Fisher a propus
transformarea
v.a. z astfel obinut fiind repartizat aproape normal i avnd eroarea standard

unde n este volumul eantionului.


Devine astfel posibil calcularea unui interval de ncredere pentru r sau pentru o diferen de coeficieni
de corelaii (pentru compararea lor).
A se vedea i testul t pentru un coeficient de corelaie.
Tratament (Treatment)
Substana sau procedura studiat ntrun studiu experimental sau observaional. n studiu se va urmri
dac tratamentul are efect asupra unei variabile de interes.
Trend secular (Secular Trend)
Prin trendul secular al unei variabile se nelege asocierea liniar (regresia liniar) a variabilei cu timpul.
Pentru a avea sens, trebuie, evident, ca obinerea valorile variabilei s fie aib loc n timp (mai general,
este important ordinea msurtorilor).
Trimedie (Trimean)
Definit drept o medie ponderat a quartilelor unei distribuii prin

trimedia este un indicator de tendin central, rar utilizat totui, la fel de puin influenat de scorurile
extreme ca i mediana. Pentru distribuii cu asimetrie pronunat, indicatorul este mai puin supus
fluctuaiilor de sondaj dect media aritmetic.

U
Unimodal (Unimodal)
O distribuie este unimodal dac are exact o singur valoare mod.
Unitate (Unit)
Un element al populaiei. Cu acest sens noiunea apare, de regul, n probleme de sondaj.
Unitate de sondaj (Sampling unit)
Un eantion dintro populaie poate fi extras cte un element sau cte un grup de elemente (n cazul
gruprii elementelor, clustere). Prin unitate de sondaj se nelege unitatea fundamental utilizat la
formarea unui eantion.

40 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

Uniti standard (Standard Units)


O variabil (set de date) se spune c este n uniti standard dac are media egal cu zero i abaterea
standard egal cu unu.
Se poate transforma un set de date n uniti standard prin aazisa transformare Z:

Prin transformarea n uniti standard se pot compara variabile msurate pe scale diferite (cum ar fi
greutatea i nlimea).
Univariat (Univariate)
Atributul se utilizeaz atunci cnd este implicat o singur variabil.

V
Valoare aberant (Outlier)
O valoare aberant este o valoare care nu se ncadreaz n comportarea uzual a unei variabile (de
genul inundaie n Sahara). n mod uzual, se va considera valoare aberant una care este la cel puin trei
abateri standard distan de medie (exist i teste specializate pentru detectarea acestor valori).
Detectarea unei valori aberante produce, de regul, eliminarea acesteia din setul de date. Totui,
eliminarea trebuie s se bazeze pe identificarea exact a valorii, a modului de obinere etc., deoarece
poate conduce la subestimarea variabilitii reale a procesului msurat. Sunt procese n care tocmai o
valoare aberant este de maxim interes.
Valoare critic (Critical value)
Valoarea critic ntrun test statistic apare atunci cnd decizia n test se ia pe baza regiunii de
respingere i reprezint, n general, acea valoare sub/peste care trebuie s fie statistica testului pentru a
respinge ipoteza nul. Valoarea critic a testului este deci o extremitate finit a regiunii de respingere.
Valoarea critic poate fi calculat, la un prag de semnificaie dat, nainte de aplicarea efectiv a testului
este o quantil a repartiiei statisticii testului.
De exemplu, ntrun test z bilateral, la a = 0,05, valoarea critic este quantila z0,975 = 1,96. Dac
valoarea statisticii este mai mare n valoare absolut dect valoarea critic, atunci se respinge ipoteza
nul.
Variabil (Variable)
Sensul curent n statistic este acela a unei valori numerice, a unui atribut care difer de la un element
la altul. A se vedea variabil categorial, variabil calitativ, variabil cantitativ, variabil
discret, variabil continu, variabil aleatoare.
Variabil aleatoare (Random Variable)
O variabil aleatoare (notat uzual cu v.a.) este o funcie real definit pe mulimea evenimentelor. Se
accept, uzual, c o v.a. asigneaz numere la ieirile posibile ale unui experiment aleatoriu.
O afirmaie asupra unei v.a. definete un eveniment, de exemplu {X B}= {s S: X(s) B}, unde S este
spaiul evenimentelor, este evenimentul prin producerea cruia v.a. ia o valoare din B.
Variabil aleatoare indicatoare (Indicator Random Variable)
Variabila indicatoare a unui eveniment A, notat adesea 1A, este v.a. egal cu 1 dac se realizeaz A i
egal cu 0 dac nu se realizeaz A. Valoarea ateptat a indicatoarei lui A este probabilitatea lui A,
P(A), iar eroarea standard este (P(A)(1-P(A)). Suma

41 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

1A + 1B + 1C + . . .
a indicatoarelor evenimentelor {A, B, C, . . . } numr cte dintre evenimente sau realizat ntro
ncercare dat.
Variabil binar (Binary Variable)
Este o variabil discret care are doar dou valori posibile, descrise uzual ca succes, insucces. De
regul, o variabil binar este de tip nominal. Codificarea valorilor prin 0 i 1 permit calcule care nu
sunt posibile, n general, pentru variabile discrete: de exemplu, suma produce frecvena valorilor
codificate prin 1. Aceast caracteristic apropie o variabil binar de tipul continuu de variabil.
Variabil calitativ (Qualitative Variable)
O variabil calitativ are ca valori adjective cum ar fi culoarea, genul, naionalitatea etc. Vezi i
variabil nominal, variabil ordinal.
Variabil cantitativ (Quantitative Variable)
O variabil care ia valori numerice i pentru care au sens operaiile aritmetice. De exemplu,
temperatura este o variabil cantitativ, dar codul numeric personal (CNP) nu. O variabil cantitativ
reprezint, de regul, cantitatea exact dintro anumit caracteristic prezent la un element msurat i
este o variabil continu.
Variabil categorial (Categorical Variable)
O variabil este categorial dac valorile ei aparin unei mulimi de categorii distincte (cum ar fi
apartenena etnic, sexul, culoarea etc.). O variabil categorial este o variabil discret.
Variabil continu (Continuous Variable)
O variabil cantitativ este o variabil continu dac mulimea valorilor sale posibile este continu
(nenumrabil). De exemplu temperatura, nlimea etc. n practic nu se poate niciodat s se msoare
o variabil continu cu o precizie infinit i astfel variabilele continue sunt aproximate prin variabile
discrete. O v.a. X este numit continu dac i numai dac funcia de repartiie este continu. De
observat c, n acest caz, P(X = x) = 0 pentru orice numr real x).
Variabil dependent (Dependent Variable)
n teoria regresiei, n care se estimeaz o relaie de forma Y = f (X1, X2, , Xn), variabila Y este
denumit variabil dependent, n timp ce X1, X2, , X n sunt denumite variabile independente. Prin
relaia estimat, valorile Y se presupun explicate de valorile variabilelor independente. Rolurile de
variabil dependent sau independent sunt relative, interschimbabile n funcie de aspectele cercetate.
Variabil discret (Discrete Variable)
O variabil cantitativ este numit discret dac mulimea valorilor posibile este numrabil. Exemple
tipice sunt variabilele care iau valori ntregi: numrul persoanelor dintro familie, vrsta rotunjit la ani
etc. Funcia de repartiie a unei variabile discrete este o funcie scar. O variabil categorial este, de
asemenea, discret.
Variabil explicativ (Explanatory Variable)
n teoria regresiei, o denumire echivalent celei de variabil independent. ntrun experiment, variabila
explicativ este cea manipulat de experimentator (cea explicat fiind variabila dependent).
Variabil independent (Independent Variable)
n teoria regresiei, o variabil independent este cea despre care se presupune c explic variaia

42 of 43

9/16/2010 01:33

Glosar de statistica

http://profs.info.uaic.ro/~val/statistica/StatGloss.htm

variabilei dependente. Se mai numete variabil explicativ. n acest context, independent nu nseamn
statistic independent.
Un alt sens este oferit de modul n care este condus un experiment: anumite variabile sunt controlate,
fixate, de experimentator, alte variabile sunt msurate. Primele se numesc variabile independente
(factori, explicative), ultimile fiind variabile dependente (explicate, efecte). Cum n asemenea cazuri
analiza statistic va include, de regul, o analiz de regresie, explicaia dat vine n completarea
primului sens.
Variabil intra-subieci (Within-subjects Variable)
Este o variabil independent (factor) care este manevrat astfel nct fiecare subiect este testat
(evaluat) la fiecare nivel al variabilei. Mai este denumit variabil cu msurtori repetate, tocmai din
cauz c acelai subiect este supus unor evaluri repetate (la nivele diferite ale factorului).
Variabil ntre-subieci (Between-subjects Variable)
Este o variabil independent (factor) manevrat astfel nct la fiecare nivel al factorului este evaluat un
alt grup de subieci.
Variabil nominal (Nominal Variable)
O variabil categorial este nominal dac ntre categorii nu exist stabilit o ordine (de exemplu,
facultatea urmat de un student: matematic, filologie etc. Ordinea de enumerare este evident arbitrar
i nu constituie un atribut al variabilei facultate.
Variabil ordinal (Ordinal Variable)
O variabil ordinal este o variabil categorial, dar ntre categorii exist o ordine. De exemplu, locul
terminrii unei curse atletice: locul I, locul II etc. Este de menionat c dei exist o ordine ntre
categorii, nu se poate vorbi de distan ntre acestea. Atunci cnd valorile posibile sunt codificate prin
valori numerice, operaiile aritmetice ntre coduri nu au sens (de exemplu calcularea mediei), singura
informaie utilizabil fiind aceea de ordine (mai mare, mai mult etc.).
Variabile aleatoare dependente (Dependent Random Variables)
Dou v.a. sunt dependente dac ele nu sunt independente..
Variabilitate de sondaj (Sampling Variability)
Se refer la variaia valorilor luate de o anumit funcie atunci cnd este calculat pentru eantioane
obinute dintro aceeai populaie.
Variaie ntmpltoare, eroare ntmpltoare (Chance variation, chance error)
O variabil aleatoare poate fi descompus n suma dintre valoarea ateptat i o variaie ntmpltoare
n jurul acestei valori. Valoarea ateptat a variaiei ntmpltoare este egal cu 0. Eroarea standard a
variaiei ntmpltoare este aceeai cu eroarea standard a variabilei aleatoare, ceea ce permite
interpretarea c eroarea standard a v.a. este diferena tipic dintre valoarea variabilei i valoarea ei
ateptat.
Volumul eantionului (Sample Size)
Volumul eantionului este numrul de elemente din eantion.

43 of 43

9/16/2010 01:33

You might also like