You are on page 1of 21

Capitulo II

ELEMENTOS DE ESTADISTICA MATEMTICA


18. Mtodo muestral

Al exponer el captulo I, habamos supuesto que las leyes de distribucin de
variables aleatorias y los parmetros de esas leyes eran conocidos. Sin
embargo, al resolver problemas prcticos tales hiptesis nunca se verifican del
todo. Por lo general, suele conocerse solo la ley de distribucin, y los
parmetros de esta se determinan a partir de los resultados de mediciones. En
ocasiones, a base de los resultados de mediciones se determina tambin la ley
de distribucin.
Ambas tareas, la determinacin tanto de la ley de distribucin como de sus
parmetros, pueden ser resueltas con exactitud, si de las mediciones se
obtienen todos los valores de la variable aleatoria, que reciben el nombre de
poblacin madre estadstica. No obstante, para las variables aleatorias
continuas esto, de principio, es imposible, y para las variables aleatorias
discretas, en la mayora de los casos, tambin es prcticamente imposible. Por
eso, en la prctica se utiliza el llamado mtodo muestral. La esencia de este
mtodo radica en que la poblacin madre se toma solo un parte de los valores
o, como se dice, se hace un muestreo estadstico y, a partir de este se resuelve
la tarea. Desde luego, as se obtienen tan solo soluciones aproximadas.
La estadstica matemtica estudia los mtodos de soluci0on aproximada de
problemas estadsticos a base de muestreos.
El muestreo se procura realizar de manera que este se distribuya
uniformemente entre la poblacin madre y por consiguiente, refleje lo mejor
posible de las propiedades de la variable aleatoria. Presentemos algunos
ejemplos.

Ejemplo 1. Para determinar la reserva de madera en cierta superficie de un
bosque se realiza una medicin de muestreo de la altura y e dimetro del
tronco (a la altura del pecho) de ciertos rboles tpicos o medios en reas de
50x50 m uniformemente distribuidas por el bosque y, adems, se cuenta el
nmero de rboles en dichas reas. Como resultado se obtiene un volumen
medio de madera en un rea media. Multiplicando el resultado obtenido por
ha
ha
P
25 . 0
, donde
Pha es el rea total del bosque, en hectreas, se obtiene una solucin
aproximada del problema. La estadstica matemtica permite en este caso dar
tambin una estimacin probabilstica del resultado obtenido.

Ejemplo 2. Para determinar rpidamente la estatura de soldados llamados a
filas y pedir en el almacn los uniformes correspondientes, los soldados se
colocan en filas (por estatura) y se toman las medidas a uno de cada diez de
ellos por orden de fila. Estos datos resultan ser suficientes para la solucin
satisfactoria del problema, en especial, si tambin se consideran las posibles
desviaciones de los parmetros estadsticos obtenidos y, consecuentemente,
se obtienen uniformes de reserva.

De modo similar, por muestreo se determinan las cosechas de gramneas, el
volumen de precipitacin pluvial, la precisin de mediciones, etc.
Los valores aproximados de las caractersticas bsicas de una variable
aleatoria (esperanza matemtica y varianza) se obtiene por las formulas

1
) (
) ( ) (
) (
1
2
1

=
=

=
=
n
x xi
x D X D
n
xi
x X M
n
i
n
i


Donde n es el nmero de mediciones.
Esta claro que los parmetros estadsticos (empricos) de distribucin
obtenidos sern tanto ms precisos cuanto mayor sea el nmero de
observaciones efectuadas y mejor haya sido tomada la muestra.

Una imagen aproximada del carcter de distribucin de una variable aleatoria
es la que presenta la curva emprica de distribucin. Para trazar esta curva, se
calculan, a partir de los materiales del muestreo, las frecuencias relativas de los
valores observados de la variable aleatoria en ciertos intervalos equidistantes.
Luego, se trazan sucesivamente a lo largo del eje de las X intervalos de la
variacin de X iguales entre si y trazan en estos intervalos rectngulos de
alturas numricamente iguales a las respectivas frecuencias relativas. Como
resultado, se obtiene una lnea escalonada (histograma). Al alisarla, se obtiene
una suave curva emprica de distribucin.

19. Caractersticas complementarias de los muestreos
1.exceso
Llamase exceso E una magnitud que se calcula por la formula
3

2
2
4
=

E
En caso de cumplirse exactamente la ley de distribucin normal, en un
muestreo la magnitud E debe ser igual a cero, lo que se deduce de la relacin
(I.145). Para los valores empricos de 2 y 4, el exceso, por lo general, no
ser nulo.
La desviacin del exceso de una distribucin emprica respecto a su valor
terico, es decir, respecto a cero, es indicio de la desviacin de la distribucin
emprica respecto a la normal; en tal caso, si E>0, la distribucin resulta
escarpada; si E>0, aplanada (vese la fig. 7)
No requiere aclaraciones la afirmacin de que la distribucin emprica puede
coincidir exactamente con la normal por casualidad o siendo en un numero
ilimitadamente grande de ensayos. De ese modo, el investigador,
prcticamente siempre, obtiene una magnitud de exceso diferente de cero.
Pero, puede acaso considerarse de poca importancia el valor obtenido del
exceso en las condiciones dadas y, por consiguiente, tolerable la desviacin del
vrtice de la curva emprica de distribucin con respecto a la curva normal?











Para esto se aplica la siguiente formula que permite calcular la desviacin
tpica de exceso


n
E
24
) (
Donde n es el nmero de observaciones o ensayos.
Si el numero de observaciones no es muy grande (20<n<50), el exceso puede
considerarse de poca importancia a condicin de que
) ( 3 E E

Aqu E es el valor absoluto del exceso;
) (E , la desviacin tpica (emprica) del exceso.

2. asimetra

En la prctica se dan casos en los que la curva emprica de distribucin
aparece como sesgada. Como caracterstica numrica en este si se aplica el
llamado ndice de asimetra
3
3
) (

= Sk

Donde Sk es el ndice de asimetra (S y k son la primeras letras de la palabra
inglesa skewness, que quiere decir oblicuidad );

3
es el momento central de tercer grado,

3
) ( es el cubo de la desviacin tpica (es evidente que
2 / 3
2
3
=
para valores tericos).

Para distribuciones simtricas como es el caso de la normal, es obvio que el
valor terico Sk=0, ya que las sumas de los cubos positivos y negativos de las
desviaciones, al calcular 3 por medio de la formula (I.141), se compensan
mutuamente. Cuando Sk resulte mayor que cero, la curva estar sesgada a la
izquierda, y cuando Sk resulte menor que cero, a la derecha (vese la fig. 8).
Para una distribucin normal con un nmero n grande de ensayos





una frmula ms exacta es su fundamento se da en el libro: V. Bolshakov <<Teora de


errores de observacin>>.



La desviacin tpica del ndice de asimetra puede calcularse por la siguiente
formula emprica


n
Sk
6
) (
Si se cumple la condicin
) ( 3 Sk Sk
La distribucin emprica puede considerarse prcticamente simtrica.
A veces, en lugar del ndice de asimetra Sk se utiliza la constante 1 de
Pearson, llamada medida de oblicuidad, la cual es igual a
3
2
2
3 2
) (
) (
) ( 1

= = Sk
Es fcil establecer que
( ) | | | | ( )
n
Sk Sk
24
1 1 ; ) ( ) ( 4 1
2 2 2

A la condicin (II.7), es anloga la condicin
) 1 ( 3 1
Las desviaciones inadmisibles de Sk respecto a cero, en la mayora de los
casos, revelan la presencia en los resultadas de las mediciones de errores que
actan unilateralmente es asequible sin aclaraciones adicionales. A ella
volveremos ms adelante.

Ejemplo. Durante las pruebas realizadas con un geodmetro, una misma lnea
ha sido medida 16 veces. Haciendo uso de los datos dados en la tabla 4,

Resultados
de las
mediciones
Si
(m)

) (mm S Si Si
med
=
2
Si
3
Si
Calculo


6994.911

890

879

895

882



17.8

-3.2

-14.2

1.8

-11.2



316.84

10.24

201.64

3.24

125.44



5639.8

-32.8

-2863.3

5.8

-1404.9


0 . 0
16
2 . 0

1
=

=

2 . 74
16
1186

2
= =

8 . 40
16
653

3
= =

12457
16
199313

4
= =
0 . 79
15
1186
= = D

mm D 9 . 8 = =

una frmula ms precisa para el clculo de se da en el libro V. Bloshakov <<Teora de errores


de observacin >>
898

885

883

902

901


895


894


896
883

895



902
4.8

-8.2

-10.2

8.8

7.8


1.8


0.8


2.8
-10.2

1.8



8.8
23.04

67.24

104.04

77.44

60.84


3.24


0.64


7.84
104.04

3.24



77.44
11.6

-551.4

-1061.2

681.5

474.6


5.8


0.5


22.0
-1061.2

5.8



681.5
3
) (

2
2
4
= =

E

3
5506
12457
= = E

74 . 0 = E

22 . 1
16
24
) ( = = E


) (E E <
3
3
) (

= Sk

703
8 . 40
= Sk
61 . 0
6
) ( = =
n
Sk
) (Sk Sk <



Smed=
6994.8932


=-0.2


=1186.4

=653.1

199313
4
= Si

Calclense los momentos centrales , , , ,

1
la varianza D(X), la
desviacin tpica , el exceso E, la desviacin tpica del exceso (E), la
asimetra Sk y la desviacin tpica de la asimetra (Sk). En la columna
<<calculo>> de la tabla 4 se expone el clculo de las caractersticas numricas.

Los resultados de los clculos testimonian que el exceso y la asimetra pueden
aqu considerarse insignificantes, y la distribucin emprica, prcticamente
normal.

20. Estimacin del valor aproximado de la esperanza matemtica

Veamos los procedimientos para estimar de manera probabilstica un valor
aproximado de la esperanza matemtica, obtenido como la media aritmtica,
es decir un valor x . como base de la solucin de la tarea planteada utilicemos
el mtodo de intervalos de confianza o limites de confianza. La esencia de este
mtodo consiste en lo siguiente.
Imponindose una probabilidad fiducial , se determinan los intervalos de
confianza que se marcan a ambos lados de x (esto es, ya se a del lado de la
disminucin como del aumento) , dentro de los cuales se encuentra el valor
X con una probabilidad .
Analicemos dos casos:
1. caso. El valor exacto de la desviacin tpica es conocido. Ya que se sabe
el valor exacto de , se obtiene el valor exacto de la varianza de la media
n
x D
x D
) (
) ( =

Y el estndar de la media
n
X
x D x
) (
) ( ) (

= =

Luego razonemos de la siguiente manera. La variable aleatoria X tiene los
parmetros de distribucin X x M = ) ( y
n
X
x
) (
) (

= . La probabilidad de que un
valor concreto de la variable aleatoria resulte comprendido dentro del intervalo
) ( i X y ) ( i X + , como es sabido, es igual a

) ( )
) (
(
i
t
t
t
x
i
P
i
i
= =



donde

X xi i =
nos hemos impuesto el valor y adems conocemos . usando las
tablas de (ti) (apndice 2), a partir del valor dado hallamos

) (x
X xi
t
i

=
y, finalmente,

) (x t X xi
i
=
la probabilidad de confianza que conviene imponer depende en cada caso
concreto de unas u otras consideraciones, adems la apreciacin subjetiva
resulta inevitable. En la mayora de los casos, nos impondremos los valores =
0.99 y = 0.68.
hablando con rigor , el valor exacto de la desviacin tpica en la elaboracin de
los resultados es una abstraccin. No obstante, se ha establecido por
experiencia que el valor de la desviacin tpica puede considerarse
prcticamente exacto, si este ha sido obtenido por la frmula

1
) (
) (
1
2

=

=
n
x xi
X
n
i


Donde 20 n
La expresin (II.10) se deduce de la formula (II.2). por eso, en la subsiguiente
exposicin vamos a considerar que la desviacin tpica es prcticamente
exacta si su valor se ha obtenido a partir de 20 observaciones o ms.
Pasemos ahora a la deduccin de la formula (II.2)
Como es sabido,
2
) ( = X D Veamos si es posible calcular un valor aproximado
de la varianza por medio de la formula

2
) ( = X D

Para obtener el valor aproximado de un parmetro resulta natural imponer la
condicin de que su esperanza matemtica tenga un valor exacto. Por eso
calculemos ) (
2
M
A base de (I.144, e), escribamos
2
1 2 2
) ( v v =
De donde
| |
2
1 2 2
) ( ) ( ) ( v M v M M =
Pero

=
=
= = = =
n
i
n
i
v x M xi M
n n
xi
M v
1
2
2 2 1
2
2
) ( ) (
1
) ( ) (
Obtendremos


| | =
(

|
|
|
|
.
|

\
|
=

=
= 2
1
2
2
1 2
2
) (
1
) (
n
i
n
i
xi M
n n
xi
M v
{ } { } ) (
1
) ( ) ( ) (
1
) )( 1 ( ) (
1
) (
1
2
1
2
1 2
2 2
2
2
2
2
1 1
2
1
2
nv v v
n
X X n X
n
X n n X n
n
xj xi xi M
n
n
j
n
i
n
+ = + = + =
=

+ =

= =



Basndonos en (I.144, e), podemos escribir
| | | |
2
1
2
1
2
1 2
2
1
) (
) (
1
) (
1
) ( v
n
X D
nv X D
n
nv
n
v + = + = + =
Es decir
| |
2
1
2
1
) (
) ( v
n
X D
v + =
Teniendo en cuenta (II.11), (II.12) y (II.13), obtenemos
n
X D
n
X D
v v M
) ( ) (
) (
2
2
1 2 2
= =
O bien,
) (
1 ) (
) ( ) (
2
X D
n
n
n
X D
X D M

= =
La igualdad (II.14) muestra que calculando las varianzas aproximadas por la
formula
2
) ( = X D

Permitimos una disminucin sistemtica de los valores D(X).
De (II:14) se deduce
1
) (
)
) (
(
1
) (
1
) (
2
1
2
1
2

=

n
x xi M
n
x xi
M
n
n
M
n
n
X D
n n


Por eso el valor aproximado de la varianza se calcula por la frmula (II.2)

1
) (
) (
2
1

=

n
x xi
X D
n

Ejemplo 1.

) la variable aleatoria X ha sido observada 20 veces. Los resultados


de las observaciones se exponen en la tabla 5.
Requirese encontrar un intervalo de confianza para la esperanza matemtica
que

i xi i xi i xi i xi
1
2
3
4
5
10.5
10.8
10.9
11.2
10.4
6
7
8
9
10
10.6
10.9
11.0
10.3
10.8
11
12
13
14
15
10.6
11.3
10.5
10.7
10.8
16
17
18
19
20
10.9
10.8
10.7
10.9
11.0

corresponda a la probabilidad de confianza = 0.99.

056 . 0
20
064 . 0
) (
253 . 0 ) ( ; 064 . 0
19
) 78 . 10 (
) ( ; 78 . 10
20
20
1
2
20
1
= =
= =

= = =

x
X
xi
X D
xi
x




En el apndice 2 hallamos , para 99 . 0 ) ( = =

t el valor 57 . 2 =

t
de donde
14 . 0 57 . 2 * 056 . 0 ) ( = =

t x
los limites de confianza sern: 10.64=10.78-0.14 y 10.92=10.78+0.14, o sea,
con una probabilidad de p = 0.99, puede afirmarse que la esperanza

el ejemplo ha sido tomado del libro E, Wentzel <<Probability theory>> moscow, mir Publishers, 1982.
(E. Wentzel << Teora de probabilidades >>.)
matemtica de la variable aleatoria observada se halla comprendida entre los
lmites de 10.64 y 10.92

2. caso: se tienen menos de 20 resultados de observaciones y la desviacin
tpica se desconoce.
Si se sabe que la variable aleatoria a observar est sujeta a ley normal de
distribucin, entonces en el caso considerado se aplica la llamada ley de
distribucin de student para una variable aleatoria adimensional.

) (x
X x
t

=

Donde

) 1 (
) (
) (
) (
2
1

= =

n n
x xi
n
X D
x
n


Evidentemente la variable aleatoria t es funcin de tres variables aleatorias:
. la ley de student se deriva de la ley normal. La densidad de la probabilidad en
la ley de distribucin de student se expresa por la formula que nosotros
consignamos sin demostracin,
2
2
1
)
1
1 (
)
2
1
( ) 1 (
)
2
(
) (
n
n
n
t
n
n
n
t S



Donde




La tabla de valores de


du e u x
u x

=
0
1
) ( = =


dt t S t
t
n
0
1
) ( 2 ) (
Se ofrece en el apndice 5
Presentemos ejemplos de la aplicacin de la ley de distribucin de student.

Ejemplo 2. Utilizando los datos del ejemplo 1, obtngase los limites de
confianza valindose de la ley de student.
Solucin. Para = 0.99 y r= n-1= 19, en la tabal de (t)
(apndice 5) hallamos , de donde


Los lmites de confianza son 10.62 y 10.94. Al aplicar la ley normal, los limites
de confianza resultaron ser iguales a 10.64 y 10.92, es decir, ambas
distribuciones para un nmero n = 20 divergen poco.

Ejemplo 3. Sean , n=7 la probabilidad de confianza = 0.99.
Solucin. Por la tabla del apndice 5 obtendremos


Los limites de confianza son 23.30 y 23.98.
Segn la ley normal , o sea el intervalo de confianza resulta
considerablemente menor.
De este modo nos hemos convencido de que cuando n<20, conviene aplicar la
distribucin de student. Para n>20, puede aplicarse la ley normal de
distribucin.
No obstante, debe tenerse en cuentea que cuando n<10, la ley de student
tampoco ofrece una estimacin confiable de la media aritmtica.

Determinacin de los lmites de confianza cuando la probabilidad del suceso se
desconoce y se sabe la frecuencia relativa de este

Consideremos el siguiente problema. La probabilidad de cierto suceso aleatorio
se ha determinado estadsticamente, para lo cual se hubieron de de realizar
mas de 20 observaciones. En tal caso p=Q, donde Q es la frecuencia relativa
del suceso;
n
p p
p
) 1 (
) (

de acuerdo con (I.174).
Los lmites de confianza sern

) (
) (
p t Q
p t Q

y

Ejemplo. Se han efectuado cien ensayos, y el suceso a probar ha ocurrido 42
veces. Entonces

42 . 0
100
42
= = = q p
049 . 0
100
244 . 0
100
58 . 0 * 42 . 0
) ( = = = p

Imponindose una probabilidad de confianza =0.9, a lo que corresponde
, obtenemos los imites de confianza: 0.42-1.64*0.049=0.42-0.08=0.34 y
0.42+0.08=0.50, o sea una probabilidad de 0.9, el valor exacto de la
probabilidad de aparicin del suceso a probar se halla entre los limites de 0.34
y 0.50. puede, entonces, escribirse p0.4.

21. Estimacin del valor emprico de la varianza.
Aqu, al igual que en el titulo 20, se supone que la variable aleatoria observada
se distribuye segn la ley normal.
Demos sin deduccin la formula de la desviacin tpica de la varianza emprica
1
2
) (

=
n
D D

Cuando 20 n , para resolver el problema resulta suficiente la formula (II.18).
cuando n<20, para determinar el intervalo de confianza de la varianza, se
utiliza la variable aleatoria

D
D n
V
) 1 (
=
Que posee la llamada distribucin
2
X , cuya densidad se expresa
por la formula

2 2
3
2
1
1
)
2
1
( 2
1
) (
v n
n
n
e v
n
v k

=

De (II.19) se deduce

1

=
N
D
V D

Dado que la curva ,segn (II.20), es asimtrica respecto al
vrtice(vese la figura 9), entonces se hace necesario convenir de qu manera
habrn de disponerse los lmites de confianza a ambos lados respecto al valor
emprico de D (X). El limite de confianza suele trazarse de modo que las
probabilidades de que el valor de la varianza exacta se halle fuera de los limites
de confianza, tanto en mas como en menos, resulten iguales entre si. Para
establecer los lmites de confianza correspondientes, en el apndice 6 se da
una tabla para los valores de cuyas probabilidades satisfacen la condicin
(II.22)

i i
p X V P = > ) (
2


Donde pi es cierta probabilidad de la que se hablara mas adelante.
El orden de la operaciones es el siguiente.
Se calcula el valor =1-, donde es la probabilidad de confianza impuesta




Continuacin, del apndice 6 se obtiene
2
1
X y
2
2
X que corresponde a las
probabilidades
2
1

= p y
2
1
2

= p y al numero de grados de libertad r=n-1,
donde n es el numero de observaciones. Los lmites de confianza sern

2
2
2
1
) 1 (
_ _
) 1 (
X
n D
y
X
n D



Ejemplo. A partir de los datos del ejemplo 1 del titulo 20, hallar los limites de
confianza para D(X)=0.064 , aplicando: a) la ley normal; b)la
distribucin . sea la probabilidad de confianza =0.8.
Solucin. a) segn la ley normal, t=1.28,


021 . 0
19
2
064 . 0
1
2
) ( = =

=
n
D D



De acuerdo con (II.18) . Los limites de confianza
para D(X) 0.037 y 0.91;
para (X) 0.19 y 0.30;
b) por la ley de distribucin :
=1-= 0.2
1 . 0
2
1
= =

p
9 . 0 1 . 0 1
2
= = p




Luego, en el apndice 6 hallamos 2 . 27
2
1
= X y 65 . 11
2
2
= X (por los argumentos
r=n-1=19, p1=0.1 y p2=0.9) y calculamos

045 . 0
2 . 27
19 * 064 . 0 ) 1 (
2
1
= =

X
n D
y 104 . 0
) 1 (
2
2
=

X
n D



Los lmites de confianza sern:
Para la varianza 0.045 y 0.104
Para la desviacin tpica 0.21 y 0.32

Recordemos que los limites de confianza para (X), segn la ley normal, son
iguales a 0.19 y 0.30.

Como hemos visto cuando n=20, los limites de confianza para (X), obtenidos
por la ley normal de distribucin y por la distribucin , no se
diferencian prcticamente. Resumiendo lo dicho en los ttulos 20 y 21, pueden
formularse las siguientes reglas.
Cuando n>20, para la estimacin de los parmetros empricos fundamentales
de la distribucin normal de una variable aleatoria, pueden utilizarse las tablas
de integrales de probabilidades (t) del apndice 2, sin tener que recurrir a las
distribuciones de Student y las cuales sin embargo, se emplean
preferentemente cuando n<20. pero, para los casos cuando n<10, obtener
estimaciones confiables de los parmetros empricos resulta imposible.

22. Comparacin de la distribucin emprica con la terica

Antes que nada notemos que, si se comprueba la distribucin normal, en la
mayora de los casos resulta suficiente calcular el exceso (II.3) y la asimetra
(II.6) y estimarlos por formulas (II.4) y (II.5) as como tambin por (II.7) y (II.8).
en el caso general, para comparar la distribucin emprica con la terica puede
emplearse la tabla de del apndice 6. el estudio de una serie
estadstica comienza por el trazado grafico de la curva emprica de distribucin
(vese el titulo 18). Del trazado de la curva obtenida se promueve una hiptesis
sobre la posible distribucin terica. Despus a intervalos iguales de la
variacin de la variable aleatoria se cuenta el nmero de valores observado ki y
el nmero de valores que corresponden a la distribucin terica, esto es, npi,
donde n es el nmero total de observaciones, pi, la probabilidad de que la
variable aleatoria se halle comprendido en el intervalo dado.
Para la obtencin de la probabilidades pi es necesario calcula previamente
e imponer la condicin de que

=1 pi , o sea, de que los intervalos extremos


abarquen todos los valores restantes. Luego se calcula

=

=
n
i
npi
npi ki
X
1
2
2
) (



Y el nmero de grados de libertad
r=m-3
donde m es el numero de intervalos (subordenes); 3, el numero de condiciones
impuestas(coincidencia de x y X , ) (X y ) (x y que

=
=
m
i
p
1
1y )
el grado de concordancia de la distribucin emprica con la terica (criterio de
aceptacin) se estimar por una probabilidad p, obtenida del apndice 6 segn
el argumento r y la magnitud a tabulada de (el valor de p es una
de las entradas a la tabla). Si p<0.1 la concordancia se considera
insatisfactoria. En este caso se promueve otra hiptesis o bien se revisa la
correccin del experimento
Ejemplo

se han efectuado 500 mediciones del error lateral en el tiro realizado


desde un avin a un blanco en tierra. Los resultados de las mediciones 8en
milsimas de (radian) se han dispuesto en la serie estadstica mostrada en el
primero y segundo renglones de la tabla 6.







tomado del libro de E. Wentzel <<probability theory >>, Moscow, Mir publishers, 1982.









Los valores de xi se reparten en subordenes Ii de modo que en cualquier
suborden se hallen comprendidos no menos de 5 valores observados y de que
el nmero de subrdenes sea no menor de 8.
El valor de en el ejemplo ha sido calculado por la formula
aproximada


168 . 0
500
84
500
) (
2
1
8
1
1
= =
)
`

+
=
+ i i i
k x x
x


El valor de (X) se ha calculado por la formula ) ( ) ( X D X =
Donde
098 . 2 028 . 0 126 . 2 ) (
500
) (
2
1
) ( ) (
2
8
1
2
1
2
1 2
= =
)
`

+
= =
+
x
ki x x
v v X D
i i





La simplificacin consiste en que en cada suborden se considera que todos los
valores son los mismos e iguales a ) (
2
1
1 +
+
i i
x x





Luego se obtiene

=
8
1
2
2
75 . 3
) (
npi
npi ki
X
Y un nmero de grados de libertad
r=8-3=5
en la tabla (apndice 6) hallamos en el rengln r=5 para
el valor p=0.70 y para p=0.50. interpolando obtenemos para
el valor p=0.59
por cuanto p>0.5 la concordancia de la distribucin emprica respecto a la
normal debe considerarse excelente. Cuando , la concordancia se
considera buena, y cuando , satisfactoria. Recordemos que en caso de
p<0.1 la concordancia se considera insatisfactoria.

23. Concepto de enlace estadstico.

En la elaboracin matemtica de los resultados de observaciones efectuadas al
probar nuevos instrumentos y mtodos de trabajo, as como tambin en la
solucin de una serie de otras tareas cientfico tcnicas hay que establecer la
dependencia de los resultados obtenidos respecto a una fuente (factor)
principal o de una causa principal de errores. Si la dependencia entre los
resultados de las observaciones ha sido establecida y expresada por una
formula, puede entonces usarse para el computo precio de la estimacin de la
precisin esperada del aparto a probar o para una adecuada organizacin de
las observaciones y la elaboracin de sus resultados. En este caso, pueden
presentarse dos formas de enlace entre los ndices cuantitativos y cualitativos:
la funcional y la estadstica. Limitmonos solamente al estudio de los enlaces
entre dos magnitudes variables x e y aquel, en virtud del cual a cada valor de x
le corresponde un valor definido de y. As, por ejemplo, entre el volumen de un
globo y su radio R existe el siguiente enlace funcional

3
3
4
R V =

Llamase enlace estadstico entre dos variables x e y aquel enlace cuando a
cada valor de x le corresponde una distribucin de valores de y que varia en
funcin de la variacin de x.
Ejemplo. Al probar un geodmetro CBB-1 (SVV-1) en 1953 fueron obtenidos los
resultados que se dan en la tabla 7.
Si en lugar de presentar la tabla 7 se dieran los valores de los errores de cada
observacin, el enlace entre D y ni siquiera se contemplara. A partir de los
datos de la tabla 7, en la cual se han presentado los valores medios de los
errores, puede verse que al aumentar D de 0.4 a 2.7, el error aumenta y solo
de pasar D de 2.7 a 4.5, disminuye. Por lo tanto, a pesar de la existente
desviacin respecto a la regularidad revelada, puede afirmarse que, al ampliar
la distancia media, el valor absoluto del error medio tiende a aumentar.
Hemos visto anteriormente un ejemplo en el que entre los valores medios de
dos magnitudes variables existe un enlace estadstico de correlacin. La misin
de investigador se reduce a establecer la estreches del enlace, es decir, a
estimar el grado de proximidad entre los enlaces funcional y de correlacin, y
establecer la forma de dicho enlace por medio de una formula que permita
calcular previamente los valores medios de una variable a partir de los valores
dados de la otra. Los enlaces de correlacin se dividen en lineales y no
lineales. Estudiemos por ahora solo los enlaces lineales; acerca de los no
lineales se hablara al final de la segunda parte del curso.





24. Coeficiente de correlacin.

El coeficiente de correlacin representa la medida de estreches de un enlace
de correlacin lineal, y se calcula por la formula

*
1
) ( ) ( ) 1 (
) ( ) (
Y X n
y y x x
r
i
n
i
i


=

=


Donde

yn y y y
xn x x x
yi
xi
... 3 2 1
... 3 1 1

Son diversos los valores de xi e yi obtenido de las observaciones






n
xi
x
n
i

=
=
1
es la media aritmtica de la variable X;

n
yi
y
n
i

=
=
1
es la media aritmtica de la variable Y;
n, el numero de observaciones (de los valores de xi, yi); (X), la desviacin
tpica de X (estndar de X); (Y), la desviacin tpica de Y (estndar de Y)
las magnitudes (X) y (Y) se calculan por las formulas (II.2)


1
) (
) (
1
2

=

=
n
x xi
X
n
i
y
1
) (
) (
1
2

=

=
n
y yi
Y
n
i



As, pues, si las figuras graficas preliminares muestran que el enlace entre X e
Y se aproxima al enlace lineal (los puntos en la grafica en tal caso, se disponen
cerca de la lnea recta), entonces se calculan las medias aritmticas
las desviaciones y por ellas, aplicando la formula (II.2) se
calculan las desviaciones tpicas (X) y (Y) y, finalmente, por la formula
(II.24), el coeficiente de correlacin.



La magnitud se llama momento de correlacin.



25. Propiedades de coeficiente de correlacin. Ecuacin de regresin

veamos las propiedades bsicas del coeficiente de correlacin.
1. el coeficiente de correlacin vara entre los lmites 1 y +1, es decir,



1 1 + r

2. cuando el coeficiente de correlacin es igual a +1 o 1 entre x e y existen
enlaces rectilneos exactos, es decir,
Y=aX+c,
X=bY+d
Cuando r igual a +1, al aumentar o disminuir X, aumenta o disminuye Y, en el
caso en el que r igual a 1, al agrandar X diminuye Y, y al disminuir X aumenta
Y.
3. si r=0 entonces entre X e Y no existe enlace rectilneo de correlacin (puede
existir enlace no lineal)
cuanto mas se aproxime el coeficiente de correlacin r a +1 o a 1 tanto mas
cercano ser el enlace de correlacin entre las variables X e Y al enlace
funcional; mientras mas se aproxime a 0 el coeficiente de correlacin las
variables X e Y resultaran cada vez menos enlazadas.
Naturalmente surge la pregunta con que grado de fiabilidad se calcula el valor
del coeficiente de correlacin y con que valor mnimo absoluto de este puede
aun considerarse existente el enlace?
Para un numero de observaciones n>50 V. Romanovski (47, pagina 184)
recomienda para evaluar la desviacin tpica de coeficiente de correlacin
aplicar la formula
n
r
r
2
1
) (


de (II.24) es fcil obtener la formula



) )( (
2
1
2
1
2
1 2

= =
=
|
.
|

\
|
=
n
i
n
i
n
i
i i
i i
r




donde

x xi i = y y yi i =
pero en lgebra se demuestra la desigualdad

) )( (
2
1
2
1
2
1

= = =
|
.
|

\
|
n
i
n
i
n
i
i i i i
de donde resultan las desigualdades

1 1 + r


El enlace se considera establecido si se cumple la siguiente condicin

r r () 3

Ejemplo. Supongamos que, como resultado de ciertos clculos se halla
obtenido un coeficiente de correlacin r=+0.26; n=394.
Estimemos la precisin del coeficiente de correlacin
047 . 0
394
) 26 . 0 ( 1
) (
2
=

r

Ya que , (0.26>0.14), puede entonces considerarse establecido un
enlace lineal de correlacin.
Para la estimacin de la fiabilidad del coeficiente de correlacin cuando n<50,
se utiliza una funcin especial llamada criterio de Fisher (23, pagina 242)

{ } r r z + = 1 ln( ) 1 ln(
2
1


La cual se supedita a la ley normal de distribucin. La desviacin tpica de la
magnitud z se calcula por la formula
3
1
) (

n
z

Los valores de las magnitudes de z obtenidos a partir de los valores empricos
del coeficiente de correlacin r pueden ser calculados directamente por la
formula o por medio de las tablas que se dan en el apndice 7. Mostremos en
un ejemplo la aplicacin del criterio de Fisher.

Ejemplo. En la tabla 8 se asumen los resultados de las pruebas de un
geodmetro SVV-1 en 1955. determnese el coeficiente de correlacin que
caracteriza la estrechez del enlace entre longitudes medidas D de las lneas y
sus errores y estmese la precisin del coeficiente de correlacin
empleando el criterio de Fisher. Basndonos en los datos de la tabla 8,
obtenemos
(D)=2.25; (m)=1.85; r=0.60; z=0.69 hallado por las tablas del apndice 7 y



41 . 0
3 9
1
) ( =

z


Con una probabilidad igual a 0.68 (t=1), la magnitud z puede tomar los valores

10 . 1 28 . 0 z


En la misma tabla (apndice 7 ) usando el valor de los extremos de z en (II.29)
hallamos sus correspondientes valores del coeficiente de correlacin

80 . 0 27 . 0 r

Puesto que el intervalo de confianza que es igual a 0.80-0.27=0.53, es menor
que el valor absoluto del coeficiente de correlacin (0.60) entonces puede
considerarse establecida la correlacin lineal. Esta claro que, siendo n=9, la
cuestin no puede considerarse resuelta con suficiente fiabilidad. En general,
cuando n<20 resulta difcil hablar del establecimiento fiable de enlaces de
correlacin.
Para deducir una formula emprica que refleje un enlace rectilneo de
correlacin entre las variables X e Y se utiliza la ecuacin

) (
/
x xi y yi
x y
=

Donde es el coeficiente de regresin de Y sobre X, que se calcula
por la formula

) (
) (
/
X
Y
r
x y

=

En el caso de un enlace rectilneo de correlacin entre las variables existe una
ecuacin de regresin que posee la siguiente forma

) (
/
y yi x xi
x y
=

Donde es el coeficiente de regresin de X sobre Y, igual a


) (
) (
/
Y
X
r
y x

=

Sin embargo, en muchos casos la ecuacin de la forma (II.32) carece de
sentido si se estudia la dependencia de Y de X; as en el ejemplo anterior,
nadie va a determinar a partir de los errores de las mediciones la distancia
D.
La desviacin tpica de los coeficientes de regresin en un numero n grande se
calcula por las formulas

3
1
) (
) (
) (
2
/

=
n
r
X
Y
x y


3
1
) (
) (
) (
2
/

=
n
r
Y
X
y x



Para su empleo practico la ecuacin (II.31) conviene reducirla a la formula
siguiente

) (
/ /
x y xi yi
x y x y
+ =

De la formula (II.34) es fcil ver que el coeficiente de regresin de la tangente
del ngulo de inclinacin de la recta, y el sumando constante es el
segmento que corte dicha recta sobre el eje de coordenadas.
Ejemplo. En la tabla 9 se asumen las distancias de D medidas con un
geodmetro SVV-1 y los errores de estas lneas.
Con los datos de la tabla 9, calclense los coeficientes de correlacin, el
coeficiente de regresin; estmese la precisin de estos con una probabilidad
=0.68 y compngase la ecuacin de regresin.
A partir de los datos obtenidos de los calculados efectuados en la tabla 9,
obtenemos

80 . 1
19
47 . 61
) ( = = D
42 . 1
19
20 . 39
) ( = =



El coeficiente de correlacin segn (II.30) ser igual a

79 . 0
42 . 1 * 80 . 1 * 19
54 . 38
= = r


Estimemos la fidelidad del coeficiente de correlacin. Dado que el numero n de
observaciones es comparativamente pequeo para la estimacin aplicaremos
el criterio z de Fisher.
En la tabla del apndice 7 valindonos del coeficiente de correlacin r=+0.79
como argumento, hallamos




Estimemos la fiabilidad de z por la formula (II.28)

243 . 0
3 20
1
) ( =

= z


Con una probabilidad de 0.68 (t=1), la magnitud z puede tomar los valores
) ( 071 . 1 ) ( 071 . 1 z z z +

Por la tabla del apndice 7 hallamos los valores del coeficiente de correlacin
que corresponden a los valores extremos de z (0.83 y 1.31)
314 . 1 828 . 0 z

En consecuencia con una probabilidad de =0.68 el verdadero coeficiente de
correlacin puede ser comprendido entre +0.68 y +0.86. Puesto que el intervalo
de confianza para r es menor que el valor absoluto de r (0.86-0.68<0.79),
entonces puede considerarse establecido un enlace rectilneo de correlacin.
Compongamos la ecuacin de regresin de sobre D



Sustituyendo en (II.36) los valores numricos de , obtenemos

) 9 . 4
80 . 1
42 . 1
79 . 0 8 . 3 (
80 . 1
42 . 1
79 . 0 + = Di
i

cm Di
i
) 76 . 0 62 . 0 ( + =


(Di son las distancias en kilmetros)
Estimemos aproximadamente la fiabilidad del coeficiente de regresin


Por lo tanto

12 . 0 62 . 0 ) (
/ /
=
D D

Con una probabilidad =0.68

You might also like