You are on page 1of 9

INSTITUTO

TECNOLOGICO
SUPERIOR DE ALAMO
TEMAPACHE
INGENIERIA INDUSTRIAL
TALLER DE INVESTIGACION II
RESUMEN DE LOS GRAFICOS Q-Q
ALEJANDRO LICONA HERNANDEZ
UNIDAD 1
ANALISIS DEL PROTOCOLO DE INVESTIGACION

FECHA DE ENTREGA 12 DE SEPTEMBRE DE 2014

Introduccin
En este trabajo, se describe la construccin de un grco de probabilidad (y en
particular el Q-Q Plot Normal) y se analizan cada una de las deniciones de los
puntos de posicin grca ms relevantes que han sido introducidas a lo largo de
la historia. Se comprobar que la eleccin de esos puntos inuye en el grco,
produciendo resultados sensiblemente distintos.
En la construccin de los grcos de probabilidad normal o Q-Q Plot Normal,
intervienen como elementos fundamentales los denominados plotting positions o
puntos de posicin grca que mencionaremos en este reporte.
La construccin del grco de probabilidad normal se realizar a travs de los
cuantiles de la normal estndar, de forma que aceptamos la hiptesis de una
normalidad de los datos, siempre que los puntos en el grco tengan un
comportamiento sucientemente rectilneo.
En el grco de probabilidad son elementos fundamentales los conocidos como
puntos de posicin grca (plotting positions). En este trabajo se le dedicar el
anlisis de dichos elementos.

GRAFICOS Q-Q
El grafico qq-plot o grfico cuantil- cuantil, es un grfico que permite comparar la
distribucin de un conjunto de datos con una distribucin especifica. Para la
realizacin de un qq-plot los datos se ordenan de menor a mayor, comparando el
i-simo dato con su correspondiente cuantil terico o poblacional. Si la distribucin
terica constituye una buena aproximacin a la distribucin emprica cabra
esperar que los cuantiles muestrales estn muy cerca a los de la distribucin
terica propuesta, por lo tanto, los puntos de la grfica deben estar muy prximos
a la bisectriz del primer cuadrante.
Sea f(x) la funcin de distribucin de una distribucin especfica. El grfico de
probabilidad se construye siguiendo los siguientes pasos segn (Gutierrez, 2007)

1. Se ordenan las observaciones de menor a mayor de la siguiente manera:

2. Determinar los valores

Si por
notamos al cuantil de orden
observaciones, tenemos que:

de las

3. Determinar los cuantiles de orden


de la distribucin terica
representada por la funcin de distribucin F, es decir:
4. Representar el conjunto de puntos (
los mismo, los puntos (

o lo que es

En el caso en que F represente la funcin de distribucin de una Normal, al grfico


de probabilidad resultante se denominar grfico probabilstico normal o Q-Q Plot
Normal.
El grfico cuantil-cuantil puede realizarse cualquiera sea la distribucin hipottica.
Mediante este grfico es posible estudiar visualmente: asimetra hacia la derecha
o izquierda, colas pesadas respecto de la distribucin elegida, colas livianas
respecto a la distribucin elegida. La distribucin Normal es una de las
distribuciones ms usadas e importantes, es una herramienta indispensable en
cualquier rama de la ciencia, industria y comercio.

La muestra aleatoria con distribucin Normal Estndar de tamao pequeo puede


apartarse suficientemente de la bisectriz del primer cuadrante, sugiriendo
falsamente falta de adecuacin del modelo porque fue generada mediante la
distribucin Normal correspondiente. Y a su vez a medida que se consideran
tamaos muetrales ms grandes, esa falsa falta de adecuacin disminuye.
La situacin de la falsa interpretacin grfica a la hora de establecer normalidad
en una muestra aleatoria Normal, se propone analizar cuatro casos de distinto
tamao muestral. Para cada caso se calcularon los cuantiles muestrales y los
exactos propuestos se deducen mediante la frmula de Hazen en 1930 la cual es
la siguiente:

Para llevar a cabo estas simulaciones se necesitan distintos tamaos de muestra


(n=39, 99, 399 y 999). En esta situacin todos los puntos deberan de caer sobre
la recta azul. Los 4 cuantiles especficos en que nos focalizamos de la interseccin
de las rectas horizontal y vertical del color correspondiente debera caer sobre la
recta azul, esto nos indicara que el valor del cuantil de la muestra coincide con el
valor exacto del cuantil correspondiente. Cuanto ms cerca, mejor resulta la
aproximacin. Repitiendo estas simulaciones, podemos observar que para n=39 y
n=99 los resultados no son adecuados, un valor muestral de n=399 no parece ser
suficiente y por el contrario un valor n=999 resulta razonable.
Estas simulaciones se representan a continuacin:

Figura 1. Cuantiles de las Muestras vs. Cuantiles de la Normal Standard en


funcin del nmero de rplicas n.
1

Fig. 1 Cuantiles de las Muestras vs. Cuantiles de la Normal Standard en funcin del nmero
de rplicas n.

En la siguiente tabla se muestran los porcentajes basados en 5.000 rplicas de la


distribucin Normal Estndar, para cada tamao muestral, donde el cuantil
estimado cae en un rango de error del 5% respecto al valor exacto. En esta se
puede observar que cuando va en aumento el nmero de muestras utilizadas los
valores de los cuantiles se aproximan mejor al valor esperado.
Cuantiles
Muestras
0,025
0,05
0,95
0,975
39
17,32
19,52
19,26
17,52
99
28,54
29,06
29,98
28.38
399
52,80
55,64
57,86
53,08
999
74,50
76,72
78,14
75,68
Tabla 1. Porcentajes de valores, segn la muestra, que se acercan al valor exacto
con un 5% de error respecto al mismo. 2
3

Figura 2. Histogramas de los cuantiles simulados para cada tamao de muestra.


En esta figura se muestran los Histogramas correspondientes a las 5.000 rplicas
de muestra Normales Estndar que corresponden a los distintos tamaos de
muestras y para el cuantil o percentil pi=0,025. Las franjas verticales corresponden
al:

Para n=39 y n=99 el sesgo es evidente y la variabilidad es grande. sta disminuye


al aumentar n.

Los
cuantiles Normales o cuantiles tericos y bandas de
confianza
Los cuantiles Normales o cuantiles tericos

valores observados ordenados


muestrales.

se les denomina cuantiles

contra los

La lnea a trazos azul es el patrn que debemos obtener, y la cuestin es


identificar dnde o no los puntos se apartan suficientemente del mismo para
sugerir que la muestra no se distribuye normalmente.

Tabla 1. Porcentajes de valores, segn la muestra, que se acercan al valor exacto con un 5% de
error respecto al mismo.
3
Figura 2. Histogramas de los cuantiles simulados para cada tamao de muestra.

Como se muestra en la siguiente figura:

Figura 3. Cuantiles de la Normal Standard vs. Cuantiles de la Muestra.

Se observa una cierta cantidad de puntos desajustados, pero sabemos que en


realidad dicha muestra tiene distribucin Normal Estndar, lo cual nos hace tener
otro criterio que nos ayude a ver si dichos puntos estn suficientemente alejados
del modelo propuesto como para sugerir la adecuacin o no del mismo. La idea es
encontrar una banda de probabilidad, emprica, simulada por el mtodo de Monte
Carlo (tambin denominado mtodo paramtrico de remuestreo) (Davidson y
Hinkley, 1998) donde debera encuadrarse nuestra muestra original para ser
considerada con distribucin Normal Estndar.

Bandas de confianza
En la siguiente figura se muestran, tanto las rplicas de Monte Carlo como as
tambin las bandas de confianza marcadas en trazo grueso que corresponden a
las bandas que unen los extremos inferiores y superiores de los intervalos
puntuales.

Figura 3. Cuantiles de la Normal Standard vs. Cuantiles de la Muestra.

Figura 4. Lneas correspondientes a las rplicas y las bandas de confianza.


Como se ve en la Figura 4 la mayora de las muestras simuladas caen dentro de
las bandas envolventes.

Figura 5. La muestra original con las bandas de confianza


En la Figura 5 todos nuestros datos originales caen dentro de la banda propuesta,
lo que implicara que el modelo Normal Estndar resulta adecuado.
5
6

Figura 4. Lneas correspondientes a las rplicas y las bandas de confianza.


Figura 5. La muestra original con las bandas de confianza

Conclusin
En denitiva, que el test usado sera sensible a la eleccin de los puntos de
posicin grca. En el grupo de grcos, se puede observar que las diferencias
entre las distintas rectas son como mucho del orden de centsimas, lo que nos
puede llevar a pensar que en caso de normalidad, la eleccin de un punto de
posicin grca, aunque produzca alguna diferencia, no resulta altamente
signicativa.
Podemos indicar que la eleccin de la denicin de puntos de posicin grca
inuye en la forma nal del grco de probabilidad, lo que nos podra llevar a la
conclusin que, en aquellos casos en los que este sea usado para la prueba de
normalidad, podramos obtener resultados diferentes, en funcin de la eleccin
previa de los pi.

Bibliografa
Gutierrez, E. L. (2007). Q-Q Plot Normal. Los puntos de posicion grfica. Revista electrnica
Iniciacin a la Investigacin.

You might also like