You are on page 1of 65

JMP

5.1 Objetivos
Explicar el uso de la estadstica
Definir muestra y poblacin
Describir los procesos involucrados en
el anlisis estadstico
Comparar estadstica descriptiva e
inferencia estadstica
Discutir planes de muestreo
1 /XX

Cul es el propsito de la estadstica?


Uno de los motivos es darle sentido a los datos
Nos dan informacin sobre los datos
De esta manera podremos responder preguntas y
realizar decisiones basadas en datos

2 /XX

Definir el problema
Antes de comenzar el anlisis, se debe completar los
siguientes puntos:
Establecer el PROPSITO del estudio
Documentar las PREGUNTAS del estudio
Definir la POBLACIN de inters
Determinar las NECESIDADES de muestreo
Definir el protocolo de MUESTREO

3 /XX

Ejemplo: datos de velocidad


Antes de comenzar con el anlisis es importante
dar consideracin al problema en el cul estamos
interesados

80 km/h

77 km/h

Lmite de
velocidad
75 km/h

100 km/h

85 km/h

4 /XX

Poblacin y muestra
Una poblacin es un grupo de todas las mediciones de
inters.
Se define la poblacin cuando se define el problema o
pregunta a contestar
Ej: para este ejemplo la poblacin son todos los autos
que viajan a travs de la interseccin
Una poblacin se puede categorizar como:
Concreta: si se pueden identificar cada sujeto de la poblacin
Terica: si constantemente cambia

Una muestra es una porcin de los valores medidos en


la poblacin.
Debe ser al azar, para asegurarse que es
representativa de la poblacin.
Estas caractersticas son similares a la de la poblacin
5 /XX

Muestreo simple
Cada miembro de la poblacin tiene la misma
probabilidad de ser escogido

6 /XX

Muestreo conveniente
Cuando se eligen valores de la poblacin que son accesibles,
se est hablando de un muestreo conveniente

Este tipo de muestreo puede tener tendencias y no


7 /XX
es representativo de la poblacin

Proceso de anlisis estadstico


Poblacin
Muestreo
al azar
Describir

Realizar
inferencias

Estadstica
de la
muestra

La estadstica descriptiva se utiliza para organizar,


resumir y focalizar en las caractarsticas ms
importantes de los datos (resumirla es una forma
de hacerla utilizable
La inferencia estadstica hace generalizaciones o
inferencias de los datos, basadas en probabilidades
tericas
8 /XX

Proceso
Existe un proceso para el anlisis estadstico
1.
2.
3.
4.

Identificar la poblacin de inters


Definir un muestreo representativo (usualmente al azar)
Analizar los datos para describir la muestra
Utilizar esa informacin para hacer inferencias sobre la
poblacin

En lugar de tener que trabajar con datos


individuales, lo que queremos es reducir los datos
a valores puntuales que contengan las
caractersticas de la poblacin
Las estadsticas capturan los datos importantes
como ubicacin, variacin, etc
9 /XX

Plan de muestreo
Describe como recolectar los datos
Es importante recordar que se hacen conclusiones sobre la
poblacin en funcin de la informacin de la muestra

Muchos de los anlisis estadsticos asumen que el


muestreo es simple y al azar
El plan de muestreo determina la muestra para la
cul se realizar la inferencia (si de 87 semforos
solamente elegimos los 2 ms cercanos, solamente
tendremos en cuenta los autos que pasen por all)
Los investigadores usualmente conlcuyen sobrel a
poblacin general que la que se muestre. Esas
conclusiones no tienen la base estadstica, pero se
cree que la muestra es representativa de la poblacin
10 /XX

5.2 Estadstica descriptiva y algunos de sus


grficos
Objetivos:
Interpretar estadsticas que describan la ubicacin
de un grupo de valores (media, mediana)
Interpretar estadsticas que describan la dispersin
y variabilidad de un grupo de valores (rango,
desvo estndar)
Interpretar medidas de forma, oblicuidad y kurtosis
Armar grficos de los datos

11 /XX

Parmetros y estadsticas
Son caractersticas de la poblacin.
Como una poblacin no puede ser medida
en su totalidad, los parmetros de la
poblacin son desconocidos.
Las estadsiticas son valores medidos y
calculados de las muestras.
De ellas se pueden estimar los parmetros
Parmetros de la
poblacin

Estadsticas de la
muestra

MEDIA

VARIACIN

s2

DESVO ST

12 /XX

Valores tpicos de una distribucin


Promedio: la sumatoria de todos los valores
individuales dividido por el nmero de muestras
n

i=1

xi
n

Mediana: El valor central (tambin conocido como


percentilo 50)

1 3 3 4 5 8 51
n=3
Mediana

n=3

1 3 3n=34 5 8
n=3

Mediana

13 /XX

La estadstica descriptiva utilizada para definir el


punto medio de una muestra se llama Medidas de
Tendencia Central
Las ms conocidas son:
Media
Moda
Mediana

Percentilos

98
95
92
90
85
81
79
70
63
55
47
42

3 Cuartilo
Percentilo 75% = 91

Percentilo 50% = 80

Cuartilo que divide los


datos en cuatros

Percentilo 25% = 59
1 Cuartilo

14 /XX

Extensin de una distribucin:


variacin

Nos dan una idea de la dispersin de los datos


Rango: representa el ancho de la distribucin. Es la resta
entre los valores extremos
Rango intercuartilo: diferencia entre los percentiles 25 y 75
Coeficiente de variacin: es el desvo estndar como
porcentaje del promedio
Medicin

Definicin

Rango

Difernecia entre el mximo y el mnimo

Rango
intercuartilo

Difernecia entre los percentilos 25% y 75%

Varianza

Medida de la dispersin de datos alrededor del


promedio

Desvo estndar

Una medida de dispersin expresada en las


mismas unidades de medicin que los datos

Coeficiente de
variacin

Desvo estndar como porcentaje del promedio 15 /XX

Ejemplo
Suponganse los valores de la tabla adjunta

OBS

DATO

PROM

DESV ST

-2

-1

SUM

15

15

PROM

La suma de los desvos es igual a cero


El promedio de los desvo es igual a cero
Para solucionar el problema se puede cambiar el desvo por
un valor no negativo:
Tomando valores absolutos
Elevando al cuadrado cada desvo (el ms utilizado)
16 /XX

Estimador no sesgado de la variacin de la


poblacin
Se calcula promediando la diferencia de cada valor
individual respecto del promedio, dividiendo por (n1) en lugar de n
Es no sesgado porque en el promedio se iguala la
viariacin de la poblacin
n

i=1

(yi y)i
n-1
17 /XX

Desvo estndar
La varianza es una medida de variacin
La raz cuadrada de dicho valor es el desvo
estndar
Es una medida de la variacin en las mismas
unidades que su escala original

=2
sn-1=s2n-1

Es el desvo estndar de la
poblacin

Es un estimado del desvo


estndar de la poblacin

18 /XX

Distribuciones
Cuando se examina (para el ejemplo de las
velocidades), se puede determinar
Rango de posibles valores
Frecuencia de los valores
Dnde se acumulan los datos

Distribucin: un conjunto de datos arreglados en


un orden determinado con una frecuencia relativa
Es importante describir ubicacin, dispersin, forma, etc
son simtricamente distribudos?
Hay algn porcentaje inusual

19 /XX

PORCENTAJE

Histogramas

CLASES

Cada barra en el
histograma
representa un
grupo de valores
El alto dela barra
es el porcentaje
de valores en esa
clase
JMP determina el
ancho y nmero
de barras
automticamente
(igual se pueden
cambiar)

En una distribucin simtrica, la parte izquierda es imagen especular de la derecha

Forma de campana
Caracterizada por promedio y desvo estndar
Media = Mediana = Moda

20 /XX

Forma de la distribucin: tendencia

Tendencia a la izquierda

Simtrica

Tendencia a la derecha

21 /XX

Oblicuidad
Nos da una idea de si los valores estn dipersos
hacia alguno de los lmites extremos
Valor negativo: tendencia hacia el lado izquierdo, el
promedio es menor que la mediana
Valor positivo: tendencia hacia el lado derecho, el
promedio es mayor que la mediana

Kurtosis: nos da una idea de si las colas de la


distribucin son pesadas (muchos valores) o
livianas (pocos valores)
Pesadas: la kurtosis es positiva
Liviana: la kurtosis es negativa
22 /XX

Formas grficas de distribucin


Tres tipos
Outlier box plots: provee informacin de la
variabilidad de datos y de los datos extremos
La caja representa el valor medio de los datos (da una
idea de la simetra de la distribucin, comparando media
y mediana)
Las lineas se extienden fuera de la caja tanto como se
extienden los datos

23 /XX

Normal Quantile plots: es un mtodo grfico para


determinar si nuestros datos provienen o no de
una distribucin normal.
El eje vertical representa los valores actuales
El eje horizontal representa los percentiles esperados para
una distribucin normal.
Es decir una combinacin de los datos reales contra los
esperados

24 /XX

1. Distribucin normal
2. Desplazada hacia la derecha
3. Desplazada hacia la izquierda
4. Platokurtica (liviana)
5. Leptokurtica (pesada)

25 /XX

Generar y dibujar estadsticas


descriptivas

Esta demostracin ilustra cmo se generar


estadsticas descriptivas y cmo se generan 3 tipos
de grficos utilizando JMP
Estadstica Descriptiva
Abrir el archivo speeding1.jmp
Ntese que hay una validacin para el campo Type
ya que tiene la figura
Se puede cambiar o inspeccionar dicha validacin:
Seleccionar la columna Type, Cols, Column info

Type es nominal (
) con lista de validacin
Driver es nominal (
) sin lista de validacin
Speed es continua (
) sin lista de validacin

26 /XX

Seleccionar el comando Analyze, Distribution


Seleccionar Type y Speed y colocarlas en la opcin Y,
Columns

27 /XX

Reporte para variables nominales u


ordinales
HISTOGRAMA:
muestra el nmero
relativo de
observaciones en
cada nivel

Nmero de
observaciones para
cada nivel

Frecuencia relativa

28 /XX

Reporte para variables


HISTOGRAMA:
muestra el nmero
relativo de
observaciones en
cada nivel

Grfico Box plot,


resaltando los datos
que posiblemente
pueden ser outliers

Reporte de cuantiles

Reporte de
momentos

29 /XX

Se puede obtener ms informacin con el comando


display more moments

30 /XX

Generando grficos de Cuantiles y distribucin


normal
Seleccionar la opcin Normal Quantile Plot
La lnea a 45 son los valores ideales si fuera
linear
Como no se aparta de dicha lnea, es de esperar
que la distribucin de datos sea lineal

31 /XX

Seleccionar el comando Fit Distribution, Normal

32 /XX

5.3 Inferencia estadastica


Objetivos
Explicar e interpretar el intervalo de confianza para
una media
Entender la importancia y aplicacin del teorema
del lmite central
Calcular intervalos de confianza utilizando la
plataforma de distribucin

33 /XX

Puntos estimados

S estima
X estima
Para evaluar un estimador, se debe
conocer su variabilidad
34 /XX

Definicin
Se utilizan para estimar parmetros de la
poblacin
Como solo tenemos un estimado de la poblacin,
debemos conocer un estimado de su variabilidad
Un punto estimado no tiene en cuenta la presicin
de la estadstica calculada
Para el ejemplo de la velocidad por qu no estamos
seguros de que la velocidad promedio es 58 mph?
La respuesta es porque el promedio de la muestra es solo un
estimado del promedio de la poblacin. Si tomamos otra
53.19 mph
51.47 mph
muestra de autos,
el promedio puede diferir
35 /XX

Error estandar del promedio


Mide la variabilidad del estimado es el error
estandar del promedio
Es diferente al desvo estndar porque
EL desvo estndar tiene que ver con la
variabilidad de las muestras
El error estndar tiene que ver con la
variabilidad del promedio de la muestra

s/n
36 /XX

Estimador de intervalos
Otra forma de estimar el promedio de una muestra
es mediante intervalos
Especifica el rango de valores que incluira el
promedio de la muestra
Debe estar centrado en el punto estimado.
El ancho del intervalo depende del error estndar y
del grado de certeza requerido

37 /XX

Intervalos de confianza
Es un intervalo en el que creemos que est el
parmetro de la poblacin que nos interesa
Un intervalo de confianza del 95% me dice con una
certeza del 95% de verdad que el promedio de la
poblacin se encuentra entre los lmites calculados
En otras palabras, si se toman 100 muestras diferentes de
la misma poblacin, 95 de ellas van a tener el promedio
de la poblacin.

38 /XX

Intervalo de confianza para el


promedio

X +/- t * sx o bien (x t*sx; x + t*sx)


En donde:
X es el promedio de la muestra
t es el valor correspondiente al intervalo de confianza,
con n-1 grados de libertad, donde n es el tamao de la
muestra
Sx es el error estndar del promedio

39 /XX

Distribucin normal
Es la ms normal de las distribuciones
Por qu la distribucin de promedios de la muestra
deben poseer una distribucin normal?
Porque define probabilidades (ver grfico)
Si es normal, podemos usar probabilidades asociadas a
esta distribucin para construir un intervalo de confianza

68%
95%
99%

-3

-2

-1

+3

+2 +1

40 /XX

Intervalo de confianza para promedios de


muestras

La regin entre lneas rojas representa el 95% de la


distribucin del area
Cubre el 95% del area dela curva de distribucin de
promedio de muestra, que est centrada en .
Corresponde al 95% de probabilidad de que el promedio
de la muestra tenga en su interior al promedio de la
poblacin

41 /XX

Teorema del lmite central


Una distribucin de promedios de muestras es
aproximadamente normal, independientemente de
la distribucin de la poblacin, si el tamao de la
muestra es lo suficientemente grande
Suficientemente grande significa 30
observaciones.
Ms datos si existe una tendencia de los datos
Menos datos si es simtrica

42 /XX

Teorema del lmite central e intervalos de


confianza
Ejercicio: abrir el archivo Random6k.jmp
Seleccionar segn figura adjunta

43 /XX

44 /XX

Abrir la script CLT.jsl


Click con el botn derecho en la ventana y
seleccionar el comando Run Script

45 /XX

Examinar la distribucin de medias


Elegir los comandos Normal Quantile Plot

46 /XX

Seleccionar la ventana Random6k.jmp


Seleccionar la ventaja CLT.jsl
Repetir la operacin pero para Gamma

47 /XX

Notar que no hay evidencias que demuestren que


la distribucin no es normal

48 /XX

Concepto de intervalo de confianza


Abrir el archivo demoConfidenceInterval.jsl
Seleccionar Edit, Run Script

49 /XX

JMP graficar 100 puntos con intervalo de


confianza del 95%
La lnea horizontal es el promedio de la poblacin.
JMP elige al azar 10 datos y genera un promedio de
la muestra con un intervalo de confianza del 95%
Cuando una de las lneas verticales cruza a la lnea
horizontal, significa que contiene al promedio de la
poblacin, si no, no.

50 /XX

Intervalo de confianza para el


promedio

Ya sabemos para el ejemplo cul es la velocidad


promedio de la muestra
Tambin sabemos que este valor tiene asociada
cierta variabilidad
JMP puede aplicar una frmula para establecer el
intervalo de confianza

51 /XX

Nos arroja los siguientes resultados (ver tabla de la


izquierda)
Compararlos contra los resultados con un intervalo
de confianza del 99% (tabla de la derecha)

52 /XX

Test de Hiptesis
5.4 Objetivos
Definir terminologa relacionada con
los test de hiptesis
Explicar la diferencia entre error Tipo I
y error Tipo II
Interpretar los p-valores

53 /XX

Test de hiptesis
Hay una diferencia entre una hiptesis cientfica y
una hiptesis estadstica
Cientfica: solucin propuesta a un problema. Respuesta a
un fenmeno bajo estudio. El comienzo es una
proposicin.
Estadstica: es un enunciado sobre una poblacin bajo
estudio. Es un enunciado numrico. Puede haber una
propuesta estadstica con poco significado estadstico

54 /XX

Analoga judicial
En una corte criminal, se le dan abogados al acusado
de cometer un crmen, pero cmo procede un juicio?
1. Determinar la hiptesis nula (H0) y la hiptesis alternatica
(Ha). La alternativa nula es la que consideramos verdaderra
antes de comenzar el anlisis. Para nuestro caso, H0 es que
nuestro defendido es inocente y Ha que es culpable
2. Seleccionar un nivel de significacin, es decir la cantidad de
evidencia necesaria para convencer. En una corte debe
probar culpabilidad ms all de una razonable duda.
3. Juntar la evidencia
4. Utilizar una regla de decisin:
1. Si es suficientemente fuerte, rechazar la H0
2. Si no es suficiente, no hay evidencias para rechazar H0

55 /XX

Ejemplo de la moneda

5$
5$

5$

5$

5$

Supongase que quiere determinar si una moneda


es falsa o no
Como no se puede tirar la moneda infinidad de
veces, decide tirar 5 veces y en funcin de los
resultados, definir si la misma es verdadera o falsa

56 /XX

Ejemplo de la moneda
Sospechamos que la moneda no es verdadera (Ha)
Por lo tanto, la hiptesis opuesta (H0) es la opcin
opuesta
Seleccionamos un nivel de significacin.
Tiramos la moneda 5 veces y contamos el nmero
de caras y cecas
Evaluamos los datos utilizando la regla de decisin
que es
Evidencia suficiente para sumir que la moneda es falsa
Evidencia insuficiente para rechazar la hiptesis de que la
moneda es falsa
57 /XX

Tipos de error y potencia


Llevamos a cabo un test de hiptesis y decidimos, pero fue
correcta la decisin?
REALIDAD
DECISIN

H0 verdadera

H0 falsa

H0
verdadera

Correcta

Error Tipo II

H0 falsa

Error Tipo I

Correcta

Error tipo I: comunmente llamado tipo , es la probabilidad de


rechazar la hiptesis inicial cuando es verdadera (Ej: concluir que
una persona es culpable cuando en realidad es inocente)
Error tipo II: comunmente llamado tipo , es la probabilidad de
aceptar la hiptesis inicial cuando en realidad es falsa (Ej: no hay
evidencia suficiente para concluir que una persona es culpable
cuando realmente lo es)
58 /XX

Experimento de la moneda
Abrir Flip.JMP. No tiene frmulas, pero se agregaron
para poder simular
Seleccionar Rows, Add Rows

59 /XX

Si sali cara coloca un 1 y si no un 0 (cero)


Las columnas Sum y Continuous Sum representan
el total de caras
Correr distribution para estas columnas

60 /XX

Notar que el Continous sum es la suma de caras en


las 5 tiradas. El promedio es aprox. 2,5 es decir el
valor esperado para una moneda falsa

61 /XX

Sum representa el nmero de caras en las 5 tiradas.


Se puede ver que la mayora de las veces se
obtienen entre 2 y 3.
No obstante, se observa que hay veces que no se
obtienen caras o se obtienen 5 caras an con esta
moneda falsa (5% de las veces)
Se puede resumir sus resultados indicando que una
moneda buena demuestra una cierta evidencia de
diferencias grandes entre el nmero de caras y
cecas pero exhibe mucho ms evidencia de
diferencias ms pequeas entre los dos
62 /XX

Ejemplo de la moneda (modificado)


Arrojar la moneda verdadera 100 veces y definir
cundo es verdadera
55 caras
45 cecas
Valor p= .37

40 caras
60 cecas
Valor p= .06

37 caras
63 cecas
Valor p= .01

15 caras
85 cecas
Valor p<0.01

Si hacemos la prueba, no dudamos de que la moneda es


verdadera si obtenemos 50 y 50
En los casos que vemos arriba, cuanta ms diferencia hay,
mayor evidencia de que la moneda es falsa
El valor p mide la probabilidad de observar un valor mas
extremo que el observado bajo la hiptesis nula (H0)
El valor p es la probabilidad de observar por lo menos 40 caras
(o 60 cecas) en una moneda verdadera
63 /XX

Valor p (o p-value)
Si el valor p es grande, se observarn
frecuentemente valores como los que se ven en el
experimento con una moneda verdadera
Si el valor p es pequeo, es raro ver resultados
como estos con una moneda verdadera
En la ltima situacin, se tiene poca evidencia de
que la moneda es verdadera, por eso conclumos
que no es verdadera
El valor p se calcula de los datos y es un valor
entre 0 y 1
55 caras
45 cecas
Valor p= 0.37

40 caras
60 cecas
Valor p= .06

37 caras
63 cecas
Valor p= .01

15 caras
85 cecas
Valor p<0.01
64

/XX

Test de hiptesis estadstica


1. La hiptesis alternativa es nuestra suposicin
2. La hiptesis nula es la oposicin lgica a nuestra
suposicin. Asume que la hiptesis nula es
verdadera
3. El nivel de significacin se denota usualmente como
, la probabilidad de cometer un error tipo I
4. La fuerza de la evidencia para la hiptesis nula se
mide con el valor p.
5. Regla de decisin
1. Rechazar la hiptesis nula si el valor p es menor que
2. No se tienen evidencias para rechazar la hiptesis nula si el
valor de p es mayor que
65 /XX

You might also like