Professional Documents
Culture Documents
5.1 Objetivos
Explicar el uso de la estadstica
Definir muestra y poblacin
Describir los procesos involucrados en
el anlisis estadstico
Comparar estadstica descriptiva e
inferencia estadstica
Discutir planes de muestreo
1 /XX
2 /XX
Definir el problema
Antes de comenzar el anlisis, se debe completar los
siguientes puntos:
Establecer el PROPSITO del estudio
Documentar las PREGUNTAS del estudio
Definir la POBLACIN de inters
Determinar las NECESIDADES de muestreo
Definir el protocolo de MUESTREO
3 /XX
80 km/h
77 km/h
Lmite de
velocidad
75 km/h
100 km/h
85 km/h
4 /XX
Poblacin y muestra
Una poblacin es un grupo de todas las mediciones de
inters.
Se define la poblacin cuando se define el problema o
pregunta a contestar
Ej: para este ejemplo la poblacin son todos los autos
que viajan a travs de la interseccin
Una poblacin se puede categorizar como:
Concreta: si se pueden identificar cada sujeto de la poblacin
Terica: si constantemente cambia
Muestreo simple
Cada miembro de la poblacin tiene la misma
probabilidad de ser escogido
6 /XX
Muestreo conveniente
Cuando se eligen valores de la poblacin que son accesibles,
se est hablando de un muestreo conveniente
Realizar
inferencias
Estadstica
de la
muestra
Proceso
Existe un proceso para el anlisis estadstico
1.
2.
3.
4.
Plan de muestreo
Describe como recolectar los datos
Es importante recordar que se hacen conclusiones sobre la
poblacin en funcin de la informacin de la muestra
11 /XX
Parmetros y estadsticas
Son caractersticas de la poblacin.
Como una poblacin no puede ser medida
en su totalidad, los parmetros de la
poblacin son desconocidos.
Las estadsiticas son valores medidos y
calculados de las muestras.
De ellas se pueden estimar los parmetros
Parmetros de la
poblacin
Estadsticas de la
muestra
MEDIA
VARIACIN
s2
DESVO ST
12 /XX
i=1
xi
n
1 3 3 4 5 8 51
n=3
Mediana
n=3
1 3 3n=34 5 8
n=3
Mediana
13 /XX
Percentilos
98
95
92
90
85
81
79
70
63
55
47
42
3 Cuartilo
Percentilo 75% = 91
Percentilo 50% = 80
Percentilo 25% = 59
1 Cuartilo
14 /XX
Definicin
Rango
Rango
intercuartilo
Varianza
Desvo estndar
Coeficiente de
variacin
Ejemplo
Suponganse los valores de la tabla adjunta
OBS
DATO
PROM
DESV ST
-2
-1
SUM
15
15
PROM
i=1
(yi y)i
n-1
17 /XX
Desvo estndar
La varianza es una medida de variacin
La raz cuadrada de dicho valor es el desvo
estndar
Es una medida de la variacin en las mismas
unidades que su escala original
=2
sn-1=s2n-1
Es el desvo estndar de la
poblacin
18 /XX
Distribuciones
Cuando se examina (para el ejemplo de las
velocidades), se puede determinar
Rango de posibles valores
Frecuencia de los valores
Dnde se acumulan los datos
19 /XX
PORCENTAJE
Histogramas
CLASES
Cada barra en el
histograma
representa un
grupo de valores
El alto dela barra
es el porcentaje
de valores en esa
clase
JMP determina el
ancho y nmero
de barras
automticamente
(igual se pueden
cambiar)
Forma de campana
Caracterizada por promedio y desvo estndar
Media = Mediana = Moda
20 /XX
Tendencia a la izquierda
Simtrica
Tendencia a la derecha
21 /XX
Oblicuidad
Nos da una idea de si los valores estn dipersos
hacia alguno de los lmites extremos
Valor negativo: tendencia hacia el lado izquierdo, el
promedio es menor que la mediana
Valor positivo: tendencia hacia el lado derecho, el
promedio es mayor que la mediana
23 /XX
24 /XX
1. Distribucin normal
2. Desplazada hacia la derecha
3. Desplazada hacia la izquierda
4. Platokurtica (liviana)
5. Leptokurtica (pesada)
25 /XX
Type es nominal (
) con lista de validacin
Driver es nominal (
) sin lista de validacin
Speed es continua (
) sin lista de validacin
26 /XX
27 /XX
Nmero de
observaciones para
cada nivel
Frecuencia relativa
28 /XX
Reporte de cuantiles
Reporte de
momentos
29 /XX
30 /XX
31 /XX
32 /XX
33 /XX
Puntos estimados
S estima
X estima
Para evaluar un estimador, se debe
conocer su variabilidad
34 /XX
Definicin
Se utilizan para estimar parmetros de la
poblacin
Como solo tenemos un estimado de la poblacin,
debemos conocer un estimado de su variabilidad
Un punto estimado no tiene en cuenta la presicin
de la estadstica calculada
Para el ejemplo de la velocidad por qu no estamos
seguros de que la velocidad promedio es 58 mph?
La respuesta es porque el promedio de la muestra es solo un
estimado del promedio de la poblacin. Si tomamos otra
53.19 mph
51.47 mph
muestra de autos,
el promedio puede diferir
35 /XX
s/n
36 /XX
Estimador de intervalos
Otra forma de estimar el promedio de una muestra
es mediante intervalos
Especifica el rango de valores que incluira el
promedio de la muestra
Debe estar centrado en el punto estimado.
El ancho del intervalo depende del error estndar y
del grado de certeza requerido
37 /XX
Intervalos de confianza
Es un intervalo en el que creemos que est el
parmetro de la poblacin que nos interesa
Un intervalo de confianza del 95% me dice con una
certeza del 95% de verdad que el promedio de la
poblacin se encuentra entre los lmites calculados
En otras palabras, si se toman 100 muestras diferentes de
la misma poblacin, 95 de ellas van a tener el promedio
de la poblacin.
38 /XX
39 /XX
Distribucin normal
Es la ms normal de las distribuciones
Por qu la distribucin de promedios de la muestra
deben poseer una distribucin normal?
Porque define probabilidades (ver grfico)
Si es normal, podemos usar probabilidades asociadas a
esta distribucin para construir un intervalo de confianza
68%
95%
99%
-3
-2
-1
+3
+2 +1
40 /XX
41 /XX
42 /XX
43 /XX
44 /XX
45 /XX
46 /XX
47 /XX
48 /XX
49 /XX
50 /XX
51 /XX
52 /XX
Test de Hiptesis
5.4 Objetivos
Definir terminologa relacionada con
los test de hiptesis
Explicar la diferencia entre error Tipo I
y error Tipo II
Interpretar los p-valores
53 /XX
Test de hiptesis
Hay una diferencia entre una hiptesis cientfica y
una hiptesis estadstica
Cientfica: solucin propuesta a un problema. Respuesta a
un fenmeno bajo estudio. El comienzo es una
proposicin.
Estadstica: es un enunciado sobre una poblacin bajo
estudio. Es un enunciado numrico. Puede haber una
propuesta estadstica con poco significado estadstico
54 /XX
Analoga judicial
En una corte criminal, se le dan abogados al acusado
de cometer un crmen, pero cmo procede un juicio?
1. Determinar la hiptesis nula (H0) y la hiptesis alternatica
(Ha). La alternativa nula es la que consideramos verdaderra
antes de comenzar el anlisis. Para nuestro caso, H0 es que
nuestro defendido es inocente y Ha que es culpable
2. Seleccionar un nivel de significacin, es decir la cantidad de
evidencia necesaria para convencer. En una corte debe
probar culpabilidad ms all de una razonable duda.
3. Juntar la evidencia
4. Utilizar una regla de decisin:
1. Si es suficientemente fuerte, rechazar la H0
2. Si no es suficiente, no hay evidencias para rechazar H0
55 /XX
Ejemplo de la moneda
5$
5$
5$
5$
5$
56 /XX
Ejemplo de la moneda
Sospechamos que la moneda no es verdadera (Ha)
Por lo tanto, la hiptesis opuesta (H0) es la opcin
opuesta
Seleccionamos un nivel de significacin.
Tiramos la moneda 5 veces y contamos el nmero
de caras y cecas
Evaluamos los datos utilizando la regla de decisin
que es
Evidencia suficiente para sumir que la moneda es falsa
Evidencia insuficiente para rechazar la hiptesis de que la
moneda es falsa
57 /XX
H0 verdadera
H0 falsa
H0
verdadera
Correcta
Error Tipo II
H0 falsa
Error Tipo I
Correcta
Experimento de la moneda
Abrir Flip.JMP. No tiene frmulas, pero se agregaron
para poder simular
Seleccionar Rows, Add Rows
59 /XX
60 /XX
61 /XX
40 caras
60 cecas
Valor p= .06
37 caras
63 cecas
Valor p= .01
15 caras
85 cecas
Valor p<0.01
Valor p (o p-value)
Si el valor p es grande, se observarn
frecuentemente valores como los que se ven en el
experimento con una moneda verdadera
Si el valor p es pequeo, es raro ver resultados
como estos con una moneda verdadera
En la ltima situacin, se tiene poca evidencia de
que la moneda es verdadera, por eso conclumos
que no es verdadera
El valor p se calcula de los datos y es un valor
entre 0 y 1
55 caras
45 cecas
Valor p= 0.37
40 caras
60 cecas
Valor p= .06
37 caras
63 cecas
Valor p= .01
15 caras
85 cecas
Valor p<0.01
64
/XX