Professional Documents
Culture Documents
Introduccin
En toda investigacin, y antes de extraer conclusiones acerca de los objetivos e hiptesis planteados, es necesario llevar a cabo un anlisis previo y exploratorio de los datos con objeto de detectar errores en la codificacin de las variables, eliminar inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer caractersticas bsicas de la distribucin de las variables (normalidad, igualdad de varianzas, presencia de valores atpicos, linealidad, etc) y avanzar acerca de las relaciones entre ellas. En definitiva, el investigador debe adquirir un conocimiento bsico de los datos de su investigacin y de las relaciones existentes entre las variables analizadas antes de proceder a aplicar los procedimientos inferenciales.
AED
UNIDIMENSIONAL
BIDIMENSIONAL
MULTIDIMENSIONAL
a) Dos Variables Cualitativas b) Una Variable Cuantitativa y otra Cualitativa c) Dos Variables Cuantitativas
Introduccin
Para llevar a cabo el anlisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadsticos numricos y grficos- que vamos a describir a lo largo del presente curso y que estn implementados en la mayora de los programas estadsticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).
Introduccin
A nivel univariable, la mayora de los objetivos del AED se alcanzan realizando un anlisis descriptivo. Concretamente utilizaremos medidas de tendencia central y de dispersin para describir las caractersticas de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la ltima columna de la siguiente tabla:
Tipo de variable Cuantitativa ndices analticos media, mediana, moda, desviacin tpica, rango, amplitud intercuartlica, prueba de normalidad frecuencias, porcentajes, moda, etc. Representaciones grficas histograma, grfico de caja Procedimientos de SPSS Descriptivos, Explorar, Tablas
Cualitativa
Frecuencias, Tablas
Para realizar el anlisis descriptivo, seleccionamos Estadsticos descriptivos> Frecuencias del men Analizar. Con esta seleccin accedemos al cuadro de dilogo Frecuencias y en dicho cuadro trasladamos, pulsando en el botn flecha, las variables al cuadro Variables y pulsamos en Aceptar. Para analizar las variables cuantitativas opinin y edad seleccionamos Descriptivos y pulsamos Aceptar. El visor de resultados nos ofrece la informacin contenida en las siguiente tablas. podemos identificar errores de codificacin en las variables medidas?
AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).
AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).
Estadsticos de dispersin: Rango Varianza Desviacin tipo Amplitud intercuartlica (AI) Estadsticos de forma: Asimetra. Curtosis Prueba de normalidad de Kolmogorov
AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).
Histograma
16 14
Grfico de caja
Grfico Q-Q
12 10
6 4 Desv. tp. = 3.57 Media = 7.1 N = 49.00 0.0 2.5 5.0 7.5 10.0 12.5 15.0
2 0
DIG
AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).
Figura 1. Tipologas de histogramas
(Xmx +1) Xi
Xi
log 10 Xi
1 Xi
(( Xmx +1) Xi )
AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad) con SPSS.
Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalizacin, realizacin personal y depresin total medidas en una muestra de odontlogos. Los cuadros de dilogo con las opciones bsicas recomendadas son:
AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad) con SPSS.
Con las opciones seleccionadas hemos obtenido informacin que nos permite responder a las siguientes cuestiones de las variables analizadas: 1. Identificar las medidas de tendencia central y de dispersin 2. Comparar la media con la mediana y con los estimadores robustos 3. Evaluar mediante inspeccin visual la normalidad de las variables 4. Evaluar utilizando la prueba de significacin la normalidad de las variables
donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas de x con respeto a la mediana
AED: Deteccin de datos atpicos: Los criterios para detectar atpicos a nivel univariante no tienen porque identificar atpicos multivariantes (ejemplo). Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis. La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas-covarianzas. Una observacin multivariante resultar sospechosa si su distancia supera el valor de chi-cuadrado para k (nmero de variables) y un nivel de significacin de 0,001. Algunos de los grficos disponibles en SPSS implementan los criterios anteriores para detectar datos atpicos. Los siguientes cuadros de dilogo corresponden a los grficos recomendados para detectar atpicos:
Con la secuencia de cuadros de dilogo sobre la matriz obtenemos los siguientes grficos
Caras de Chernoff
sujeto 2
zcan 4 2 0 -2 -4
zsatisfa
zcan 1 0 -1 -2
zdespe
zsatisfa
sujeto 1
zcan 4 2 0 -2
zsatisfa
zdespe fr
zdespe
zdepre
zrea
zdepre
zrea
zdepre
zrea
Grficos de linea
Univariable
Bivariado
Multivariado
a) Dos Variables Cualitativas: Tablas de contingencia y grficos de barras a) Variable Cualitativa b) Variable Cuantitativa b) Una Variable Cuantitativa y otra Cualitativa: Explorar c) Dos Variables Cuantitativas: correlaciones bivariadas, grficos de dispersin
La herramienta ms til para obtener informacin, a nivel exploratorio, de la relacin entre dos variables cuantitativas es el diagrama de dispersin, o nube de puntos. Se construye representando, en el plano cartesiano, los valores de las variables medidas. La inspeccin visual del grfico de dispersin nos permite identificar valores atpicos y el tipo de relacin entre las variables.
100 80 60 40 20 0 0
30 25 20 15 10 5 0
5 0 -5 -10 -15
40 35 30 25 20 15 10 5 0 0 5 10 15 20
80,00
60,00
hrv_b
40,00 20,00
20,00
40,00
60,00
80,00
100,00
hrv_a
Grfico
hrv_a imp_d imp_c imp_b imp_a hrv_fa hrv_d hrv_c hrv_b
hrv_a
hrv_b
hrv_c
hrv_d
hrv_fa
imp_a
imp_b
imp_c
imp_d
grup
ctrl phob
80,00
60,00
hrv_b
40,00 20,00
20,00
40,00
60,00
80,00
100,00
hrv_a
AED: Dos variables cualitativas Una tabla de contingencia para dos variables contiene en filas las modalidades de una de las variables y en columnas las modalidades de la segunda. Cada casilla de la tabla contiene la frecuencia conjunta que representa el nmero de datos que pertenecen a la modalidad i-sima de la primera variable y a la modalidad j-sima de la segunda. A partir de dicha tabla podemos estudiar si las dos variables son o no independientes. Si son independientes no existe relacin entre ellas; en caso contrario analizaramos el tipo y grado de la dependencia tanto grfica como numricamente.
Vamos a analizando la posible relacin entre la variables vlvulas y retrasos en el desarrollo y vlvulas y ansiedad de la matriz.
Para analizar los posibles fallos en el diseo y recogida de datos as como la posible relacin entre variables cualitativas utilizaremos el procedimiento Tablas de contingencia como se muestra en el cuadro adjunto de SPSS
En el cuadro de dilogo Tablas de contingencia seleccionamos las variables val y retraso en el desarrollo como fila y columna. Seleccionamos tambin mostrar barras agrupadas
En el cuadro de dilogo Tablas de contingencia pulsamos el botn Estadsticos para acceder a las opciones que nos permiten evaluar la posible relacin entre las variables. En dicho cuadro marcamos la opcin Chi-cuadrado.
Las tablas de contingencia que se construyen por defecto contienen las frecuencias absolutas. Pero podemos, esperadas, pulsando varios el tipos botn de Casillas seleccionar frecuencias porcentajes y residuos.
f esp
Tabla de contingencia VAL * retraso en el desarrollo retraso en el desarrollo Si VAL 0 Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total 1 .7 100.0% 3.3% 2.4% 17 14.3 85.0% 56.7% 40.5% 12 15.0 57.1% 40.0% 28.6% 30 30.0 71.4% 100.0% 71.4% No 0 .3 .0% .0% .0% 3 5.7 15.0% 25.0% 7.1% 9 6.0 42.9% 75.0% 21.4% 12 12.0 28.6% 100.0% 28.6% Total
f ( f ) f ( c) f i . f . j = = N f ..
1 1.0 100.0% 2.4% 2.4% 20 20.0 100.0% 47.6% 47.6% 21 21.0 100.0% 50.0% 50.0% 42 42.0 100.0% 100.0% 100.0%
Si
No
Total
2 =
i j
(f
(f )
es
f es ) ij
2 ij
Chi-cuadrado de Pearson Razn de verosimilitud Asociacin lineal por lineal N de casos vlidos
gl 2 2 1
a. 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es .29.
En este caso dado que p > 0.05 aceptamos la hiptesis de independencia y concluimos que las variables no estn relacionadas.
Nota a. El nmero de casillas con frecuencias esperadas menores que 5 no debe superar el 20% para que la aproximacin a la distribucin Chi-cuadrado sea adecuada
100 90 80 70
10
100
15 85
43
60 50 40 30 retraso en el desarr
57
retraso en el desarr
No
Recuento
Recuento
20 10 0 0 Si No
Si 0 0 Si No No
Si
VAL
VAL
Cuando analizamos una variable cuantitativa y otra cualitativa, el estudio se enfoca como un problema de comparacin del comportamiento de la variable numrica en las diferentes subpoblaciones que define la variable cualitativa. Una forma de realizar dicho anlisis es mediante los diagramas de caja y los test de hiptesis que nos permiten probar normalidad y homogeneidad de varianzas. El procedimiento de SPSS que nos proporciona informacin ms completa para el AED en este caso es el procedimiento Explorar del SPSS.
Seguimos con el archivo de espina bfida y ahora vamos a seleccionar Estadsticos descriptivos y Explorar tal y como aparece en el cuadro adjunto
Explorar ansiedad
Resumen del procesamiento de los casos Casos Perdidos N Porcentaje 1 9.1% 0 .0% 0 .0%
Descriptivos ansiedad . (perdidos) Estadstico 60.10 49.65 70.55 59.78 56.50 213.433 14.609 43 83 40 28.00 .408 -1.198 61.21 54.16 68.26 60.32 57.50 278.520 16.689 40 100 60 28.25 .766 -.381 78.73 71.24 86.21 78.48 84.00 445.830 21.115 43 126 83 37.00 -.066 -.810 Error tp. 4.620
CIM
Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis
Si
No
.409 .798
Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl Sig. .157 10 .200* .160 24 .117 .129 33 .177
a
CIM
ansiedad . (perdidos) Si No
Shapiro-Wilk gl 10 24 33
1.0 .5
Normal esperado
Normal esperado
-1
-2 20 40 60
80
100
120
140
Valor observado
Valor observado
1.5
1.0
.5
0.0
N orm al esperado
-.5
-1.0 -1.5 40 50 60 70 80 90
Valor observado
gl1 2 2 2 2
gl2 64 64 61.164 64
CIM
Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada
140
120
100
80
60
40
CIM
20
N= 10 24 33
Omitido
Si
No
ansiedad
Bibliografa
Escobar, M. (2000). Anlisis grfico/Exploratorio. Cuadernos de Estadstica. Madrid: Editorial La Muralla. Figueras, M y Gargallo, P. (2003): Anlisis Exploratorio de Datos", [en lnea]. http://www.5campus.com/leccion/aed> [y aadir fecha consulta] Palmer, A. (1995). El anlisis exploratorio de datos. Madrid: Eudema Pea, D. (2002). Anlisis de datos multivariantes. Madrid: McGraw Hill. Rial, A.; Varela, J. y rojas, A. (2001). Depuracin y anlisis preliminares de datos en SPSS. Sistemas informatizados para la investigacin del comportamiento. Madrid: RA-MA.