You are on page 1of 45

Anlisis previo y exploratorio de datos

Ana Mara Lpez Departamento de Psicologa Experimental

Introduccin
En toda investigacin, y antes de extraer conclusiones acerca de los objetivos e hiptesis planteados, es necesario llevar a cabo un anlisis previo y exploratorio de los datos con objeto de detectar errores en la codificacin de las variables, eliminar inconsistencias, evaluar la magnitud y tipo de datos perdidos (ausentes), conocer caractersticas bsicas de la distribucin de las variables (normalidad, igualdad de varianzas, presencia de valores atpicos, linealidad, etc) y avanzar acerca de las relaciones entre ellas. En definitiva, el investigador debe adquirir un conocimiento bsico de los datos de su investigacin y de las relaciones existentes entre las variables analizadas antes de proceder a aplicar los procedimientos inferenciales.

AED

UNIDIMENSIONAL

BIDIMENSIONAL

MULTIDIMENSIONAL

a) Variable Cualitativa b)Variable Cuantitativa

a) Dos Variables Cualitativas b) Una Variable Cuantitativa y otra Cualitativa c) Dos Variables Cuantitativas

Introduccin
Para llevar a cabo el anlisis previo y exploratorio de datos disponemos de un conjunto de procedimientos estadsticos numricos y grficos- que vamos a describir a lo largo del presente curso y que estn implementados en la mayora de los programas estadsticos (SPSS, SAS, S-PLUS, LISREL, EQS, etc).

Introduccin

A nivel univariable, la mayora de los objetivos del AED se alcanzan realizando un anlisis descriptivo. Concretamente utilizaremos medidas de tendencia central y de dispersin para describir las caractersticas de las variables cuantitativas y tablas de frecuencias y porcentajes para las variables cualitativas. Para ello utilizaremos, esencialmente, los procedimiento de SPSS que aparecen en la ltima columna de la siguiente tabla:
Tipo de variable Cuantitativa ndices analticos media, mediana, moda, desviacin tpica, rango, amplitud intercuartlica, prueba de normalidad frecuencias, porcentajes, moda, etc. Representaciones grficas histograma, grfico de caja Procedimientos de SPSS Descriptivos, Explorar, Tablas

Cualitativa

diagrama de barras, diagrama de lneas, diagrama de sectores

Frecuencias, Tablas

AED: Deteccin de errores en la codificacin de las variables cualitativas y cuantitativas:


Errores de codificacin son valores que estn fuera del rango de las variables cuantitativas y cdigos numricos o no numricos no definidos para representar las categoras de las variables cualitativas. Ejemplo: Estamos interesados en estudiar si la opinin acerca de la ley de matrimonios entre parejas del mismo sexo depende de la edad y del sexo. Para ello seleccionamos una muestra de sujetos mayores de edad y les pedimos que nos den su opinin acerca de la ley eligiendo una de las opciones de una escala que va desde 1 (muy desfavorable) hasta 7 (muy favorable). Los datos los hemos escrito en una archivo de spss y hemos realizado un anlisis descriptivo bsico utilizando el procedimiento frecuencias para las todas las variables incluidas en el archivo y el procedimiento descriptivos para las cuantitativas

Para realizar el anlisis descriptivo, seleccionamos Estadsticos descriptivos> Frecuencias del men Analizar. Con esta seleccin accedemos al cuadro de dilogo Frecuencias y en dicho cuadro trasladamos, pulsando en el botn flecha, las variables al cuadro Variables y pulsamos en Aceptar. Para analizar las variables cuantitativas opinin y edad seleccionamos Descriptivos y pulsamos Aceptar. El visor de resultados nos ofrece la informacin contenida en las siguiente tablas. podemos identificar errores de codificacin en las variables medidas?

AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).

Para ello utilizaremos tanto ndices numricos como grficos.

Estadsticos de tendencia central


Media aritmtica. Mediana: una vez ordenados los datos, es el valor que deja el mismo nmero de observaciones a su derecha que a su izquierda. Media truncada: es la media de la variable eliminando el 5% de las colas inferior y superior de la distribucin, de esta forma se eliminan valores extremos y es por tanto un estadstico robusto. M-estimadores: son estadsticos robustos pues se definen ponderando cada valor de la distribucin en funcin de su distancia al centro de la misma. Las observaciones centrales se ponderan por el mximo valor (la unidad) disminuyendo los coeficientes de ponderacin a medida que las observaciones se alejan del centro. Existen distintas formas de ponderar: Humbert (pondera con valor uno los valores situados a menos de 1,339 de la mediana), Tukey (pondera con cero los valores situados a 4,385 de la mediana), Andrews (pondera con cero los situados a 4,2066 de la mediana), etc.

AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).
Estadsticos de dispersin: Rango Varianza Desviacin tipo Amplitud intercuartlica (AI) Estadsticos de forma: Asimetra. Curtosis Prueba de normalidad de Kolmogorov

AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).

Histograma
16 14

Grfico de caja

Grfico Q-Q

12 10

6 4 Desv. tp. = 3.57 Media = 7.1 N = 49.00 0.0 2.5 5.0 7.5 10.0 12.5 15.0

2 0

DIG

AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad).
Figura 1. Tipologas de histogramas

(Xmx +1) Xi

Xi

Figura 2. Tipologas de grficos Q-Q

log 10 Xi

) Xi ) log 10(( Xmx +1

1 Xi

(( Xmx +1) Xi )

AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad) con SPSS.

Para caracterizar a las variables cuantitativas utilizaremos el procedimiento Explorar de SPSS con las variables cansancio emocional, despersonalizacin, realizacin personal y depresin total medidas en una muestra de odontlogos. Los cuadros de dilogo con las opciones bsicas recomendadas son:

AED: Caracterizacin de las distribuciones de las variables en cuanto a su tendencia central, dispersin y forma (normalidad) con SPSS.

Con las opciones seleccionadas hemos obtenido informacin que nos permite responder a las siguientes cuestiones de las variables analizadas: 1. Identificar las medidas de tendencia central y de dispersin 2. Comparar la media con la mediana y con los estimadores robustos 3. Evaluar mediante inspeccin visual la normalidad de las variables 4. Evaluar utilizando la prueba de significacin la normalidad de las variables

AED: Deteccin de datos atpicos:


Llamamos datos atpicos a aquellas observaciones que se encuentran alejadas del resto de las observaciones en una variable (atpico univariable) o en la distribucin conjunta de dos o ms variables (atpico multivariable). Los valores atpicos multivariantes resultan de combinaciones de valores muy inusuales. Las consecuencias de una sola observacin atpica pueden ser graves pues pueden distorsionar las medias y desviaciones tpicas de las variables y destruir o construir relaciones entre ellas. Ejemplo Los valores atpicos pueden deberse a Errores en la codificacin de los valores de las variables, errores en la codificacin de valores perdidos, errores de medida, errores en la transcripcin. Observaciones que no proceden de la poblacin de la que se ha extrado la muestra. Observaciones atpicas debidas a que la distribucin de la variable en la poblacin tiene valores ms extremos que los de una distribucin normal. En los dos primeros casos los valores atpicos, una vez detectados, deben ser eliminados o recodificados como valores perdidos. En el ltimo caso suelen retenerse y analizar su incidencia en los anlisis posteriores.

AED: Deteccin de datos atpicos:


Para considerar a una observacin como atpica existen diferentes criterios: Se consideran atpicas aquellas observaciones que estn, en valores absolutos, a ms de 3 desviaciones tipo de la media (Z>3 o Z<-3) pero la aplicacin de este criterio depende del tamao de la muestra. En el grfico de caja, como ya hemos visto, son atpicos observaciones con puntuaciones superiores a 1,5*AI evaluadas a partir del P75 o inferiores a 1,5 AI evaluadas a partir del P25. A partir de 3*AI se califican de extremos. Otra regla simple es considerar sospechosas aquellas observaciones tales que:
xi med ( x ) MEDA( x) > 4,5

donde Med(x) es la mediana y MEDA(x) es la mediana de las desviaciones absolutas de x con respeto a la mediana

AED: Deteccin de datos atpicos: Los criterios para detectar atpicos a nivel univariante no tienen porque identificar atpicos multivariantes (ejemplo). Para ello se puede utilizar, aunque no exenta de problemas, la distancia de Mahalanobis. La distancia de Mahalanobis es la distancia al centro de gravedad ponderada por la matriz de varianzas-covarianzas. Una observacin multivariante resultar sospechosa si su distancia supera el valor de chi-cuadrado para k (nmero de variables) y un nivel de significacin de 0,001. Algunos de los grficos disponibles en SPSS implementan los criterios anteriores para detectar datos atpicos. Los siguientes cuadros de dilogo corresponden a los grficos recomendados para detectar atpicos:

AED: Deteccin de datos atpicos

Con la secuencia de cuadros de dilogo sobre la matriz obtenemos los siguientes grficos

AED: Deteccin de datos atpicos:

Caras de Chernoff

AED: Deteccin de datos atpicos:


Grficos de estrella
sujeto 1

sujeto 2
zcan 4 2 0 -2 -4

zsatisfa

zcan 1 0 -1 -2

zdespe

zsatisfa
sujeto 1

zcan 4 2 0 -2

zsatisfa

zdespe fr

zdespe

zdepre

zrea

zdepre

zrea

zdepre

zrea

4 3 2 1 0 -1 -2 -3 -4 -5 zcan zdespe zrea zdepre zsatisfa

Grficos de linea

AED: Supuesto de Linealidad


Muchos procedimientos de anlisis se basan en el patrn de correlaciones de Pearson entre variables cuantitativas. El coeficiente de correlacin mide el grado de asociacin lineal entre variables y no es adecuado utilizarlo cuando el patrn de covariacin no es lineal. Es importante tambin que los coeficientes de correlacin sean fiables y, bajo determinadas circunstancias, los coeficientes de correlacin pueden ser mucho ms grandes o mucho ms pequeos de lo que deberan ser. Variables compuestas: En muchas investigaciones es frecuente utilizar variables compuestas (sumas, promedios, etc) que se obtienen a partir de varios items, las correlaciones entre variables compuestas que comparten items individuales en su definicin suelen estar infladas. La presencia de valores atpicos: los valores atpicos como ya hemos demostrado pueden inflar o reducir significativamente las correlaciones entre variables. Restriccin de rango: las correlaciones muestrales pueden ser inferiores a las poblacionales cuando en la muestra el rango de respuestas de una o ambas de las variables analizadas est restringido.

anlisis previo y exploratorio

Univariable

Bivariado

Multivariado

a) Dos Variables Cualitativas: Tablas de contingencia y grficos de barras a) Variable Cualitativa b) Variable Cuantitativa b) Una Variable Cuantitativa y otra Cualitativa: Explorar c) Dos Variables Cuantitativas: correlaciones bivariadas, grficos de dispersin

AED: Supuesto de Linealidad

La herramienta ms til para obtener informacin, a nivel exploratorio, de la relacin entre dos variables cuantitativas es el diagrama de dispersin, o nube de puntos. Se construye representando, en el plano cartesiano, los valores de las variables medidas. La inspeccin visual del grfico de dispersin nos permite identificar valores atpicos y el tipo de relacin entre las variables.

AED: Supuesto de Linealidad


10

100 80 60 40 20 0 0
30 25 20 15 10 5 0

5 0 -5 -10 -15

40 35 30 25 20 15 10 5 0 0 5 10 15 20

300 250 200 150 100 50 0 0 5 10 15 20

AED: Supuesto de Linealidad

AED: Supuesto de Linealidad

80,00

60,00

hrv_b
40,00 20,00

20,00

40,00

60,00

80,00

100,00

hrv_a

a) Diagrama de dispersin por defecto

AED: Supuesto de Linealidad

Grfico
hrv_a imp_d imp_c imp_b imp_a hrv_fa hrv_d hrv_c hrv_b

hrv_a

hrv_b

hrv_c

hrv_d

hrv_fa

imp_a

imp_b

imp_c

imp_d

AED: Supuesto de Linealidad

grup
ctrl phob
80,00

60,00

hrv_b
40,00 20,00

20,00

40,00

60,00

80,00

100,00

hrv_a

AED: Dos variables cualitativas Una tabla de contingencia para dos variables contiene en filas las modalidades de una de las variables y en columnas las modalidades de la segunda. Cada casilla de la tabla contiene la frecuencia conjunta que representa el nmero de datos que pertenecen a la modalidad i-sima de la primera variable y a la modalidad j-sima de la segunda. A partir de dicha tabla podemos estudiar si las dos variables son o no independientes. Si son independientes no existe relacin entre ellas; en caso contrario analizaramos el tipo y grado de la dependencia tanto grfica como numricamente.

AED: Dos variables cualitativas

Vamos a analizando la posible relacin entre la variables vlvulas y retrasos en el desarrollo y vlvulas y ansiedad de la matriz.

Seleccionamos: Analizar > Estadsticos descriptivos > Tablas de contingencia

AED: Dos variables cualitativas

Para analizar los posibles fallos en el diseo y recogida de datos as como la posible relacin entre variables cualitativas utilizaremos el procedimiento Tablas de contingencia como se muestra en el cuadro adjunto de SPSS

AED: Dos variables cualitativas

En el cuadro de dilogo Tablas de contingencia seleccionamos las variables val y retraso en el desarrollo como fila y columna. Seleccionamos tambin mostrar barras agrupadas

AED: Dos variables cualitativas

En el cuadro de dilogo Tablas de contingencia pulsamos el botn Estadsticos para acceder a las opciones que nos permiten evaluar la posible relacin entre las variables. En dicho cuadro marcamos la opcin Chi-cuadrado.

AED: Dos variables cualitativas

Las tablas de contingencia que se construyen por defecto contienen las frecuencias absolutas. Pero podemos, esperadas, pulsando varios el tipos botn de Casillas seleccionar frecuencias porcentajes y residuos.

AED: Dos variables cualitativas


Con las opciones seleccionadas en los cuadros descritos la ventana de resultados nos muestra la informacin que vamos a ir describiendo.

AED: Dos variables cualitativas


Resumen del procesamiento de los casos Casos Perdidos N Porcentaje 26 38.2%

N VAL * retraso en el desarrollo

Vlidos Porcentaje 42 61.8%

Total Porcentaje 68 100.0%

f esp
Tabla de contingencia VAL * retraso en el desarrollo retraso en el desarrollo Si VAL 0 Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total Recuento Frecuencia esperada % de VAL % de retraso en el desarrollo % del total 1 .7 100.0% 3.3% 2.4% 17 14.3 85.0% 56.7% 40.5% 12 15.0 57.1% 40.0% 28.6% 30 30.0 71.4% 100.0% 71.4% No 0 .3 .0% .0% .0% 3 5.7 15.0% 25.0% 7.1% 9 6.0 42.9% 75.0% 21.4% 12 12.0 28.6% 100.0% 28.6% Total

f ( f ) f ( c) f i . f . j = = N f ..

1 1.0 100.0% 2.4% 2.4% 20 20.0 100.0% 47.6% 47.6% 21 21.0 100.0% 50.0% 50.0% 42 42.0 100.0% 100.0% 100.0%

Si

No

Total

2 =

i j

(f

AED: Dos variables cualitativas


ob

(f )
es

f es ) ij
2 ij

Pruebas de chi-cuadrado Sig. asinttica (bilateral) .116 .097 .042

Chi-cuadrado de Pearson Razn de verosimilitud Asociacin lineal por lineal N de casos vlidos

Valor 4.305a 4.664 4.139 42

gl 2 2 1

a. 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es .29.

En este caso dado que p > 0.05 aceptamos la hiptesis de independencia y concluimos que las variables no estn relacionadas.
Nota a. El nmero de casillas con frecuencias esperadas menores que 5 no debe superar el 20% para que la aproximacin a la distribucin Chi-cuadrado sea adecuada

AED: Dos variables cualitativas


Adems de los estadsticos anteriores el cuadro de dilogo Tablas de contingencia nos proporciona los diagramas de barras para las variables analizadas
20

100 90 80 70
10

100

15 85

43

60 50 40 30 retraso en el desarr

57

retraso en el desarr
No

Recuento

Recuento

20 10 0 0 Si No

Si 0 0 Si No No

Si

VAL

VAL

Grfico por defecto

Grfico modificado con el editor de grficos

AED: Una variable cualitativa y una variable cuantitativa

Cuando analizamos una variable cuantitativa y otra cualitativa, el estudio se enfoca como un problema de comparacin del comportamiento de la variable numrica en las diferentes subpoblaciones que define la variable cualitativa. Una forma de realizar dicho anlisis es mediante los diagramas de caja y los test de hiptesis que nos permiten probar normalidad y homogeneidad de varianzas. El procedimiento de SPSS que nos proporciona informacin ms completa para el AED en este caso es el procedimiento Explorar del SPSS.

AED: Una variable cualitativa y una variable cuantitativa

Seguimos con el archivo de espina bfida y ahora vamos a seleccionar Estadsticos descriptivos y Explorar tal y como aparece en el cuadro adjunto

AED: Una variable cualitativa y una variable cuantitativa

Explorar ansiedad
Resumen del procesamiento de los casos Casos Perdidos N Porcentaje 1 9.1% 0 .0% 0 .0%

ansiedad CIM . (perdidos Si No

Vlidos N Porcentaje 10 90.9% 24 100.0% 33 100.0%

Total N Porcentaje 11 100.0% 24 100.0% 33 100.0%

Descriptivos ansiedad . (perdidos) Estadstico 60.10 49.65 70.55 59.78 56.50 213.433 14.609 43 83 40 28.00 .408 -1.198 61.21 54.16 68.26 60.32 57.50 278.520 16.689 40 100 60 28.25 .766 -.381 78.73 71.24 86.21 78.48 84.00 445.830 21.115 43 126 83 37.00 -.066 -.810 Error tp. 4.620

CIM

Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis

Lmite inferior Lmite superior

Si

.687 1.334 3.407

Lmite inferior Lmite superior

No

.472 .918 3.676

Lmite inferior Lmite superior

.409 .798

Pruebas de normalidad Kolmogorov-Smirnov Estadstico gl Sig. .157 10 .200* .160 24 .117 .129 33 .177
a

CIM

ansiedad . (perdidos) Si No

Estadstico .922 .911 .947

Shapiro-Wilk gl 10 24 33

Sig. .370 .037 .110

*. Este es un lmite inferior de la significacin verdadera. a. Correccin de la significacin de Lilliefors

Grfico Q-Q normal de CIM


Para ANS= No
2
2.0 1.5

Grfico Q-Q normal de CIM


Para ANS= Si

1.0 .5

Normal esperado

Normal esperado

0.0 -.5 -1.0 -1.5 -2.0 30 40 50 60 70 80 90 100 110

-1

-2 20 40 60

Grfico Q-Q normal de CIM


Para ANS= Omitido

80

100

120

140

Valor observado

Valor observado
1.5

1.0

.5

0.0

N orm al esperado

-.5

-1.0 -1.5 40 50 60 70 80 90

Valor observado

Prueba de homogeneidad de la varianza Estadstico de Levene 2.016 1.665 1.665 2.097

gl1 2 2 2 2

gl2 64 64 61.164 64

CIM

Basndose en la media Basndose en la mediana. Basndose en la mediana y con gl corregido Basndose en la media recortada

Sig. .142 .197 .198 .131

140

120

100

80

60

40

CIM

20
N= 10 24 33

Omitido

Si

No

ansiedad

Bibliografa

Escobar, M. (2000). Anlisis grfico/Exploratorio. Cuadernos de Estadstica. Madrid: Editorial La Muralla. Figueras, M y Gargallo, P. (2003): Anlisis Exploratorio de Datos", [en lnea]. http://www.5campus.com/leccion/aed> [y aadir fecha consulta] Palmer, A. (1995). El anlisis exploratorio de datos. Madrid: Eudema Pea, D. (2002). Anlisis de datos multivariantes. Madrid: McGraw Hill. Rial, A.; Varela, J. y rojas, A. (2001). Depuracin y anlisis preliminares de datos en SPSS. Sistemas informatizados para la investigacin del comportamiento. Madrid: RA-MA.

You might also like