You are on page 1of 23

Tema 2

Organizacin de datos
NDICE
1. Bases de datos.
1.1. Valores atpicos.
1.2. Valores faltantes.

2. Distribucin de frecuencias.

3. Grficas.
4.1. Variables cualitativas.
4.2. Variables cuantitativas.
1.1 Deteccin de errores y valores atpicos

Observaciones cuyo comportamiento se diferencia claramente del


comportamiento medio del resto de observaciones.
Tipos de casos atpicos:
1. Errores (de codificacin, entrada de datos, etc).
2. Resultado de un acontecimiento extraordinario.
Criterio de eliminacin de valores atpicos Habitualmente se
eliminan los datos que estn alejados de la media ms de 2
desviaciones tpicas, ya que en la mayora de variables (con
distribucin normal) la probabilidad de estar tan lejos de la
media por azar es inferior al 5%.
Ejemplo: Edad de los estudiantes de 1 de Bachillerato
Datos: 15, 15, 16, 16, 16, 17, 17, 52, 16, 18, 16, 16, 16, 17
Procedimientos de deteccin de valores atpicos

1 Ver los valores mximos y mnimos (y analizar si se salen del rango


media ms/menos 2 desviaciones tpicas)
SPSS: Analizar > Estadsticos descriptivos > Descriptivos > opciones

2 Distribucin de frecuencias.
SPSS: Analizar > Estadsticos descriptivos > Frecuencias

3 Grficos de caja.
SPSS: Analizar > Estadsticos descriptivos > Explorar > Grficos

4 Comparar los estadsticos robustos (M estimadores) con los no


robustos (medias).
SPSS: Analizar > Estadsticos descriptivos > Explorar > Estadsticos
1.2 Valores faltantes
Los valores faltantes se pueden introducir en el SPSS sin poner nada en
la celdilla. Pueden haber varias causas (registro defectuoso, falta de
respuesta total o parcial,). Si una variable tiene muchos valores
faltantes ( >25%) quizs es mejor eliminarla.

Soluciones:
a) Supresin de datos (las ms usual): Slo analizar los sujetos que
tengan los datos completos en las variables necesarias para un
anlisis. Si falta un valor en una variable que no est siendo utilizada
en un clculo, el sujeto s que es tenido en cuenta en el anlisis.

P.e: S que utilizaramos los datos de un sujeto del que no sabemos la


edad si lo que queremos analizar es la relacin entre sueldo y
satisfaccin laboral.

b) Imputacin de datos: Proceso de estimacin de los valores ausentes


basado en valores vlidos de otras variables o casos de la muestra.
Por ejemplo:
I) Sustitucin por la media.
II) Sustitucin por la mediana.
2.Distribuciones de frecuencias
SPSS: Analizar > Estadsticos descriptivos > Frecuencias

Son tablas resumen de los n datos recogidos. Se organizan por filas y columnas:
Filas Categoras de la variable que tienen que ser:
- Mutuamente excluyentes
- Exhaustivas.
Todos los elementos de la muestra han de estar recogidos en la
distribucin (exhaustiva) en una sola ocasin (excluyente).
Columnas Las ms habituales son las siguientes:
o Frecuencia absoluta (ni)
o Frecuencia absoluta acumulada (nai)
o Frecuencia relativa o proporcin (pi)
o Frecuencia relativa acumulada o Proporcin acumulada (pai)
o Porcentaje (Pi)
o Porcentaje acumulado (Pai)
Frecuencia absoluta (ni): Nmero de elementos de una muestra que tienen un
determinado valor de una variable. La suma de todas las frecuencias absolutas ha de
ser igual al n de la muestra.
Frecuencia absoluta acumulada (nai): Suma de las frecuencias absolutas de
una variable hasta la ltima categora. Nos indica la cantidad de elementos muestrales
con valores inferiores o iguales a una categora determinada.

Frecuencia relativa o proporcin (pi): Fraccin de elementos de una muestra


que tienen un determinado valor de una variable.
Se calcula dividiendo el nmero de veces que se repite un valor de una variable por el
nmero total de elementos n de la muestra. La suma de todas las frecuencias relativas
ha de ser igual a 1.
Frecuencia relativa acumulada o proporcin acumulada (pai):Suma de las
frecuencias relativas o proporciones de una variable hasta la ltima categora. Nos
indica la proporcin de elementos muestrales con valores inferiores o iguales a una
categora determinada.
Porcentaje (Pi) y Porcentaje acumulado (Pai): Lo mismo que la proporcin y la
proporcin acumulada pero multiplicado por 100.
Distribucin de frecuencias para variables cualitativas

No tiene sentido acumular observaciones porque al no presentar la


relacin de orden, la disposicin de las categoras es arbitraria.

ni pi Pi
1 Mujer 76 0.55 55
2 Hombre 61 0.45 45
137 1.00 100
Como se interpreta? El 55 % de la muestra es mujer
SPSS
Distribucin de frecuencias para variables semicuantitativas:
Se pueden acumular datos

Ejemplo: Nivel de estudios de la madre

ni nai pi pai Pi Pai


6 Licenciatura o similar 25 137 0.182 1.000 18.2 100.0

5 Diplomatura o similar 11 112 0.080 0.818 8.0 81.8

4 Bachillerato superior 22 101 0.161 0.738 16.1 73.8

3 Bachillerato elemental 23 79 0.168 0.577 16.8 57.7

2 Estudios primarios 47 56 0.343 0.409 34.3 40.9

1 Sin estudios 9 9 0.066 0.066 6.6 6.6

137 1.000 100


Como se interpreta Pa4?
El 73.8% de las madres tienen estudios de Bachillerato o menos, es decir,
no tienen estudios superiores.
SPSS

137 1.000 100


Distribucin de frecuencias para variables cuantitativas
Se pueden acumular datos.

Ejemplo: Edad (en aos) de una muestra de adolescentes

ni Nai pi pai Pi Pai


17 6 54 0.111 0.999 11.1 99.9

16 8 48 0.148 0.888 14.8 88.8

15 16 40 0.296 0.740 29.6 74.0

14 12 24 0.222 0.444 22.2 44.4

13 10 12 0.185 0.222 18.5 22.2

12 2 2 0.037 0.037 3.7 3.7

54 0.999 99.9

Como se interpreta P13? El 18.5% de los adolescentes tienen 13 aos.


Como se interpreta na16? 48 adolescentes tienen 16 o menos de 16 aos.
SPSS
Tablas con intervalos agrupados

Cuando una variable presenta muchas categoras, se pueden


agrupar en modalidades llamadas intervalos no unitarios o de
amplitud superior a la unidad.

Ejemplo: Edad Edad ni Pi Pai


42 o + 1 0.7 100.0
37-41 1 0.7 99.3
32-36 2 1.5 98.6
27-31 5 3.7 97.1
22-26 15 10.9 93.4
17-21 113 82.5 82.5
137 100.0
3.Grficos
SPSS: Analizar > Estadsticos descriptivos > Frecuencias > Grficos > Grficos
circulares + porcentajes

Grficos de pastel o de sectores:


Representacin grfica de los datos mediante un crculo dividido en sectores
proporcionales a las frecuencias. Para calcular el rea de cada sector se ha de
multiplicar la frecuencia relativa por 360.
Especialmente utilizado con variables cualitativas aunque puede utilizarse
con cualquier tipo de variable.

45%
55%

Mujer
Hombre
Grficos de barras
Representacin grfica de los datos recogidos, mediante barras o
rectngulos. En el eje de abscisas (horizontal) se representan los niveles o
categoras de la variable, y en el eje de ordenadas (vertical) se representa la
frecuencia absoluta o relativa (proporcin) o el porcentaje.
Utilizado con variables cualitativas, semicuantitativas y cuantitativas
discretas.
En el caso de variables semicuantitativas o cuantitativas discretas se puede
hacer con los datos acumulados.

SPSS: Analizar > Estadsticos descriptivos > Frecuencias > Grficos > Grficos de barras +
porcentajes

G 100
80
n 60
e 40 Homes
r 20
Dones
e 0
Psicologia Arquitectura Fsica Filologia
Grau o Llicenciatura
Histogramas
Representacin grfica para variables cuantitativas continuas.
Esta representacin se puede hacer tambin con los datos acumulados.
A diferencia del diagrama de barras, los rectngulos estn juntos para
indicar continuidad.

SPSS: Analizar > Estadsticos descriptivos > Frecuencias > Grficos > Histogramas +
porcentajes
Grfico de tallo y hojas
SPSS: Analizar > Estadsticos descriptivos > Explorar > Grficos

Variables cuantitativas discretas o continuas.


Lo POSITIVO es que conserva los datos individuales, no como en las grficas y
tablas con intervalos agrupados.
Lo NEGATIVO es que solamente funcionan bien para relativamente pocos datos.

Ejemplo: Nota acceso universidad

Datos: 5.3 ; 5.4 ; 5.6 ; 5.9 ; 6.0 ; 6.0 ; 6.1 ; 6.2 ; 6.3 ; 6.3 ; 6.4 ; 6.4 ; 6.5 ; 6.5 ; 6.5 ; 6.6 ;
6.6 ; 6.6 ; 6.7 ; 6.7 ; 6.7 ; 6.7 ; 6.8 ; 6.8 ; 6.8 ; 6.9 ; 6.9 ; 7.0 ; 7.0 ; 7.1 ; 7.1 ; 7.1 ; 7.2 ; 7.2 ;
7.3 ; 7.4 ; 7.4 ; 7.6 ; 7.7 ; 7.8 ; 7.9 ; 8.2 ; 8.4 ; 8.5 ; 8.6
Cmo se construye o dibuja?
1) Separamos cada OBSERVACIN (dato) en TALLO
(primera parte del dato) y la HOJA (segunda parte del dato).

Por ejemplo el 5.3 5 (tallo) y 3 (hoja)

2) Se listan verticalmente en orden creciente todos los tallos y


se coloca una raya vertical a su derecha.

3) Se colocan las hojas horizontalmente, con lo que tenemos


como un diagrama de barras, pero que conserva todas las
puntuaciones originales, y sabemos, por ejemplo, que el dato
6.7 se repite en 4 ocasiones.
Una posible manera de representar los datos:
5 3469
6 00123344555666777788899
7 00111223446789
8 2456

Otra posible manera de representar los mismos datos:

5 34
5* 69
6 00123344
6* 555666777788899
7 0011122344
7* 6789
8 24
8* 56
SPSS

Nota_acceso_universidad Stem-and-Leaf Plot

Frequency Stem & Leaf

2,00 5 . 34
2,00 5 . 69
8,00 6 . 00123344
15,00 6 . 555666777788899
10,00 7 . 0011122344
4,00 7 . 6789
2,00 8 . 24
2,00 Extremes (>=8,5)

Stem width: 1,00


Each leaf: 1 case(s)
Grficos de caja (caja y bigotes)
SPSS: Analizar > Estadsticos descriptivos > Explorar > Grficos

Caja: Los tres cuartiles.


Bigotes: Valores no atpicos
Valores atpicos y extremos: Los que estn alejados por
fuera de los bigotes. Los valores atpicos (representados por un
crculo blanco) son aquellos valores alejados ms de 1.5
longitudes de caja de los percentiles 25 o 75. Los valores
extremos (representados por un asterisco) son aquellos valores
alejados ms de 3 longitudes de caja de los percentiles 25 o 75.

You might also like