You are on page 1of 32

UNIDAD

DIDCTICA

INTRODUCCIN AL
ANLISIS DE DATOS

OBJETIVOS DE LA UNIDAD
1. Introduccin
2. Variables y datos. Tipos de datos
2.1. Clasificacin de los datos segn su representatividad
2.2. Clasificacin de los datos segn su naturaleza
2.3. Clasificacin de los datos segn la escala de medida
3. Descripcin de datos mediante tablas
3.1. Tablas de frecuencias univariantes
3.2. Tablas de frecuencias bivariantes
3.2.1. Distribucin conjunta
3.2.2. Distribucin marginal y condicionada
3.2.3. Independencia
4. Descripcin de datos mediante grficos
4.1. Diagrama de barras
4.2. Diagrama de sectores o diagrama de tarta
4.3. Histograma y polgono de frecuencias
4.4. Diagrama de tallo-hojas
5. Introduccin al anlisis exploratorio de datos
5.1. Diagrama de dispersin
CONCEPTOS BSICOS A RETENER
ACTIVIDADES DE AUTOCOMPROBACIN
EJERCICIOS VOLUNTARIOS
REFERENCIAS BIBLIOGRFICAS

www.udima.es

1 1

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

OBJETIVOS DE LA UNIDAD
La estadstica descriptiva engloba una serie de tcnicas de estructuracin y de representacin grfica que permiten ordenar y presentar adecuadamente la informacin contenida en un conjunto de datos.
La extrapolacin de esta informacin para convertirla en regla aplicable a todos los datos que puedan
obtenerse en circunstancias similares es el objetivo de la inferencia estadstica. Entre las dos se sita el
clculo de probabilidades como lenguaje formal que permitir tal extrapolacin.
Los objetivos de esta Unidad didctica son:
Saber distinguir los distintos tipos de variables y datos segn la escala de medida, naturaleza y representatividad.
Saber construir tablas de frecuencias univariantes y bivariantes.
Construir distribuciones marginales y condicionadas a partir de una distribucin conjunta
de frecuencias.
Conocer el concepto de independencia de dos variables.
Saber interpretar la informacin contenida en distintos tipos de representaciones grficas.
Conocer qu se entiende por anlisis exploratorio de datos.

1 2

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

A. Moreno-Daz

Introduccin al anlisis de datos

1. INTRODUCCIN
La estadstica descriptiva comprende una serie de mtodos y tcnicas para:
Recoger y organizar datos referidos a las sucesivas observaciones de ciertos caracteres de
una poblacin descrita previamente.
Esquematizar el comportamiento de las poblaciones con relacin a determinados caracteres
mediante tablas, grficos o dibujos.
Resumir la informacin obtenida de las sucesivas observaciones en unos pocos datos representativos.
Analizar la relacin de dependencia entre caracteres de una misma poblacin.

Sir John Sinclair, 1795. Sir. John Sinclair (1st


Baronet, 1754-1835) introdujo en Inglaterra
la palabra estadstica con el sentido de recolectar y clasificar datos, si bien en Alemania
la introdujo en 1749 el economista y profesor
Gottfried Achenwall.
Fue en su trabajo Statistical Accounts of Scotland publicado entre 1791 y 1792. Su objetivo
era medir la felicidad de la que gozaba la nacin y estudiar formas de mejorarla.
En 1790 envi cuestionarios estructurados a
900 ministros en todo el pas. Tenan 160 preguntas divididas en cuatro grandes bloques:
geografa, poblacin, produccin agrcola e
industrial y otros.

Saber interpretar la informacin contenida en


distintos tipos de representaciones grficas.
Conocer alguna tcnica de visualizacin para datos multivariantes.

2. VARIAbLES y DATOS. TIpOS DE DATOS


En estadstica, la materia prima son los datos y el producto final es el conjunto de conclusiones
sobre el fenmeno de inters. Una variable es la caracterstica de inters que se quiere estudiar y que
toma valores diferentes en cada individuo. En general, las variables se representarn por las letras maysculas X, Y, Z, etc. Una variable puede tomar valores diferentes incluso en un mismo individuo si se
cambian las condiciones en las que se toma la medida. Un dato es el valor observado de una variable en
un momento dado en un individuo. Tpicamente, un dato ser un nmero (o una etiqueta en el caso de
variables nominales) con un contexto, siendo ese contexto el que hace que ese nmero sea informativo.
Por ejemplo, una variable puede ser la temperatura en un aula. Un dato sera la temperatura en el aula en
este momento. Una variable podra ser las notas de la asignatura de estadstica durante este curso. Un
dato sera la nota particular de Luis Garca. Una variable sera el tiempo que uno tarda en conectarse a
Internet desde que se pincha con el ratn en el icono correspondiente. Un dato sera lo que uno tarda en
conectarse ahora. Una variable sera el peso. Mi peso sera un dato.

2.1. ClasifiCaCin de los datos segn su representatividad


Segn su representatividad, los datos pueden conformar toda la poblacin o ser parte de una muestra. La poblacin es el conjunto de todos los individuos de los que se quiere estudiar una caracterstica. Estos individuos pueden ser objetos, personas o las repeticiones de un experimento concreto. Una
muestra es un subconjunto representativo de la poblacin. Supngase que se quiere estudiar la variable
www.udima.es

1 3

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

X = Tiempo de conexin a Internet desde que pincho en el icono. Una vez que se ha definido un contexto,
las caractersticas del computador y de la conexin, la poblacin sera el conjunto infinito de los datos
que se obtendra al realizar la conexin todas las veces posibles. Una muestra sera el tiempo concreto
de conexin en 50 ocasiones, en las condiciones en las que he definido este experimento. Si se quiere
estudiar la variable X = Altura de los estudiantes de informtica en la Comunidad de Madrid, la poblacin estara formada por las alturas de todos los estudiantes de informtica de la Comunidad de Madrid
y una muestra sera la estatura de, por ejemplo, un subconjunto de 600 alumnos tomados de todas las
universidades de la Comunidad en las que pueden cursarse estos estudios.

2.2. ClasifiCaCin de los datos segn su naturaleza


Por su naturaleza, los datos pueden clasificarse en cualitativos y cuantitativos.
Los datos cuantitativos son nmeros que expresan cantidades. Representan, por tanto, caracteres
que pueden medirse. A su vez se dividen en continuos, si pueden tomar cualquier valor dentro de un intervalo real, y discretos, si sus valores forman un conjunto numerable, finito o infinito. Generalmente,
estos ltimos se corresponden con contar el nmero de veces que ocurre un suceso. Por ejemplo, si se
miden el peso, la altura, el voltaje, el tiempo, la longitud, la velocidad, etc., se obtendrn datos cuantitativos continuos. Si se miden el nmero de hermanos, las pginas de un libro, los clientes, el nmero de
aprobados, etc., se obtendrn datos cuantitativos discretos.
Los datos cualitativos son meras etiquetas o cdigos que representan atributos. No se refieren a
caractersticas cuantificables, sino a cualidades de los individuos. Por ejemplo, profesin, estado civil,
marca preferida de refresco, tipo de procesador, etc.

2.3. ClasifiCaCin de los datos segn la esCala de medida


Se mide una propiedad en una persona o cosa cuando se le asigna un nmero para representar dicha
propiedad. Mediante este proceso se pasa de tener una muestra de personas o cosas a tener un conjunto
de nmeros con cierta informacin. En estadstica se diferenciarn cuatro escalas de medida con las que
obtener datos: nominal, ordinal, de intervalo y de razn.
Las medidas tomadas en una escala nominal clasifican las unidades en categoras, nada ms. Caractersticas como el color de pelo, sexo o nacionalidad se miden con este tipo de escala. Se podran asignar nmeros a las categoras pero sera irrelevante qu nmeros se usen, no tendran ningn significado,
seran meras etiquetas. Tampoco tendra sentido realizar operaciones con estos nmeros, solamente se
podr decir si dos individuos u observaciones pertenecen o no a la misma categora. Por ejemplo, se mide
en una escala nominal el estado civil de una persona, que podra ser: casado, soltero, viudo, divorciado.
Las marcas de los coches vendidos en un determinado mes, el tipo de carburante, etc. La escala nominal
mide, por tanto, caracteres cualitativos.
En las medidas tomadas en una escala ordinal, el orden de los nmeros es importante, da algo ms
de informacin. Por ejemplo, si se sabe que en la final de 4 s 200 metros libres de los Campeonatos
Europeos de Natacin el resultado fue:
1. Italia.
2. Gran Bretaa.
1 4

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

A. Moreno-Daz

Introduccin al anlisis de datos

3. Grecia
4. Francia
5. Rusia
6. Polonia.
7. Alemania.
El orden es importante, ya que Italia fue la mejor y Grecia fue mejor que Rusia. Lo nico con significado es el ranking, el orden de los resultados. No se puede decir que Grecia fue tres veces peor que
Italia o Rusia cinco veces peor que Italia, o que la diferencia de calidad entre los equipos de Italia y Grecia es la misma que entre los de Rusia y Alemania. Slo se puede decir qu equipo es mejor que otro,
sin cuantificar esa relacin. Se mide con una escala ordinal cuando se recogen valoraciones de satisfaccin de clientes: desde el 7 (Muy satisfecho) hasta el 1 (Nada satisfecho). Tambin en las encuestas en
las que los alumnos valoran la actuacin de un profesor: desde 5 (Muy de acuerdo) hasta el 1 (Nada de
acuerdo). La escala de Mohs, que recoge la dureza de los minerales, es tambin una escala ordinal. Esta
escala va desde el 10 [Diamante (ms duro)] hasta el 1 [Talco (menos duro)].
Las escalas nominal y ordinal estn asociadas con caracteres cualitativos. Estos caracteres representan cualidades de los individuos o cosas.
La escala de intervalo/razn es la ms usada y familiar. Las medidas se toman en una escala de la
misma unidad, como la altura en centmetros, la temperatura en grados Celsius o el tiempo de reaccin
en segundos. Las operaciones aritmticas con este tipo de medida s tienen sentido. Por ejemplo, un gusano de 4 centimetros, mide 2 centmetros ms que uno de 2 centmetros.
Existe una diferencia ms sutil entre las escalas de intervalo y de razn. El 0 en la escala de razn
tiene sentido, significa ausencia de la caracterstica. As, la longitud se mide en una escala de razn, ya
que se puede decir que el primer gusano mide el doble que el segundo, y 0 centmetros significa ausencia de longitud. Sin embargo, la temperatura se mide en una escala de intervalo, ya que 0 grados no significa ni fro ni calor, sino que es el punto en el que el agua pasa a estado slido.
La escala de medida depende principalmente del proceso de medida, no de la propiedad que se mide.
As, el resultado de una prueba de natacin se puede medir teniendo en cuenta qu nadador llega primero, segundo, tercero, etc. (escala ordinal) o bien cronometrar el tiempo que tardan en recorrer la distancia requerida (escala de intervalo/razn).
Se distinguirn las medidas tomadas en una escala nominal, ordinal e intervalo/razn y se hablar indistintamente de variables o de datos cuantitativos, cualitativos, nominales, ordinales o de intervalo/razn.

3. DESCRIpCIN DE DATOS mEDIANTE TAbLAS


3.1. tablas de freCuenCias univariantes
Se necesita tener una idea general de cmo es el conjunto de datos para poder identificar patrones
que guen posteriores anlisis. Una primera forma de resumir la informacin es mediante una tabla que
diga qu valores diferentes se han observado y cuntos datos hay de cada valor (repeticiones). Esta tabla

www.udima.es

1 5

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

recibe el nombre de tabla de frecuencias o tabla de distribucin de frecuencias (tabla 1). En ocasiones, tambin uno se referir a ella como tabla estadstica. Supngase que se dispone de un total de n observaciones divididas en k valores o modalidades diferentes. Algunas definiciones seran:
Se llama frecuencia absoluta del valor observado Ci (o modalidad Ci) al nmero total de
individuos que presentan dicho carcter. Se denota por ni.
Se llama frecuencia relativa del valor observado Ci al cociente fi = ni /n.
Se verifica:
k

n =

i=1

ni

i=1

ei = 1

Cuando los valores o modalidades observadas pueden ordenarse de menor a mayor, se define la frecuencia acumulada (absoluta o relativa) del valor Ci a su frecuencia sumada a las frecuencias de las modalidades anteriores. Se representar por Ni la frecuencia acumulada absoluta y Fi la relativa:
i

Ni =

j=1

nj

Fi =

j=1

ej

tabla 1. Formato general de una tabla de frecuencias

Valores

Frecuencias
absolutas

Frecuencias
absolutas
acumuladas

Frecuencias
relativas

Frecuencias
relativas
acumuladas

C1

n1

N1 = n1

f1 = n1/n

F1 = f1

C2

n2

N2 = n1 + n2

f2 = n2/n

F2 = f1 + f2

Ci

ni

Ni = n1 + + ni

fi = ni/n

Fi = f1 + + fi

Ck

nk

Nk = n

fk = nk/n

Fk = 1

Totales

EjEmpLO 1
Se estudia la variable X = Nmero de cilindros de los coches de los trabajadores de una empresa. es una variable cuantitativa medida en una escala de intervalo/razn. se tiene una muestra de esta variable medida
en 92 coches. su tabla de frecuencias es la siguiente:
.../...

1 6

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

.../...
tabla 2
N. cilindros

ni

Ni

fi

Fi

0,03

0,03

49

52

0,53

0,56

54

0,02

0,58

31

85

0,34

0,92

92

0,08

Totales

92

se observa que un 53% de los coches tienen 4 cilindros y un 34% tienen 6 cilindros, que son las modalidades
ms frecuentes. solamente un 5 por 100 tiene un nmero impar de cilindros (3 5), siendo estas modalidades las menos frecuentes. los coches con 8 cilindros representan un 8% del total.

La tabla descrita anteriormente pierde su utilidad de resumir informacin de manera clara y concisa
cuando se tienen variables cuantitativas con muchos valores diferentes. Se tendran tablas con muchas
filas con frecuencias muy pequeas. Esto suceder tanto con variables continuas como con variables
discretas que tengan muchos valores distintos. En este caso, se construye la tabla agrupando el rango
de valores en intervalos y se determina el nmero de datos del conjunto que se encuentra en cada uno
de ellos.
Cada intervalo se llama clase. La clase i vendr representada por su extremo superior e inferior. La unin de todos los intervalos debe recubrir todos los valores de la variable, y las
clases no deben solaparse:
(Li-1, Li]
Se llama amplitud de la clase i, li, a la diferencia entre sus extremos. Se supondr que esta
longitud es constante.
li = Li Li-1
Se denomina marca de clase al punto medio del intervalo y ser el valor que represente a
todos los datos contenidos en ese intervalo. Se representar por x'i.
El nmero de clases en que se divide el rango de un conjunto de datos se representar por k. Este
nmero suele determinarse en funcin del tamao muestral n. Algunos proponen el entero ms prximo
a n. Otra regla conocida es la regla de Sturges, en la que el nmero de clases es el entero ms prximo
a 1 + 3,3 log10 n. Generalmente, se utilizarn entre 5 y 20 clases de la misma longitud.

www.udima.es

1 7

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

La tabla de frecuencias para este tipo de datos divididos en clases quedara de la siguiente forma:
tabla 3. modelo de tabla de frecuencias para datos agrupados

Clases

marca de clase

Frecuencias
absolutas

Frecuencias
relativas

[L0, L1)

x'1

n1

f1 = n1/n

[L1, L2)

x'2

n2

f2 = n2/n

[Li-1, Li)

x'i

ni

fi = ni/n

[Lk-1, Lk]

x'k

nk

fk = nk/n

Totales

EjEmpLO 2
Se estudia la variable X = Nota obtenida en la convocatoria de febrero en una asignatura determinada en una
muestra de 100 alumnos. los datos originales seran: 6,33; 7,17; 2; 5,33; 8,33; etc. hasta 100 datos. se consideran 10 clases que surgen naturalmente al considerar este tipo de datos, formando la siguiente tabla:
tabla 4
Frecuencias
absolutas

Frecuencias
relativas

Clases

marca de clase

[0, 1)

0,5

0,02

[1, 2)

1,5

0,05

[2, 3)

2,5

10

0,1

[3, 4)

3,5

11

0,11

[4, 5)

4,5

18

0,18

[5, 6)

5,5

25

0,25

[6, 7)

6,5

15

0,15

[7, 8)

7,5

12

0,12

[8, 9)

8,5

0,02

[9, 10]

9,5

100

Totales

se ve que la clase con ms observaciones es la (5, 6], con 25 datos que representan un 25% del total. un 58%
de los alumnos tienen notas entre (4, 7]. Han aprobado un 54% de los alumnos y ninguno ha obtenido calificaciones entre 9 y 10.

1 8

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

3.2. tablas de freCuenCias bivariantes


Cuando de cada individuo se observan dos o ms variables, se obtiene un conjunto de datos multivariantes. En concreto, con dos caractersticas por individuo se tendra un conjunto de datos bivariantes.
Por ejemplo, se recogen las notas en matemticas y literatura de una muestra de alumnos de bachillerato. Se tendra entonces un conjunto de datos de la forma (3, 6), (5, 7) etc., donde la primera nota es la de
matemticas y la segunda la de literatura. De esta forma, el primer alumno de la muestra ha obtenido un
3 en matemticas y un 6 en literatura, y as sucesivamente.
El planteamiento general es el siguiente:
Sea una muestra de tamao n descrita por las variables X e Y, o, de forma equivalente, sea un conjunto de datos bivariantes (x1, y1), (x2, y2) (xn, yn). Se designar por a1, a2,, ak y por b1, b2,, bp,
los k y p valores distintos que pueden tomar X e Y respectivamente. Si alguna de estas variables fuese
continua o tomara demasiados valores distintos, estos valores representarn las correspondientes marcas
de clase una vez que se hayan agrupado los datos en clases.
Existen varias formas de estudiar las repeticiones en una serie de datos bivariantes o bidimensionales:
Considerando ambas medidas de forma simultnea (distribucin conjunta).
Considerando cada variable X e Y por separado (distribuciones marginales).
Fijando el valor de una de las variables y estudiando los valores de la otra (distribuciones
condicionadas).

3.2.1. Distribucin conjunta


Se representar por nij el nmero de elementos de la muestra que presentan el valor (ai, bj), es decir,
la frecuencia absoluta del valor (ai, bj). Si se representa esta distribucin conjunta en una tabla de doble
entrada, cada dimensin de la tabla se corresponder con una variable y cada celda de la tabla tendr el
nmero de individuos que tengan los valores correspondientes segn la fila y la columna en que se encuentren. Este valor ser la frecuencia conjunta.
tabla 5. Distribucin conjunta

X|Y

b1

b2

bj

bp

a1

n11

n12

n1j

n1p

a2

n21

n22

n2j

n2p

ai

ni1

ni2

nij

nip

ak

nk1

nk2

nkj

nkp

www.udima.es

1 9

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Esta tabla puede definirse tambin utilizando las frecuencias relativas. Las relaciones que se verifican en estas tablas de doble entrada son las siguientes:
nij

eij =

nij = n

i=1 i=1

eij = 1

i=1 i=1

Si ambas variables son cualitativas (nominales u ordinales), la tabla X|Y recibe el nombre de tabla
de contingencia.

EjEmpLO 3
en una muestra de 90 estudiantes, se recogen las variables X = Nmero de horas semanales de estudio de una asignatura e Y = Calificacin final en esa asignatura. la variable Y, en lugar de medirla en una escala de intervalo/razn,
se va a medir en una escala ordinal con las categoras o modalidades: suspenso (S), aprobado (A), notable (N) y
sobresaliente (B). el conjunto de datos original sera: (3, S), (4, N), (2, A) , una por cada estudiante de la muestra. se puede disponer toda la informacin de la muestra en una tabla de distribucin conjunta (absoluta):

tabla 6

X|Y

19

10

16

13

3.2.2. Distribucin marginal y condicionada


El estudio de la distribucin marginal de cualquiera de las variables solamente tiene sentido partiendo de las tablas de distribucin conjunta descritas en el epgrafe anterior. A partir de ellas se quiere
estudiar qu ocurre si uno se olvida de una de las variables y se centra en la otra. La tabla siguiente ilustra la distribucin marginal para las dos variables X e Y.

tabla 7. Distribucin conjunta y marginales

X|Y

b1

b2

bj

bp

a1

n11

n12

n1j

n1p

marginal X
p

n1 =

n1j

j=1

.../...

1 10

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

X|Y

b1

b2

bj

bp

a2

n21

n22

n2j

n2p

ai

ni1

ni2

nij

nip

marginal X

.../...
p

n2 =

n2j

j=1

ni =

nij

j=1

ak

nk1

nk2

marginal Y

n1 =

nkj

ni1

n2 =

i=1

i=1

nkp

nj =

nij

i=1

np =

nkj

j=1

k p

ni2

nk =

nip

i=1

n=

nij

i=1 i=1

El nombre de marginal viene de la localizacin de estas distribuciones en los mrgenes de la tabla


de frecuencias conjuntas. Se utilizar la siguiente notacin:
p

ni =

j=1

nij

ei =

j=1

eij =

Representa la frecuencia absoluta asociada al resultado ai.


ni
n

Representa su frecuencia relativa.

nj =

i=1

nij

ej =

www.udima.es

i=1

eij =

Representa la frecuencia absoluta del resultado bj.


nj
n

Representa su frecuencia relativa.

1 11

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

EjEmpLO 4
se completa la tabla del ejemplo anterior aadiendo las distribuciones marginales:

tabla 8
X|Y

19

10

marginal X

19

16

27

13

23

12

marginal Y

40

35

10

90

lo que significa que si se estudia por separado la variable X = Nmero de horas semanales de estudio de una
asignatura, en su distribucin marginal de frecuencias se observa que de 90 estudiantes encuestados, 19 estudiaron 1 hora/semana, 27 estudiaron 2 horas/semana y as sucesivamente. del mismo modo, si se estudia
la variable Y = Calificacin final en esa asignatura, 40 alumnos suspendieron, 35 sacaron aprobado, etc.
si se fija el valor de una de las variables, cmo se distribuye la otra? supngase, por ejemplo, que en la tabla
anterior se fija X = 4, restringiendo el estudio a los alumnos que estudiaron 4 horas/semana. Cul es la distribucin de la Y ahora? se tendran un total de 12 alumnos que estudiaron 4 horas/semana, de los cuales 5
suspendieron, 3 aprobaron, 3 sacaron notable y 1 sobresaliente.

A este proceso de fijar el valor de una de las variables se le denomina condicionar y equivale a restringir el estudio descriptivo a un subconjunto de la muestra o poblacin inicial. As, la distribucin de
X condicionada, por ejemplo, por el valor Y = bj tendra la siguiente estructura:
tabla 9. Distribucin de frecuencias para X|Y = bj

X|Y = bj

Frecuencias
absolutas

Frecuencias
relativas

a1

n1j

e1 =

a2

n2j

e2 =

n1j
nj
n2j
nj

.../...

1 12

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

X|Y = bj

Frecuencias
absolutas

ai

nij

ak

nkj

Totales

nkj

Frecuencias
relativas

.../...
nij

ei =

nj

nkj

ek =

nj
1

Se llamar frecuencia relativa de la modalidad ai de X condicionada a la modalidad bj de Y a:


j

ei = ei|j =

nij
nj

Del mismo modo, la frecuencia relativa de la modalidad bj de Y condicionada a la modalidad ai de


X ser:
eji = ej|i =

nij
ni

EjEmpLO 5
en el ejemplo de las horas de estudio y las notas, se construye la tabla de frecuencias para la distribucin
de Y|X = 4:

Tabla 10

www.udima.es

Y|X = 4

Frecuencias
absolutas

Frecuencias
relativas

0,42

0,25

0,25

0,08

Totales

12

1 13

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Se verifica que:
Conjunta = Marginal s Condicionada
eij = eji ei = eji ej

3.2.3. Independencia
Se dir que el carcter o variable X es independiente del carcter Y si todas las distribuciones condicionadas X |Y = bj son idnticas independientemente del valor de Y. Es decir, para cualquier i:
eij ei para todo j, y no es funcin de j.
La independencia es siempre recproca. Cuando X e Y sean independientes, se verificar que la distribucin conjunta ser el producto de las marginales, es decir:
eij = ei ej para todo i, j.
En la tabla estadstica, la independencia se traduce en:

nij =

ni nj
n

para todo i, j

4. DESCRIpCIN DE DATOS mEDIANTE gRFICOS


Adems de las tablas ya descritas, las distribuciones de frecuencia pueden estructurarse en grficos. Sin duda es la forma ms eficaz y rpida, si se dispone de las herramientas adecuadas, de resumir la
informacin de un conjunto de datos. Hay muchas formas de realizar representaciones grficas. En este
epgrafe se van a considerar las ms habituales.

4.1. diagrama de barras


Es la representacin grfica de una tabla de frecuencias en la que los datos estn sin agrupar. Consiste en dibujar un rectngulo por cada valor de la variable, con rea proporcional a su frecuencia. Es
til para variables cualitativas (nominales y ordinales) o cuantitativas discretas con pocos valores diferentes. El diagrama de barras de la figura 1 muestra la distribucin de las ventas de turismos por marcas
en Espaa en mayo del 2006. Tambin se muestra en la figura 2 el diagrama de barras correspondiente
a la tabla de frecuencias de los cilindros de los coches (ejemplo 1).

1 14

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

figura 1. Diagrama de barras para las ventas de turismos

Otros
otros
BMW
bmW
Fiat
fiat
Toyota
toyota
Volkswagen
volkswagen
Opel
opel
Peugeot
peugeot
Seat
Seat
Ford
ford
Renault
renault
Citroen
Citren
0

5000

5.000

10000

10.000

15000

15.000

20000

20.000

25000

25.000

30000

30.000

35000

35.000

40000

40.000

figura 2. Diagrama de barras del ejemplo de los cilindros

50
40
30
20
10
0
3

4.2. diagrama de seCtores o diagrama de tarta


Se utiliza tambin cuando la variable tiene pocos valores diferentes. Se construye dividiendo un crculo en sectores con reas proporcionales a la frecuencia de cada valor, de forma que la suma del rea de
todos los sectores es el rea del crculo. La figura 3 muestra dos diagramas de tarta o sectores.

www.udima.es

1 15

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

figura 3. Diagrama de tarta para los datos de cilindros y de ventas de coches

7,61%

33,70%

3,26%

Cilindros
3
4
5
6
8
53,26%

2,17%

3,14% 3,07%
4,56%

ventas
22,97%

7,49%
8,64%
10,97%
9,14%
10,24%

9,63%

otros
Citren
renault
ford
Seat
peugeot
opel
volkswagen
toyota
fiat
bmW

10,14%

4.3. Histograma y polgono de freCuenCias


Un histograma es la representacin grfica de una tabla de frecuencias en las que los datos han
sido agrupados en intervalos o clases. Se utiliza pues para variables cuantitativas que toman muchos valores diferentes. Cada rectngulo corresponde a una clase y su rea es proporcional a la frecuencia de
dicha clase.
En un histograma, uno debe fijarse en diversos aspectos:
Concentraciones. Aquellos rectngulos de mayor altura en los que hay mayor proporcin
de datos y en torno a los que se disponen otros de frecuencia inferior o decreciente.
Huecos. Podran ser un indicio de que se mezclan datos de poblaciones diferentes.
Valores atpicos. En la Unidad didctica siguiente se ver una regla para detectarlos. En
general, un dato ser atpico si se separa del patrn general de los datos, tanto si es muy
grande como muy pequeo.
Asimetras. Indican hacia dnde tienden a desplazarse los datos cuando uno se aleja de las
zonas de concentracin. Por ejemplo, cuando la cola de la distribucin de los datos apunta
hacia la derecha, se dice que la asimetra es positiva.
Es aconsejable hacer varios histogramas cambiando el nmero de clases para comprobar que las
caractersticas que se observan no se deben a un agrupamiento casual de los datos.

EjEmpLO 6
en la figura 4 se muestra el histograma correspondiente a la variable X = Precio medida en la muestra de los
92 coches del ejemplo 1. se han dividido los valores para el precio en intervalos que van desde el 5 hasta
el 65 (en miles de euros). en total 10 intervalos de longitud 6. se observa que la clase ms frecuente es la
comprendida entre 11.000 y 17.000 euros y que, a partir de ah, las frecuencias van disminuyendo conforme
.../...

1 16

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

.../...
aumenta el precio. las clases entre 41.000 y 47.000 euros y entre 53.000 y 59.000 euros carecen de observaciones, lo que podra ser indicio de que se estn mezclando datos de dos poblaciones diferentes. los datos
ms alejados, los que se encuentran en las clases entre 47.000 y 53.000 euros y 59.000 y 65.000 euros, no deben
considerarse como atpicos, ya que no se salen del patrn general de la distribucin, que es una asimetra
hacia valores altos. la distribucin presenta asimetra positiva.

figura 4. Histograma de precios de coches


30
25
20
15
10
5
0
5

11

17

23

29

35

41

47

53

59

65

El polgono de frecuencias es la lnea poligonal que resulta de unir los puntos medios de la parte superior
de los rectngulos en el histograma. en ocasiones, sobre todo con tamaos muestrales grandes, el polgono de frecuencias puede ayudar a que nos hagamos una idea ms clara de cmo son los datos. la figura 5
muestra el polgono de frecuencias para los datos de los precios de los coches.
El polgono de frecuencias acumuladas se define a partir de la tabla de frecuencias para una variable continua cuyos valores han sido agrupados en clases. es la lnea que resulta de unir los pares de valores (Li+1, F
(Li+1)), es decir, los extremos superiores de las clases y la frecuencia acumulada hasta ese valor.

figura 5. polgono de frecuencias para los precios de coches


30
25
20
15
10
5
0
5

11

17

23

29

35

41

47

53

59

65

a partir de la tabla 4 de frecuencias del ejemplo 2 se obtiene el polgono de frecuencias acumuladas de la figura 6. en l se han representado los pares de datos (1; 0,02), (2; 0,07), (3; 0,17), (4; 0,28), etc.

.../...

www.udima.es

1 17

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

.../...
figura 6. polgono de frecuencias acumuladas
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1

10

4.4. diagrama de tallo-Hojas


Este tipo de diagrama fue descrito por Tukey y es utilizado para representar distribuciones de variables cuantitativas. Adems, en la misma representacin grfica se visualizan los valores que se estudian.
Los pasos para construirlo se ilustran con un ejemplo:

EjEmpLO 7
Sea una muestra de la variable X = Peso en kilogramos en un grupo de 60 estudiantes: 54, 60, 62, 53, etc.
se redondean los datos a dos o tres cifras, expresando los valores con nmeros enteros. pueden expresarse en otras unidades (dividiendo o multiplicando) para que al redondear puedan obtenerse cifras de decenas o centenas repetidas. en el ejemplo, como se tienen datos de dos cifras, se dejan como
estn.
se ordenan los datos de menor a mayor:
44, 45, 46, 46, 47, 48, 49, 50, 50, 50, 52, 52, 52, 52, 53, 53, 53, 54, 54, 54, 55, 55, 55, 55, 56, 56, 56, 57, 60, 60,
60, 60 ,60, 61, 61, 62, 62, 63, 64, 64, 64, 65, 65, 65, 66, 67, 68, 68, 68, 70, 70, 70, 70, 71, 72, 72, 74, 75, 80,
93.
se separan por la izquierda uno o ms dgitos de cada dato, segn sea el nmero de filas que se quiera obtener, normalmente no ms de 12 15. Cada uno de estos valores se escribe uno debajo del otro,
trazando una lnea a la derecha de los nmeros escritos. estas cifras constituyen el tallo. en el ejemplo, se tomar la primera cifra.
para cada dato original se busca el dgito del tronco y a la derecha de la lnea se escriben las cifras que
haban quedado, cifras que forman las hojas.
se obtendra el grfico siguiente:
.../...

1 18

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

.../...
figura 7. Grfico de tallo-hojas
4

El resultado es, bsicamente, un histograma tumbado con longitud de las clases igual a 10 en el que,
adems de mostrarse la forma de la distribucin, se pueden visualizar los datos.

EjEmpLO 8
Sea la variable X = Peso recogida en la muestra de coches del ejemplo 1. la figura 8 muestra el diagrama
de tallo y hojas que se obtiene con un software estadstico convencional. los datos originales eran en libras:
1695, 1845, 1965, 2045, 2055, 2240, 2270, 2285, 2295, 2297, etc. en la representacin se observa que se han redondeado los nmeros perdiendo las cifras de centenas y unidades. as, el dato 1695 se redondea a 1600 y
se representan la primera cifra en el primer tronco como 1| y la hoja como 6. los nmeros que figuran en
la columna de la izquierda representan las frecuencias absolutas acumuladas hasta la clase que contiene la
mediana que se seala con un parntesis. este tipo de diagrama es muy til para el clculo de algunas medidas caractersticas que se estudiarn en la siguiente unidad didctica.

figura 8. Grfico de tallo-hojas


Grfico de tallo-hojas para peso: unidad = 100,0 1|2 representa 1200,0.

www.udima.es

1|6

1|89

2|00

14

2|222223333

23

2|444444555

31

2|66667777

45

2|88888889999999

(7)

3|0000001

41

3|2222333

34

3|4444444555555

21

3|66667777777

10

3|89999

4|00011

1 19

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

5. INTRODUCCIN AL ANLISIS ExpLORATORIO DE DATOS


Cuando todas las tcnicas de tabulacin y representacin grfica que se han visto se utilizan no solamente con el
propsito de describir un conjunto de datos, sino como un
medio para descubrir la informacin oculta en los mismos,
se inicia el anlisis exploratorio de datos (AED), introducido
por Tukey en 1977. No es una tcnica paralela a las que se
han visto, sino una aproximacin o filosofa para el anlisis
de datos que emplea una variedad de tcnicas para:

John W. Tukey (1915-2000). Estudi artes


y ciencias qumicas en la Universidad Brown
y se doctor en matemticas en la Universidad de Princeton.

Profundizar lo ms posible en el conocimiento


de un conjunto de datos.

Despus de la guerra regres a Princeton dividiendo su tiempo entre la universidad y los


Laboratorios AT&T Bell.

Descubrir estructuras y relaciones entre las variables.

Su inters estadstico fue amplio y variado y


sus contribuciones numerosas. Ide el diagrama de tallo-hojas y el diagrama de cajas.

Detectar variables de inters en el estudio.

Sent las bases del anlisis exploratorio de


datos en su libro del mismo nombre, publicado en 1977 por Addisson Wesley.

Detectar valores anmalos o atpicos.


Comprobar hiptesis acerca de los datos.

Tambin acu trminos relacionados con la


Informtica: bit (binary digit) y computer software.

Disear modelos que describan los datos.


En lugar de contrastar en un conjunto de datos una
serie de hiptesis clsicas, predeterminadas de antemano, el AED dice cmo se tienen que diseccionar
los datos para que ellos mismos revelen su estructura, patrones y comportamiento. Es decir, cmo buscar, qu buscar y cmo interpretar lo encontrado.
Todo lo visto en esta Unidad didctica son tcnicas utilizadas en AED. Vase otro tipo de grfico
que se utiliza cuando se quieren estudiar dos o ms variables medidas sobre el mismo individuo para hacerse una idea de qu tipo de relacin existe entre ellas, si existe alguna. Se estudiarn ms tcnicas del
AED en prximas Unidades didcticas.

5.1. diagrama de dispersin


Ayuda a ver la relacin que puede existir entre dos variables X e Y. Es simplemente una grfica en
la que en el eje horizontal se representan los valores de la primera variable y en el eje vertical los valores de la segunda. Se tendrn tantos puntos como tamao de la muestra.

EjEmpLO 9
en una muestra de 130 personas se recogen los valores de las variables X = Temperatura (en grados fahrenheit) e
Y = Pulsaciones por minuto. se representan estos 130 pares de datos en un diagrama de dispersin en la figura 9.
.../...

1 20

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

.../...
aparentemente, la nube de puntos que resulta no permite ver ningn tipo de relacin que destaque entre
estas dos variables. s se puede ver que hay un dato que parece situarse ms a la derecha que el resto, se podra estudiar para ver si es un dato atpico.

figura 9. Diagrama de dispersin de temperatura frente a pulsaciones


97
87
77
67
57
96

97

98

99

100

101

EjEmpLO 10
se tiene en un fichero informacin referente a las variables X = Millas por galn de gasolina en ciudad (el equivalente americano al kilmetro por litro de gasolina europeo), Y = Millas por galn en autopista y Z = Potencia
en la muestra de coches del ejemplo 1. se puede hacer una matriz de diagramas de dispersin que representar este diagrama para todos los pares de variables del fichero. este tipo de matriz puede verse en la figura
10. se observa rpidamente que los valores de las variables X e Y estn prcticamente dispuestos a lo largo
de una lnea recta, sugiriendo un tipo de relacin lineal entre ambas variables. adems, un valor alto en X
implica tambin un valor alto en Y (grfico 1). por otra parte, la relacin entre las variables Z e Y no parece
ser lineal a juzgar por el perfil curvo que parecen dibujar los datos (grfico 2).

figura 10. matriz de diagramas de dispersin

Grfico 1

Grfico 2

www.udima.es

1 21

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

CONCEPTOS BSICOS A RETENER


Concepto de variable y dato. Distintos tipos de datos.
Tablas de frecuencia para una variable y para dos variables.
Distribucin conjunta, marginal y condicionada.
Representaciones grficas: diagrama de barras, diagrama de sectores, histograma y polgono de frecuencias, diagrama de tallo-hojas. Cundo se utiliza cada uno de ellos?
Diagrama de dispersin: qu representa? Qu se puede ver en l?

ACTIVIDADES DE AUTOCOMPROBACIN
A partir del contenido de la presente Unidad didctica, se propone la realizacin de las siguientes
actividades de autocomprobacin por parte del alumno, como ejercicio general de repaso y asimilacin
de la informacin bsica proporcionada por el texto.

Enunciado 1
Se recogieron datos del tiempo en estaciones meteorolgicas en 93 ciudades de un pas durante 20
aos. Los datos recogidos son 33.480 registros, uno por ciudad y mes. Cada registro contiene diversas
medidas relacionadas con el tiempo. Clasifica cada una de las siguientes variables recogidas como cuantitativa discreta, cuantitativa continua, cualitativa nominal u ordinal.
a) Nmero de das lluviosos en un mes.
b) Estacin del ao: primavera, verano, otoo, invierno.
c) Temperatura mxima diaria en grados centgrados.
d) Nmero de rayos cados en un mes.

Enunciado 2
Completar los datos que faltan en la siguiente tabla de frecuencias y comentar la distribucin:

1 22

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

Tabla 11

Valores

ni

Ni

fi

Fi

10

20

12

30

40

50

34

60

70

Totales

Enunciado 3
Dada la variable bidimensional representada por la siguiente tabla de distribucin de frecuencias
conjunta (absolutas):
Calcula las distribuciones marginales y la distribucin condicionada de X|Y = 6 y de Y|X =
= [2, 4).
Son X e Y independientes?
tabla 12
X|Y

[0, 2)

14

10

[2, 4)

[4, 6)

21

12

15

Enunciado 4
En una muestra de estudiantes universitarios se analiza la variable X = Condicin de fumar y la
variable Y = Sexo. Se obtienen los siguientes resultados:

www.udima.es

1 23

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

tabla 13

X|Y

Fuma

No fuma

Total

Chica ............................

17

22

Chico ............................

14

16

30

Total .............................

19

33

52

a) Qu proporcin de estudiantes fuma?


b) Qu proporcin de chicas no fuma?
c) Qu proporcin de estudiantes son chicos y fumadores? Qu son el resto de los estudiantes?
d) Calcula la distribucin marginal de frecuencias relativas de la variable Y = Sexo.
e) Calcula la distribucin marginal de frecuencias absolutas de la variable X = Condicin de
fumar.
f) Calcula la distribucin de frecuencias relativas de la variable Y = Sexo condicionada a que
son alumnos fumadores.

Enunciado 5
Construir un diagrama de tallo-hojas con los siguientes datos de la variable X = Nivel de cido en
las lluvias, medido por su ph en 26 das.
4,57; 5,62; 4,12; 5,29; 4,64; 4,31; 4,30; 4,39; 4,45; 5,67; 4,39; 4,52; 4,26; 4,26; 4,40; 5,78; 4,73;
4;56; 5,08; 4,41; 4,12; 5,51; 4,82; 4,63; 4,29; 4,60.

1 24

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

Solucin 1
La clasificacin de las variables registradas es la siguiente:
a) Cuantitativa discreta, medida en una escala de intervalo/razn.
b) Variable cualitativa, medida en una escala ordinal.
c) Variable cuantitativa discreta, medida en una escala de intervalo/razn.
d) Cuantitativa discreta, medida en una escala de intervalo/razn.

Solucin 2
Se presentan las cantidades que faltaban en la tabla 11:
tabla 14
Valores

ni

Ni

fi

Fi

10

0,05

0,05

20

10

12

0,24

0,29

30

20

0,19

0,48

40

26

0,15

0,63

50

34

0,19

0,82

60

38

0,10

0,92

70

41

0,08

Totales

41

Solucin 3
Distribuciones marginales para X e Y.
tabla 15. Tabla solucin del enunciado 3 (marginales)
X

ni

Ni

[0, 2)

38

42

[2, 4)

19

24

[4, 6)

57

30

18

Total

114

Total

www.udima.es

114

1 25

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Distribuciones condicionadas:
tabla 16. Tabla solucin del enunciado 3 (condicionadas)
X|Y = 6

ni

Y|X = [2,4)

ni

[0, 2)

10

[2, 4)

[4, 6)

15

Total

19

Total

30

Se estudia ahora la independencia de las variables X e Y. Es fcil comprobar que en toda la tabla de
frecuencias bivariantes se verifica:
ni nj

nij =

tabla 17. Tabla completa para ver independencia


X|Y

marginal X

[0, 2)

14

10

38

[2, 4)

19

[4, 6)

21

12

15

57

marginal Y

42

24

30

18

114

Por ejemplo:
14 =

38 s 42

,8 =

114
=

38 s 24
114

57 s42
114

,, 7 =

,, 9 =

19 s 42
114

,, 21 =

57 s 18
114

Por tanto, las variables X e Y son independientes.

Solucin 4
Se estudia la variable X = Condicin de fumar y la variable Y = Sexo en una muestra de 52 estudiantes:
a) Fuman 19 de 52 estudiantes, un 36%.
b) No fuman 17 chicas de un total de 22, un 77%.

1 26

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

c) Son chicos y fumadores 14 estudiantes de 52, un 27%. El resto de los estudiantes son chicos no fumadores (30%), chicas fumadoras (10%) y chicas no fumadoras (33%).
d) Distribucin marginal de frecuencias relativas de la variable Y = Sexo:
tabla 18. Tabla solucin del enunciado 4 d)
Sexo

fi

Chicas .........................................

0,42

Chicos ........................................

0,58

Total ..........................................

e) Distribucin marginal de frecuencias absolutas de la variable X = Condicin de fumar:


tabla 19. Tabla solucin del enunciado 4 e)
Condicin de fumador

ni

fuma ..........................................

19

no fuma .....................................

33

Total ..........................................

52

f) Distribucin de frecuencias relativas de la variable Y = Sexo condicionada a que son alumnos fumadores:
tabla 20. Tabla solucin del enunciado 4 f)

Sexo|Fumadores

fi

Chicas .........................................

0,26

Chicos .........................................

0,74

Total ...........................................

Solucin 5
Una posibilidad para representar el diagrama de tallo-hojas es redondear los datos perdiendo la cifra
de las centsimas: 4,5; 5,6; 4,1; 5,2; etc. La hoja ser el segundo dgito y el tronco el primero. Esta forma
de redondear los datos dara lugar a un diagrama de solamente dos tallos:
4
5

www.udima.es

11222333344455566678
025667

1 27

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Este diagrama es poco informativo. Una tcnica para extender este tipo de diagramas es dividir cada
fila en dos o cinco partes iguales. Si se eligen cinco partes iguales, se utilizan las siguientes etiquetas:
* para las hojas que llevan las cifras 0 y 1.
T para las hojas que llevan las cifras 2 y 3 (two, three).
F para las hojas que llevan las cifras 4 y 5 (four, five).
S para las hojas que llevan las cifras 6 y 7 (six, seven).
para las hojas que llevan las cifras 8 y 9.
El diagrama de tallo-hojas quedara de la siguiente forma:
4*
T
F
S

5*
T
F
S

11
2223333
444555
6667
8
0
2
5
667

En l se aprecia con ms claridad el perfil de la distribucin.

1 28

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Introduccin al anlisis de datos

A. Moreno-Daz

EJERCICIOS VOLUNTARIOS
Tras el estudio de esta Unidad didctica, el estudiante puede hacer, por su cuenta, una serie de ejercicios voluntarios, como los siguientes:
1. Buscad en revistas o en Internet un ejemplo de variable nominal, ordinal y cuantitativa discreta y cuantitativa continua. Describid la fuente de obtencin de los datos y el contexto de
estudio de la variable, consiguiendo un mnimo de 20 datos para cada una de ellas.
2. Describid, para dos de las cuatro variables del ejercicio anterior, representaciones grficas
apropiadas dada la naturaleza de los datos y el contexto de estudio.
3. Interpretad y comentad la siguiente tabla de distribucin de frecuencias obtenida con software estadstico convencional:
tabla 21

Clase

Lmite
inferior

Lmite
superior

<=0

0,0

punto
medio

Frecuencia

Frecuencia
relativa

0,0000

Frecuencia
relativa
acumulada

Frecuencia
acumulada

0,0000

0,0

3,0

1,5

0,0700

0,0700

3,0

6,0

4,5

21

0,2100

28

0,2800

6,0

9,0

7,5

41

0,4100

69

0,6900

9,0

12,0

10,5

22

0,2200

91

0,9100

12,0

15,0

13,5

0,0800

99

0,9900

15,0

18,0

16,5

0,0100

100

1,0000

mayor de

18,0

0,0000

100

1,0000

4. Se han analizado 30 lotes de 50


unidades de un producto fabricado por una determinada mquina,
contando en cada lote el nmero
de productos con fallos. Se tienen
lotes con 0 fallos hasta lotes con
un mximo de 25 fallos. Comentad el siguiente histograma de los
datos en el que se han considerado 5 clases o intervalos de longitud 5.

figura 11

12
10
8
6
4
2
0
0

www.udima.es

10

15

20

25

1 29

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

5. Asociad a cada diagrama de dispersin (vase figura 12) una frase que describa correctamente lo que observamos:
a) Hay una relacin positiva entre ambas variables, cuando la X aumenta tambin aumenta la Y. Adems, dicha relacin podra aproximarse por una lnea recta.
b) La nube de puntos no revela ninguna relacin entre la X y la Y pero s parece haber
un valor atpico para ambas variables.
c) Parece que existen dos grupos de valores claramente definidos. En cada grupo no parece que exista relacin entre las variables.
d) No parece existir relacin entre las variable X e Y.
figura 12

13

53

52

51

50

49
0

27

60

29

57

26

54

23

51

20

48

17

45

14

42

29

31

33

35

37

39

11
14

1 30

17

20

23

26

29

32

21

25

29

33

37

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

A. Moreno-Daz

Introduccin al anlisis de datos

REFERENCIAS BIBLIOGRFICAS
Bsica
CALOT, G.: Curso de estadstica descriptiva, Paraninfo, 1988.
ESTEBAN GARCA, J. et al: Estadstica descriptiva y nociones de probabilidad, Thomson Editores, 2005.
FERNNDEZ CUESTA, C. y FUENTES GARCA, F.: Curso de estadstica descriptiva. Teora y prctica, Editorial Ariel,
1995.
MOORE, D.S. y NOTZ, W.I.: Statistics: Concepts and Controversies, Freeman, 2006.
ROS, S.: Mtodos estadsticos, Ediciones del Castillo, 1987.
SPIEGEL, MURRAY R.: Estadstica, McGraw-Hill, 2002.
TOMEO PERUCHA, V. y UA JUREZ, I.: Lecciones de estadstica descriptiva, Thomson editores, 2003.
En la red
Material dinmico e interactivo para aprender estadstica: http://cast.massey.ac.nz/core/index.html?collection=Public
NIST/SEMATECH e-Handbook of Statistical Methods: http://www.itl.nist.gov/div898/handbook/index
Rice Virtual Lab in Statistics. El Analysis Lab permite construir de manera interactiva distintos tipos de grficos: http://onlinestatbook.com/rvls.html
Avanzada
MONTGOMERY, D.C. y RUNGER, G.C.: Applied Statistics and Probability for Engineers, 3. ed., New York: John Wiley
and Sons, 2003.
TUKEY, J.W.: Exploratory Data Analysis, Addisson Wesley, 1977.

www.udima.es

1 31

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

You might also like