Professional Documents
Culture Documents
DIDCTICA
INTRODUCCIN AL
ANLISIS DE DATOS
OBJETIVOS DE LA UNIDAD
1. Introduccin
2. Variables y datos. Tipos de datos
2.1. Clasificacin de los datos segn su representatividad
2.2. Clasificacin de los datos segn su naturaleza
2.3. Clasificacin de los datos segn la escala de medida
3. Descripcin de datos mediante tablas
3.1. Tablas de frecuencias univariantes
3.2. Tablas de frecuencias bivariantes
3.2.1. Distribucin conjunta
3.2.2. Distribucin marginal y condicionada
3.2.3. Independencia
4. Descripcin de datos mediante grficos
4.1. Diagrama de barras
4.2. Diagrama de sectores o diagrama de tarta
4.3. Histograma y polgono de frecuencias
4.4. Diagrama de tallo-hojas
5. Introduccin al anlisis exploratorio de datos
5.1. Diagrama de dispersin
CONCEPTOS BSICOS A RETENER
ACTIVIDADES DE AUTOCOMPROBACIN
EJERCICIOS VOLUNTARIOS
REFERENCIAS BIBLIOGRFICAS
www.udima.es
1 1
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
OBJETIVOS DE LA UNIDAD
La estadstica descriptiva engloba una serie de tcnicas de estructuracin y de representacin grfica que permiten ordenar y presentar adecuadamente la informacin contenida en un conjunto de datos.
La extrapolacin de esta informacin para convertirla en regla aplicable a todos los datos que puedan
obtenerse en circunstancias similares es el objetivo de la inferencia estadstica. Entre las dos se sita el
clculo de probabilidades como lenguaje formal que permitir tal extrapolacin.
Los objetivos de esta Unidad didctica son:
Saber distinguir los distintos tipos de variables y datos segn la escala de medida, naturaleza y representatividad.
Saber construir tablas de frecuencias univariantes y bivariantes.
Construir distribuciones marginales y condicionadas a partir de una distribucin conjunta
de frecuencias.
Conocer el concepto de independencia de dos variables.
Saber interpretar la informacin contenida en distintos tipos de representaciones grficas.
Conocer qu se entiende por anlisis exploratorio de datos.
1 2
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
1. INTRODUCCIN
La estadstica descriptiva comprende una serie de mtodos y tcnicas para:
Recoger y organizar datos referidos a las sucesivas observaciones de ciertos caracteres de
una poblacin descrita previamente.
Esquematizar el comportamiento de las poblaciones con relacin a determinados caracteres
mediante tablas, grficos o dibujos.
Resumir la informacin obtenida de las sucesivas observaciones en unos pocos datos representativos.
Analizar la relacin de dependencia entre caracteres de una misma poblacin.
1 3
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
X = Tiempo de conexin a Internet desde que pincho en el icono. Una vez que se ha definido un contexto,
las caractersticas del computador y de la conexin, la poblacin sera el conjunto infinito de los datos
que se obtendra al realizar la conexin todas las veces posibles. Una muestra sera el tiempo concreto
de conexin en 50 ocasiones, en las condiciones en las que he definido este experimento. Si se quiere
estudiar la variable X = Altura de los estudiantes de informtica en la Comunidad de Madrid, la poblacin estara formada por las alturas de todos los estudiantes de informtica de la Comunidad de Madrid
y una muestra sera la estatura de, por ejemplo, un subconjunto de 600 alumnos tomados de todas las
universidades de la Comunidad en las que pueden cursarse estos estudios.
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
3. Grecia
4. Francia
5. Rusia
6. Polonia.
7. Alemania.
El orden es importante, ya que Italia fue la mejor y Grecia fue mejor que Rusia. Lo nico con significado es el ranking, el orden de los resultados. No se puede decir que Grecia fue tres veces peor que
Italia o Rusia cinco veces peor que Italia, o que la diferencia de calidad entre los equipos de Italia y Grecia es la misma que entre los de Rusia y Alemania. Slo se puede decir qu equipo es mejor que otro,
sin cuantificar esa relacin. Se mide con una escala ordinal cuando se recogen valoraciones de satisfaccin de clientes: desde el 7 (Muy satisfecho) hasta el 1 (Nada satisfecho). Tambin en las encuestas en
las que los alumnos valoran la actuacin de un profesor: desde 5 (Muy de acuerdo) hasta el 1 (Nada de
acuerdo). La escala de Mohs, que recoge la dureza de los minerales, es tambin una escala ordinal. Esta
escala va desde el 10 [Diamante (ms duro)] hasta el 1 [Talco (menos duro)].
Las escalas nominal y ordinal estn asociadas con caracteres cualitativos. Estos caracteres representan cualidades de los individuos o cosas.
La escala de intervalo/razn es la ms usada y familiar. Las medidas se toman en una escala de la
misma unidad, como la altura en centmetros, la temperatura en grados Celsius o el tiempo de reaccin
en segundos. Las operaciones aritmticas con este tipo de medida s tienen sentido. Por ejemplo, un gusano de 4 centimetros, mide 2 centmetros ms que uno de 2 centmetros.
Existe una diferencia ms sutil entre las escalas de intervalo y de razn. El 0 en la escala de razn
tiene sentido, significa ausencia de la caracterstica. As, la longitud se mide en una escala de razn, ya
que se puede decir que el primer gusano mide el doble que el segundo, y 0 centmetros significa ausencia de longitud. Sin embargo, la temperatura se mide en una escala de intervalo, ya que 0 grados no significa ni fro ni calor, sino que es el punto en el que el agua pasa a estado slido.
La escala de medida depende principalmente del proceso de medida, no de la propiedad que se mide.
As, el resultado de una prueba de natacin se puede medir teniendo en cuenta qu nadador llega primero, segundo, tercero, etc. (escala ordinal) o bien cronometrar el tiempo que tardan en recorrer la distancia requerida (escala de intervalo/razn).
Se distinguirn las medidas tomadas en una escala nominal, ordinal e intervalo/razn y se hablar indistintamente de variables o de datos cuantitativos, cualitativos, nominales, ordinales o de intervalo/razn.
www.udima.es
1 5
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
recibe el nombre de tabla de frecuencias o tabla de distribucin de frecuencias (tabla 1). En ocasiones, tambin uno se referir a ella como tabla estadstica. Supngase que se dispone de un total de n observaciones divididas en k valores o modalidades diferentes. Algunas definiciones seran:
Se llama frecuencia absoluta del valor observado Ci (o modalidad Ci) al nmero total de
individuos que presentan dicho carcter. Se denota por ni.
Se llama frecuencia relativa del valor observado Ci al cociente fi = ni /n.
Se verifica:
k
n =
i=1
ni
i=1
ei = 1
Cuando los valores o modalidades observadas pueden ordenarse de menor a mayor, se define la frecuencia acumulada (absoluta o relativa) del valor Ci a su frecuencia sumada a las frecuencias de las modalidades anteriores. Se representar por Ni la frecuencia acumulada absoluta y Fi la relativa:
i
Ni =
j=1
nj
Fi =
j=1
ej
Valores
Frecuencias
absolutas
Frecuencias
absolutas
acumuladas
Frecuencias
relativas
Frecuencias
relativas
acumuladas
C1
n1
N1 = n1
f1 = n1/n
F1 = f1
C2
n2
N2 = n1 + n2
f2 = n2/n
F2 = f1 + f2
Ci
ni
Ni = n1 + + ni
fi = ni/n
Fi = f1 + + fi
Ck
nk
Nk = n
fk = nk/n
Fk = 1
Totales
EjEmpLO 1
Se estudia la variable X = Nmero de cilindros de los coches de los trabajadores de una empresa. es una variable cuantitativa medida en una escala de intervalo/razn. se tiene una muestra de esta variable medida
en 92 coches. su tabla de frecuencias es la siguiente:
.../...
1 6
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
.../...
tabla 2
N. cilindros
ni
Ni
fi
Fi
0,03
0,03
49
52
0,53
0,56
54
0,02
0,58
31
85
0,34
0,92
92
0,08
Totales
92
se observa que un 53% de los coches tienen 4 cilindros y un 34% tienen 6 cilindros, que son las modalidades
ms frecuentes. solamente un 5 por 100 tiene un nmero impar de cilindros (3 5), siendo estas modalidades las menos frecuentes. los coches con 8 cilindros representan un 8% del total.
La tabla descrita anteriormente pierde su utilidad de resumir informacin de manera clara y concisa
cuando se tienen variables cuantitativas con muchos valores diferentes. Se tendran tablas con muchas
filas con frecuencias muy pequeas. Esto suceder tanto con variables continuas como con variables
discretas que tengan muchos valores distintos. En este caso, se construye la tabla agrupando el rango
de valores en intervalos y se determina el nmero de datos del conjunto que se encuentra en cada uno
de ellos.
Cada intervalo se llama clase. La clase i vendr representada por su extremo superior e inferior. La unin de todos los intervalos debe recubrir todos los valores de la variable, y las
clases no deben solaparse:
(Li-1, Li]
Se llama amplitud de la clase i, li, a la diferencia entre sus extremos. Se supondr que esta
longitud es constante.
li = Li Li-1
Se denomina marca de clase al punto medio del intervalo y ser el valor que represente a
todos los datos contenidos en ese intervalo. Se representar por x'i.
El nmero de clases en que se divide el rango de un conjunto de datos se representar por k. Este
nmero suele determinarse en funcin del tamao muestral n. Algunos proponen el entero ms prximo
a n. Otra regla conocida es la regla de Sturges, en la que el nmero de clases es el entero ms prximo
a 1 + 3,3 log10 n. Generalmente, se utilizarn entre 5 y 20 clases de la misma longitud.
www.udima.es
1 7
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
La tabla de frecuencias para este tipo de datos divididos en clases quedara de la siguiente forma:
tabla 3. modelo de tabla de frecuencias para datos agrupados
Clases
marca de clase
Frecuencias
absolutas
Frecuencias
relativas
[L0, L1)
x'1
n1
f1 = n1/n
[L1, L2)
x'2
n2
f2 = n2/n
[Li-1, Li)
x'i
ni
fi = ni/n
[Lk-1, Lk]
x'k
nk
fk = nk/n
Totales
EjEmpLO 2
Se estudia la variable X = Nota obtenida en la convocatoria de febrero en una asignatura determinada en una
muestra de 100 alumnos. los datos originales seran: 6,33; 7,17; 2; 5,33; 8,33; etc. hasta 100 datos. se consideran 10 clases que surgen naturalmente al considerar este tipo de datos, formando la siguiente tabla:
tabla 4
Frecuencias
absolutas
Frecuencias
relativas
Clases
marca de clase
[0, 1)
0,5
0,02
[1, 2)
1,5
0,05
[2, 3)
2,5
10
0,1
[3, 4)
3,5
11
0,11
[4, 5)
4,5
18
0,18
[5, 6)
5,5
25
0,25
[6, 7)
6,5
15
0,15
[7, 8)
7,5
12
0,12
[8, 9)
8,5
0,02
[9, 10]
9,5
100
Totales
se ve que la clase con ms observaciones es la (5, 6], con 25 datos que representan un 25% del total. un 58%
de los alumnos tienen notas entre (4, 7]. Han aprobado un 54% de los alumnos y ninguno ha obtenido calificaciones entre 9 y 10.
1 8
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
X|Y
b1
b2
bj
bp
a1
n11
n12
n1j
n1p
a2
n21
n22
n2j
n2p
ai
ni1
ni2
nij
nip
ak
nk1
nk2
nkj
nkp
www.udima.es
1 9
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
Esta tabla puede definirse tambin utilizando las frecuencias relativas. Las relaciones que se verifican en estas tablas de doble entrada son las siguientes:
nij
eij =
nij = n
i=1 i=1
eij = 1
i=1 i=1
Si ambas variables son cualitativas (nominales u ordinales), la tabla X|Y recibe el nombre de tabla
de contingencia.
EjEmpLO 3
en una muestra de 90 estudiantes, se recogen las variables X = Nmero de horas semanales de estudio de una asignatura e Y = Calificacin final en esa asignatura. la variable Y, en lugar de medirla en una escala de intervalo/razn,
se va a medir en una escala ordinal con las categoras o modalidades: suspenso (S), aprobado (A), notable (N) y
sobresaliente (B). el conjunto de datos original sera: (3, S), (4, N), (2, A) , una por cada estudiante de la muestra. se puede disponer toda la informacin de la muestra en una tabla de distribucin conjunta (absoluta):
tabla 6
X|Y
19
10
16
13
X|Y
b1
b2
bj
bp
a1
n11
n12
n1j
n1p
marginal X
p
n1 =
n1j
j=1
.../...
1 10
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
X|Y
b1
b2
bj
bp
a2
n21
n22
n2j
n2p
ai
ni1
ni2
nij
nip
marginal X
.../...
p
n2 =
n2j
j=1
ni =
nij
j=1
ak
nk1
nk2
marginal Y
n1 =
nkj
ni1
n2 =
i=1
i=1
nkp
nj =
nij
i=1
np =
nkj
j=1
k p
ni2
nk =
nip
i=1
n=
nij
i=1 i=1
ni =
j=1
nij
ei =
j=1
eij =
nj =
i=1
nij
ej =
www.udima.es
i=1
eij =
1 11
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
EjEmpLO 4
se completa la tabla del ejemplo anterior aadiendo las distribuciones marginales:
tabla 8
X|Y
19
10
marginal X
19
16
27
13
23
12
marginal Y
40
35
10
90
lo que significa que si se estudia por separado la variable X = Nmero de horas semanales de estudio de una
asignatura, en su distribucin marginal de frecuencias se observa que de 90 estudiantes encuestados, 19 estudiaron 1 hora/semana, 27 estudiaron 2 horas/semana y as sucesivamente. del mismo modo, si se estudia
la variable Y = Calificacin final en esa asignatura, 40 alumnos suspendieron, 35 sacaron aprobado, etc.
si se fija el valor de una de las variables, cmo se distribuye la otra? supngase, por ejemplo, que en la tabla
anterior se fija X = 4, restringiendo el estudio a los alumnos que estudiaron 4 horas/semana. Cul es la distribucin de la Y ahora? se tendran un total de 12 alumnos que estudiaron 4 horas/semana, de los cuales 5
suspendieron, 3 aprobaron, 3 sacaron notable y 1 sobresaliente.
A este proceso de fijar el valor de una de las variables se le denomina condicionar y equivale a restringir el estudio descriptivo a un subconjunto de la muestra o poblacin inicial. As, la distribucin de
X condicionada, por ejemplo, por el valor Y = bj tendra la siguiente estructura:
tabla 9. Distribucin de frecuencias para X|Y = bj
X|Y = bj
Frecuencias
absolutas
Frecuencias
relativas
a1
n1j
e1 =
a2
n2j
e2 =
n1j
nj
n2j
nj
.../...
1 12
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
X|Y = bj
Frecuencias
absolutas
ai
nij
ak
nkj
Totales
nkj
Frecuencias
relativas
.../...
nij
ei =
nj
nkj
ek =
nj
1
ei = ei|j =
nij
nj
nij
ni
EjEmpLO 5
en el ejemplo de las horas de estudio y las notas, se construye la tabla de frecuencias para la distribucin
de Y|X = 4:
Tabla 10
www.udima.es
Y|X = 4
Frecuencias
absolutas
Frecuencias
relativas
0,42
0,25
0,25
0,08
Totales
12
1 13
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
Se verifica que:
Conjunta = Marginal s Condicionada
eij = eji ei = eji ej
3.2.3. Independencia
Se dir que el carcter o variable X es independiente del carcter Y si todas las distribuciones condicionadas X |Y = bj son idnticas independientemente del valor de Y. Es decir, para cualquier i:
eij ei para todo j, y no es funcin de j.
La independencia es siempre recproca. Cuando X e Y sean independientes, se verificar que la distribucin conjunta ser el producto de las marginales, es decir:
eij = ei ej para todo i, j.
En la tabla estadstica, la independencia se traduce en:
nij =
ni nj
n
para todo i, j
1 14
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
Otros
otros
BMW
bmW
Fiat
fiat
Toyota
toyota
Volkswagen
volkswagen
Opel
opel
Peugeot
peugeot
Seat
Seat
Ford
ford
Renault
renault
Citroen
Citren
0
5000
5.000
10000
10.000
15000
15.000
20000
20.000
25000
25.000
30000
30.000
35000
35.000
40000
40.000
50
40
30
20
10
0
3
www.udima.es
1 15
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
7,61%
33,70%
3,26%
Cilindros
3
4
5
6
8
53,26%
2,17%
3,14% 3,07%
4,56%
ventas
22,97%
7,49%
8,64%
10,97%
9,14%
10,24%
9,63%
otros
Citren
renault
ford
Seat
peugeot
opel
volkswagen
toyota
fiat
bmW
10,14%
EjEmpLO 6
en la figura 4 se muestra el histograma correspondiente a la variable X = Precio medida en la muestra de los
92 coches del ejemplo 1. se han dividido los valores para el precio en intervalos que van desde el 5 hasta
el 65 (en miles de euros). en total 10 intervalos de longitud 6. se observa que la clase ms frecuente es la
comprendida entre 11.000 y 17.000 euros y que, a partir de ah, las frecuencias van disminuyendo conforme
.../...
1 16
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
.../...
aumenta el precio. las clases entre 41.000 y 47.000 euros y entre 53.000 y 59.000 euros carecen de observaciones, lo que podra ser indicio de que se estn mezclando datos de dos poblaciones diferentes. los datos
ms alejados, los que se encuentran en las clases entre 47.000 y 53.000 euros y 59.000 y 65.000 euros, no deben
considerarse como atpicos, ya que no se salen del patrn general de la distribucin, que es una asimetra
hacia valores altos. la distribucin presenta asimetra positiva.
11
17
23
29
35
41
47
53
59
65
El polgono de frecuencias es la lnea poligonal que resulta de unir los puntos medios de la parte superior
de los rectngulos en el histograma. en ocasiones, sobre todo con tamaos muestrales grandes, el polgono de frecuencias puede ayudar a que nos hagamos una idea ms clara de cmo son los datos. la figura 5
muestra el polgono de frecuencias para los datos de los precios de los coches.
El polgono de frecuencias acumuladas se define a partir de la tabla de frecuencias para una variable continua cuyos valores han sido agrupados en clases. es la lnea que resulta de unir los pares de valores (Li+1, F
(Li+1)), es decir, los extremos superiores de las clases y la frecuencia acumulada hasta ese valor.
11
17
23
29
35
41
47
53
59
65
a partir de la tabla 4 de frecuencias del ejemplo 2 se obtiene el polgono de frecuencias acumuladas de la figura 6. en l se han representado los pares de datos (1; 0,02), (2; 0,07), (3; 0,17), (4; 0,28), etc.
.../...
www.udima.es
1 17
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
.../...
figura 6. polgono de frecuencias acumuladas
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1
10
EjEmpLO 7
Sea una muestra de la variable X = Peso en kilogramos en un grupo de 60 estudiantes: 54, 60, 62, 53, etc.
se redondean los datos a dos o tres cifras, expresando los valores con nmeros enteros. pueden expresarse en otras unidades (dividiendo o multiplicando) para que al redondear puedan obtenerse cifras de decenas o centenas repetidas. en el ejemplo, como se tienen datos de dos cifras, se dejan como
estn.
se ordenan los datos de menor a mayor:
44, 45, 46, 46, 47, 48, 49, 50, 50, 50, 52, 52, 52, 52, 53, 53, 53, 54, 54, 54, 55, 55, 55, 55, 56, 56, 56, 57, 60, 60,
60, 60 ,60, 61, 61, 62, 62, 63, 64, 64, 64, 65, 65, 65, 66, 67, 68, 68, 68, 70, 70, 70, 70, 71, 72, 72, 74, 75, 80,
93.
se separan por la izquierda uno o ms dgitos de cada dato, segn sea el nmero de filas que se quiera obtener, normalmente no ms de 12 15. Cada uno de estos valores se escribe uno debajo del otro,
trazando una lnea a la derecha de los nmeros escritos. estas cifras constituyen el tallo. en el ejemplo, se tomar la primera cifra.
para cada dato original se busca el dgito del tronco y a la derecha de la lnea se escriben las cifras que
haban quedado, cifras que forman las hojas.
se obtendra el grfico siguiente:
.../...
1 18
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
.../...
figura 7. Grfico de tallo-hojas
4
El resultado es, bsicamente, un histograma tumbado con longitud de las clases igual a 10 en el que,
adems de mostrarse la forma de la distribucin, se pueden visualizar los datos.
EjEmpLO 8
Sea la variable X = Peso recogida en la muestra de coches del ejemplo 1. la figura 8 muestra el diagrama
de tallo y hojas que se obtiene con un software estadstico convencional. los datos originales eran en libras:
1695, 1845, 1965, 2045, 2055, 2240, 2270, 2285, 2295, 2297, etc. en la representacin se observa que se han redondeado los nmeros perdiendo las cifras de centenas y unidades. as, el dato 1695 se redondea a 1600 y
se representan la primera cifra en el primer tronco como 1| y la hoja como 6. los nmeros que figuran en
la columna de la izquierda representan las frecuencias absolutas acumuladas hasta la clase que contiene la
mediana que se seala con un parntesis. este tipo de diagrama es muy til para el clculo de algunas medidas caractersticas que se estudiarn en la siguiente unidad didctica.
www.udima.es
1|6
1|89
2|00
14
2|222223333
23
2|444444555
31
2|66667777
45
2|88888889999999
(7)
3|0000001
41
3|2222333
34
3|4444444555555
21
3|66667777777
10
3|89999
4|00011
1 19
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
EjEmpLO 9
en una muestra de 130 personas se recogen los valores de las variables X = Temperatura (en grados fahrenheit) e
Y = Pulsaciones por minuto. se representan estos 130 pares de datos en un diagrama de dispersin en la figura 9.
.../...
1 20
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
.../...
aparentemente, la nube de puntos que resulta no permite ver ningn tipo de relacin que destaque entre
estas dos variables. s se puede ver que hay un dato que parece situarse ms a la derecha que el resto, se podra estudiar para ver si es un dato atpico.
97
98
99
100
101
EjEmpLO 10
se tiene en un fichero informacin referente a las variables X = Millas por galn de gasolina en ciudad (el equivalente americano al kilmetro por litro de gasolina europeo), Y = Millas por galn en autopista y Z = Potencia
en la muestra de coches del ejemplo 1. se puede hacer una matriz de diagramas de dispersin que representar este diagrama para todos los pares de variables del fichero. este tipo de matriz puede verse en la figura
10. se observa rpidamente que los valores de las variables X e Y estn prcticamente dispuestos a lo largo
de una lnea recta, sugiriendo un tipo de relacin lineal entre ambas variables. adems, un valor alto en X
implica tambin un valor alto en Y (grfico 1). por otra parte, la relacin entre las variables Z e Y no parece
ser lineal a juzgar por el perfil curvo que parecen dibujar los datos (grfico 2).
Grfico 1
Grfico 2
www.udima.es
1 21
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
ACTIVIDADES DE AUTOCOMPROBACIN
A partir del contenido de la presente Unidad didctica, se propone la realizacin de las siguientes
actividades de autocomprobacin por parte del alumno, como ejercicio general de repaso y asimilacin
de la informacin bsica proporcionada por el texto.
Enunciado 1
Se recogieron datos del tiempo en estaciones meteorolgicas en 93 ciudades de un pas durante 20
aos. Los datos recogidos son 33.480 registros, uno por ciudad y mes. Cada registro contiene diversas
medidas relacionadas con el tiempo. Clasifica cada una de las siguientes variables recogidas como cuantitativa discreta, cuantitativa continua, cualitativa nominal u ordinal.
a) Nmero de das lluviosos en un mes.
b) Estacin del ao: primavera, verano, otoo, invierno.
c) Temperatura mxima diaria en grados centgrados.
d) Nmero de rayos cados en un mes.
Enunciado 2
Completar los datos que faltan en la siguiente tabla de frecuencias y comentar la distribucin:
1 22
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
Tabla 11
Valores
ni
Ni
fi
Fi
10
20
12
30
40
50
34
60
70
Totales
Enunciado 3
Dada la variable bidimensional representada por la siguiente tabla de distribucin de frecuencias
conjunta (absolutas):
Calcula las distribuciones marginales y la distribucin condicionada de X|Y = 6 y de Y|X =
= [2, 4).
Son X e Y independientes?
tabla 12
X|Y
[0, 2)
14
10
[2, 4)
[4, 6)
21
12
15
Enunciado 4
En una muestra de estudiantes universitarios se analiza la variable X = Condicin de fumar y la
variable Y = Sexo. Se obtienen los siguientes resultados:
www.udima.es
1 23
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
tabla 13
X|Y
Fuma
No fuma
Total
Chica ............................
17
22
Chico ............................
14
16
30
Total .............................
19
33
52
Enunciado 5
Construir un diagrama de tallo-hojas con los siguientes datos de la variable X = Nivel de cido en
las lluvias, medido por su ph en 26 das.
4,57; 5,62; 4,12; 5,29; 4,64; 4,31; 4,30; 4,39; 4,45; 5,67; 4,39; 4,52; 4,26; 4,26; 4,40; 5,78; 4,73;
4;56; 5,08; 4,41; 4,12; 5,51; 4,82; 4,63; 4,29; 4,60.
1 24
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
Solucin 1
La clasificacin de las variables registradas es la siguiente:
a) Cuantitativa discreta, medida en una escala de intervalo/razn.
b) Variable cualitativa, medida en una escala ordinal.
c) Variable cuantitativa discreta, medida en una escala de intervalo/razn.
d) Cuantitativa discreta, medida en una escala de intervalo/razn.
Solucin 2
Se presentan las cantidades que faltaban en la tabla 11:
tabla 14
Valores
ni
Ni
fi
Fi
10
0,05
0,05
20
10
12
0,24
0,29
30
20
0,19
0,48
40
26
0,15
0,63
50
34
0,19
0,82
60
38
0,10
0,92
70
41
0,08
Totales
41
Solucin 3
Distribuciones marginales para X e Y.
tabla 15. Tabla solucin del enunciado 3 (marginales)
X
ni
Ni
[0, 2)
38
42
[2, 4)
19
24
[4, 6)
57
30
18
Total
114
Total
www.udima.es
114
1 25
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
Distribuciones condicionadas:
tabla 16. Tabla solucin del enunciado 3 (condicionadas)
X|Y = 6
ni
Y|X = [2,4)
ni
[0, 2)
10
[2, 4)
[4, 6)
15
Total
19
Total
30
Se estudia ahora la independencia de las variables X e Y. Es fcil comprobar que en toda la tabla de
frecuencias bivariantes se verifica:
ni nj
nij =
marginal X
[0, 2)
14
10
38
[2, 4)
19
[4, 6)
21
12
15
57
marginal Y
42
24
30
18
114
Por ejemplo:
14 =
38 s 42
,8 =
114
=
38 s 24
114
57 s 42
114
,, 7 =
,, 9 =
19 s 42
114
,, 21 =
57 s 18
114
Solucin 4
Se estudia la variable X = Condicin de fumar y la variable Y = Sexo en una muestra de 52 estudiantes:
a) Fuman 19 de 52 estudiantes, un 36%.
b) No fuman 17 chicas de un total de 22, un 77%.
1 26
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
c) Son chicos y fumadores 14 estudiantes de 52, un 27%. El resto de los estudiantes son chicos no fumadores (30%), chicas fumadoras (10%) y chicas no fumadoras (33%).
d) Distribucin marginal de frecuencias relativas de la variable Y = Sexo:
tabla 18. Tabla solucin del enunciado 4 d)
Sexo
fi
Chicas .........................................
0,42
Chicos ........................................
0,58
Total ..........................................
ni
fuma ..........................................
19
no fuma .....................................
33
Total ..........................................
52
f) Distribucin de frecuencias relativas de la variable Y = Sexo condicionada a que son alumnos fumadores:
tabla 20. Tabla solucin del enunciado 4 f)
Sexo|Fumadores
fi
Chicas .........................................
0,26
Chicos .........................................
0,74
Total ...........................................
Solucin 5
Una posibilidad para representar el diagrama de tallo-hojas es redondear los datos perdiendo la cifra
de las centsimas: 4,5; 5,6; 4,1; 5,2; etc. La hoja ser el segundo dgito y el tronco el primero. Esta forma
de redondear los datos dara lugar a un diagrama de solamente dos tallos:
4
5
www.udima.es
11222333344455566678
025667
1 27
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
Este diagrama es poco informativo. Una tcnica para extender este tipo de diagramas es dividir cada
fila en dos o cinco partes iguales. Si se eligen cinco partes iguales, se utilizan las siguientes etiquetas:
* para las hojas que llevan las cifras 0 y 1.
T para las hojas que llevan las cifras 2 y 3 (two, three).
F para las hojas que llevan las cifras 4 y 5 (four, five).
S para las hojas que llevan las cifras 6 y 7 (six, seven).
para las hojas que llevan las cifras 8 y 9.
El diagrama de tallo-hojas quedara de la siguiente forma:
4*
T
F
S
5*
T
F
S
11
2223333
444555
6667
8
0
2
5
667
1 28
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
EJERCICIOS VOLUNTARIOS
Tras el estudio de esta Unidad didctica, el estudiante puede hacer, por su cuenta, una serie de ejercicios voluntarios, como los siguientes:
1. Buscad en revistas o en Internet un ejemplo de variable nominal, ordinal y cuantitativa discreta y cuantitativa continua. Describid la fuente de obtencin de los datos y el contexto de
estudio de la variable, consiguiendo un mnimo de 20 datos para cada una de ellas.
2. Describid, para dos de las cuatro variables del ejercicio anterior, representaciones grficas
apropiadas dada la naturaleza de los datos y el contexto de estudio.
3. Interpretad y comentad la siguiente tabla de distribucin de frecuencias obtenida con software estadstico convencional:
tabla 21
Clase
Lmite
inferior
Lmite
superior
<=0
0,0
punto
medio
Frecuencia
Frecuencia
relativa
0,0000
Frecuencia
relativa
acumulada
Frecuencia
acumulada
0,0000
0,0
3,0
1,5
0,0700
0,0700
3,0
6,0
4,5
21
0,2100
28
0,2800
6,0
9,0
7,5
41
0,4100
69
0,6900
9,0
12,0
10,5
22
0,2200
91
0,9100
12,0
15,0
13,5
0,0800
99
0,9900
15,0
18,0
16,5
0,0100
100
1,0000
mayor de
18,0
0,0000
100
1,0000
figura 11
12
10
8
6
4
2
0
0
www.udima.es
10
15
20
25
1 29
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
5. Asociad a cada diagrama de dispersin (vase figura 12) una frase que describa correctamente lo que observamos:
a) Hay una relacin positiva entre ambas variables, cuando la X aumenta tambin aumenta la Y. Adems, dicha relacin podra aproximarse por una lnea recta.
b) La nube de puntos no revela ninguna relacin entre la X y la Y pero s parece haber
un valor atpico para ambas variables.
c) Parece que existen dos grupos de valores claramente definidos. En cada grupo no parece que exista relacin entre las variables.
d) No parece existir relacin entre las variable X e Y.
figura 12
13
53
52
51
50
49
0
27
60
29
57
26
54
23
51
20
48
17
45
14
42
29
31
33
35
37
39
11
14
1 30
17
20
23
26
29
32
21
25
29
33
37
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
REFERENCIAS BIBLIOGRFICAS
Bsica
CALOT, G.: Curso de estadstica descriptiva, Paraninfo, 1988.
ESTEBAN GARCA, J. et al: Estadstica descriptiva y nociones de probabilidad, Thomson Editores, 2005.
FERNNDEZ CUESTA, C. y FUENTES GARCA, F.: Curso de estadstica descriptiva. Teora y prctica, Editorial Ariel,
1995.
MOORE, D.S. y NOTZ, W.I.: Statistics: Concepts and Controversies, Freeman, 2006.
ROS, S.: Mtodos estadsticos, Ediciones del Castillo, 1987.
SPIEGEL, MURRAY R.: Estadstica, McGraw-Hill, 2002.
TOMEO PERUCHA, V. y UA JUREZ, I.: Lecciones de estadstica descriptiva, Thomson editores, 2003.
En la red
Material dinmico e interactivo para aprender estadstica: http://cast.massey.ac.nz/core/index.html?collection=Public
NIST/SEMATECH e-Handbook of Statistical Methods: http://www.itl.nist.gov/div898/handbook/index
Rice Virtual Lab in Statistics. El Analysis Lab permite construir de manera interactiva distintos tipos de grficos: http://onlinestatbook.com/rvls.html
Avanzada
MONTGOMERY, D.C. y RUNGER, G.C.: Applied Statistics and Probability for Engineers, 3. ed., New York: John Wiley
and Sons, 2003.
TUKEY, J.W.: Exploratory Data Analysis, Addisson Wesley, 1977.
www.udima.es
1 31
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".