You are on page 1of 69

Ejercicios Estadistica I

1. - Los datos siguientes corresponden a los tiempos de reaccin de una muestra de 33 sujetos, medidos en centsimas de
segundo:


55, 51, 60, 56, 64, 56, 63, 63, 61, 57, 63, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74, 65, 58, 61, 62, 59, 64, 57, 63, 52, 67
Con los datos anteriores construya una distribucin de frecuencia, agrupados en 5 clases de igual amplitud (=5). El lmite
inferior de la primera clase es 45. Finalmente calcule la media (3 Pts), la mediana(3Pts)
.

a.- Cules son las etapas de la investigacin estadstica ? Mencinelas solamente (1 Pts)

b.- Qu se entiende por MUESTRA ALEATORIA.? (0.5Pts)

c.- Ser cierto que la suma de las desviaciones de las observaciones con respecto a su media es
cero? (0.5 Pts)
d.- Dados los siguientes datos. Calcule la mediana? (2 Pts)
12, 10, 4, 18, 24, 36
Respuestas:


Tabla de Frecuencia
INTERVALOS Ptos Medios Frec.Abs. Frc.Abs.Ac Frec. Rel. Frec. Rel Acum. Density
[45,50[ 47.5 3 3 0.090909 0.090909 0.018182
[50,55[ 52.5 5 8 0.151515 0.242424 0.030303
(55,60) 57.5 8 16 0.242424 0.484848 0.048485
[60,65[ 62.5 10 26 0.30303 0.787879 0.060606
[65,70[ 67.5 4 30 0.121212 0.909091 0.024242
[70,75] 72.5 3 33 0.090909 1 0.018182
n = 33









2. Ejemplo:

Los siguientes datos representan la temperatura del fluido de descarga de una planta para el tratamiento de aguas
negras, durante varios das consecutivos ( Presentado por: Cabeza Mariannis)

5 8 10 14 15 23 25 28 29 30
30 35 36 40 43 44 44 45 45 46
46 46 47 48 48 49 49 49 49 50
50 50 50 51 51 51 52 53 55 57
60 66 70 72 75 75 84 84 88 94 n= 50

Buscamos el valor menor y mayor del conjunto de datos y determinamos su rango (=R)

X
min
= 5


X
may
= 94 Luego determinamos el RANGO (=R)
R = X
may
- X
min
= 94 - 5 = 91

Determinamos el numero de clases (= NC)




Ahora calculamos la amplitud de clases (=Ac)
Ac= R/Nc = 91 / 7 = 13

Con los datos anteriores construimos nuestra Distribucin de Frecuencias


Clases Xi fi Fi ni Ni fi *
Xi
(Xi -
47.42)
2

fi * (Xi -
47.42)
2

5 18 12 5 5 0.10 0.10 58 1255 6275
18 31 25 6 11
0.12
0.22 147 503 3018
31 44 38 6 17
0.12
0.34 225 89 534
44 57 51 23 40 0.80 1162 13 299
0.46
57 70 64 3 43
0.06

0.86
191 275 825
70 83 77 3 46
0.06

0.92
230 875 2625
83 96 90 4 50 0.08 1 358 1813 7252
n =
50
1 2371 20828

Calculemos ahora la Media aritmtica, la mediana, la moda, el primer cuartil, el tercer cuartil, Desviacin Cuartlica,
Coeficiente de Variacin, Varianza y Desviacin Tpica:

Media aritmtica:


Varianza:


La Desviacin Tpica:



La Mediana.
Para su clculo debemos encontrar la clase medianal, la que contiene a la mediana. Para ello dividimos el nmero de
observaciones (n=50) entre 2 y buscamos el resultado en la columna de la frecuencia acumulada (= Fi ). En este ejemplo, n= 25
y se corresponde con la clase:
(44 - 57)
Aplicamos la frmula:



La Moda.
Para el clculo de la moda, buscamos la clase que tenga la frecuencia absoluta simple de mayor tamao y esa ser la clase
modal. En nuesro ejemplo se corresponde con la misma clase de la mediana; es decir: (44-57) y aplicamos la siguiente frmula:


Coeficiente de Variacin (=CV )
Es el cociente entre la desviacin tpica entre la media aritmtica, multiplicado por cien para expresarlo en porcentaje



Primer Cuartl.
El primer cuartil (= Q1) se calcula determinando primero su clase, para ello se busca el valor 1/4*n, en nuestro ejemplo
tenemos que: 1/4*50=12.5 = 13 y este resultado se busca por la frecuencia absoluta acumulada y vemos que est comprendido
en la tercera clase:
31 - 44
Una vez determinada la clase que corresponde al primer cuartl, aplicamos la frmula:


Tercer Cuartil
De manera parecida calculamos el tercer cuartil (= Q3). Determinamos su clase buscando el valor 3/4*n = 0.75*50 = 38 y este
resultado se busca en la columna de la frecuencia absoluta acumulada y vemos que se localiza en la cuarta clase: 44 - 57



Desviacin Cuartlica.(= DQ)
Se calcula dividiendo entre dos la diferencia del tercer menos el primer cuartil.












3.Dados los siguientes datos: 12, 10, 4, 18, 24, 36 Calcule la mediana?
Resp.
Ordenamos los valores:
4
10
12
18
24
36

La mediana es la semisuma de los dos valores medios (Md = 30/2=15)

4) Los siguientes datos corresponden a los registros de un banco comercial e indican que durante la ltima semana del
mes de enero del ao 2008, fueron aperturadas 30 cuentas de ahorro con los siguientes depsitos en miles de bolvares

1500 1075 2000 1870 2090 1725
1800 1150 1950 1675 1780 1690
1400 2025 1710 1180 1680 1600
1175 1675 1560 1440 1575 1700
1250 1495 1340 1500 1010 1725

Se pide:
a) Identificar la variable objeto de estudio
Depsitos aperturados
b) Tipo de variables
Cuantitativas ( valores discretos)
c) Unidad en la que esta expresada la variable
En miles de bolvares
d) Los datos provienen de una poblacin o una muestra?
De una muestra

Distribucin de Frecuencia
Intervalos Midpoint Frec.Abs. Frec.
Abs.Acum
Rel. Frequency Cumul. Rel. Freq.
[1000,1200] 1100 5 5 0.166667 0.166667
]1200,1400] 1300 3 8 0.1 0.266667
]1400,1600] 1500 7 15 0.233333 0.5
]1600,1800] 1700 10 25 0.333333 0.833333
]1800,2000] 1900 3 28 0.1 0.933333
]2000,2200] 2100 2 30 0.066667 1
n=30 1








Media= 1578.17 Mediana= 1637.5 Moda=1500

Varianza= 82259.45 Desv.Tpica=286.81

1r.cuartil= 1410 2d.cuartil=1637.5 3r.cuartil=1725


5) Problema alumnos de la UDO:

Los siguientes datos representan el nmero de tomates rechazados por dia en un mercado mayorista. Los datos
corresponden a 50 das seleccionados aleatoriamente. (fuente:fisicanet)

29 58 80 35 30 23 88 49 35 97
12 73 54 91 45 28 61 61 45 84
83 23 71 63 47 87 36 8 94 26
95 63 86 42 22 44 88 27 20 33
28 91 87 15 67 10 45 67 26 19

a. Construir una tabla de frecuencia con 7 intervalos de clase e igual amplitud (c=13)


Distribucin de Frecuencia
Clases


Li Ls
Ptos
Medios


xj
Frec.
Abs.Simple

fi
Frec.
Abs.Acum
Fi
Frec.
Rel. Simple

ni
Frec.
Rel.Acum

Ni
8 21 14.5 6 6 0.12 0.12
21 34] 27.5 11 17 0.22 0.34
34 47] 40.5 9 26 0.18 0.52
47 60] 53.5 3 29 0.06 0.58
60 73] 66.5 8 37 0.16 0.74
73 86] 79.5 4 41 0.08 0.82
86 99] 92.5 9 50 0.18 1
n = 50
b) Construya un histograma basado en la tabla anterior

c) En base a la distribucin de frecuencias anterior. Calcule la media aritmtica. Qu valor de la variable es superado
por el 50% de las observaciones (= mediana)?. Cul es el valor de la variable que se presenta un mayor nmero de
veces (= moda) ?. Calcule la desvicin tpica y el coeficiente de variacin. Calcule la desviacin cuartlica.





El valor de la variable superado por el 50% es el valor de la mediana= 45.55


El valor de la variable que se presenta un mayor nmero de veces es la Moda=30.29 Para
encontrar la desviacin cuartlica, debemos calcular antes la primera y tercera cuartilas


6. La distribucin de las puntuaciones en una escala de hostilidad, de una muestra de 160 individuos, se refleja en la
siguiente distribucin:


Intervalos fi Fi ni Ni
0 10 8 8 5% 5%
10 20 22 30 13.8% 18.8%
20 30 32 62 20% 38.8%
30 40 44 106 27.5% 66.3%
40 50 28 134 17.5 % 83.8 %
50 60 20 154 12.5% 96.3%
60 70 6 160 3.7% 100%
Totales n= 160 100%

a) Entre cules valores se encuentra el 50% central de los individuos?
b) Calcule el percentil 27
c) A partir de cul puntuacin se encuentra el 12% de los sujetos ms hostiles?
d) Si descontamos el 15% de los individuos menos hostiles y el 15% de los ms hostiles. En cul intervalo de
puntuacin se encuentran los restantes?
Tomado de: Problemas de Anlisis de Datos. Dr. Jos M. Salinas


Respuestas:
a) El 50% de los individuos se encontrar entre el Percentil 25 y el percentil 75. El P
25
deja por debajo el 25% inferior, y el P
75

dejar por encima el 25% superior. Por consiguiente entre ambos percentiles se encontrar el 50% central. Para calcular el
percentil 25, determinamos el 25% de n ( =0.25*160) = 40, buscamos ste valor por la columna de la frecuencia absoluta
acumulada (=Fi) y vemos que se encuentra en el inetrvalo 20 - 30 y aplicamos la frmula:


Para encontrar el percentil 75, determinamos el 075 * n = 0.75* 160 = 120 y vemos que ste valor se encuentra en el intervalo:
40 - 50 y aplicamos la frmula:

Luego el 50% buscado estar entre los dos valores anteriores (23.13 a 45)
b) El percentil 27, estar en: 0.27 *n = 0.27* 160 = 43.2. Este valor se encuentra en la frecuencia acumulada correspondiente al
intervalo: 20 -- 30 y su valor es dado por la frmula:


c) El valor que deja por encima el 12% de lo sujetos ms hostiles, es el mismo que deja por debajo el 88% con menores
puntuaciones de hostilidad; por tanto debemos calcular el percentil 88. El 88% del tamao de la muestra vale 140.8 (=0.88*n).
Aplicando la frmula, tenemos:

d) Se aplica un razonamiento parecido al caso a. Buscamos el percentil 15 que deja por debajo el 15% de los sujetos con menor
hostilidad y el percentil 85 que dejara por encima al 15% de los sujetos con mayor hostilidad, aplicamos las frmulas:


7) Hemos medido la variable neurotismo en un grupo de individuos, obteniendo los siguientes resultados:
3, 5, 3, 6, 4, 2, 8, 3, 7, 5, 8, 9, 4, 5, 5, 3
Se pide calcular la Desviacin Media (= DM) y la Desviacin Tpica (= s).
Solucin:
Calculamos primero la media:


Ahora calculamos las desviaciones de cada valor con respecto a la media, tomamos valores absolutos de las desviaciones
para calcular la Desviacin Media y luego elevamos al cuadrado las desviaciones para encontrar la Desviacin Tpica.
x
i
f
i
x
j
= x
i
- 5 / x
j
/ x
2
j
f
i
* x
i
f
i
* x
j
2

2 1 -3 3 9 2 9
3 4 -2 2 4 12 16
4 2 -1 1 1 8 2
5 4 0 0 0 20 0
6 1 1 1 1 6 1
7 1 2 2 4 7 4
8 2 3 3 9 16 18
9 1 4 4 16 9 16
16 16 44 80 66

En base a la tabla anterior calculamos, la Desviacin Media (= DM), segn la frmula:

Ahora calcularemos la Varianza (= s
2
) y la Desviacin Tpica (= s)





Dios habla por las matemticas
8) En la ejecucin de un estudio para determinar la situacin de empleo a un grupo de profesionales, se seleccion una
muestra de stos de forma aleatoria para conocer la composicin por categora profesional. Construya una distribucin
de frecuencias, identifique la variable, de ejemplo de estadsticos. Hacer el grfico de sector, barras e histogramas:

Administrador Economista Abogado ingeniero
Contador Abogado Administrador mdico
Abogado Contador Ingeniero economista
Administrador Abogado Contador ingeniero
Abogado Mdico Mdico

Profesiones f
i
F
i

Adm 3 3
Abog 5 8
Inge 3 11
Cont 4 15
Econom 2 17
Medico 3 20
20






8.) Los siguientes datos representan la presin sangunea tomada a 30 personas, las cuales se sometieron a un examen de
laboratorio.

108 113 136 122 130 114
115 132 123 110 126 109
125 122 119 118 119 106
115 124 118 111 124 113
124 109 121 121 108 119

Se pide:
a.) Construir una tabla de distribucin de frecuencias, con seis clases de amplitud cinco cada una.
b.) Calcular la media, la mediana y la moda
c.) Calcular la varianza
d.) Calcular la Desviacin Cuartlica

Solucin:
a.) El rango, viene dado por: R=X
max
- X
min
= 136-106=30
b.) Clculo de la media:


Clases f
i
F
i
x
i
n
i
N
i

106 -----111 7 7 108.5 23% 23% 631.75
111 -----116 5 12 113.5 17% 40% 101.25
116 -----121 7 19 118.5 23% 63% 1.75
121 -----
126
8 27 123.5 27% 90% 242.00
126 -----131 1 28 128.5 3% 93% 110.25
131 -----136 2 30 133.5 7% 100% 480.50
Totales: 30 100% 1567.50

c.) Clculo de la Mediana (=Md)

d.) Clculo de la Moda (=Mo)

e.) Clculo de la Varianza (=S
2
)

f.) Clculo del Primer Cuartl (=Q
1
)

g.) Clculo del Tercer Cuartil (=Q
3
)

h.) Clculo de la Desviacin Cuartlica(= DQ)

Dios habla por las matemticas

https://sites.google.com/site/ulaeconomia/ejercicios-estadistica-i
http://es.scribd.com/doc/10471593/EJER-RESUELTOS-ESTADISTICA
Es la parte de la estadstica matemtica que se encarga del estudio de los mtodos para la obtencin
del modelo de probabilidad que sigue una variable aleatoria de una determinada poblacin, a travs de
una muestra obtenida de la misma.
.proceso de anlisis que consiste en inferir las propiedades de una poblacin con base en la caracterizacin
de la muestra.
TEORA DE DECISIN
Estudio formal sobre la toma de decisiones. Los estudios de casos reales, que se sirven de la inspeccin y
los experimentos, se denominan teora descriptiva de decisin; los estudios de la toma de decisiones
racionales, que utilizan la lgica y la estadstica, se llaman teora preceptiva de decisin. Estos estudios se
hacen ms complicados cuando hay ms de un individuo, cuando los resultados de diversas opciones no se
conocen con exactitud y cuando las probabilidades de los distintos resultados son desconocidas. La teora de
decisin comparte caractersticas con la teora de juegos, aunque en la teora de decisin el "adversario" es la
realidad en vez de otro jugador o jugadores.
Al hacer un anlisis sobre esta teora, y mirndola desde el punto de vista de un sistema, se puede decir que
al tomar una decisin sobre un problema en particular, se debe tener en cuenta los puntos de dificultad que lo
componen, para as empezar a estudiarlos uno a uno hasta obtener una solucin que sea acorde a lo que se
esta esperando obtener de este, y sino, buscar otras soluciones que se acomoden a lo deseado.
La teora de decisin, no solamente se puede ver desde el punto de vista de un sistema, sino en general,
porque esta se utiliza a menudo para tomar decisiones de la vida cotidiana, ya que muchas personas piensan
que la vida es como una de las teoras; La teora del juego, que para poder empezarlo y entenderlo hay que
saber jugarlo y para eso se deben conocer las reglas de este, para que no surjan equivocaciones al empezar
la partida.
Se puede decir que la Teora de decisin es una de las ramas que sirve para que al dar un paso, no se vaya a
dar en falso, porque si se conoce de esta no hay el porque de equivocarse.
POBLACION EN ESTADISTICA
El concepto de poblacin en estadstica va ms all de lo que comnmente se conoce como tal. Una
poblacin se precisa como un conjunto finito o infinito de personas u objetos que presentan caractersticas
comunes. "Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca de los
cuales intentamos sacar conclusiones". Levan & Rubin (1996). "Una poblacin es un conjunto de elementos
que presentan una caracterstica comn". Cadenas (1974). Ejemplo: Los miembros del Colegio de Ingenieros
del Estado Cojedes. El tamao que tiene una poblacin es un factor de suma importancia en el proceso
de investigacin estadstica, y este tamao vienen dado por el nmero de elementos que constituyen la
poblacin, segn el nmero de elementos la poblacin puede ser finita o infinita. Cuando el nmero de
elementos que integra la poblacin es muy grande, se puede considerar a esta como una poblacin infinita,
por ejemplo; el conjunto de todos los nmeros positivos. Una poblacin finita es aquella que est formada por
un limitado nmero de elementos, por ejemplo; el nmero de estudiante del Ncleo San Carlos de
la Universidad Nacional Experimental Simn Rodrguez. Cuando la poblacin es muy grande, es obvio que
la observacin de todos los elementos se dificulte en cuanto al trabajo, tiempo y costos necesarios para
hacerlo. Para solucionar este inconveniente se utiliza una muestra estadstica. Es a menudo imposible o poco
prctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar
el grupo entero llamado poblacin o universo, se examina una pequea parte del grupo llamada muestra.
Poblacin o Universo: es el total del conjunto de elementos u objetos de los cuales se quiere
obtener informacin. Aqu el trmino poblacin tiene un significado mucho ms amplio que el usual, ya que
puede referirse a personas, cosas, actos, reas geogrficas e incluso al tiempo.
La poblacin debe estar perfectamente definida en el tiempo y en el espacio, de modo que ante la presencia
de un potencial integrante de la misma, se pueda decidir si forma parte o no de la poblacin bajo estudio. Por
lo tanto, al definir una poblacin, se debe cuidar que el conjunto de elementos que la integran quede
perfectamente delimitado.
MUESTRA ALEATORIA
Es una muestra sacada de una poblacin de unidades, de manera que todo elemento de la poblacin
tenga la misma probabilidad de seleccin y que las unidades diferentes se seleccionen
independientemente.
Muestra aleatoria: muestra elegida independientemente de todas las dems, con la misma probabilidad que
cualquier otra y cuyos elementos estn elegidos independientemente unos de otros y con la misma
probabilidad. Muestra aleatoria
Una muestra aleatoria es una muestra sacada de una poblacin de unidades, de manera que todo elemento
de la poblacin tenga la misma probabilidad de seleccin y que las unidades diferentes se seleccionen
independientemente.
Variables aleatorias y distribuciones
Se llama variable aleatoria aquella que toma diversos valores o conjuntos de valores con distintas
probabilidades. Existen 2 caractersticas importantes de una variable aleatoria, sus valores y las
probabilidades asociadas a esos valores.
Una tabla, grfico o expresin matemtica que de las probabilidades con que una variable aleatoria toma
diferentes valores, se llama distribucin de la variable aleatoria.
Como vimos anteriormente, la inferencia estadstica se relaciona con las conclusiones que se pueden sacar
acerca de una poblacin de observaciones basndose en una muestra de observaciones. Entonces
intervienen las probabilidades en el proceso de la seleccin de la muestra; en este caso se desea saber algo
sobre una distribucin con base en una muestra aleatoria de esa distribucin.
De tal manera vemos que trabajamos con muestras aleatorias de una poblacin que es mas grande que la
muestra obtenida; tal muestra aleatoria aislada no es mas que una de muchas muestras diferentes que se
habran podido obtener mediante el proceso de seleccin. Este concepto es realmente importante en
estadstica.
La distribucin de un estadgrafo en todas las muestras aleatorias de tamao n tomadas de una poblacin, se
llama distribucin muestral del estadgrafo para muestras aleatorias de tamao n.
Para muestras aleatorias de tamao n de toda poblacin base, la media de la distribucin muestral de la
media muestral, es la media de la poblacin de base.
Para muestras aleatorias de tamao n de toda poblacin base, la varianza de la distribucin muestral de la
media muestral, es s2/ n que es la varianza de la poblacin de base dividida por el tamao de la muestra.
Para muestras aleatorias de tamao n de toda poblacin de base, la media de la distribucin muestral de la
varianza muestral s2, es la varianza s2 de la poblacin de base.
PARAMETROS ALEATORIOS
Se llama variable aleatoria aquella que toma diversos valores o conjuntos de valores con distintas
probabilidades. Existen 2 caractersticas importantes de una variable aleatoria, sus valores y las
probabilidades asociadas a esos valores.
Una tabla, grfico o expresin matemtica que d las probabilidades con que una variable aleatoria toma
diferente valores, se llama distribucin de la variable aleatoria.
Como vimos anteriormente, la inferencia estadstica se relaciona con las conclusiones que se pueden sacar
acerca de una poblacin de observaciones basndose en una muestra de observaciones. Entonces
intervienen las probabilidades en el proceso de la seleccin de la muestra; en este caso se desea saber algo
sobre una distribucin con base en una muestra aleatoria de esa distribucin.
De tal manera vemos que trabajamos con muestras aleatorias de una poblacin que es ms grande que la
muestra obtenida; tal muestra aleatoria aislada no es ms que una de muchas muestras diferentes que se
habran podido obtener mediante el proceso de seleccin. Este concepto es realmente importante en
estadstica.
ENFOQUE CLASICO EN ESTADISTICA
En el enfoque clsico los primeros gerentes y autores sobre administracin buscaban "el mejor camino", una
serie de principios para crear una estructura organizacional que funcionara bien en todas las situaciones. Max
Weber, Frederick Taylor y Henri Fayol fueron los principales contribuyentes al llamado enfoque clsico para
disear organizaciones. Ellos pensaban que las organizaciones ms eficientes y eficaces tenan una
estructura jerrquica en la cual los miembros de la organizacin, en sus acciones, eran guiados por un
sentimiento de obligacin en la organizacin y por una serie de regla y reglamentos racionales. Segn Weber,
cuando estas organizaciones se haban desarrollado plenamente, se caracterizaban por la especializacin de
tareas, los nombramientos por mritos, la oferta de oportunidades para que sus miembros hicieran carrera, la
rutinizacin de actividades y un clima impersonal y racional en la organizacin, Weber lo llam burocracia.
Weber alababa la burocracia porque estableca reglas para tomar decisiones, una cadena de mando clara y a
la promocin de las personas con base en la capacidad y la experiencia, en lugar del favoritismo o el capricho.
Asimismo, admiraba que la burocracia especificaba, con claridad, la autoridad y la responsabilidad lo cual, en
su opinin, facilitaba laevaluacin de los resultados y su recompensa. Tanto l como otros autores clsicos,
as como sus contemporneos en la administracin, vivieron en una poca en que este enfoque para disear
organizaciones se fundamentaba en el precedente de los servicios civiles del gobierno. El trmino burocracia
no siempre ha tenido la connotacin negativa moderna; es decir, un marco para la actividad lenta, ineficiente,
sin imaginacin de las organizaciones.
ENFOQUE BAYESIANO EN ESTADISTICA
En el enfoque Bayesiano de la Estadstica, la incertidumbre presente en un modelo dado, es representada a
travs de una distribucin de probabilidad sobre los posibles valores del parmetro desconocido (tpicamente
multidimensional) que define al modelo. El Teorema de Bayes, permite entonces incorporar la informacin
contenida en un conjunto de datos, produciendo una descripcin conjunta de la incertidumbre sobre los
valores de los parmetros del modelo a travs de la distribucin final. Desafortunadamente, la implementacin
de las tcnicas Bayesianas usualmente requiere de un esfuerzo computacional muy alto. La mayor parte de
este esfuerzo se concentra en el clculo de ciertas caractersticas de la distribucin final del parmetro
de inters (que llamaremos resmenes inferenciales). As, por ejemplo, para pasar de una distribucin
conjunta a una coleccin de distribuciones y momentos marginales que sean tiles para hacer inferencias
sobre subconjuntos de parmetros, se requiere integrar. En la mayora de los casos los resmenes
inferenciales bsicos se reducen a integrales de la forma donde, , , y . As, por ejemplo, donde denota a
la funcin indicadora del conjunto y denota a la distribucin predictiva de una observacin futura. En la
prctica es comn que la dimensin de sea muy grande. Por otro lado, excepto en aplicaciones muy sencillas
tanto como pueden llegar a tener formas muy complicadas. En la gran mayora de los problemas las integrales
requeridas no pueden resolverse analticamente, por lo que es necesario contar con mtodos numricos
eficientes que permitan calcular o aproximar integrales en varias dimensiones.
El propsito de estas notas es revisar de manera general algunos de los mtodos clsicos para calcular
integrales, tales como la aproximacin de Laplace, cuadratura (integracin numrica) y el mtodo de Monte
Carlo, as como discutir algunas de las tcnicas de integracin desarrolladas durante los ltimos aos y
conocidas con el nombre genrico de tcnicas de Monte Carlo va cadenas de Markov. El lector interesado en
el enfoque Bayesiano de la Estadstica o en aspectos especficos de los mtodos aqu discutidos puede
consultar los libros de Bernardo y Smith (1994) y O"Hagan (1994), as como las referencias que ah se
incluyen.
En trminos generales, los mtodos antes mencionados sern ms eficientes y darn resultados ms precisos
en la medida en que la distribucin final sea ms parecida a una distribucin normal. Es por esta razn que en
la mayora de los casos resulta conveniente trabajar en trminos de una reparametrizacin del modelo, de
manera que cada uno de los nuevos parmetros tome valores en todo y su distribucin final sea
aproximadamente normal. Tambin es importante que la correlacin final entre los nuevos parmetros no sea
muy alta.
En lo que resta de esta seccin describiremos dos problemas que nos servirn para ilustrar y comparar los
mtodos discutidos en estas notas. Algunos de estos mtodos han sido instrumentados en el lenguaje S de S-
Plus. El cdigo correspondiente, as como los resultados principales, pueden encontrarse en los apndices al
final de este trabajo.
DESCRIPCION DE DATOS EN ESTADISTICA
La estadstica descriptiva es una parte de la estadstica que se dedica a analizar y representar los datos. Este
anlisis es muy bsico, pero fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la
poblacin las primeras conclusiones obtenidas tras un anlisis descriptivo, su poder inferencia es mnimo y
debera evitarse tal proceder. Otras ramas de la estadstica se centran en el contraste de hiptesis y su
generalizacin a la poblacin.
Algunas de las tcnicas empleadas en este primer anlisis de los datos se enumeran ms abajo en el listado
de conceptos bsicos. Bsicamente, se lleva a cabo un estudio calculando una serie de medidas de tendencia
central, para ver en qu medida los datos se agrupan o dispersan en torno a un valor central.
DATOS AGRUPADOS Y NO AGRUPADOS
Cuando la muestra que se ha tomado de la poblacin o proceso que se desea analizar, es decir, tenemos
menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases
con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.
Cuando la muestra consta de 30 o ms datos, lo aconsejable es agrupar los datos en clases y a partir de
estas determinar las caractersticas de la muestra y por consiguiente las de la poblacin de donde fue tomada.
Antes de pasar a definir cul es la manera de determinar las caractersticas de inters (media,
mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos
como se agrupan los datos.
FRECUANCIA DE CLASE
Marca de clase (punto medio): punto que divide a la clase en dos partes iguales. Es el promedio entre
los lmites superior e inferior de la clase.
Intervalo de clase: para una distribucin de frecuencias que tiene clases del mismo tamao, el intervalo de
clase se obtiene restando el lmite inferior de una clase del lmite inferior de la siguiente.
FRECUENCIA RELATIVA
Es la relacin o cociente entre la frecuencia absoluta y el nmero total de observaciones. Es la proporcin
entre la frecuencia de un intervalo y el nmero total de datos.
PUNTO MEDIO
Punto medio
Punto medio es el punto que divide a un segmento en dos partes iguales.
El punto medio de un segmento, es nico y equidista de los extremos del segmento. Cumpliendo esta ltima
condicin, pertenece a la mediatriz del segmento.
La frmula para determinar el punto medio de un segmento en el plano, con coordenadas: (x1,y1) y (x2,y2) es:
[(x1 + x2) / 2] + [(y1 + y2) / 2]
LIMITES EN ESTADISTICA
Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a estar los
valores de los datos agrupados en ese intervalo de clase.
HISTOGRAMA EN ESTADISTICA
El Histograma representa la frecuencia con la que se presentan los diferentes grupos de datos de la variable
objeto de estudio. Es un conjunto de rectngulos, los cuales representan a cada una de las clases. En el eje
de abscisas se representan las clases definidas y en el eje de ordenadas la frecuencia de cada una de ellas.
La amplitud del intervalo de las clases se halla dividiendo el Recorrido entre el nmero de clases. El
Histograma proporciona mucha informacin respecto a la estructura de los datos. Por tanto, es importante
analizar la situacin del centro del Histograma y el ancho del mismo que definen la tendencia central y la
variabilidad del conjunto de datos respectivamente, as como la forma del Histograma que identifica algunas
de las caractersticas del proceso en estudio.
Historia de la Estadstica""
Etimologa
La palabra "estadstica" procede del latn statisticum collegium ("consejo de Estado") y de su derivado italiano
statista ("hombre de Estado" o "poltico"). El trmino alemn Statistik, introducido por Gottfried Achenwall
(1749), designaba originalmente el anlisis de datos del Estado, es decir, "la ciencia del Estado". No fue hasta
el siglo XIX cuando el trmino estadstica vino a designar la coleccin y clasificacin de datos.
En su origen, por tanto, la estadstica estuvo asociada al control de datos poblacionales por parte de la
administracin pblica. Este tipo de prcticas han sido analizadas por Michel Foucault como una forma de
impoltica, un estilo de gobierno caracterizado por regular a las poblaciones a travs del biopoder. Desde los
comienzos de la civilizacin han existido formas sencillas de estadstica, pues ya se utilizaban
representaciones grficas y otros smbolos en pieles, rocas, palos de madera y paredes de cuevas para
contar el nmero de personas, animales o ciertas cosas. Hacia el ao 3000 a. C. los babilonios usaban ya
pequeas tablillas de arcilla para recopilar datos en tablas sobre la produccin agrcola y de los gneros
vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la poblacin y la renta del pas
mucho antes de construir las pirmides en el siglo XXXI a. C. Los libros bblicos de Nmeros y Crnicas
incluyen, en algunas partes, trabajos de estadstica. El primero contiene dos censos de la poblacin
de Israel y el segundo describe el bienestar material de las diversas tribus judas.
En China existan registros numricos similares con anterioridad al ao 2000 a. C. Los griegos clsicos
realizaban censos cuya informacin se utilizaba hacia el 594 a. C. para cobrar impuestos.
HISTOGRAMA DE FRECUENCIA RELATIVA
El histograma de una imagen representa la frecuencia relativa de los niveles de gris de la imagen. Las
tcnicas de modificacin del histograma de una imagen son tiles para aumentar el contraste
de imgenes con histogramas muy concentrados.
Sea u una imagen de tamao NxN, la funcin de distribucin del histograma es: Fu(l) =
(Numerodepixels(i,j)talesqueu(i,j) < = l) / N2
Ejemplos de otros tipos de representaciones grficas: Hay histogramas donde se agrupan los datos en clases,
y se cuenta cuntas observaciones (frecuencia absoluta) hay en cada una de ellas. En
algunas variables (variables cualitativas) las clases estn definidas de modo natural, p.e sexo con dos
clases: mujer, varn o grupo sanguneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay
que definirlas explcitamente (intervalos de clase).
Se representan los intervalos de clase en el eje de abscisas (eje horizontal) y las frecuencias, absolutas o
relativas, en el de ordenadas (eje vertical).
A veces es ms til representar las frecuencias acumuladas.
O representar simultneamente los histogramas de una variable en dos situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas.
En las variables cuantitativas o en las cualitativas ordinales se pueden representar polgonos de frecuencia en
lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.
MEDIDAS DE TENDENCIA CENTRAL
Tambin se les conoce como medidas de posicin o promedios son los valores que se utilizan para
representar el conjunto de observaciones. Tienden a situarse en el centro del conjunto de los datos,
previamente ordenados.
- Las principales medidas centrales son:
La media, la mediana y la moda.
MEDIA ARITMETICA GEOMETRICA PONDERADA
Media aritmtica:
Es uno de los promedios de mayor utilizacin. Su generalizacin se debe a las propiedades que posee, que la
convierten en un indicador muy representativo.
Se obtiene sumando los productos de cada valor de la variable por su respectiva frecuencia, y dividiendo esta
suma por el total de observaciones.
MEDIANA EN ESTADISTICA
Mediana:
Es el valor de la variable que divide a la distribucin de frecuencias en dos partes iguales.
- Para hallar la mediana ordenamos la frecuencias de mayor a menor o viceversa, y si hay un nmero impar de
valores la mediana es el central y si es par ser la semisuma de los dos valores.

MEDIDAS DE DISPERSIN
MODA EN ESTADSTICA
En Estadstica, la moda es el valor que cuenta con una mayor frecuencia en una distribucin de datos.
Hablaremos de una distribucin bimodal de los datos, cuando encontremos dos modas, es decir, dos datos
que tengan la misma frecuencia absoluta mxima. Una distribucin trimodal de los datos es en la que
encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no hay moda.
El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos agrupados antes de definir
la moda, se ha de definir el intervalo modal.
La moda, cuando los datos estn agrupados, es un punto que divide al intervalo modal en dos partes de la
forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los intervalos anterior y
posterior, respectivamente, al intervalo modal.
Se llama tpicain de un conjunto de datos al grado en que los diferentes valores de los datos tiende a
extenderse alrededor del valor medio utilizado.
Este grado de tpicain se mide por medio de los indicadores tpicains llamados medidas de tpica in, entre
ellas tenemos el rango, la varianza, y la tpicain tpica.
Hasta el momento hemos estudiado los valores centrales de la distribucin, pero tambin es importante
conocer si los valores en general estn cerca o alejados de estos valores centrales, es por lo que surge la
necesidad de estudiar medidas de dispersin.
Rango:
Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el
menor de la distribucin,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayora
de los casos, pero indudablemente es muy fcil de calcular.
Hemos estudiado varias medidas de centralizacin, por lo que podemos hablar de desviacin con respecto a
cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media.
Desviacin:
Es la diferencia que se observa entre el valor de la variable y la media aritmtica. La denotaremos por di.
No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente
desviacin, por lo que precisaremos una medida que resuma dicha informacin.
La primera solucin puede ser calcular la media de todas las desviaciones, es decir, si consideramos como
muestra la de todas las desviaciones y calculamos su media. Pero esta solucin es mala pues como veremos
siempre va a ser 0.

Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se contrarrestan con las
negativas.
Para resolver este problema, tenemos dos caminos:
Tomar el valor absoluto de las desviaciones. Desviacin media Elevar al cuadrado las desviaciones. Varianza.
Varianza:

MEDIDAS DE DISPERSIN
VARIANZA EN ESTADISTICA
Varianza (Concepto)
Es el estadstico de dispersin que mide el grado de variabilidad que sintetiza el grado de homogeneidad o
heterogeneidad de las diferencias individuales entre los casos de una muestra (o de varias muestras) respecto
de una o varias variables numricas continuas o cuantitativas.
En teora de probabilidad y estadstica la varianza es un estimador de la divergencia de una variable aleatoria
x de su valor esperado E[x]. Tambin se utilizan la desviacin estndar, la raz de la varianza.
La varianza s2 de una variable aleatoria x se define como
Mtodo abreviado:
Tambin se expresa como la diferencia entre el momento de orden 2 y el cuadrado del valor esperado:
Mientras que la desviacin estndar es el promedio de la distancia de cada punto respecto del promedio la
varianza es como un rea.
s 2 = f(x - m )2 / N
s 2 = varianza de la poblacin.
x = punto medio de cada una de las clases.
m = media de la poblacin.
N = nmero total de elementos de la poblacin.
f = frecuencia de cada una de las clases donde vean el 2 se eleva al cuadrado y este smbolo () es de
sumatoria
Cruz Bazan R. (Instituto Tecnolgico Superior del Oriente del Estado De Hidalgo).
DESVIACION ESTANDAR
La desviacin estndar (o desviacin tpica) es una medida de dispersin para variables de razn (ratio o
cociente) y de intervalo, de gran utilidad en la estadstica descriptiva. Es una medida (cuadrtica) de lo que se
apartan los datos de su media, y por tanto, se mide en las mismas unidades que la variable.
Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino
que necesitamos conocer tambin la desviacin que representan los datos en su distribucin, con objeto de
tener una visin de los mismos ms acorde con la realidad a la hora de describirlos e interpretarlos para la
toma de decisiones.
DESVIACION MEDIANA
Desviacin Mediana.
El criterio que gua esta estadstica, radica en el uso de diferencias de cada dato respecto a la mediana
muestral m.
Si estas diferencias son muy grandes, entonces estamos ante un caso de gran variabilidad, y si son pequeas
se espera que la variabilidad sea pequea.
Naturalmente que el criterio que parece ms apropiado es agrupar las discrepancias individuales y tratarlas en
conjunto.
Un agrupamiento natural sera una suma de ellas, pero el slo uso de las diferencias no garantiza que se
pueda medir discrepancias porque algunas (prcticamente la mitad) sern menores que la mediana, con
diferencias negativas, y el resto mayores que la mediana, con diferencias positivas, y al sumar dichos valores
habra compensaciones entre valores negativos y positivos.
Por lo tanto, una salida a esta dificultad es considerar el valor absoluto de las diferencias calculadas y
promediarlos.
Puede verse entonces que, cuanto mayor sea la dispersin existente entre los datos, tanto mayor tender a
ser el promedio del valor absoluto de las diferencias de los datos, respecto de la mediana muestral.
Esta estadstica se encuentra medida en la misma escala que los datos originales, lo que facilita su
comprensin.
RANGO EN ESTADISTICA
RANGO
El rango en estadstica es la diferencia o resta del lmite superior menos el lmite inferior, de los datos
utilizados en una clase.
Se simboliza con la letra R mayscula.
Para averiguar el rango de un grupo de nmeros:
Ordene los nmeros segn su tamao Reste el valor mnimo al valor mximo.
PARAMETROS PARA DATOS AGRUPADOS
En el estudio de las distribuciones de datos, la estadstica selecciona un conjunto de los mismos de forma que
sean representativos de todos los de la distribucin.
- Estos datos seleccionados se denominan caractersticas de la distribucin o parmetros estadsticos.
MEDIA DE DATOS AGRUPADOS
MEDIA DE DATOS AGRUPADOS Media para un conjunto de datos agrupados.
La media para datos agrupados es la siguiente:
Donde es el total de datos, m el nmero total de clase y es la frecuencia de datos.
La definicin es claramente entendida como una extensin de la definicin que dimos para datos no
agrupados, ya que es lgico suponer que datos que se repiten con una frecuencia pueden simplificar la suma
por, por supuesto que los ndices de la segunda suma con respecto a la primera corren con respecto a menor
nmero, es decir, con respecto al nmero de agrupamientos m.
Ejemplo:
Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2, 3, 2, 3, 4, 1, 2, 1. La media para dichos datos es
aproximadamente igual a 2.4666, es decir,
Sin embargo, el mismo resultado podemos obtener si tomamos la frecuencia con que aparecen los datos, en
este caso:
Dato
Frecuencia
Producto de frecuencias y datos
1 4 4 2 5 10 3 2 6 4 3 12 5 1 5
La obtencin de la media finalmente se convierte en para la obtencin de la media cuando las frecuencias
estn sujetas a la eleccin de clase bajo los mtodos mostrados, se realiza de igual manera, la nica
diferencia existe en determinar el valor como el punto medio de cada clase, veamos el siguiente ejemplo.
Supongamos que una clnica de salud, obtiene una tabla de edades de las personas que son atendidas en un
fin de semana, para los que presentan la siguiente tabla. Cul ser el promedio de edades de los enfermos
que acudieron a recibir atencin mdica?
DISTRIBUCION DE FRECUENCIA
La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin que
se ha recogido sobre la variable que se estudia. Variable Frecuencias absolutas Frecuencias relativas (Valor)
Simple Acumulada Simple Acumulada x x x x x X1 n1 n1 f1 = n1 / n f1 X2 n2 n1 + n2 f2 = n2 / n f1 + f2 . . . . .
Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1 f( n fn = nn / n (Xn nn
Siendo X los distintos valores que puede tomar la variable. Siendo n el nmero de veces que se repite cada
valor. Siendo f el porcentaje que la repeticin de cada valor supone sobre el total Veamos un ejemplo:
Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm): Alumno Estatura
Alumno Estatura Alumno Estatura x x x x x x Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21 Alumno 2 1,28
Alumno 12 1,26 Alumno 22 1,29 Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26 Alumno 4 1,21 Alumno 14
1,21 Alumno 24 1,22 Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28 Alumno 6 1,29 Alumno 16 1,30 Alumno
26 1,27 Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26 Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23
Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22 Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21
Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia: Variable
Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada x x x x x 1,20 1 1
3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2
14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0%
90,0% 1,30 3 30 10,0% 100,0% Si los valores que toma la variable son muy diversos y cada uno de ellos se
repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos
una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.
La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin que
se ha recogido sobre la variable que se estudia. Variable Frecuencias absolutas Frecuencias relativas (Valor)
Simple Acumulada Simple Acumulada x x x x x X1 n1 n1 f1 = n1 / n f1 X2 n2 n1 + n2 f2 = n2 / n f1 + f2 . . . . .
Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1 f( n fn = nn / n (Xn nn
Siendo X los distintos valores que puede tomar la variable. Siendo n el nmero de veces que se repite cada
valor. Siendo f el porcentaje que la repeticin de cada valor supone sobre el total Veamos un ejemplo:
Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm): Alumno Estatura
Alumno Estatura Alumno Estatura x x x x x x Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21 Alumno 2 1,28
Alumno 12 1,26 Alumno 22 1,29 Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26 Alumno 4 1,21 Alumno 14
1,21 Alumno 24 1,22 Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28 Alumno 6 1,29 Alumno 16 1,30 Alumno
26 1,27 Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26 Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23
Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22 Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21
Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia: Variable
Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada x x x x x 1,20 1 1
3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2
14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0%
90,0% 1,30 3 30 10,0% 100,0% Si los valores que toma la variable son muy diversos y cada uno de ellos se
repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos
una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis. (Tal como se ver en
la siguiente leccin).
DISTRIBUCIONES NUMERICAS
Distribucin de frecuencia de clase o de datos Agrupados:
Es aquella distribucin en la que la disposicin tabular de los datos estadsticos se encuentra ordenada en
clases y con la frecuencia de cada clase; es decir, los datos originales de varios valores adyacentes del
conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar
cundo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el
nmero total de datos (N) es igual o superior 50 y adems el rango o recorrido de la serie de datos es mayor
de 20, entonces, se utilizar la distribucin de frecuencia para datos agrupados, tambin se utilizar este tipo
de distribucin cuando se requiera elaborar grficos lineales como el histograma, el polgono de frecuencia o
la ojiva.
La razn fundamental para utilizar la distribucin de frecuencia de clases es proporcionar
mejor comunicacin acerca del patrn establecido en los datos y facilitar la manipulacin de los mismos. Los
datos se agrupan en clases con el fin de sintetizar, resumir,
DISTRIBUCIONES CATEGRICAS
Si las distribuciones se hallan agrupadas de acuerdo con alguna cualidad o atributo denominaremos
distribucin categrica a esa distribucin.
DISTRIBUCIONES ACOMULADAS
Una distribucin de frecuencias acumulada (ogiva) se usa para determinar cuntos o qu proporcin de los
valores de los datos es menor o mayor que cierto valor.
Una distribucin de frecuencias acumuladas identifica el nmero acumulado de observaciones incluidas bajo
el lmite exacto superior de cada clase de la distribucin. Las frecuencias acumuladas de una clase pueden
determinarse sumando las frecuencias observadas de esa clase a las frecuencias acumuladas de la clase
anterior.
La grfica de una distribucin de frecuencias acumuladas se llama ojiva. En el caso de distribuciones
acumuladas del tipo "y menor que", esta grfica indica las frecuencias acumuladas bajo cada lmite exacto de
clase de la distribucin de frecuencias. Si esa grfica de lneas se suaviza, se obtiene la curva llamada ojiva.
DISTRIBUCIONES PORCENTUALES ACOMULADAS
Es la distribucin de frecuencias acumuladas
Fi = Ni/N
La Fi multiplicada por 100 se obtiene la distribucin de porcentaje acumulado (Pi) que al igual que Fi deber
de resultar al final el 100% de N.
TECNICAS DE AGRUPACION DE DATOS
Estoy invitando a todos los maestros, alumnos y personas interesadas en esta rea y/o carrera a colaborar
construyendo este sitio dedicado a esta hermosa y til profesin aportando el material apropiado a cada uno
de los ms de 1,000 temas que lo componen.
Tambin los invito a aportar material a los ms de 20,000 temas que constituyen las 20 carreras profesionales
que se imparten en los Institutos Tecnolgicos de Mxico y se encuentran en este sitio.
Es un esfuerzo personal y de muchos amigos de MEXICO y el Mundo Hispano por devolver algo de lo mucho
que hemos recibido en el proceso de la educacin superior, saludos Prof. lauro soto, Tijuana, BC, mexica
PARA EMPEZAR SOLO USAR OPCION edit. ABAJO Y EMPIEZA A CONSTRUIR, SALUDOS Y MUCHAS
GRACIAS
LIMITES DE CLASE
Lmites Reales de Clases
Lmite Real Inferior: Se determina sumando el lmite inferior de la clase en la que nos ubicamos, ms el lmite
superior de la clase contigua anterior y dividiendo por dos.
Lmite Real Superior: Se determina sumando el lmite superior de la clase en la que nos ubicamos, ms el
lmite superior de la clase contigua siguiente o superior y dividendo por dos.
Por Ejemplo: Considerando una tabla de frecuencias:
Salarios diarios de Profesionales de la industria petrolera.
Salarios [Clases o Categoras] No. de Profesionales [Frecuencias de Clase]
30 - 39 7
40 - 49 12
50 - 59 19
60 - 69 16
70 - 79 10
80 - 89 6
90 - 99 2
72
Salarios
Lmites Inferiores Lmites Superiores
* - 29
30 - 39
40 - 49
50 - 59
60 - 69
70 - 79
80 - 89
90 - 99
100 - *
Calculando los lmites reales de clases para el primer intervalo de clase, resulta:
LMITE REAL INFERIOR = (Lmite inferior actual + Lmite superior anterior) / 2 = (30+29)/2 = 29.5
LMITE REAL SUPERIOR = (Lmite superior actual + Lmite inferior superior) / 2 = (39+40)/2 = 39.5
Por lo anterior, se concluye que los lmites reales de clases para la tabla del ejemplo son:
Lmites Reales de Clases
Salarios
Lmites Reales Inferiores Lmites Reales Superiores
29.5 - 39.5
39.5 - 49.5
49.5 - 59.5
59.5 - 69.5
69.5 - 79.5
79.5 - 89.5
89.5 - 99.5
La tabla anterior, resulta ser incierta, ya que los lmites reales de clases no sern coincidentes con las
observaciones reales, pues, si una observacin fuese 49.5, no es posible definir si pertenece al intervalo de
clase (39.549.5) o al intervalo de clase (49.559.5). Lo anterior da lugar, que a veces los "lmites reales de
clases" sean utilizados, nicamente comosmbolos de las clases.
PARA EMPEZAR SOLO USAR OPCION edit. ABAJO Y EMPIEZA A CONSTRUIR, SALUDOS Y MUCHAS
GRACIAS
FRONTERAS DE CLASE
Son los puntos medios entre lmites de clases adyacentes. Los lmites de una clase estarn siempre
contenidos entre las fronteras de la misma clase y tendrn mayor aproximacin que los datos, y por lo tanto
tambin que los lmites. La distancia entre la frontera inferior y el lmite inferior de una misma clase, al igual
que la distancia entre el lmite superior y la frontera superior de una misma clase, es igual a media unidad de
aproximacin.
MARCA DE CLASE
En un estudio estadstico, valor representativo de cada intervalo. Tomamos como marca de clase el punto
medio de cada intervalo y lo calculamos sumando los extremos del intervalo y dividindolo entre 2.
INTERVALO DE CLASE
Es cada uno de los grupos que formamos de los valores de la variable.
Para obtener la amplitud de cada intervalo, tenemos que dividir el recorrido de la variable por el nmero de
grupos que queramos formar.
DIAGRAMA DE TALLOS Y HOJAS
EL DIAGRAMA DE TALLO Y HOJA
Es una tcnica estadstica para representar un conjunto de datos. Cada valor numrico se divide en dos
partes. El o los dgitos principales forman el tallo y los dgitos secundarios las hojas. Los tallos estn
colocados a lo largo del eje vertical, y las hojas de cada observacin a lo largo del eje horizontal.
Ejemplo
La siguiente distribucin de frecuencia muestra el nmero de anuncios comerciales pagados por los 45
miembros de Grietear Bufadlo Automobile Dealers Association en 1999. Observemos que 7 de los 45
comerciantes pagaron entre 90 y 99 anuncios (pero menos de 100). Sin embargo, El numero de
comerciantes pagados en esta clase se agrupan en alrededor de 90, estn dispersos a lo largo de toda clase,
o se acumulan alrededor de 99? No podemos saberlo.
# De anuncios comprados Frecuencia
80 a 90 2
90 a 100 7
100 a 110 6
110 a 120 9
120 a 130 8
130 a 140 7
140 a 150 3
150 a 160 3
Sumatoria de la frecuencia= 45
Una tcnica que se usa para presentar informacin cuantitativa en forma condensada es el diagrama de tallo y
hoja. En el ejemplo anterior no se da la identidad de los valores de la clase de 90 a 100. Para ilustrar
la construccin de un diagrama de tallo y hojas usando el nmero de comerciales comprados, supongamos
que las 7 observaciones en la clase de 90 a 100 sean 96, 94, 93, 94, 95, 96, 97. EL valor de tallo es el digito o
dgitos principales, en este caso el 9. Las hojas son los dgitos secundarios. EL tallo se coloca a la izquierda
de una lnea vertical y los valores de las hojas a la derecha.
Los valores de las clases de 90 a 100, apareceran como sigue:
9 | 6 4 3 4 5 6 7
Por ultimo, ordenamos los valores dentro de cada tallo de menor a mayor. El segundo rengln del diagrama
de tallo y hojas aparecera como sigue:
9 | 3 4 4 5 6 6 7
Con el diagrama de tallo y hojas podemos observar rpidamente que hubo 2 comerciantes que compraron 94
comerciales y que el nmero de anuncios comprados fue desde 93 hasta 97. Un diagrama de tallo y hojas es
semejante a una distribucin de frecuencia, pero con ms informacin, esto es, valores de datos en lugar
de marcas.
Diagrama de Pareto
El Diagrama de Pareto es una grfica en donde se organizan diversas clasificaciones de datos por orden
descendente, de izquierda a derecha por medio de barras sencillas despus de haber reunido los datos para
calificar las causas. De modo que se pueda asignar un orden de prioridades.
Qu es?
El nombre de Pareto fue dado por el Dr. Joseph Juran en honor del economista italiano Vilfredo Pareto (1848
1923) quien realizo un estudio sobre la distribucin de la riqueza, en el cual descubri que la minora de la
poblacin posea la mayor parte de la riqueza y la mayora de la poblacin posea la menor parte de la
riqueza. Con esto estableci la llamada "Leyde Pareto" segn la cual la desigualdad econmica es inevitable
en cualquier sociedad.
El Dr. Juran aplic este concepto a la calidad, obtenindose lo que hoy se conoce como la regla 80/20.
Segn este concepto, si se tiene un problema con muchas causas, podemos decir que el 20% de las causas
resuelven el 80% del problema y el 80% de las causas solo resuelven el 20% del problema.
Por lo tanto, el Anlisis de Pareto es una tcnica que separa los "pocos vitales" de los "muchos triviales". Una
grfica de Pareto es utilizada para separar grficamente los aspectos significativos de un problema desde los
triviales de manera que un equipo sepa dnde dirigir sus esfuerzos para mejorar. Reducir los problemas ms
significativos (las barras ms largas en una Grfica Pareto) servir ms para una mejora general que reducir
los ms pequeos. Con frecuencia, un aspecto tendr el 80% de los problemas. En el resto de los casos,
entre 2 y 3 aspectos sern responsables por el 80% de los problemas.
En relacin con los estilos gerenciales de Resolucin de Problemas y Toma de Decisiones (Conservador,
Bombero, Oportunista e Integrador)[1], vemos como la utilizacin de esta herramienta puede resultar una
alternativa excelente para un gerente de estilo Bombero, quien constantemente a la hora de resolver
problemas solo "apaga incendios", es decir, pone todo su esfuerzo en los "muchos triviales".
Cundo se utiliza? Al identificar un producto o servicio para el anlisis para mejorar la calidad.
Cuando existe la necesidad de llamar la atencin a los problema o causas de una forma sistemtica.
Al identificar oportunidades para mejorar
Al analizar las diferentes agrupaciones de datos (ej.: por producto, por segmento, del mercado, rea
geogrfica, etc.)
Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones
Al evaluar los resultados de los cambios efectuados a un proceso (antes y despus)
Cuando los datos puedan clasificarse en categoras
Cuando el rango de cada categora es importante
Pareto es una herramienta de anlisis de datos ampliamente utilizada y es por lo tanto til en la determinacin
de la causa principal durante un esfuerzo de resolucin de problemas. Este permite ver cules son los
problemas ms grandes, permitindoles a los grupos establecer prioridades. En casos tpicos, los pocos
(pasos, servicios, tems, problemas, causas) son responsables por la mayor parte el impacto negativo sobre la
calidad. Si enfocamos nuestra atencin en estos pocos vitales, podemos obtener la mayor ganancia potencial
de nuestros esfuerzos por mejorar la calidad.
Un equipo puede utilizar la Grfica de Pareto para varios propsitos durante un proyecto para lograr mejoras:
Para analizar las causas
Para estudiar los resultados
Para planear una mejora continua
Las Grficas de Pareto son especialmente valiosas como fotos de "antes y despus" para demostrar qu
progreso se ha logrado. Como tal, la Grfica de Pareto es una herramienta sencilla pero poderosa.
Cmo se utiliza? 1. Seleccionar categoras lgicas para el tpico de anlisis identificado (incluir el periodo de
tiempo).
2. Reunir datos. La utilizacin de un Check List puede ser de mucha ayuda en este paso.
3. Ordenar los datos de la mayor categora a la menor
4. totalizar los datos para todas las categoras
5. calcular el porcentaje del total que cada categora representa
6. trazar los ejes horizontales (x) y verticales (y primario - y secundario)
7. trazar la escala del eje vertical izquierdo para frecuencia (de 0 al total, segn se calcul anteriormente)
8. de izquierda a derecha trazar las barras para cada categora en orden descendente. Si existe una categora
"otros", debe ser colocada al final, sin importar su valor. Es decir, que no debe tenerse en cuenta al momento
de ordenar de mayor a menor la frecuencia de las categoras.
9. trazar la escala del eje vertical derecho para el porcentaje acumulativo, comenzando por el 0 y hasta el
100%
10. trazar el grfico lineal para el porcentaje acumulado, comenzando en la parte superior de la barra de la
primera categora (la ms alta)
11. dar un ttulo al grfico, agregar las fechas de cuando los datos fueron reunidos y citar la fuente de los
datos.
12. analizar la grfica para determinar los "pocos vitales"
Consejos para la construccin / interpretacin Como hemos visto, un Diagrama de Pareto es un grfico de
barras que enumera las categoras en orden descendente de izquierda a derecha, el cual puede ser utilizado
por un equipo para analizar causas, estudiar resultados y planear una mejora continua.
Dentro de las dificultades que se pueden presentar al tratar de interpretar el Diagrama de Pareto es que
algunas veces los datos no indican una clara distincin entre las categoras. Esto puede verse en el grfico
cuando todas las barras son ms o menos de la misma altura.
Otra dificultad es que se necesita ms de la mitad de las categoras para sumar ms del 60% del efecto de
calidad, por lo que un buen anlisis e interpretacin depende en su gran mayora de un buen anlisis previo
de las causas y posterior recogida de datos.
En cualquiera de los casos, parece que el principio de Pareto no aplica. Debido a que el mismo se ha
demostrado como vlido en literalmente miles de situaciones, es muy poco probable que se haya encontrado
una excepcin. Es mucho ms probable que simplemente no se haya seleccionado un desglose apropiado de
las categoras. Se deber tratar de estratificar los datos de una manera diferente y repetir el Anlisis de
Pareto.
Esto nos lleva a la conclusin que para llevar a cabo un proceso de Resolucin de Problemas /Toma de
Decisiones (RP/TD) es necesario manejar cada una de las herramientas bsicas de la calidad, tanto desde el
punto de vista terico como desde su aplicacin.
La interpretacin de un Diagrama de Pareto se puede definir completando las siguientes oraciones de
ejemplo:
"Existen (nmero de categoras) contribuyentes relacionados con (efecto). Pero estos (nmero de pocos
vitales) corresponden al (nmero) % del total (efecto). Debemos procurar estas (nmero) categoras pocos
vitales, ya que representan la mayor ganancia potencial para nuestros esfuerzos."
DIAGRAMA DE PUNTOS
El diagrama de puntos resulta de utilidad cuando el conjunto de datos desrazonablemente pequeo o hay
relativamente pocos datos distintos. Cada dato representa con un punto encima de la correspondiente
localizacin en una escala horizontal de medida. Cuando un valor se repite, hay un punto por cada ocurrencia
y se colocan verticalmente. Permite por ejemplo analizar la dispersin y detectar datos atpicos.
HISTOGRAMA
Histograma: Es una representacin grafica de datos a travs de barras las cuales representan la frecuencia de
las clases. Estas barras deben ser dibujadas sin espacios entre si y no necesariamente inician en el origen.
Se utiliza en datos cuantitativos en distribuciones de frecuencia.
Son rectngulos verticales unidos entre s, en donde sus lados son los lmites reales inferior y superior de
clase y cuya altura es igual ala frecuencia de clase.
Con la distribucin de frecuencia anterior se tiene:
DIAGRAMA DE BARRAS
Se utilizan rectngulos separados, que tienen como base a cada uno de los datos y como altura la frecuencia
de ese dato. El diagrama de barras o grfica de barras suele elaborarse con algunas variantes; por ejemplo,
se pueden utilizar lneas en vez de rectngulos barras ( lneas) horizontales en vez de verticales. Si se
tienen datos cuantitativos se grafica en el eje de las x los valores centrales (marcas de clase), cuyas alturas
son proporcionales a sus frecuencias.
POLIGONO DE FRECUENCIAS
Es la lnea quebrada que une los puntos medios de los lados superiores (marcas de clase) de un histograma.
Los puntos o vrtices del polgono de frecuencias estn situados, por tanto, en las marcas de clase, ya que
estos corresponden a los puntos medios de los intervalos.
OJIVAS
Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar parcialmente la
misma tcnica a una distribucin acumulativa y de igual manera que stas, existen las ojivas mayores que y
las ojivas menores que.
Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por esto la aplicacin
de la tcnica es parcial):
Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo
izquierdo; para la ojiva menor que, con el derecho.
En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de
la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los
datos que se usaron para ejemplificar el histograma:
La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que est sobre la
frontera de clase "4:00? se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en
cuestiones temporales se dira: despus de las 4:00 horas). De forma anloga, en la ojiva menor que la
frecuencia que se representa en cada frontera de clase son el nmero de observaciones menores que la
frontera sealada (en caso de tiempos sera el nmero de observaciones antes de la hora que seala la
frontera).
Si se utiliza una distribucin porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que
segn sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma
ojiva menor que se acaba de usar, pero con una distribucin porcentual:
Distribuciones muestrales
El estudio de determinadas caractersticas de una poblacin se efecta a travs de diversas muestras que
pueden extraerse de ella.
El muestreo puede hacerse con o sin reposicin (con o sin reemplazo, tambin aparece en la literatura), y la
poblacin de partida puede ser infinita o finita. Una poblacin finita en la que se efecta muestreo con
reposicin puede considerarse infinita tericamente. Tambin, a efectos prcticos, una poblacin muy grande
puede considerarse como infinita. En todo nuestro estudio vamos a limitarnos a una poblacin de partida
infinita o a muestreo con reposicin.
Consideremos todas las posibles muestras de tamao n en una poblacin. Para cada muestra podemos
calcular un estadstico (media, desviacin tpica, proporcin,.) que variar de una a otra. Debemos aclarar que
un "estadstico" es cualquier combinacin lineal de los datos mustrales. As obtenemos una distribucin del
estadstico que se llama distribucin muestra.
Las dos medidas fundamentales de esta distribucin son la media y la desviacin tpica (estndar), tambin
denominada error estndar.
Hay que hacer notar que si el tamao de la muestra es lo suficientemente grande las distribuciones
mustrales son (aproximadamente) normales (para fines prcticos) y en esto se basarn todos los resultados
que alcancemos.
1. DISTRIBUCIN MUESTRAL DE MEDIAS
Cada muestra de tamao n que podemos extraer de una poblacin proporciona una media. Si consideramos
cada una de estas medias como valores de una variable aleatoria podemos estudiar su distribucin que
llamaremos distribucin muestra de medias.
Si tenemos una poblacin normal N (m, s) y extraemos de ella muestras de tamao n, la distribucin muestra
de medias sigue tambin una distribucin normal
Si la poblacin no sigue una distribucin normal pero n>30, aplicando el llamado Teorema central del lmite la
distribucin muestra de medias se aproxima tambin a la normal anterior.
2. DISTRIBUCIN MUESTRAL DE PROPORCIONES
En numerosas ocasiones se plantea estimar una proporcin o porcentaje. En estos casos la variable aleatoria
toma solamente dos valores diferentes (xito o fracaso), es decir sigue una distribucin binomio y cuando la
extensin de la poblacin es grande la distribucin binomio B(n,p) se aproxima a la normal .
Para muestras de tamao n>30, la distribucin muestra de proporciones sigue una distribucin normal
N(p, vpq/n)
Donde p es la proporcin de uno de los valores que presenta la variable estadstica en la poblacin y q=1-p.



Leer ms: http://www.monografias.com/trabajos69/probabilidad-estadistica/probabilidad-
estadistica2.shtml#ixzz2gETEWAx8
ESTADISTICA DESCRIPTIVA 2
MTODOS NUMRICOS PARA DESCRIBIR DATOS CUANTITATIVOS
CONTNUOS

1. Intervalos o Clases
til cuando se trabajan muchos datos con variables cuantitativas continuas y ocasionalmente
cuantitativas discretas.
El nmero de intervalos es arbitrario, pero se puede determinar como la raz cuadrada del
nmero de observaciones realizadas. Ej. 100 observaciones o individuos, sera = 10, el
nmero de intervalos ideal es aproximadamente 9. Es conveniente un nmero impar de
intervalos, para fijarnos en la simetra de la distribucin
3
.
Los lmites de los intervalos de clase son los extremos de cada uno de los tramos en que se
han dividido los valores que puede tomar la variable; el lmite inferior se corresponde con el
valor mnimo y el lmite superior se corresponde con el valor mximo que puede tomar la
variable en cada intervalo. El lmite verdadero de intervalo o clase se obtiene sumando al
lmite ms alto de una clase, el ms bajo de la clase siguiente y dividiendo el resultado entre
dos.
La amplitud de un intervalo es la distancia entre el lmite exacto inferior y el lmite exacto
superior de un intervalo. Se calcula restando del lmite verdadero mas alto el lmite verdadero
ms bajo. La amplitud de intervalo puede ser igual o diferente para todos los intervalos
1
.
El punto medio del intervalo es el valor representativo de todos los valores que componen
un determinado intervalo de clase, y es el punto medio del intervalo. Se obtiene sumando los
lmites, mas alto y ms bajo de una clase, y dividiendo el resultado entre 2.
El rango de una distribucin de frecuencias es la diferencia que existe entre los valores
extremos del arreglo.
Ej. Tenemos un grupo de 30 pacientes adultos de los cuales nos interesa conocer el peso.

TABLA NO. 1 PESO EN KILOGRAMOS DE 30 PACIENTES DE SEXO MASCULINO
54.1 55.2 75.1 67.1 60.4 65
63.2 55.3 56.1 71.2 57 80
58.2 56.1 77.2 58 70 58.2
60.2 55.1 66 69.4 59.1 62
57 70.1 60.2 64 60 65
click aqu para ver
TABLA NO. 2 TABLA DE FRECUENCIA
Pesos en (Kg) Lmites de clase Nmero de
o lmites de intervalo estudiantes
53-57 8
58-62 9
63-67 6
68-72 4
73-77 2
78-82 1
Total 30
Nmero de intervalos = 6
Lmites de los intervalos de clase
53-57 Lmite Inf 53.5, Lmite Sup (57+58)/2 = 57.5
58-62 Lmite Inf 57.51, Lmite Sup (62+63)/2 =62.5
63-67 Lmite Inf 62.51, Lmite Sup (67+68)/2= 67.5
68-72 Lmite Inf 67.51, Lmite Sup (72+73)/2=72.5
73-77 Lmite Inf 72.51, Lmite Sup (77+78)/2=77.5
78-82 Lmite Inf 77.51, Lmite Sup 82.5
Amplitud del intervalo
53-57 57.5-52.5= 5
58-62 62.5- 57.51= 4.99
63-67 67.5- 62.51= 4.99
68-72 72.5- 67.51= 4.99
73-77 77.5- 72.51= 4.99
78-82 82.5- 77.51= 4.99
Punto medio del intervalo
53-57 (57.5+53.5)/2= 55.5
58-62 (62.5+57.51)/2= 60
63-67 (67.5+62.51)/2= 65
68-72 (72.5+67.51)/2= 70
73-77 (77.5+72.51)/2= 75
78-82 (82.5+77.51)/2= 80
Rango de distribucin de frecuencias:
82-53=29

2. Tipos de frecuencias

f i : frecuencia relativa simple
N : tamao de muestra
N i : frecuencia absoluta acumulada
n i : frecuencia absoluta simple
F i : frecuencia relativa acumulada.
Porcentaje (%): se pueden definir como la expresin matemtica de las frecuencias relativas
simples multiplicadas por 100. En ocasiones tambin se les llama ndices. Se calculan as. % = f
i x 100. En la prctica, facilitan la comprensin de las frecuencias relativas al suprimir los
nmeros decimales o fraccionados.
Ej. 8/30= 0.266 x 100 =26.6%

Intervalos F.
Absoluta
n i
F.
relativaf
i
`Porcentaje
%
F.absoluta
acumulada
N i
F. relativa
acumulada
F i
Porcentaje
acumulado P i
53-57 8 0.266 26.6 8 0.266 26.6
58-62 9 0.3 30 17 0.566 56.6
63-67 6 0.2 20 23 0.766 76.6
68-72 4 0.1333 13.33 27 0.8993 89.93
73-77 2 0.0666 6.66 29 0.9659 96.59
78-82 1 0.033 3.3 30 1.00 100
Total 30 1 100


TEMA 1:
DESCRIPCIN DE UNA MUESTRA

1. INTRODUCCIN
1.1 DEFINICIN DE ESTADSTICA
1.2 MODELO ESTADSTICO
1.3 ESTADSTICA DESCRIPTIVA
1.4 CONCEPTOS BSICOS
POBLACIN
VARIABLE: Cualitativas o Categricas y Cuantitativas (Discretas y
Continuas)
MUESTRA
TAMAO MUESTRAL
DATO

2. DISTRIBUCIONES DE FRECUENCIAS
2.1 FRECUENCIA ABSOLUTA
2.2 FRECUENCIA RELATIVA
2.3 FRECUENCIA ACUMULADA
2.4 FRECUENCIA RELATIVA ACUMULADA
2.5 TABLA DE FRECUENCIAS
2.6 DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS

3. MTODOS GRFICOS
3.1 FRECUENCIAS NO ACUMULADAS
DIAGRAMA DE BARRAS
DIAGRAMA DE SECTORES O DE PASTEL
PICTOGRAMA
HISTOGRAMA
3.2 FRECUENCIAS ACUMULADAS
POLGONO DE FRECUENCIAS

4. MEDIDAS DESCRIPTIVAS
4.1 MEDIDAS DE POSICIN
4.1.1 MEDIDAS DE TENDENCIA CENTRAL
MEDIA ARITMTICA
MEDIANA
MODA
MEDIA GEOMTRICA
MEDIA ARMNICA
4.1.2 MEDIDAS DE POSICIN NO CENTRALES: CUANTILES
PERCENTILES
CUARTILES
DECILES
4.1.3 MOMENTOS
MOMENTOS RESPECTO AL ORIGEN
MOMENTOS CENTRALES O RESPECTO A LA MEDIA
4.2 MEDIDAS DE DISPERSIN
4.2.1 MEDIDAS DE DISPERSIN ABSOLUTAS
VARIANZA
DESVIACIN TPICA
CUASI-VARIANZA
DESVIACIN MEDIA RESPECTO A LA MEDIA
DESVIACIN MEDIA RESPECTO A LA MEDIANA
RECORRIDO O RANGO MUESTRAL
RECORRIDO INTERCUARTLICO
4.2.2 MEDIDAS DE DISPERSIN RELATIVAS
COEFICIENTE DE VARIACIN DE PEARSON
4.3 OTRAS MEDIDAS DESCRIPTIVAS
4.3.1 TIPIFICACIN DE UNA DISTRIBUCIN DE FRECUENCIAS
4.3.2 MEDIDAS DE FORMA
A: Medidas de ASIMETRA
COEFICIENTE DE ASIMETRA DE FISHER
COEFICIENTE DE ASIMETRA DE PEARSON
B: Medidas de APUNTAMIENTO O CURTOSIS
COEFICIENTE DE APUNTAMIENTO DE FISHER
4.3.3 MEDIDAS DE CONCENTRACIN
NDICE DE CONCENTRACIN DE GINI
CURVA DE LORENZ
5. TRANSFORMACIONES LINEALES
5.1 EN LA MEDIA
5.2 EN LA MEDIANA
5.3 EN LA VARIANZA
5.4 EN LA DESVIACIN TPICA





















TEMA 1 :
DESCRIPCIN DE UNA MUESTRA


1. INTRODUCCIN

Ejemplo 1

El gobierno desea averiguar si el nmero medio de hijos por familia ha
descendido respecto a la dcada anterior. Para ello ha encuestado a 50 familias
respecto al nmero de hijos y ha obtenido los siguientes datos:

2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1

Ejemplo 2


Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir el
precio de sus habitaciones, el gerente investiga los precios por habitacin de 40
hoteles de la misma categora de esta ciudad. Los datos obtenidos (en miles de
pesetas) fueron:
3.9 4.7 3.7 5.6 4.3 4.9 5.0 6.1 5.1 4.5
5.3 3.9 4.3 5.0 6.0 4.7 5.1 4.2 4.4 5.8
3.3 4.3 4.1 5.8 4.4 3.8 6.1 4.3 5.3 4.5
4.0 5.4 3.9 4.7 3.3 4.5 4.7 4.2 4.5 4.8


1.1 DEFINICIN DE ESTADSTICA: es la ciencia que se encarga de la
recopilacin, representacin y el uso de datos sobre una o varias caractersticas
de inters para, a partir de ellos, tomar decisiones o extraer conclusiones
generales.


1.2 MODELO ESTADSTICO:
- PASO 0: Planteamiento del problema en trminos precisos: mbito de
aplicacin (poblacin) y caracterstica(s) a estudio (variable(s))
- PASO 1: Recogida de datos de la poblacin de inters (MUESTREO)
- PASO 2: Organizacin, Presentacin y Resumen de los datos (o de la
muestra).(ESTADSTICA DESCRIPTIVA).
- PASO 3: Confeccin de modelos matemticos. (TEORA DE LA
PROBABILIDAD).
- PASO 4: Obtener conclusiones generales o verificar hiptesis (INFERENCIA
ESTADSTICA).

1.3 ESTADSTICA DESCRIPTIVA: es la parte de la estadstica que se encarga de
organizar, resumir y dar una primera descripcin (sin conclusiones generales) de
los datos.
1.4 CONCEPTOS BSICOS:

POBLACIN: Es el conjunto de individuos o entes sujetos a estudio (En nuestro
caso las poblaciones seran: en el ejemplo primero el conjunto de todas las
familias espaolas y en el segundo ejemplo el conjunto de todos los hoteles de
esta categora de esta ciudad.). Algunas poblaciones son finitas y pueden
conocerse; otras pueden ser infinitas y abstractas: Ej: el conjunto de todos los
hoteles o el conjunto de todas las piezas fabricadas por una mquina.

VARIABLE: Caracterstica que estamos midiendo (Ej 1: nmero de hijos, Ej 2:
precio de la habitacin) Las variables se suelen denotar por letras maysculas: X,
Y,...
Tipos de variables:
1. Cualitativas o Categricas: aquellas que no son medibles, es decir, aquellas
cuyas observaciones no tienen carcter numrico. Expresan cualidades o
categoras. Ej.: estado civil, sexo o profesin.(A las variables cualitativas
tambin se les llama atributos).

2. Cuantitativas: aquellas que son medibles, es decir sus observaciones tienen
carcter numrico. Estas se dividen a su vez en:
* Discretas: toman valores en un conjunto numerable.
Ej.: Nmero de habitaciones de un hotel, nmero de hijos de una
familia, nmero de obreros de una fbrica.
* Continuas: toman valores en un conjunto no
numerable (los nmeros reales o un intervalo). Ej.: peso, estatura .

NOTA: La distincin entre variables discretas y continuas es ms
terica que prctica, puesto que la limitacin de los aparatos de medida hace que
todas las variables se comporten como discretas cuando se pretende observarlas.
De momento haremos ms flexible el concepto de variable continua considerando
continua a aquella variable que toma un gran nmero de valores diferentes, en
este sentido podemos considerar la variable precio de la habitacin como
continua.

MUESTRA: Es un conjunto finito de elementos seleccionados de la poblacin. (las
50 familias, los 40 hoteles)

TAMAO MUESTRAL: nmero de observaciones en la muestra. Habitualmente
se denotar por n.

DATO: cada valor observado de la variable. Si representamos por X a la variable,
representaremos por x
i
cada dato diferente observado en la muestra, el subndice
i indica el lugar que ocupa si los ordenamos de menor a mayor.
Ej1: x
1
=0, x
2
=1
Ej2: x
1
=3.3, x
2
=3.7
Denotaremos por k al nmero de valores distintos.



2. DISTRIBUCIONES DE FRECUENCIAS

Observando los datos del ejemplo es fcil adivinar cual ser el primer paso en
la organizacin de los datos; consistir en agrupar aquellos datos que se repiten
varias veces. Tenemos las siguientes definiciones:

2.1 FRECUENCIA ABSOLUTA (n
i
): es el nmero de veces que se repite un determinado
valor (x
i
) de la variable. Ej1: para el dato x
1
=0 n
1
=2, para el dato x
4
=3 n
4
=15.

PROPIEDAD: la suma de todas las frecuencias absolutas es igual al tamao
muestral.

Este tipo de frecuencias no son comparables con las obtenidas en otras
muestras de distinto tamao.

2.2 FRECUENCIA RELATIVA (fi): es igual a la frecuencia absoluta dividida por el
nmero total de datos, es decir por el tamao muestral f
i
=n
i
/n. Ei1.: f
1
=2/50=0.04,
f
4
=15/50=0.3

PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad.

2.3 FRECUENCIA ACUMULADA (N
i
): Nos dice el nmero de datos que hay
igual o inferiores a uno determinado. Se calcula: N n N n
i j i i
j
i
= = +

=
1
1

Ej1: N
1
=2, N
4
=42.

PROPIEDAD: La ltima frecuencia acumulada absoluta es el tamao muestral.

2.4 FRECUENCIA RELATIVA ACUMULADA (F
i
): Es el resultado de dividir
cada frecuencia acumulada por el nmero total de datos F
N
n
f
i
i
j
j
i
= =
=

1

Ej1: F
1
=0.04, F
4
=42/50=0.84.

PROPIEDAD: La ltima frecuencia relativa acumulada es la unidad.


2.5 TABLA DE FRECUENCIAS :
Llamamos as a una tabla conteniendo el conjunto de diferentes valores que ha
tomado una variable (los datos sin repetir) ordenados de menor a mayor con sus
correspondientes frecuencias.







Ejemplo 1:

x
i
n
i
f
i
N
i
F
i

0 2 0.04 2 0.04
1 4 0.08 6 0.12
2 21 0.42 27 0.54
3 15 0.3 42 0.84
4 6 0.12 48 0.96
5 1 0.02 49 0.98
6 1 0.02 50 1


Cul es el nmero de familias que tiene como mximo dos hijos?
en la columna de las n
i
: 2+4+21=27 en la columna de las N
i
: N
2
= 27
Cuntas familias tienen ms de 1 hijo pero como mximo 3?
en la columna de las n
i
: 21+15=36 en la columna de las N
i
: 42-6=36
Qu porcentaje de familias tiene ms de 3 hijos?
en la columna de las f
j
: 0.12+0.02+0.02=0.16, que supone un 16% en la
columna de las F
i
: 1-0.84=0.16, 16%


Ejemplo 2:

x n
i
f
j
N
i
F
j

3.6 2 0.05 2 0.05
3.7 1 0.025 3 0.075
3.8 1 0.025 4 0.1
3.9 3 0.075 7 0.175
4 1 0.025 8 0.2
4.1 1 0.025 9 0.225
4.2 2 0.05 11 0.275
4.3 4 0.1 15 0.375
4.4 2 0.05 17 0.425
4.5 4 0.1 21 0.525
4.7 4 0.1 25 0.625
4.8 1 0.025 26 0.650
4.9 1 0.025 27 0.675
5 2 0.05 9 0.725
5.1 2 0.05 31 0.775
5.3 2
5.4 1
5.6 1
5.8 2
6 1
6.1 2

LA TABLA ES ENORME!



2.6 DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS

Hemos visto en el caso anterior que los valores distintos que tomaba la variable
eran muchos, es decir k era grande y eso haca que la tabla obtenida fuera muy
poco manejable y por tanto poco clarificadora. Esto nos va a ocurrir
frecuentemente en el caso en que la variable a estudiar sea continua. La solucin
es agrupar los diferentes valores de la variable en intervalos o intervalos de
clase. Teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en
informacin, con lo que los resultados sern aproximados.
Agrupar en intervalos de clase consiste en agrupar los datos en un nmero
relativamente pequeo de intervalos que cumplan:
No se superpongan entre s, de forma que no exista
ambigedad con respecto a la clase a que pertenece una
observacin particular.
Cubran todo el rango de valores que tenemos en la muestra.

Llamaremos:
- A las fronteras del intervalo, lmites inferior y superior de la clase y los
denotaremos por L
i-1
, L
i
.
- Marca de clase (c
i
) al punto medio del intervalo, es decir, al promedio
aritmtico entre el lmite inferior y superior : c
L L
i
i i
=
+
1
2
.Es el valor que
tomamos como representativo.
- Amplitud (a
i
) a la diferencia entre el extremo superior e inferior: a
i
= L
i
- L
i-1
.
- Al nmero de observaciones de una clase se le llama frecuencia de clase
(n
i
), si dividimos esta frecuencia por el nmero total de observaciones, se llama
frecuencia relativa de clase (f
i
), y del mismo modo que lo hacamos para datos
sin agrupar definiramos N
i
, y F
i
.

NOTA: COMO CONSTRUIR UNA DISTRIBUCIN DE FRECUENCIAS
AGRUPADA EN INTERVALOS

1. Empezamos determinando el recorrido de la variable o rango de valores
que tenemos en la muestra. Se define como la diferencia entre el mayor y el
menor valor de la variable. Re=x
k
-x
1


2. Nmero de clases: depende del tamao de la muestra. Para muestras de
tamao moderado, n <50, se suele elegir un nmero de clases igual a n , o bien
se usa la formula de Sturtges, (se toma el resultado de calcular el logaritmo de n ,
dividir por el
logaritmo de 2 y sumar 1:
m
n
= +
log( )
log( ) 2
1
); en general el nmero de clases no
d
e
b
e

sobrepasar de 15 20, en casos de muestras muy grandes.

3. Determinamos la amplitud de lo intervalos. Es ms cmodo que la amplitud de
todas las clases sea la misma (siempre que sea posible), si es
a
n de ervalos
i
=
Re
int


NOTA: Tomaremos como regla, a no ser que se indique lo contrario, coger el
intervalo cerrado por la izquierda y abierto por la derecha .

Ejemplo 2:
El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto Re=2.8.
N=40, cogemos 6 clases.
a=2.8/6=0.467.
Como la amplitud es un nmero con muchos decimales, los intervalos
quedarn poco clarificadores, podemos hacer lo siguiente :Para que los intervalos
nos queden con amplitud 0.5 cogeremos como primer valor 3.25 en vez de 3.3 y
como ltimo 6.25 en vez de 6.1 de esta manera: Re=6.25-3.25=3 y amplitud=
3/6=0.5.
As pues una posible tabla sera:


[L
i-1
,L
i
) c
i
n
i
f
i
N
i
F
i

[3.25, 3.75) 3.5 3 0.075 3 0.075
[3.75, 4.25) 4 8 0.2 11 0.275
[4.25, 4.75) 4.5 14 0.35 25 0.625
[4.75, 5.25) 5 6 0.15 31 0.775
[5.25, 5.75) 5.5 4 0.1 35 0.875
[5.75, 6.25) 6 5 0.125 40 1

Cuantos hoteles tienen un precio entre 3.25 y 3.75? 3
Cuantos hoteles tienen un precio superior a 4.75? 15
Que porcentaje de hoteles cuestan como mucho 4.25? 27.5 %

3. MTODOS GRFICOS
La forma de la distribucin de frecuencias se percibe ms rpidamente
y quizs se retiene durante ms tiempo en la memoria si la representamos
grficamente.

3.1 FRECUENCIAS NO ACUMULADAS

DIAGRAMA DE BARRAS: Es la representacin grfica usual para variables
cuantitativas sin agrupar o para variables cualitativas. En el eje de ordenadas
representamos los diferentes valores de la variable (x
i
). Sobre cada valor
levantamos una barra de altura igual a la frecuencia (absoluta o relativa).
0
20
40
60
80
100
120
140
160
180
1er
trim.
2do
trim.
3er
trim.
4to
trim.



DIAGRAMA DE SECTORES O DE PASTEL: Es el ms usual en
variables
cualitativas. Se representan mediante crculos. A cada valor de la variable se
le
asocia el sector circular proporcional a su frecuencia.


Para hallar el ngulo usamos la siguiente proporcin : al tener una
circunferencia 360 , el cociente entre la frecuencia absoluta (o relativa) total y la
frecuencia absoluta (o relativa) que queramos representar ser igual al cociente
entre los 360 de la circunferencia y el ngulo a determinar, as :

n
n f
i i
= =
360 1 360
o o


donde o es el ngulo a determinar.

Ejemplo 3: Los siguientes datos corresponden a una encuesta referente a
elecciones locales de un partido poltico:



x
i
f
i


favor 0.5

en contra 0.4 0.4

abstencin 0.1

Diagrama de sectores o pastel
xi
a favor
abstencin
en contra
50,00%
10,00%
40,00%




PICTOGRAMA: Se usa tambin para variables cualitativas, expresan con dibujos alusivos
al tema de estudio las frecuencias de las modalidades de la variable. Estos grficos se
hacen representando en diferentes escalas el mismo dibujo. La escala de los dibujos tiene
que ser tal que el rea de cada uno de ellos sea proporcional a la frecuencia de la
modalidad que representa.

Ejemplo 4: Ante un estudio sobre un tema concreto , buscaramos un dibujo, (como el
siguiente), decidiramos el tamao del rea correspondiente a un valor y a partir de l, y
proporcionalmente, asignaramos al mismo dibujo el tamao de rea que explicara su
frecuencia.




HISTOGRAMA: Es la representacin grfica equivalente al diagrama de barras para
datos agrupados, en el eje de ordenadas representarnos las clases y levantarnos sobre
cada clase rectngulos unidos entre s de altura igual a la frecuencia de la clase
(absolutas o relativas)

Ejemplo:

altura
frecuencias
2 4 6 8
4
8
12
16
20
24





El histograma o diagrama de barras proporcionan mucha informacin
respecto a la estructura de los datos (y si la muestra es representativa de la
poblacin, respecto a la estructura de la poblacin): el valor central de la
distribucin, su dispersin y la forma de la distribucin. Cuando nos encontramos
en distribuciones donde los intervalos no tienen la misma amplitud, las barras del
histograma tienen que tener un rea proporcional a la frecuencia que queramos
representar

3.2. FRECUENCIAS ACUMULADAS

POLGONO DE FRECUENCIAS: Es la representacin habitual para datos
cuantitativos agrupados de las frecuencias acumuladas (absolutas o relativas),
mediante puntos se representan las frecuencias en el eje de ordenadas y la marca
de clase en el de abscisas. Despus se unen estos puntos por trozos de rectas.

Ejemplo 2:

precio
porcentaje
3,1 4,1 5,1 6,1 7,1
20
40
60
80
100




4 MEDIDAS DESCRIPTIVAS

Para datos cualitativos, la distribucin de frecuencias proporciona un resumen
conciso y completo de la muestra, pero para variables cuantitativas puede
complementarse este resumen utilizando medidas descriptivas numricas
extradas de los datos.

Las medidas descriptivas son valores numricos calculados a partir de la
muestra y que nos resumen la informacin contenida en ella. En la parte de
inferencia estadstica les llamaremos estadsticos.

4.1 MEDIDAS DE POSICIN

Nos dan el valor que ocupa una determinada 'posicin" respecto al resto de
la muestra.

4.1.1 MEDIDAS DE TENDENCIA CENTRAL

Nos dan un centro de la distribucin de frecuencias, es un valor que se
puede tomar como representativo de todos los datos. Hay diferentes caminos para
definir el "centro" de las observaciones en un conjunto de datos. Por orden de
importancia, son:


MEDIA ARITMTICA: (o simplemente media). es el promedio aritmtico de las
observaciones, es decir, el cociente entre la suma de todos los datos y el numero de ellos
(Teniendo en cuenta que si un valor se repite hay que considerar estas repeticiones)
x
x n
n
i i
i
=


Si los datos estn agrupados utilizamos las marcas de clase, es decir c
i
en
vez de x
i
.
Es la medida de centralizacin ms importante.

Ejemplo 1: x=
+ + + 0 2 1 4 6 1
50
* * ... *
=2.52
Ejemplo 2: 4.6875

PROPIEDADES

1. La suma de las diferencias de los valores de la variable y la media es cero.

( ) x x n
i i
i
=

0

2.La suma de las desviaciones al cuadrado de los valores de la variable respecto a
una constante k cualquiera, se hace mnima cuando esa constante es la media. Es
decir:

( ) ( )
x x n x k n
i i i i
i i
s

2
2
, para cualquier constante k.


MEDIANA (Me):es el valor que separa por la mitad las observaciones ordenadas
de menor a mayor, de tal forma que el 50% de estas son menores que la mediana
y el otro 50% son mayores. Si el nmero de datos es impar la mediana ser el
valor central, si es par tomaremos como mediana la media aritmtica de los dos
valores centrales.
Distinguiremos entre distribuciones no agrupadas y distribuciones
agrupadas:

DISTRIBUCIONES NO AGRUPADAS:
- Calculamos n/2.
- Se busca en la tabla N
i-1
<n/2 < N
i
(es decir aquel valor cuya frecuencia acumulada ms
se acerca a n/2 por arriba).
-Si n/2<N
i
la mediana es aquel valor de la variable cuya frecuencia cumulada es N
i

es decir: Me=x
i
tal que n/2 <N
i

-Si n/2=N
i
la mediana ser la media aritmtica de aquellos valores cuya
frecuencia acumulada es N
i
y N
i+1
respectivamente, es decir: Me=(x
i
+x
i+1
)/2

tal que N
i
=n/2


Ejemplo 1:
n=50
n/2=25
N
2
=6<25<27=N
3

como 25< N
3
=27 entonces Me=x
3
=2



DISTRIBUCIONES AGRUPADAS
- Se calcula n/2.
- Se busca en la tabla el intervalo, [L
i-1
, L
i
), que cumple N
i-1
<n/2<N
i
( a este
intervalo lo llamamos intervalo mediano).
- A continuacin para encontrar la mediana, aplicaremos la siguiente frmula:

Me L
n
N a
n
i
i i
i
= +

|
\

|
.
|

1
1
2


El razonamiento es el siguiente: La frecuencia acumulada hasta el intervalo
anterior al mediano es N
i-1
; para llegar a la mitad de los datos, es decir, n/2
necesitamos tomar n/2 - N
i-1
del intervalo mediano, el cual tiene n
i
datos repartidos
en una amplitud a
i
; como a cada dato le corresponde una longitud a
i
/ n
i
, a los
n/2 - N
i-1
datos les corresponder

n
N a
n
i i
i
2
1

|
\

|
.
|


Ejemplo 2:
n=40
n/2=20
N
2
=11<20<25=N
3
el intervalo mediano es el intervalo [L
i-1
, L
i
)=[4.25,4.75) con lo que

Me= +

|
\

|
.
|
= 4 25
40
2
11 0 5
14
4 57 .
.
.

PROPIEDAD: La mediana hace mnima la suma de todas las desviaciones absolutas de
los valores de la variable respecto a una constante k cualquiera. Es decir,
x Me n x k n
i
i
i i
i
i
s


para cualquier constante k.
MODA (M
0
) es el valor de la variable que ms veces se repite, es decir, aquella
cuya frecuencia absoluta es mayor. No tiene porque ser nica. Distinguiremos:

DISTRIBUCIONES NO AGRUPADAS
Simplemente observamos en la columna de las frecuencias absolutas y
aquel o aquellos valores (no tiene porque ser nica) de la variable a los que
corresponde la mayor frecuencia ser la moda. Cuando encontramos dos modas
decimos que es una distribucin bimodal, tres, trimodal, etc.

Ejemplo1 M
0
=2



DISTRIBUCIONES AGRUPADAS
Es importante distinguir aqu tambin entre intervalos de igual amplitud, o
distribuciones de frecuencias donde los intervalos no tengan la misma amplitud.

Intervalos de igual amplitud.

Observando las frecuencias absolutas, determinamos el intervalo con
mayor frecuencia [L
i-1
,L
i
), a este intervalo le llamaremos intervalo modal.
A continuacin para encontrar la moda aplicamos la siguiente frmula:
Mo L
n
n n
a
i
i
i i
i
= +
+

+
+
1
1
1 1

El razonamiento es el siguiente: Consideramos los intervalos anterior y
posterior al modal, con frecuencias n
i
y n
i-1
. Si estas frecuencias son iguales, la
moda sera el centro del intervalo modal, en caso contrario, la moda estara ms
cerca de aquel intervalo contiguo cuya frecuencia es mayor, es decir, las
distancias de la moda a los intervalo contiguos son inversamente proporcionales a
las frecuencias de dichos intervalos. Como consecuencia M
0
=L
i-1
+m con:

m
a m
n
n
i
i
i

=
+

1
1

Despejando m y sustituyendo obtenemos la frmula anterior.

Ejemplo 2: El intervalo modal es [L
i-1
,l
i
)=[4.25,4.75), la moda ser:

Mo= +
+
= 4 25
6
8 6
0 5 4 46 . . .

Intervalos de distinta amplitud.
Tendremos que hallar en primer lugar la densidad de frecuencia de cada
intervalo que se define como: d
i
= n
i
/ a
i
.
El intervalo modal [L
i-1
,L
i
) ser ahora el intervalo con mayor densidad de
frecuencia y para hallar la moda de nuevo aplicamos la frmula anterior pero
sustituyendo las frecuencias por las densidades de frecuencia:
Mo L
d
d d
a
i
i
i i
i
= +
+

+
+
1
1
1 1



NOTA:COMPARACIN ENTRE MEDIA, MODA Y MEDIANA

Estas tres medidas de tendencia central son las ms importantes y las ms
usuales. Cuando utilizamos una u otra?

- La media es la mejor por que utiliza toda la informacin, es decir, tiene en
consideracin todos los valores de la distribucin, tiene tambin como ventaja
que es nica. Como desventaja ms importante est el hecho de que es muy
sensible a la presentacin de datos anmalos o atpicos que hacen que la
media se desplace hacia ellos y como consecuencia no es recomendable usar
la media en estos casos. Otra desventaja es que puede no coincidir con uno de
los valores de la variable.

- La mediana utiliza menos informacin que la media puesto que no depende de
los valores de la variable sino del orden que ocupa. Por este motivo tiene la
ventaja de no estar afectada por observaciones extremas. La mediana la
utilizaremos cuando la media falle. Otra ventaja frente a la media es que es un
valor de la variable.

- La moda es la que menos informacin maneja y por tanto la peor. Tiene la
ventaja de que puede calcularse incluso para datos cualitativos. Otra desventaja
es que no es nica.

Si la distribucin es simtrica y campaniforme coinciden. En el caso de
distribuciones campaniformes, la mediana est con frecuencia entre la media y la
moda (algo ms cerca de la media). La siguiente relacin nos permite calcular una
de estas medidas de centralizacin en funcin de las otras:
M
O
~3Me - 2 x

Las siguientes medidas de centralizacin tienen un significado estadstico
menos intuitivo y se utilizan en situaciones ms especficas:

MEDIA GEOMTRICA (G) Se define como la raz n-sima del producto de los n
datos. As:
G
i
n
i
n
i
x
=
[

PROPIEDAD:El logaritmo de la media geomtrica es igual a la media aritmtica de
los logaritmos de los valores de la variable.
La media geomtrica se suele emplear para promediar porcentajes, tasas y
nmeros ndices.

MEDIA ARMNICA (H) Se define como el recproco de la media aritmtica de los
recprocos de los datos:
H
n
x
n
i
i
i
=

1

Se suele utilizar para promediar velocidades, rendimientos y en general
magnitudes expresadas en trminos relativos.

NOTA:Si los datos estn agrupados, para calcular las medidas anteriores
utilizamos las marcas de clase, es decir x
i
indicar el punto medio del intervalo.
La relacin existente entre la media, la media geomtrica, y la media
armnica sera:
HsGs x



4.1.2 MEDIDAS DE POSICIN NO CENTRALES: CUANTILES

Los cuantiles son valores de la distribucin que la dividen en partes iguales,
es decir, en intervalos, que comprenden el mismo nmero de valores. Los ms
usados son los cuartiles, los deciles y los percentiles

PERCENTILES. Son 99 valores que dividen en cien partes iguales el conjunto de
datos ordenados.
El percentil de orden p (P
p
) es el menor valor superior al p% de los datos
(ordenados de menor a mayor los datos, deja el p% de datos por delante). La
forma ms cmoda de calcularlos es a partir de las frecuencias acumuladas:

DISTRIBUCIONES NO AGRUPADAS: El percentil p es aquel valor cuya
frecuencia acumulada ms se acerca por arriba al p% de n,es decir:
P
P
=X
i
tal que N
i-1
< pn/100 s N
i



DISTRIBUCIONES AGRUPADAS: Usamos la misma idea que cuando
calculbamos la mediana, buscamos en primer lugar el intervalo [L
i-1
,L
i
) cuya
frecuencia acumulada sea N
i-1
< pn/100 s N
i
, a continuacin para hallar el
percentil aplicamos la siguiente frmula:
P L
pn
N a
n
p i
i i
i
= +

|
\

|
.
|

1
1
100


CUARTILES (C
1
) son los tres valores que dividen al conjunto de datos ordenados
en cuatro partes iguales, son un caso particular de los percentiles:

C
1
=P
25

C
2
=P
50
C
3
=P
75
.

Ejemplo 1:

C P N E C
C P N E C
C P N E C
i
i
i
1 25 1
2 50 2
3 75 3
25 50
100
10 2
50 50
100
20 2
75 50
100
30 3
= =
|
\

|
.
|
= =
= =
|
\

|
.
|
= =
= =
|
\

|
.
|
= =
.
.
.


DECILES (D
i
) : Son los nueve valores que dividen al conjunto de datos ordenados
en diez partes iguales, son tambin un caso particular de los percentiles.

D
1
=P
10

D
2
=P
20
..........
D
9
=P
90


NOTA: La Mediana tambin es un caso particular de percentil: Me=P
50




4.1.3 MOMENTOS

Los momentos de una distribucin se definen como una generalizacin de
la media. Como veremos sern la base para describir algunas caractersticas
importantes de la distribucin de frecuencias. Pero lo ms importante de ellos, es
que caracterizan a la distribucin de frecuencias, es decir, dos distribuciones son
iguales si tienen todos sus momentos iguales, y son tanto ms parecidas cuanto
mayor sea el nmero de momentos iguales que tengan.


MOMENTOS RESPECTO AL ORIGEN:Se define el momento de orden r (a
r
)
(r=0,1,2 ) respecto al origen como la media aritmtica de las potencias r-simas
de los datos:
a
x n
n
r
i
r
i
i
=



CASOS PARTICULARES:


a
x n
n
n
n
a
x n
n
x
i i
i
i i
i
0
0
1
1 = = =
= =



MOMENTOS CENTRALES O RESPECTO A LA MEDIA: Se define el momento
de orden r (m
r
) (r=0,1,2 ) respecto a la media como:


( )
m
x x n
n
r
i
r
i
i
=



CASOS PARTICULARES:


( )
( )
m
x x n
n
n
n
m
x x n
n
x x
O
I I
I
I I
I
=

= =
=

= =

0
1
1
0

4.2 MEDIDAS DE DISPERSIN

Las medidas de tendencia central tenan como objetivo el sintetizar
los datos en un valor representativo, las medidas de dispersin nos dirn hasta
que punto estas medidas de tendencia central son representativas como sntesis
de la informacin. Las medidas de dispersin cuantifican la separacin, la
dispersin, la variabilidad de los valores de la distribucin respecto al valor central.
Distinguiremos entre medidas de dispersin absolutas, que no son
comparables entre diferentes muestras y las relativas que nos permitirn comparar
varias muestras.


4.2.1 MEDIDAS DE DISPERSIN ABSOLUTAS

Por orden de importancia tenemos:

VARIANZA ( s
2
) es el promedio del cuadrado de las distancias entre cada
observacin y la media aritmtica del conjunto de observaciones


( )
s
x x n
n
i i
i 2
2
=




Si los datos estn agrupados utilizamos las marcas de clase, es decir C
i
en
vez de X
i
.
En el caso extremo en que todas las observaciones fueran iguales, la media
coincidira con ese valor comn y la varianza sera cero. En general, cuanto ms
dispersas sean las observaciones, mayores sern las diferencias dentro de los
cuadrados y por tanto mayor ser el valor de s
2
.

NOTA: La varianza es el momento de orden 2 respecto a la media: s
2
= m
2
.


PROPIEDADES:

1. La varianza nunca puede ser negativa, s
2
>0.

2. Otra forma ms sencilla de calcular la varianza es:
( ) s
x n
n
x a a
i i
i 2
2
2
2 1
2
= =



Demostracin:

( ) ( )
s
x x
n
x xx x n
n
x n
n
x
x n
n
x n
n
x n
n
xx
x n
n
x n
n
x
i
i
i i i
i
i i
i
i i
i
i
i
i i
i
i
i
i
2
2
2 2 2 2
2
2
2
2
2
2
2
=

=
+
= + =
= + =



Ejemplo 1:

Usaremos la propiedad 2


x
i
n
i
x
i
2
n
i
x
i
2

0 2 0 0
1 4 1 4
2 21 4 84
3 15 9 135
4 6 16 96
5 1 25 25
6 1 36 36
50 380

s
2
= (380/50)-6.35 = 1.25

o directamente:

s
2
= (0
2
*2 + 1
2
*4+........+6
2
*1)/50 -2.52
2
= (380/50 )-6.35 = 1.25

Otras medidas de dispersin directamente relacionadas con la variaza son las dos
siguientes.



DESVIACIN TPICA (S). La varianza vendra dada por las mismas unidades que
la variable pero al cuadrado, para evitar este problema podemos usar como
medida de dispersin la desviacin tpica que se define como la raz cuadrada
positiva de la varianza s s =
2


PROPIEDAD : Se observa a partir de la definicin que s > 0
Ejemplo 1: s=1.12



CUASI-VARIANZA ( s
*2
) Se define de forma muy parecida a la varianza pero dividiendo
por n-1.


( )
s
x x n
n
n
n
s
i i
i *2
=

2
2
1 1





Ejemplo 1: s
*2
= 1.27



DESVIACIN MEDIA RESPECTO A LA MEDIA (D
x
) Se define como el promedio
de las desviaciones en valor absoluto respecto a la media aritmtica:

D
x x n
n
x
i i
i
=


Si toma valores grandes significa que los valores de la variable se distribuirn en
valores alejados de la media.


Ejemplo 1:


x
i
n
i
,x
i
- x, n
i
,x
i
-x,
0 2 2.52 5.04
1 4 1.52 6.04
2 21 0.52 10.92
3 15 0.48 7.2
4 6 1.48 8.88
5 1 2.48 2.48
6 1 3.48 3.48
44.38

D
x
= 44.38/50 = 1.77

DESVIACIN MEDIA RESPECTO A LA MEDIANA (D
Me
) Se define como el
promedio de las desviaciones en valor absoluto respecto a la mediana:

D
x Men
n
Me
i i
i
=



Si D
Me
es grande los valores estn dispersos respecto de la mediana.

Ejemplo 1:

x
i
n
i
,x
i
- Me, n
i
,x
i
-Me,
0 2 2 4
1 4 1 4
2 21 0 0
3 15 1 15
4 6 2 12
5 1 3 3
6 1 4 4
42
D
Me
= 42/50 = 0.84


RECORRIDO O RANGO MUESTRAL (R
e
). Es la diferencia entre el valor de las
observaciones mayor y el menor. R
e
= x
max
- x
min


Ejemplo 1: R
e
= 6-1 = 5

RECORRIDO INTERCUARTLICO (RQ). Es la diferencia entre el primer y el tercer
cuartil.
RQ = C
3
- C
1

Ejemplo 1: RQ = 3-2 =1


4.2.2 MEDIDAS DE DISPERSIN RELATIVAS


COEFICIENTE DE VARIACIN DE PEARSON: Cuando se quiere comparar el
grado de dispersin de dos distribuciones que no vienen dadas en las mismas
unidades o que las medias no son iguales se utiliza el coeficiente de variacin de
Pearson que se define como el cociente entre la desviacin tpica y el valor
absoluto de la media aritmtica
CV
s
x
=
Al hacer el cociente eliminamos las unidades.
CV representa el nmero de veces que la desviacin tpica contiene a la media
aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la
representatividad de la media.


Ejemplo 1: CV=l.12/2.52=0.44



4.3 OTRAS MEDIDAS DESCRIPTIVAS

4.3.1 TIPIFICACIN DE UNA DISTRIBUCIN DE FRECUENCIAS

Supongamos que hacemos la siguiente transformacin a los datos:

z
x x
s
i
i
x
=


es decir, a cada valor de la variable le restamos la media y lo dividirnos por la
desviacin tpica.
Se trata de una transformacin lineal z
i
= a + bx
i
con a=
x
s
x
y b=
1
s
x
.
Usando las propiedades de la media y de la desviacin tpica que aparecen en
el apartado 5 del tema es fcil demostrar que la nueva distribucin de frecuencias
tiene media aritmtica cero y desviacin tpica 1. Diremos entonces que la muestra
o la distribucin de frecuencias est tipificada y a la transformacin anterior se le
llama tipificacin.




4.3.2 MEDIDAS DE FORMA

Comparan la forma que tiene la representacin grfica, bien sea el histograma o el
diagrama de barras de la distribucin, con la distribucin normal.

A: Medidas de ASIMETRA

Nos miden la simetra de la distribucin. Supongamos que hemos representado
grficamente una distribucin de frecuencias: tracemos una perpendicular al eje
de las x por x. Diremos que la distribucin es simtrica si existe a ambos lados el
mismo nmero de valores, equidistantes dos a dos y cada par de puntos
equidistantes con la misma frecuencia.


COEFICIENTE DE ASIMETRA DE FISHER:


( )
g
x x n
ns
m
s
i
i
i
1
3
3
3
3
=

=



S la distribucin es simtrica en el denominador tendremos el mismo nmero
de desviaciones positivas como negativas y por tanto g
1
= 0.
Si g
1
>0 la distribucin es asimtrica positiva o asimtrica a derechas.
Si g
1
<0

la distribucin es asimtrica negativa o asimtrica a izquierdas.












Elemplo 1:



x
i
n
i
x
i
-x (x
i
-x)
3
n
i
(x
i
-x)
3

0 2 -2.52 -16.003 -32.006
l 4 -1.52 -3.512 -14.047
2 21 -0.52 -0.141 -2.953
3 15 0.48 0.11 1.658
4 6 1.48 3.242 19.451
5 1 2.48 15.253 15.253
6 1 3.48 42.144 42.144
29.5
( )
g
x x n
ns
i
i
i
1
3
3
=

=

0.42 >0 luego asimtrica positiva.





COEFICIENTE DE ASIMETRA DE PEARSON: Es mucho ms fcil de calcular
que el anterior pero slo es aplicable a aquellas distribuciones que tienen una sola
moda y cuya distribucin tiene forma de campana. Se define:
A
x M
s
s
o
=



Si la distribucin es simtrica x=M
e
y por tanto A
s
=0. Si A
s
>0 la distribucin
es asimtrica positiva. Si A
s
<0 la distribucin es asimtrica negativa.

Ejemplo 1:
A
s
= (2.52-2)/1.12=0.46


B: Medidas de APUNTAMIENTO O CURTOSIS

Miden la mayor o menor cantidad de datos que se agrupan en torno a la
moda. Solo tienen sentido en distribuciones campaniformes, es decir, unimodales
simtricas o ligeramente asimtricas.
Si para valores prximos a la moda las frecuencias son ms altas que en la
distribucin normal, la grfica ser muy apuntada en esa zona, y se dice que es de
tipo leptocrtico. Cuando son ms bajas que en la distribucin normal se dice que
es de tipo platicrtico. Cuando la distribucin de frecuencias es igual de apuntada
que la normal se dice que es mesocrtica.



COEFICIENTE DE APUNTAMIENTO DE FISHER. Se define como:


( )
g
x x n
ns
m
s
i
i
i
2
4
4
4
4
3 3 =

=



- si g
2
>0 leptocrtica.
- si g
2
<0 platicrtica.
- si g
2
=0 mesocrtica o normal.









Ejemplo 1:


x
i
n
i
x
i
-x (x
i
-x)
4
n
i
(x
i
-x)
4

0 2 -2.52 40.327 80.655
1 4 -1.52 3.512 14.047
2 21 -0.52 0.141 2.953
3 15 0.48 0.11 1.658
4 6 1.48 3.242 19.451
5 1 2.48 15.253 15.253
6 1 3.48 42.144 42.144
127.512


( )
g
x x n
ns
i
i
i
2
4
4
3 =

=1.815>0 leptocrtica.




4.3.3 MEDIDAS DE CONCENTRACIN

Las medidas de concentracin tratan de poner de manifiesto el mayor o
menor grado de igualdad en el reparto total de los valores de la variable. Son por
tanto, indicadores del grado de equidistribucin de la variable. Estas medidas
tienen especial aplicacin a variables econmicas (rentas, salarios, etc.).

Supongamos que tengamos n sujetos cuyos valores de la variable (rentas,
salarios, etc.) son:

x
1
sx
2
sx
3
<...<x
n


nos interesa estudiar hasta que punto la suma total de valores (rentas, salarios,
etc.) esta equitativamente repartida.

Las dos situaciones extremas serian:
1.Concentracin mxima: de los n sujetos, slo uno percibe el total y los dems
nada:

x
1
=x
2
=x
3
=...=x
n-1
=0 y x
n
=0



2.Concentracin mnima o equidistribucin: todos tienen el mismo valor

x
1
=x
2
=x
3
=...=x
n-1
=x
n




NOTA:Hay que tener en cuenta que desde el punto de vista estadstico los
trminos dispersin y concentracin no son opuestos, recordemos que el primero
haca referencia a la variabilidad de los datos con respecto al promedio, mientras
que el segundo, como acabamos de definir, a la no equidad en el reparto de la
suma total de la variable.

NDICE DE CONCENTRACIN DE GINI (I
G
) El ndice de concentracin de Gini se
construye a partir de las siguientes cantidades:

1. Los productos x
i
n
i
que nos indicarn el total percibido (renta total, ganancia total, etc.)
por los n
i
sujetos con valor (renta, ...) x
i
. A este producto le llamaremos riqueza del grupo
y.

2. Las riquezas acumuladas de la variable (u
i
) , se calculan de la siguiente forma:
u
1
=x
1
n
1

u
2
=x
1
n
1
+x
2
n
2

u
3
=x
1
n
1
+x
2
n
2
+x
3
n
3

..............
u
k
=x
1
n
1
+x
2
n
2
+...+u
k
n
k


3. Las riquezas acumuladas (u
i
) las expresamos en tanto por ciento del total u
k
.
q
u
u
x
i
i
k
= 100
4. Las frecuencias relativas acumuladas, expresadas en tanto por ciento:
p
N
n
x F x
i
i
i
= = 100 100

A partir de todo esto se define el ndice de concentracin de Gini mediante la frmula:

( )
I
p q
p
G
i i
i
k
i
i
k
=

=

1
1
1
1

Podemos observar que:
a) Si q
i
= 0, para i=1,2,...,k-1, y q
k
= 0 entonces I
p
p
G
i
i
k
i
i
k
= =
=

1
1
1
1
1 y la concentracin es
mxima.

b) Si para cada i es p
i
=q
i
, I
G
=0 y el reparto es equitativo, ya que cada porcentaje de
individuos posee el mismo porcentaje de riqueza.


CURVA DE LORENZ Una forma de estudiar grficamente la concentracin es mediante
la curva de Lorenz que se construye representado en el eje de abcisas el porcentaje de
frecuencias acumuladas (p
i
) y en el eje de ordenadas los porcentajes acumulados del total
de la variable (q
i
). Al unir estos puntos obtenemos la curva de Lorenz.
Como para p
i
= 0, la grfica pasa por el punto (0,0), y para p
i
= 100% es q
i
= 100%,
la grfica pasa por los puntos O=(0,0) y P(100,100). Por otra parte, al ser p
i
s q
i
, por estar
ordenados los datos en sucesin creciente, la grfica est siempre situada por debajo de
la diagonal del cuadrado o coincidente con ella. En el caso de existir reparto equitativo, es
decir concentracin mnima, la curva coincide con la diagonal (OB), pues en ese caso
p
i
=q
i
. Si la concentracin es mxima la curva de Lorenz estara formada por los lados OA
y OB.












Se demuestra que aproximadamente:
I
Area entre la curva y la diagonal OB
Area del triangulo OAB
G
=

NOTA: COMPARACIN ENTRE LAS DOS MEDIDAS:
Si bien el ndice de Gini tiene la ventaja de resumir la informacin en una sola cifra
y por tanto comparar ms fcilmente que la curva de Lorenz, esta ventaja tiene como
contrapartida el que dos distribuciones con aspecto muy diferente pueden tener el mismo
ndice de Gini.

Ejemplo 1:

x
i
n
i
x
i
n
i
u
i
q
i
F
i
p
i
p
i
- q
i

0 2 0 0 0 0.04 4 4
1 4 4 4 3.17 0.12 12 8.83
2 21 42 46 36.51 0.54 54 17.49
3 15 45 91 72.22 0.84 84 11.78
4 6 24 115 91.27 0.96 96 4.73
5 1 5 120 95.24 0.98 98 2.76
6 1 6 126 100 1 100


I
G
= 49.59 / 348 = 0.142 Lo que nos indica poca concentracin.






5. TRANSFORMACIONES LINEALES

En este apartado veremos como quedan afectadas algunas de las medidas de una
variable cuando le sumamos o multiplicamos alguna cantidad. Es decir, calculamos una
transformacin lineal de la variable original, y de la que obtenemos queremos saber
cuanto vale su media, mediana, varianza y desviacin tpica.

5.1 EN LA MEDIA

1. Si a todos los valores de una variable les sumamos una constante k, la media
aritmtica queda aumentada en esa constante. (La media aritmtica queda
afectada por los cambios de origen).
Es decir, si y
i
= k + x
i
entonces y k x = +
Dem:
y
y n
n
k x
n
k n x n
n
kn
n
x n
n
k x
i i
i
i
i
i
i
i i
i
i i
i
= =
+
=
+
= + = +

( )


2.Si todos los valores de una variable los multiplicamos por una constante k, su
media aritmtica queda multiplicada por la misma constante(La media aritmtica
queda afectada por los cambios de escala).
Es decir, si y
i
= k x
i
entonces y kx =

3. Como corolario de las anteriores, si consideramos la transformacin lineal
y
i
=a+bx
i
siendo a y b dos constantes cualesquiera, la nueva media aritmtica
quedara :

y a bx = +



5.2 EN LA MEDIANA

1. Si a todos los valores de una variable les sumamos una constante k, la mediana
queda aumentada en esa constante. Es decir, la mediana queda afectada por los
cambios de origen.
Es decir, si y
i
=k+x
i
entonces: Me
y
=k+Me
x


2. Si todos los valores de una variable los multiplicamos por una constante k, su
mediana queda multiplicada por la misma constante. Es decir, la mediana queda
afectada por los cambios de escala.
Es decir, si y
i
= k x
i
entonces Me
y
=kMe
x


3. Como corolario de las anteriores, si consideramos la transformacin lineal
y
i
=a+bx
i
siendo a y b dos constantes cualesquiera, la nueva mediana quedara
Me
y
=a+bMe
x




5.3 EN LA VARIANZA

1. Si a todos los valores de una variable les sumamos una constante k, la varianza
no varia. Es decir:
Si y
i
= k + x
i
entonces s
y
2
= s
x
2

2. Si todos los valores de una variable los multiplicamos por una constante k, su
varianza queda multiplicada por el cuadrado de la constante.

Si y
i
= kx

entonces s
y
2
= k
2
s
x
2


3. Como corolario de las anteriores, si consideramos la transformacin lineal
Y
i
=a+bx
i
siendo a y b dos constantes cualesquiera, la nueva varianza quedara

s
y
2
= b
2
s
x
2



5.4 EN LA DESVIACIN TPICA

1. Si y
i
= k + x
i
entonces s
y
= s
x
.
2. Si y
i
= k x
i
entonces s
y
= ,k,s
x
.
3. Si y
i
= a + bx
i
entonces s
y
= ,b,s
x
.

You might also like