You are on page 1of 37

UNIVERSIDAD DE SUCRE

MODULO DE ESTADISTICA
PROGRAMA TECNOLOGIA EN GESTION
EMPRESARIAL
EDWIN VERGARA DIAZ
01/05/2011
MODULO DE ESTADISTICA

TABLA DE CONTENIDO

1. DEFINICIÓN DE CONCEPTOS BASICOS

 Estadística
 División de la estadística
 Población y muestra
 Variables y Tipos de variables
 Escalas de medidas

2. ORGANIZACIÓN DE DATOS

 Tablas de frecuencia
 Tablas de frecuencia variable cualitativa
 Gráficos con variables cualitativas
 Tablas de frecuencia variables discretas
 Gráficos con variables discretas
 Tablas de frecuencia variable continua
 Gráficos con variables continua

3. MEDIDAS DE TENDENCIA CENTRAL

 Introducción
 Media, mediana y moda datos no agrupados
 Media mediana y moda datos agrupados

4. MEDIDAS DE POSICIÓN

 Introducción
 Cuartiles, quintiles. deciles y percentiles datos no agrupados
 Cuartiles, quintiles, deciles y percentiles datos agrupados

5. MEDIDAS DE DISPERSIÓN

 Rango
 Rango intercuartílico
2
MODULO DE ESTADISTICA

 Varianza
 Desviación típica o estándar
 Coeficiente de variación

6. GAFICOS EXPLORATORIOS Y MEDIDAS DE APUNTAMIENTO

 Gráfico de tallo y hojas


 Gráfico de caja (boxplot)
 Coeficiente de asimetría
 Coeficiente de curtosis

1. DEFINICIÓN DE CONCEPTOS BASICOS

¿QUÉ ES ESTADÍSTICA?

A continuación se presentan tres definiciones de distintos autores:

Podríamos definir la Estadística como la ciencia encargada de reunir, organizar, presentar,


analizar e interpretar datos con el fin de obtener unas determinadas conclusiones y tomar unas
determinadas decisiones.(Juan Angel Alejandro 2000)

La estadística es una disciplina que diseña los procedimientos para la obtención de los datos,
como asimismo proporciona las herramientas que permiten extraer la información.
Los métodos estadísticos constituyen uno de los medios por los que el hombre trata de
comprender la generalidad de la vida. Los métodos objetivos y controlados que permiten abstraer
grupos de tendencias de muchos individuos aislados, son llamados métodos estadísticos. Estos
son fundamentalmente los mismos, independientemente de que se apliquen en el análisis de
fenómenos físicos, en el estudio de mediciones educacionales, en el estudio de datos provenientes
de experimentos biológicos, o del análisis cuantitativo del material en economía.(Nociones de
estadística , universidad de Chile 2008)

La estadística trata del diseño de experimentos o encuestas mediante muestras, para obtener una
cantidad determinada de información a un costo mínimo, y del uso de esta información para
hacer inferencias con respecto a una población.

La estadística ayuda al investigador a contestar preguntas como:

 Que técnicas uso para recolectar datos?


3
MODULO DE ESTADISTICA

 Como registro y presento mis datos?


 Que modelos uso para analizar mis datos?
 Como pruebo determinada hipótesis?
 Como diseño un experimento de tal forma que los datos obtenidos sean susceptibles de
analizar con métodos estadísticos?. (Morales Rivera Mario, 2005)

Note que estas definiciones apuntan más a la forma que al objetivo.


Podríamos decir que la estadística es la ciencia que permite validar las hipótesis planteadas en
una investigación.

DIVISION DE LA ESTADISTICA

En general, la estadística se divide en dos ramas:

- Estadística descriptiva,
La estadística descriptiva es un conjunto de procedimientos que tienen por objeto presentar masas
de datos por medio de tablas, gráficos y/o medidas de resumen y es la primera etapa a desarrollar
en un análisis de información.

- Estadística inferencial
Consiste del conjunto de métodos o procedimientos que permiten obtener conclusiones para una
o varias poblaciones a partir del estudio de una parte o partes de ellas (muestras). La principal
herramienta para realizar las generalizaciones es el estudio del comportamiento del conjunto de
las muestras en términos probabilísticos (distribuciones muestrales).

POBLACION:

Es el conjunto universo, compuesto por la totalidad de elementos sobre el cual se pretende hacer
la investigación. El tamaño de la población se simboliza con letra mayúscula N.

MUESTRA:

Es un subconjunto de elementos de la población seleccionados en forma aleatoria. Se suelen


tomar muestras cuando es difícil o costosa la observación de todos los elementos de la población
estadística. El tamaño de la muestra se simboliza con letra minúscula n.

CENSO:

Decimos que realizamos un censo cuando se observan todos los elementos de la población
Estadística.

4
MODULO DE ESTADISTICA

VARIABLES:

De una población se estudian las características. Estas características si varían de elemento en


elemento se denominan variables.

Las variables se clasifican en cuantitativas (numéricas) o cualitativas (atributos):

VARIBLES CUANTITATIVAS:

Son aquellas que se presentan en forma numérica. Por ejemplo: edad, temperatura, ingreso, etc.
A la vez, las variables cuantitativas se clasifican en discretas o continuas.

Las discretas se caracterizan por tomar valores enteros. Ejemplo: Nº de hijos, Nº de cigarros,
cantidad de artículos defectuosos, etc.

Las Continuas se caracterizan por tomar valores reales. Ejemplo: talla, peso, presión sanguínea,
temperatura, etc.

VARIABLES CUALITATIVAS:

Son aquellas que sus distintas categorías o estados no resultan de un proceso de medición por
ejemplo: estado civil, color de ojos, grado de satisfacción, tipo de tallo, grado que cursa, etc.

ESCALAS DE MEDIDAS:

Medir es asignar números o atributos a individuos o cosas de acuerdo con reglas previamente
establecidas. Existen básicamente cuatro escalas de medidas: nominal, ordinal, intervalo y razón.

Escala Nominal

Es el nivel más bajo de medición y se utiliza para clasificar, etiquetar o nominar a los individuos u objetos
por medio de atributos que pueden ser nombres o números. Cuando se asignan números estos no son
susceptibles de operaciones matemáticas puesto que el objetivo es mostrar un código que indique
diferencias. Esta escala establece una relación de equivalencias entre objetos o individuos con igual
característica.

a. El carácter de sexo puede clasificarse en hembras y varones y puede asignarse el número uno (1) para
hembras y el (2) para varones.

b. El estado civil, en el cual los individuos pueden clasificarse en solteros, casados, viudos y separados;
también puede asignarse a los cuatro estados los números 1, 2, 3 y 4.

5
MODULO DE ESTADISTICA

En esta escala se pueden hacer algunas operaciones estadísticas como sacar frecuencias, porcentajes,
modas, y también aplicar algunas pruebas de hipótesis como la chi- cuadrado en el caso de tablas de
contingencia.

Escala Ordinal

En esta escala se asignan números, que además de establecer relación de equivalencia, poseen una
relación de orden (menor que o mayor que) de manera que se asignan números más grandes a los
elementos que posean más de la característica estudiada. Estos números no son susceptibles de
operaciones matemáticas ya que solo permiten diferenciación y el ordenamiento de las categorías de la
variable.

a. El nivel económico de las personas puede medirse, con los atributos alto, medio, bajo y pobre con los
números 4, 3, 2, y 1 de tal forma que se puede establecer la
relación de orden 4 > 3 > 2 > 1.

b. El escalafón de los docentes universitarios los cuales poseen las categorías auxiliar, asistente, asociado
y titular que también podrán señalarse con los números 1, 2, 3 ,4 respectivamente o también usar los
números 2, 4, 6 y 8 sin que pierda sentido o calidad la clasificación. Para analizar este tipo de datos la
medida estadística de tendencia central más apropiada es la mediana, y se pueden aplicar todos los
métodos estadísticos no paramétricos.

Escala de Intervalo

La escala de intervalo utiliza números que además de clasificar y ordenar agrega la posibilidad de
interpretar la diferencia entre dos medidas, mediante el ordenamiento de intervalos iguales.
En esta escala es arbitraria tanto la unidad de medida como el punto cero da la escala. Su propiedad más
importante es que distancias numéricamente iguales representan distancias empíricamente iguales (lo cual
no necesariamente ocurre en la escala ordinal, donde interesa el orden más que la distancia).
La temperatura en grados centígrados es un ejemplo típico de la escala de intervalo. La relación que
podemos establecer entre dos intervalos es independiente de la
unidad de medida usada y del punto cero (o sea, la unidad de medida y el cero son arbitrarios). Esto se
advierte bien cuando comparamos dos escalas distintas de temperatura ( Fahrenheit y Celsius), pudiendo
transformarse una en otra mediante fórmulas de conversión a pesar de tener distintas unidades de medida
y distinta ubicación del punto cero. Por lo tanto la relación de las diferencias en una de las escalas es igual
a la relación de las diferencias equivalentes en la otra escala.

Escala de Razón

Presenta todas las propiedades anteriores, más un punto cero verdadero en su origen. Estamos en una
escala de razón cuando se pueden establecer cuatro tipos de relaciones: equivalencia, mayor o menor que,
relación entre dos intervalos cualesquiera, y relación entre dos valores cualesquiera de la escala. Solo es

6
MODULO DE ESTADISTICA

arbitraria la unidad de medida, pero no el cero. La longitud y el peso son ejemplos típicos de medidas de
razón. (Mario Alfonso Morales Rivera, 2005)

Actividad 1:

Clasifica las siguientes variables según el tipo (cualitativa, discreta o continua):

VARIABLE TIPO
Edad
Estrato
Nivel Educativo
Presión Arterial
Número de artículos defectuosos
Tipo de transporte
Temperatura Corporal
Equipo de futbol favorito
Cantidad de horas laboradas en un día
Cantidad de masa

Clasifica las siguientes variables según la escala de medida:

VARIABLE TIPO
Edad
Estrato
Nivel Educativo
Presión Arterial
Número de artículos defectuosos
Tipo de transporte
Temperatura Corporal
Equipo de futbol favorito
Cantidad de horas laboradas en un día
Cantidad de masa

7
MODULO DE ESTADISTICA

Actividad 2:

Marque la correcta:
1) El objetivo de tomar muestras de una población es obtener conclusiones acerca de:
a) la muestra b) los elementos c) la población d) la investigación
2) La variable caracterizada por expresarse en números enteros y no enteros es la:
a)discreta b)cualitativa c) continua d) ninguna de las anteriores
3) La formula de sturges sirve para hallar:
a)rango b) la muestra c) amplitud d) nº de intervalos
4) las marcas de clase son propias de tablas con variables:
a)discreta b)cualitativa c) continua d) ninguna de las anteriores
5) La frecuencia relativa acumulada tiene como ultimo valor:
a) tamaño de muestra b)tamaño de la población c) 100% d) Valor más grande
6) Aquellas características que no presentan variación se denominan:
a) constantes b) variables c) mixtas d) ninguna de las anteriores
7) Para determinar los intervalos de clase se debe conocer de antemano:
a)amplitud b)rango c) nº intervalos d)muestra
8) Los histogramas son propios de variable:
a)discreta b)cualitativa c) continua d) ninguna de las anteriores
9) la cantidad de cabellos de un grupo de personas es una variable:
a)discreta b)cualitativa c) continua d) ninguna de las anteriores
10) La temperatura es una variable con medida:
a) de razón b) de intervalo c) ordinal d) nominal
11) El nivel de satisfacción con el trabajo es una variable con medida:
a) de razón b) de intervalo c) ordinal d) nominal
12) La distancia recorrida por un vehiculo es una variable con medida:
a) de razón b) de intervalo c) ordinal d) nominal

2. ORGANIZACIÓN DE DATOS
8
MODULO DE ESTADISTICA

Después del proceso de recolección de datos, estos se organizan en tablas o distribuciones de


frecuencias.

Los elementos que componen las tablas de frecuencia son:

Valores de la variable: xi.


En el caso de variables cualitativas y discretas se describen las distintas categorías en forma
individual y en el de la variable continua en forma de intervalos.

Frecuencia absoluta: fi.


Llamamos frecuencia absoluta de un valor xi de la variable estadística X al número de veces
que aparece repetido dicho valor en el conjunto de las observaciones realizadas.

Frecuencia Absoluta Acumulada: Fi


Llamamos frecuencia absoluta acumulada en el valor xi a la suma de las frecuencias absolutas
de los valores inferiores o iguales a él. Evidentemente, los valores xi han de estar ordenados de
forma creciente, como ya se ha indicado, y la frecuencia absoluta acumulada del último valor
será igual a n.

Frecuencia Relativa: hi
Llamamos frecuencia relativa de un valor xi de la variable estadística X al cociente entre la
frecuencia absoluta y el número de observaciones realizadas multiplicado por 100.

Frecuencia Relativa Acumulada: Hi


Llamamos frecuencia relativa acumulada de un valor xi al cociente entre la frecuencia absoluta
acumulada y el número de observaciones realizadas multiplicado por 100. El último valor es
igual a 100%

Marcas de clase yi:


En el caso de la variable continua los datos se organizan por intervalos y las marcas de clase
corresponden a los puntos medios de estos intervalos.

Tablas de frecuencia con variable cualitativa y sus respectivos gráficos

Los elementos de esta tabla son xi, fi y hi.

Ejemplo:

Los siguientes datos corresponden al estado civil de 30 empleados de una empresa.


9
MODULO DE ESTADISTICA

c s s c ul v d c c ul
ul c s c c d d ul c ul
ul c s d ul d c s d ul

ul: Unión libre d: Divorciado(a) c: Casado(a) s: Soltero(a) v: Viudo(a)

Realiza una tabla de frecuencia e interpreta algunos elementos.

Estado civil de 30 empleados de una empresa


Xi: Estado civil fi: Frecuencia absoluta hi: Frecuencia relativa
Soltero(a) 5 16,7
Casado(a) 10 33,3
Unión libre 8 26,7
Divorciado(a) 6 20,0
Viudo(a) 1 3,3
total 30 100%

f3: 8 empleados de la empresa viven en unión libre.

h5: El 3,3% de los empleados encuestados son viudos

Los gráficos más usados para esta variable son los de barra y circulares.

Realicemos estos gráficos con los datos de la tabla anterior.

10
MODULO DE ESTADISTICA

GRAFICO DE BARRA

ESTADO CIVIL DE 30 EMPLEADOS DE UNA


EMPRESA
12

10

0
Soltero(a) Casado(a) Unión libre Divorciado(a) Viudo(a)

GRAFICO CIRCULAR

ESTADO CIVIL DE 30 EMPLEADOS DE


UNA EMPRESA
3%

17% Soltero(a)
20%
Casado(a)

Unión libre

33% Divorciado
27%
(a)

11
MODULO DE ESTADISTICA

Tablas de frecuencia con variable discreta y sus respectivos gráficos

Los elementos de esta tabla son: xi, fi, Fi, hi y Hi

Los siguientes datos corresponden al número de hijos que tienen 25 familias encuestas en el
barrio libertad de Sincelejo.

5 4 3 2 3 1 0 4 5 3
2 2 5 7 4 3 3 2 3 4
2 3 5 4 4

Realiza una tabla de frecuencia e interpreta algunos elementos.

Número de hijos de 25 familias del barrio libertad de Sincelejo.


Xi: número fi: Fi: hi: Hi:
de hijos Frecuencia Frecuencia Frecuencia Frecuencia
absoluta absoluta relativa relativa
acumulada acumulada
0 1 1 4 4
1 1 2 4 8
2 5 7 20 28
3 7 14 28 56
4 6 20 24 80
5 4 24 16 96
6 0 24 0 96
7 1 25 4 100
total 25 100

f3: De las 25 familias seleccionadas 5 tienes 2 hijos.

F5: 20 familia de las 25 encuestadas tienen 4 o menos hijos.

h2: El 4% de las familias encuestadas tienen 1 hijo.

H4: El 56% de las familias encuestas tienen 3 hijos o menos.

Los gráficos más usados para esta variable son los de barra, circulares y los de frecuencia
acumulada.

12
MODULO DE ESTADISTICA

Realicemos estos gráficos con los datos de la tabla anterior.

GRAFICO DE BARRA

Número de hijos de 30 familias del barrio la


libertad de sincelejo
8
7
6
5
4
fi: Frecuencia absoluta
3
2
1
0
0 1 2 3 4 5 6 7

GRAFICO CIRCULAR

Nº de hijos de 25 familias del barrio


libertad de sincelejo.
0
1
2
3
4
5
6
7

13
MODULO DE ESTADISTICA

GRAFICO DE FRECUENCIA ACUMULADA

Nº de hijos de 25 familias del barrio


libertad de sincelejo
30

25

20

15 Fi: Frecuencia absoluta


acumulada
10

0
0 1 2 3 4 5 6 7

Tablas de frecuencia con variable continua y sus respectivos gráficos

Los elementos de eta tabla son: xi agrupados por intervalos, fi, Fi, hi, Hi y yi

Ejemplo:

Los siguientes datos corresponden al peso en Kg de 50 niños seleccionados al azar y que se


encuentran en un programa de alimentación especial.

30 35 32 40 45 44 35 38 34 41
42 45 48 36 37 42 48 46 40 44
45 44 35 32 42 40 37 38 33 31
32 32 41 41 49 48 45 47 46 45
44 42 35 36 32 30 42 48 49 41

Realiza una tabla de frecuencia e interpreta algunos elementos.

Procedimiento:

1) se ordenan los datos en forma ascendente:

14
MODULO DE ESTADISTICA

.30 30 31 32 32 32 32 32 33 34
35 35 35 35 36 36 37 37 38 38
40 40 40 41 41 41 41 42 42 42
42 42 44 44 44 44 45 45 45 45
45 46 46 47 48 48 48 48 49 49

2) Se Halla el rango (R)

R= Xmax. – Xmin.= 49-30= 19Kg.

3) Determinamos el número de intervalos (M)

M = 1+3.3*log(n) (Fórmula de sturges)

M = 1+3.3*log(n) =1+3.3*log(50) = 6.6 ≈ 7 ( Se redondea al entero más cercano)

4) Hallamos la amplitud (A)

A= R/M = 19/7 = 2.7 ≈ 3 (Se redondea al entero mayor)

En este caso son significativas las unidades y por eso se redondea al entero mayor. Si fueran
significativas las decimas se tomaría como amplitud 2,8

Para la construcción de la tabla, el primer intervalo tiene como límite inferior el valor más
pequeño y como límite superior el límite inferior más la amplitud, este primer intervalo es
cerrado a la derecha y a la izquierda. Para la construcción de los demás intervalos se sigue la
secuencia incrementándose siempre el valor de la amplitud, estos intervalos son abiertos a la
izquierda y cerrados a la derecha.

Peso en (Kg) de 50 niños seleccionados al azar.


peso fi: Fi: Frecuencia hi: Frecuencia Hi: Frecuencia yi :
Frecuencia absoluta relativa relativa Marcas
absoluta acumulada acumulada de clase

30-33 9 9 18 18 31,5
33-36 7 16 14 32 34,5
36-39 4 20 8 40 37,5
39-42 12 32 24 64 40,5
42-45 9 41 18 82 43,5
45-48 7 48 14 96 46,5
48-51 2 50 4 100 49,5
15
MODULO DE ESTADISTICA

Interpretemos algunos elementos.

f2 : 7 niños tienen un peso mayor que 33 y menor o igual a 36 Kg.

F3 : 20 niños tienen un peso menor o igual a 39Kg.

h4 : El 24% de los niños tiene un peso mayor que 39 y menor o igual a 42 Kg.

H5 : 82% de los niños tienen un peso menor o igual a 45 Kg.

Los gráficos más usados para esta variable son los Histogramas, polígono de frecuencia y las
ojivas.

Realicemos estos gráficos con los datos de la tabla anterior.

HISTOGRAMA

Peso en (Kg) de 50 niños seleccionados al azar.

14

12

10

Series1
6

0
30-33 33-36 36-39 39-42 42-45 45-48 48-51

16
MODULO DE ESTADISTICA

POLIGONO DE FRECUENCIA

Peso en (Kg) de 50 niños seleccionados al azar.

14

12

10

8
Series1
6

0
0 10 20 30 40 50 60

OJIVA

Peso en (Kg) de 50 niños seleccionados al azar.


60

50

40

30
Series1

20

10

0
0 10 20 30 40 50 60

17
MODULO DE ESTADISTICA

Actividad 3:

Los siguientes datos corresponden al peso (Kg) de pacientes en la U.C.I de adultos en el hospital
regional de Sincelejo.
43 45 48 49 50 54 54 54
55 56 57 58 58 58 59 59
60 62 63 64 65 65 66 66
67 67 67 67 68 68 68 69
70 70 71 72 74 74 75 75

1)Realiza una tabla de frecuencia

2)Interpreta: f4 , F3, h2, H5, y3

3) Realiza un histograma.

3. MEDIDAS DE TENDENCIA CENTRAL

Como su nombre lo indican las medidas de tendencia central son medidas representativas de una
serie de datos que tienden a ubicarse en el centro de estos ya ordenados. Las más usadas son
media mediana y moda, las cuales definiremos para datos no ordenados y ordenados a
continuación:

MEDIDAS DE TENDENCIA CENTRAL DATOS NO AGRUPADOS

MEDIDA DESCRIPCIÓN Y/O FORMULA


Media aritmética, promedio ∑
o simplemente media ( ̅ ) ̅= Se suman los valores y se dividen entre el total
Mediana(Me) Para hallar la mediana ordenamos los valores en forma ascendente
y corresponde al valor central en el caso que se encuentren dos
valores centrales la mediana corresponde al promedio de ellos.
Moda(Mo) La moda corresponde al valor que más se repite. En el caso de que
haya más de uno se dice que no hay moda.

Observaciones:

18
MODULO DE ESTADISTICA

 Estas formulas corresponden al cálculo de las medidas de tendencia central para muestras,
igualmente de esta forma se calculan para la población pero la representación simbólica es
diferente.
 Estas medidas se calculan solamente para variables cuantitativas o numéricas con la
excepción de que la moda se puede hallar para variables cualitativas.

Ejemplo:

Hallar la media, mediana y moda en los siguientes grupos de edades:

HOMBRES 25 26 27 27 30 42 56 58
MUJERES 24 30 31 38 45 49 60

Solución Hombres:


 ̅= = = = 36.375 Años

 Me = = 28.5 Años

 Mo = 27 Años

Solución Mujeres:


 ̅= = = = 39.57 Años

 Me = 38 Años

 Mo = No hay moda

19
MODULO DE ESTADISTICA

Resumiendo tenemos:

MEDIDA HOMBRES MUJERES


Media ( ̅ ) 36.375 Años 39.57 Años
Mediana(Me) 28.5 Años 38 Años
Moda(Mo) 27 Años No hay

Estas medidas nos indican que las mujeres tienen mayor edada que los hombre.

MEDIDAS DE TENDENCIA CENTRAL DATOS AGFRUPADOS

MEDIDA DESCRIPCIÓN Y/O FORMULA


Media aritmética, promedio

o simplemente media ( ̅ ) ̅=
Mediana(Me)
Me = LMe + *A
Moda(Mo)
Mo = LMo + *A

Donde:

LMe : Es el límite inferior del intervalo que contiene a la mediana.

: Es la frecuencia absoluta acumulada anterior a la correspondiente al intervalo medianal

: Es la frecuencia absoluta correspondiente a la mediana


A : Amplitud de intervalo medianal

: Diferencia entre la frecuencia absoluta correspondiente a la clase modal y la inmediatamente


anterior

20
MODULO DE ESTADISTICA

: Diferencia entre la frecuencia absoluta correspondiente a la clase modal y la inmediatamente


superior

Ejemplo:

Hallar la media, mediana y modacon los datos de la tabla anterior sobre el peso de 50 niños.

Peso en (Kg) de 50 niños seleccionados al azar.


peso fi: Fi: Frecuencia hi: Frecuencia Hi: yi :
Frecuencia absoluta relativa Frecuencia Marcas
absoluta acumulada relativa de
acumulada clase
30-33 9 9 18 18 31,5
33-36 7 16 14 32 34,5
36-39 4 20 8 40 37,5
39-42 12 32 24 64 40,5
42-45 9 41 18 82 43,5
45-48 7 48 14 96 46,5
48-51 2 50 4 100 49,5

Solución:


̅= = = = 39.54 Kg

Para hallar la mediana primero hallamos en cociente n/2 o sea, 50/2 = 25, este valor lo buscamos
en la fila de las frecuencias absolutas, la clase medianal corresponde a la que tiene la frecuencia
absoluta inmediatamente mayor o igual a 25 o sea el 32

Me = LMe + *A = 39 + *3 = 40,24 Kg

Para hallar la moda tomamos como clase modal a la que tiene mayor frecuencia absoluta, es
decir, la cuarta

Mo = LMo + *A = 39 + *3 = 41,18 Kg

21
MODULO DE ESTADISTICA

4. MEDIDAS DE POSICION

Las medidas de posición son valores que dividen la distribución de los valores ordenados en las
partes que se requieran así

MEDIDA DESCRIPCION NOTACION


CUARTILES Divide los datos en 4 partes Ci Hay 3 Cuartiles
iguales
QUINTILES Divide los datos en 5 partes Qi Hay 4 Quintiles
iguales
DECILES Divide los datos en 10 partes Di Hay 9 Deciles
iguales
PERCENTILES Divide los datos en 100 Pi Hay 99 Percentiles
partes iguales

PERCENTIL DATOS NO AGRUPADOS

Para referirnos a un percentil lo hacemos así Pi , en donde “i” es el identificador del percentil que
buscamos. Ej. Si buscamos el Percentil 25 será P25.

Para encontrar la ubicación de un percentil, denominamos Li en donde “i” es el identificador del


percentil que buscamos.

Para hallar la posición de cualquier percentil usamos la fórmula:

Lp = (n + 1) P / 100

Ejemplo:

Hallar el P35 en el siguiente grupo de valores.

Hallamos primero la posición del percentil 35


22
MODULO DE ESTADISTICA

L35 = (50+1)35/100 = (51)(.35) = 17.85


El 17 nos indica que está en la 17ª observación.
El 0.85 nos indica que esta al 85% de la distancia entre la 17ª y 18ª observación.
P35 = 29+0.85(31-29) = 30.7.

Interpretación: El 35% de las observaciones están por debajo de 30.7 y el 65% están por
encima.

Para el cálculo de las demás medidas: Cuartiles, quintiles y deciles , usamos las siguientes
equivalencias:

MEDIDA EQUIVALENCIA EJEMPLO


CUARTILES Ci = P25i i: 1,2,3 C3 = P(25)(3) = P75
QUINTILES Qi = P20i i: 1,2,3,4 Q2 = P(20)(2) = P40
DECILES Di = P10i i: 1,2,3,4,5,6,7,8,9 D4 = P(10)(4) = P40

Ejercicio:

Hallar: C1, C4, Q4, D7 con los datos del ejemplo anterior.

PERCENTIL DATOS AGRUPADOS

Cuando los datos se encuentran en forma agrupada y la variable es continua usamos la siguiente
fórmula para hallar el percentil K (Pk) :

Pk = Li +

Ejercicio:

Hallar: C1, C4, Q4, D7 con los datos de la tabla anterior sobre el peso de 50 niños

23
MODULO DE ESTADISTICA

5. MEDIDAS DE DISPERSIÓN

Como su nombre lo indica, miden el grado de variabilidad que posee una serie de valores o lo que
es lo mismo, que tan cercano o alejado se encuentran los valores en la serie. Una medida de
variación alta indica bastante dispersión o heterogeneidad y una medida pequeña indica poca
dispersión u homogeneidad de los valores. Las medidas más usadas son:

 Rango
 Rango intercuartilico
 Varianza
 Desviación típica o estándar
 Coeficiente de variación

MEDIDAS DE DISPERSIÓN DATOS NO AGRUPADOS

MEDIDA DESCRIPCIÓN Y/O FORMULA


Rango(R) Corresponde a la diferencia entre el valor mayor y menor

R= Xmax. – Xmin.

Rango intercuartilico(RI) Corresponde a la diferencia entre el tercer cuartil y el primero

RI= C3 – C1
Varianza(S2)

Desviación típica o
estándar(S)
S=√
Coeficiente de
variación(CV) CV = ̅ *100%

Observaciones:

 Las formulas corresponden al cálculo de las distintas medidas para datos no agrupados
 El rango, el rango intercuartilico y la desviación estándar tienen la misma unidad de
medida que los datos originales.
 La varianza tiene como unidades la que tienen los datos elevado al cuadrado.
 El coeficiente de variación es adimensional, este hecho la hace diferente a las demás en el
sentido de que con esta se pueden comparar la variación que contienen dos series de

24
MODULO DE ESTADISTICA

valores medidos en unidades diferentes, es por esta razón que recibe el nombre de medida
absoluta de variación y las demás medidas relativas de variación.
 El rango tiene la desventaja que para su cálculo tiene en cuenta solamente dos valores lo
que la hace susceptible a estos.
 El rango intercuartilico nos da un intervalo en donde se encuentra el 50% de los valores
centrales.
 Según distintos autores la medida de variación más usada es la desviación estándar.

Ejemplo:

Hallar el Rango, Rango intercuartilico, Varianza, Desviación típica o estándar y

Coeficiente de variación de los siguientes grupos de edades:

HOMBRES 25 34 36 28 43 42 56 42
MUJERES 24 36 21 43 35 37 29 30

SOLUCION:

HOMBRES

 R= 56-25= 31 Años

 RI= 42,75 – 29,5 = 13,25

Esta medida nos indica que entre 29.5 y 42.75 se encuentran ubicados el 50% de los valores
centrales.

L75 = (8+1)*75/100 = 6,75 P75 = C3 = 42+(0.75)*(43-42) = 42,75

L25 = (8+1)*25/100 = 2,25 P25 = C1 = 28+(0.25)*(34-28) = 29,5

Para hallar la varianza hallamos la media de los valores y utilizamos la siguiente tabla auxiliar:

̅ = 38,25 años

25
MODULO DE ESTADISTICA

xi (xi - ̅) (xi - ̅)2


25 -13,25 175,5625
34 -4,25 18,0625
36 -2,25 5,0625
28 -10,25 105,0625
43 4,75 22,5625
42 3,75 14,0625
56 17,75 315,0625
42 3,75 14,0625
suma 669,5

S2 = 669,5/(8-1) = 669,5/7 = 95.64 Años2

 S=√ =√ = 9.78 Años

 CV = ̅*100% = 9.78/38.25*100% =25,57%

MUJERES

 R= 43-21= 22 Años

 RI= 36,75 – 25,25 = 11,5

Esta medida nos indica que entre 25.25 y 36.75 se encuentran ubicados el 50% de los valores
centrales.

L75 = (8+1)*75/100 = 6,75 P75 = C3 = 36+(0.75)*(37-36) = 36,75

L25 = (8+1)*25/100 = 2,25 P25 = C1 = 24+(0.25)*(29-24) = 25,25

Para hallar la varianza hallamos la media de los valores y utilizamos la siguiente tabla auxiliar:

̅ = 31.875 años

26
MODULO DE ESTADISTICA

xi (xi - ̅) (xi - ̅)2


24 -7,875 62,015625
36 4,125 17,015625
21 -10,875 118,265625
43 11,125 123,765625
35 3,125 9,765625
37 5,125 26,265625
29 -2,875 8,265625
30 -1,875 3,515625
368,875

S2 = 368,875/(8-1) 368,875/7 = 57.7 Años2

 S=√ =√ = 7.26 Años

 CV = ̅*100% = 7.26/31.875*100% =22,78%

En resumen tenemos:

MEDIDA HOMBRES MUJERES


Rango(R) 31 Años 22 Años
Rango intercuartilico(RI) 13,25 Años 11.5 Años
2 2
Varianza(S ) 95.64 Años 57.7 Años2
Desviación típica o 9.78 Años 7.26 Años
estándar(S)
Coeficiente de 25.57% 22.78%
variación(CV)
Si comparamos estas medidas en cada grupo se tiene como conclusión que las edades de las
mujeres están menos dispersas que la de los hombres.

Para el caso cuando los datos se encuentran ordenados usamos:

27
MODULO DE ESTADISTICA

MEDIDAS DE DISPERSIÓN DATOS AGRUPADOS

MEDIDA DESCRIPCIÓN Y/O FORMULA


Rango(R) Corresponde a la diferencia entre el valor mayor y menor

R= Xmax. – Xmin.

Se toman por defecto el límite inferior del primer intervalo y el


superior del último
Rango intercuartilico(RI) Corresponde a la diferencia entre el tercer cuartil y el primero

Se usa la fórmula planteada para tal efecto.

RI= C3 – C1
2
Varianza(S ) 2 ∑ ̅
S=

Desviación típica o
estándar(S)
S=√
Coeficiente de
variación(CV) CV = ̅ *100%

Ejemplo:

Hallar el Rango, Rango intercuartilico, Varianza, Desviación típica o estándar y

Coeficiente de variación de la tabla anterior sobre el peso de 50 niños.

Peso en (Kg) de 50 niños seleccionados al azar.


peso fi: Fi: Frecuencia hi: Frecuencia Hi: yi :
Frecuencia absoluta relativa Frecuencia Marcas
absoluta acumulada relativa de
acumulada clase
30-33 9 9 18 18 31,5
33-36 7 16 14 32 34,5
36-39 4 20 8 40 37,5
39-42 12 32 24 64 40,5
42-45 9 41 18 82 43,5
45-48 7 48 14 96 46,5
48-51 2 50 4 100 49,5
28
MODULO DE ESTADISTICA

 R= 51-30= 21 Kg

Pk = Li + = P75 = 42 + = 43,83 Kg

Pk = Li + = P25 = 33 + = 34,5 Kg

 RI= 43,83 – 34,5 = 9,33 Kg

Para hallar la varianza previamente se debe hallar la media para datos agrupados el cual es

̅ = 39,54 Kg y con este valor usamos la siguiente tabla auxiliar:

∑ ̅

S2= = = 1454,86 Kg2

 S=√ √ =38,14 Kg

29
MODULO DE ESTADISTICA

 CV = ̅ *100% = ̅̅̅̅̅̅̅̅̅̅̅̅*100% = 96.46%

Actividad 4:

1) los siguientes datos corresponden a las estaturas (cm) de los equipos de baloncesto femenino y
masculino de la corporación U. DE SUCRE:

MASCULINO 178 185 179 175 176 189 186 187 178 178 175
FEMENINO 169 175 180 184 176 175 172 176 175 174

Para cada grupo determina:

a) La media aritmética
b) La mediana
c) La moda
d) Rango
e) Rango intercuartílico (interpreta)
f) La varianza
g) La desviación típica
h) El coeficiente de variación

Teniendo en cuenta los datos anteriores responde:

I. ¿Cuál grupo es más alto?


II. ¿Cuál grupo es más homogéneo?

2) Los siguientes datos corresponden al peso de una muestra de emplados en la empresa bayer
LTDA.

PESOS ni Ni hi Hi yi
50-55 10
55-60 15
60-65 25
65-70 20
70-75 13
75-80 7

Determina:
a) La media aritmética

30
MODULO DE ESTADISTICA

b) La mediana
c) La moda
d) Rango
e) Rango intercuartílico (interpreta)
f) Percentil 45
g) Percentil 80
h) La varianza
i) La desviación típica
j) El coeficiente de variación

6. GAFICOS EXPLORATORIOS Y MEDIDAS DE APUNTAMIENTO

GRAFICOS EXPLORATORIOS

a) DIAGRAMA DE TALLOS Y HOJAS


El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una
distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta
separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras
restantes (que formará el tallo).

Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de
elaborar, presentan más información que estos.

b) DIAGRAMA DE CAJA Y BIGOTES

Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que
describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal o verticalmente.

MEDIDAS DE DISTRIBUCION O FORMA

a) COEFICIENTE DE ASIMETRIA

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del
punto central (Media aritmética). La asimetría presenta tres estados diferentes [ver figura], cada
uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de
31
MODULO DE ESTADISTICA

asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por
encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen
aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la
media.

El Coeficiente de asimetría, se representa mediante la ecuación matemática,

∑ ̅
g1 = (fórmula para dato no agrupados)
∑ ̅

Donde (g1) representa el coeficiente de asimetría de Fisher, ( ) cada uno de los valores, ( ̅ ) la
media de la muestra. Los resultados de esta ecuación se interpretan:

(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma
cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se
tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).

 (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir
más en la parte izquierda que en la derecha de la media.
 (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir
más en la parte derecha de la media.

32
MODULO DE ESTADISTICA

COEFICIENTE DE CURTOSIS

Esta medida determina el grado de concentración que presentan los valores en la región central de
la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran
concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja
concentración (Platicúrtica).

Para calcular el coeficiente de Curtosis se utiliza la ecuación:

∑ ̅
g2 = -3 (fórmula para dato no agrupados)
∑ ̅

Donde (g2) representa el coeficiente de Curtosis, ( ) cada uno de los valores, ( ̅ ) la media de la
muestra. Los resultados de esta fórmula se interpretan:

(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar


un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5
aprox.).

 (g2 > 0) la distribución es Leptocúrtica


 (g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un
coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma
importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se
requiere que los datos se distribuyan normalmente.

33
MODULO DE ESTADISTICA

Ejemplo:

Los siguientes datos corresponden a las edades (en años) de 10 empleados de una empresa.

25 27 30 35 36 37 40 45 49 50

Con los datos realiza: diagrama de caja, diagrama de tallo y hojas, coeficiente de asimetría y
coeficiente de curtosis (interpreta!)

a) Para la realización del gráfico de caja hallamos: dato menor, dato mayor, primer y tercer
cuartil y la mediana. Los cuales usando las formulas anteriores son: 25, 50, 29.25, 36.5, 46.

Representamos estos valores de la siguiente forma:

Salida del programa R

En este grafico se observa que el 50% de las edades centrales se encuentra entre 29.5 y 46 años,
la mediana con un valor de 36.5 años se encuentra más a la izquierda de la caja lo que indica que

34
MODULO DE ESTADISTICA

el primer 25% central está más concentrado que el 2º. La cercanía de los valores extremo a la caja
indica que no hay edades atípicas en la muestra.

b) Para hacer el gráfico de tallo y hojas separamos las unidades de las decenas así:

2 | 59

3|7

4|6

5|0

Este diagrama nos indica que si elaboramos u diagrama de barra los datos estarán más
concentrados al inicio. En realizada este es un diagrama de barras en donde se pueden apreciar
los datos a la vez.

c) Para hallar el coeficiente de asimetría usamos la siguiente tabla auxiliar:

xi (xi - ̅ ) (xi - ̅ )2 (xi - ̅ )3 (xi - ̅ )4


25 -12,4 153,76 -1906,624 23642,1376
27 -10,4 108,16 -1124,864 11698,5856
30 -7,4 54,76 -405,224 2998,6576
35 -2,4 5,76 -13,824 33,1776
36 -1,4 1,96 -2,744 3,8416
37 -0,4 0,16 -0,064 0,0256
40 2,6 6,76 17,576 45,6976
45 7,6 57,76 438,976 3336,2176
49 11,6 134,56 1560,896 18106,3936
50 12,6 158,76 2000,376 25204,7376
total 682,4 564,48 85069,472

∑ ̅
g1 = g1 = = = 0,10013595
∑ ̅

La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte
izquierda que en la derecha de la media.
35
MODULO DE ESTADISTICA

d) Para hallar el coeficiente de curtosis usamos la siguiente tabla auxiliar:

xi (xi - ̅ ) (xi - ̅ )2 (xi - ̅ )3 (xi - ̅ )4


25 -12,4 153,76 -1906,624 23642,1376
27 -10,4 108,16 -1124,864 11698,5856
30 -7,4 54,76 -405,224 2998,6576
35 -2,4 5,76 -13,824 33,1776
36 -1,4 1,96 -2,744 3,8416
37 -0,4 0,16 -0,064 0,0256
40 2,6 6,76 17,576 45,6976
45 7,6 57,76 438,976 3336,2176
49 11,6 134,56 1560,896 18106,3936
50 12,6 158,76 2000,376 25204,7376
total 682,4 564,48 85069,472

∑ ̅
g2 = -3 = -3 = -1,17318024
∑ ̅

g2 < 0 esto indica que los datos están dispersos y por tanto la distribución de ellos es achatada o
platicurtica.

Actividad 5:

- Los siguientes datos corresponden a la edad (años) de 50 pacientes de un hospital:

15 25 28 33 37 42 50 55 60 72
18 26 29 34 37 43 51 56 61 72
20 26 30 35 38 45 52 57 62 75
22 27 32 36 38 46 53 57 65 76
24 28 33 36 40 48 54 58 70 80

a) Realiza un diagrama de tallo y hojas, interpreta!

b) Realiza un grafico de caja, interpreta!

36
MODULO DE ESTADISTICA

- Los siguientes datos corresponden al peso en Kg de 10 alumnos.


45, 56, 53, 60, 65, 70, 74, 61, 59, 60

Hallar el coeficiente de asimetría y curtosis, interprétalos!.

Bibliografia:

 Juan Ángel Alejandro. Estadística Descriptiva con Minitab., 2000


 Estadística Utilizada en Educación. Universidad de Chile, 2008
 Morales Rivera Mario Alfonso. Estadística I. 2005
 Martínez Bencardino Ciro. Probabilidad y Estadística. Ecoe Ediciones. 2002
 Walpole, Myers, Meyer and Ye. Probabilidad y Estadística. Person Ediciones.2007

37

You might also like