You are on page 1of 93

INSTITUTO TECNOLÓGICO MUNICIPAL

ANTONIO JOSE CAMACHO

ESTADÍSTICA DESCRIPTIVA

RUBEN DARIO CORRALES VELASCO


Estadístico - Esp. Admón. De Empresas

SANTIAGO DE CALI

2007
PROLOGO

Este texto es una ayuda para el estudiante, en su comprensión, facilidad y


aplicación de la ESTADÍSTICA DESCRIPTIVA.

Este texto espera brindar una guía para la exploración y el análisis de información,
sin recurrir a la rigurosidad de la probabilidad.

Gracias a las notas y conocimientos adquiridos en clases, a las que asistía, se ha


podido recopilar y presentar a ustedes este texto, además del aporte de algunos
textos y las notas de clase de Probabilidad y Estadística, dadas durante varios
semestres en diferentes tecnologías.

Se presenta inicialmente las aplicaciones de la Estadística, los conceptos básicos,


la guía metodológica de la investigación estadística y un repaso necesario de
algunos conceptos básicos de matemáticas.

Luego se introduce en la exploración de la información, a través de la tabulación,


graficación y reducción de los datos.

Gracias a la retroalimentación, esta segunda edición del texto espera nuevamente


su valiosa contribución, en el aporte de sugerencias y rectificaciones que puedan
brindar, para su mejoramiento.
A Sandra Ximena y Luz Yoni
Un agradecimiento al Ingeniero Jairo Paneso, por su que hubo pues, y en especial
a los estudiantes que aportaron en clase a lo largo de cinco años y a los que
siguen aportando aún.

A las circunstancias, que me ha brindado el tiempo.


CONTENIDO Pag.

I. Introducción
II. Áreas de Aplicación
III. Terminología Básica en Estadística. Ejercicios
IV. Etapas de la Investigación Estadística. Ejercicio
1. Repaso de Sumatorias
1.1. Algunas propiedades de las sumatorias.
1.2 Ejercicios
2. Descripción de la información muestral
2.1. Tabulación de datos caso atributos
2.1.1.Gráfico circular
2.1.2.Diagrama de Barras
3. Distribución unidimensional de frecuencias
3.1. Caso variable discreta
3.1.1. Función de distribución de frecuencias
3.1.2.Representación grafica
3.1.3.Función Empírica de Distribución Acumulada Relativa
3.1.4.Reducción de datos cuando la variable es Discreta
3.1.4.1. Medidas de tendencia central
3.1.4.1.1.La Media.
3.1.4.1.2. Propiedades de la Media.
3.1.4.1.3.La Mediana
3.1.4.1.4. La Moda.
3.1.4.1.5. La Media Geométrica
3.1.4.1.6.Cuartiles, Deciles y Percentiles
3.1.4.2. Medidas de dispersión
3.1.4.2.1.El Rango
3.1.4.2.2. La Varianza
3.1.4.2.3.Propiedades de la Varianza.
3.1.4.2.4.Desviación estándar y Regla empírica
3.1.4.2.5.Coeficiente de Variación
3.1.5. Medidas de deformación
3.1.5.1.Coeficiente de Asimetría
3.1.6. Medidas de apuntamiento
3.1.6.1.Coeficiente de Curtosis
3.2. Caso variable continua
3.2.1Función de distribución de frecuencias
3.2.2.Tabulación de la Información.
3.2.3.Representación gráfica
3.2.4.Función empírica de densidad
3.2.5.Función empírica de distribución acumulada
3.2.5.1.Aplicaciones de esta función
3.2.6.Reducción de datos para variables continuas
3.2.6.1.Medidas de tendencia central
3.2.6.1.1. La Media
3.2.6.1.2. La Mediana
3.2.6.1.3.La Moda
3.2.6.2.Medidas de dispersión
3.2.6.2.1.La varianza muestral
3.2.6.2.2.Desviación estándar
3.2.6.2.3.Coeficiente de Variación
3.2.7.Coeficiente de Asimetría
3.2.8.Coeficiente de Curtosis
3.2.9.Percentiles
3.3. Ejercicios
Bibliografía
I. INTRODUCCIÓN

La estadística es tanto una disciplina teórica como una herramienta práctica y


como toda ciencia cuantitativa, la estadística emplea las matemáticas como
lenguaje.

La teoría de la estadística está fuertemente ligada a la teoría de la probabilidad,


tanto que se puede decir que esta unión es indisoluble.

Vistas en detalle, las técnicas estadísticas son numerosas y variadas, pero en


suma constituyen un enfoque unificado, sistemático y lógico para el estudio de las
cuestiones humanas y del orden de la naturaleza.

En sus aplicaciones cotidianas, tales técnicas proporcionan a investigadores,


administradores y científicos, recopilaciones descriptivas resumidas de masas de
observaciones. Es decir, en la investigación una persona se encontrará a menudo
en la situación de disponer de tantos datos, que le resulte difícil absorber la
información entera. Puede haber reunido por ejemplo 5.000 datos u observaciones
y preguntarse ¿Qué hago con todo esto?. Con tamaña información habría de
resultar excesivamente difícil, captar intuitivamente lo que los datos contienen.

En una forma u otra, la información ha de reducirse hasta que pueda verse y


analizar lo que ella contiene, resumiéndose con el empleo de medidas de cálculo,
tales como porcentajes, promedios, desviaciones estándar, coeficientes de
variación y correlación, etc.

Todos estos aspectos concernientes a la toma, organización, recopilación,


presentación y análisis de datos, se refieren a la Estadística Descriptiva, la otra
parte de la estadística, se interesa en dos tipos de problemas: La estimación de
los parámetros de la población y las pruebas de hipótesis, Estadística Inferencial
Técnicas Estadísticas.

 Describen y Resumen una colección de datos con propósitos de análisis,


como es el caso de la Estadística Descriptiva.

 Las técnicas que nos permiten tomar decisiones, en condiciones de


incertidumbre con base a unos cuantos datos representativos es la
Estadística analítica.

Los conceptos y las técnicas de la estadística se utilizan actualmente en muchos


campos, donde juegan un papel muy importante, constituyendo una parte integral
tanto de las actividades investigativas, de la recopilación de datos, como de sus
análisis, originados por actividades desarrolladas por instituciones y
organizaciones.

Es posible que un trabajador no necesite conocer de la estadística sino, aquello


que lo faculte para saber cuando se requieren los servicios de un experto y para
poderse comunicar eficazmente con él, cuando trabajen juntos en la planeación,
dirección e interpretación de los resultados de una actividad que requiera la
metodología de esta ciencia.

El profesional que comprenda los conceptos estadísticos y su metodología sacará


mejor provecho de ellos. Este profesional estará preparado para evaluar los
resultados de una investigación y demás informaciones que se obtengan.
II. AREAS DE APLICACION

AGRICULTURA. Experimentos sobre reproducción de plantas y animales,


estudios de la bondad relativa de diversos fertilizantes, insecticidas, etc. Estudio
de métodos para aumentar el rendimiento de las cosechas, conocimiento de
aspectos económicos para la electrificación de granjas, estudio de métodos de
cultivo, distancia entre plantas, niveles de agua y nutrientes, el secado de granos,
definir si hay o no relación entre plantas y nivel de nutrientes, etc.

BIOLOGÍA. Se estudian las reacciones de las plantas y los animales ante


diferentes presiones ambientales y también para investigar la herencia.

NEGOCIOS. Se pueden predecir los volúmenes de ventas, medir las reacciones


de los consumidores ante los nuevos productos, tomar decisiones en cuanto a la
forma de invertir el presupuesto para publicidad y determinar el mejor método para
utilizar las habilidades y aptitudes de sus empleados. Con la planeación se mira al
futuro con los ojos del pasado, se hacen proyecciones de demandas con
información cuantitativa y cualitativa, pues con base en ella se hará la
programación de la producción. Dicha demanda puede ser estimada con modelos
estadísticos de series de tiempo.

SALUD Y MEDICINA. Los resultados que se obtienen en las investigaciones sobre


fármacos se analizan por medio de los métodos estadísticos, para determinar la
efectividad de una vacuna, para determinar la etiología ó historia natural de una
enfermedad, determinando la interrelación entre el agente ó sea, quien la produce,
el ambiente ó sea, donde se produce y el huésped ó sea, en quien se produce, es
posible determinar cual etapa evitar.

La estadística proporciona la distribución de la enfermedad, en grupos con


diversas características socioeconómicas ( Género, edad, condiciones
geográficas, raza, hábitos, etc), para así delimitar las condiciones ambientales y
del huésped, que conduzcan a la explicación de la historia natural de la
enfermedad.

Además hay leyes rigurosas para poder poner una droga en el mercado, debido a
los efectos colaterales, de ahí que haya que diseñar un experimento que
determine niveles de sensibilidad y la dosis adecuada que ataque la enfermedad y
no produzca molestias.

También se debe caracterizar la demanda del servicio de salud hospitalaria, es


importante conocer dicha distribución, ya que es muy variable a través del tiempo,
para así poder determinar los recursos humanos y físicos para su programación.

INDUSTRIA. La calidad es muy importante para las industrias, es factor de


competencia con la apertura de los mercados o globalización de los mercados, es
factor de riesgo de vida en alimentos y drogas.

Controlar el 100% es muy costoso y a veces imposible inspeccionar todo, se


puede diseñar un muestreo de confiabilidad, que arroje resultados confiables, en
las decisiones observando pocos elementos.

ECONOMETRIA. Con base en un modelo de regresión determinar las principales


características socioeconómicas que generen la inflación y como influye cada una
de ellas, al igual que determinar los indicadores económicos que definen el norte
en las empresas y en el gobierno.

ACTUARIAL. Se analizan los riesgos y frecuencias de muertes por grupos y


diferentes variables y así saber ¿cuánto cobrar por una póliza en un determinado
año según la edad?, como lo definen las empresas de seguros.

PSICOLOGÍA. Se mide y compara la conducta, las actitudes, la inteligencia y las


aptitudes del ser humano.
SOCIOLOGÍA. Se utiliza en estudios comparativos de diferentes grupos
socioeconómicos y culturales y en el estudio del comportamiento y las actitudes de
grupo.

INGENIERIA. En este campo y en el de todas las ciencias experimentales, el


empleo de valores estadísticos se hace necesario cuando se efectúan pruebas
rutinarias de laboratorio, al igual que en los trabajos de investigación de
producción y construcción.

Quizás se quiera saber si las pruebas son precisas ó si la variabilidad de los


resultados es mayor que lo esperado, o mayor que en cualquier otra prueba.

Tal vez de desee conocer si un cambio en los ingredientes afecta el resultado,


compara la eficacia de los procesos ó la eficiencia de la máquina.

El conocimiento de la variabilidad de las observaciones, causadas por un cierto


factor nos capacita para saber si en términos económicos, es conveniente
controlar más estrechamente ese factor.
III. TERMINOLOGÍA BASICA EN ESTADÍSTICA

Unidad Estadística: Es el elemento objeto de estudio en una investigación


estadística, por ejemplo, una persona, una familia, una vivienda, un producto
industrial, una fábrica, un árbol, etc.

Observación: Es el valor numérico ó el código asignado a cada característica, por


ejemplo, en la variable número de hijos una observación será 4 hijos, en la
variable ingreso una observación será $1´500.000.

Población: Es el conjunto de todos los posibles elementos que tienen una


propiedad común ó característica.

Muestra: Es cuando se toma solamente una parte bien seleccionada de la


población, la cual debe ser aleatoria y lo más representativa posible.

Muestreo estadístico: Es un método de investigación estadística, que consiste en


obtener resultados y conclusiones validos para la población con base en la
observación de una muestra; Se realiza un muestreo por los costos, imposibilidad
de hacer censo debido a que la población es infinita ó cuando la observación del
elemento implica su destrucción, también por tiempo y por mejor control y
supervisión del trabajo.

Tipos de muestreos: existen dos tipos de muestreos, el aleatorio y el no aleatorio,


entre los no aleatorios están el por conveniencia, el cual es muy sesgado, el de
selección intencional o de juicio, el cual lo hace un investigador de mucha
experiencia y conocimiento de la población en estudio, en algunos casos se logran
muestras muy representativas, el de bola de nieve, el de por cuota, etc.
Los muestreos aleatorios logran controlar el sesgo y el error de muestreo, la
selección de la muestra es al azar, brindando así la misma probabilidad a cada
elemento objeto de estudio de la población, de salir escogido en la muestra.

Por su procedimiento se difieren los muestreos aleatorios, como son: Muestreo


simple aleatorio y sistemático, si los elementos son homogéneos, pero si existe
alguna característica que los diferencie se recurrirá a el muestreo estratificado ó
por conglomerados. Se pueden combinar algunos muestreos en un mismo estudio
(procesos multietápicos).

Error de muestreo: Se produce solo en el muestreo, por la naturaleza aleatoria de


la muestra, lo cual hace que ésta no sea representativa de la población. Está dada
por la diferencia producida por el azar, entre la estimación hecha con base en la
muestra y el valor tomado de la población. Estos errores pueden cuantificarse y
pueden ser limitados en magnitud con muestras más grandes.

Sesgo: Son errores no debido al azar, que hacen que el resultado del muestreo
difiera del verdadero, es de naturaleza sistemática ó sea en el mismo sentido,
generalmente no son cuantificables y a lo sumo se pueden prevenir con medidas
de tipo administrativo al realizar la encuesta.

Algunos sesgos se pueden producir por que no se da respuesta a todas las


unidades de observación, el encuestador hace mal su trabajo, no se enumeran
bien los elementos, se escoge mal el tipo de muestreo y estimación, por errores de
cálculo, omisiones, etc.

Tipos de características a estudiar:

 Cualitativas: Si sus observaciones corresponden a atributos o cualidades de


los objetos en consideración, por ejemplo, el estado civil, la preferencia por
un determinado partido político, el género, variedad de un árbol, sondeos
de opinión en general, las distintas alternativas de una variable cualitativa
se llaman Atributos.

 Cuantitativas: Son aquellas que vienen dadas por mediciones y


observaciones numéricas en los objetos de interés, por ejemplo, El peso, la
edad, el ingreso, costo de construcción, cantidad de madera aprovechable,
etc.

Atributo: Son todos aquellos fenómenos que pueden ser descritos


cualitativamente, es decir, mediante palabras, por ejemplo, la clasificación de
alumnos del tecnológico por ciudad de origen, la clasificación de un grupo árboles
por su variedad, etc.

Variable: Son todas aquellas características ó fenómeno susceptibles de ser


expresados cuantitativamente, es decir mediante números, por ejemplo, el
diámetro de un árbol, el peso de una persona, el ingreso familiar, etc.

Dentro de las variables cuantitativas, se definen dos grupos:

 Variables Discretas: tienen su recorrido numerable con valores enteros, que


no son divisibles en la unidad, por ejemplo: El Número de hijos por familia,
Número de personas que llegan a un banco en una hora pico, la producción
anual de camisas en una fábrica.

 Variables continuas: Cuando existe un valor cualquiera en un intervalo ó


que sea divisible en la unidad, por ejemplo, El peso, la estatura, el ingreso
por familia.

Parámetro de una población: Es una constante numérica que actúa como


indicador, simbolizadas con letras griegas, que define una característica de una
población, por ejemplo, Si la característica de interés es el ingreso por familias,
entonces un parámetro ó constante de interés, que ayuda a definir es el Ingreso
Medio de la población.

Estadígrafo: Es una función numérica dada, evaluada por los datos de una
muestra, actúa como estimador y es simbolizada por letras latinas.

Fuente de información primaria: Es cuando se proporcionan datos originales de


información, producidos por ella misma, por ejemplo, El DANE.

Fuente de información secundaria: Es cuando se trabaja o resume información


publicada por otros, por ejemplo, Boletines informativos sobre Colombia de la
ONU, basados en datos del DANE.

Recolección de información: Es cuando se recopila o produce información no


existente, puede ser por Observación, por entrevista a informantes sobre los datos
de las unidades de observación, por correo y la de registro, como por ejemplo los
nacimientos, defunciones, matrimonios, comercio exterior, etc.

La información de los datos resultantes de las observaciones, se presenta en


diferentes tipos de escalas.

Escala nominal: Cuando se utilizan cualidades para generar categorías y estas no


generan un orden explícito, sólo se usan como una etiqueta, además, cuando se
trabaja en una base de datos se utilizan números para dar nombre o caracterizar
una opción o cualidad y estos números no generan un orden. Ejemplo, Definir cuál
es el color que más le gusta, 1 azul, 2 verde, 3 rojo, 4 amarillo.

Se debe tener presente que las operaciones elementales aritméticas no tiene


resultado lógico, por ejemplo si sumamos 1 + 2 (azul más verde) nos daría 3 que
no equivale a que sea rojo, por lo tanto como la operación aritmética de la suma
no tiene un resultado lógico para este caso, la variable es cualitativa y no
cuantitativa (aunque tenga números)

Escala ordinal: En este caso las categorías generan un orden explícito sirven para
comparar, si se usa una base de datos los números (o códigos) sirven para
nombrar como etiquetas las categorías y comparar.

Ejemplo, Cómo considera el triunfo de la selección Colombia, 1 muy pequeño, 2


pequeño, 3 medio, 4 grande, 5 muy grande, en este caso las operaciones
elementales aritméticas no tienen sentido lógico (por lo cual se define como
cualitativa aunque tenga números), pero las respuestas expresan un orden de
importancia.

Ejemplo, a una persona se le solicita dar valores en orden de importancia de 1 a 4,


al empleo, vivienda, salud y servicios públicos.

A una persona se le solicita dar valores en orden de importancia de 1 a 4, al


empleo, vivienda, salud y servicios públicos.

Escala de intervalo: Las opciones son valores numéricos y estos números se


pueden utilizar para hacer comparaciones de valores, el cero es un valor arbitrario
en una escala y no absoluto

Ejemplo, la temperatura en grados centígrados, si se tiene 0 grados de


temperatura no significa que hay ausencia de temperatura, sino que es un valor
arbitrario en la escala de la temperatura.

También se define que una variable que depende en su resultado de otras estaría
medida en escala de intervalo (adición o resta)
Ejemplo la utilidad es una variable medida en escala de intervalo puesto que ella
depende de dos variables para ser obtenida (ingresos menos egresos), si una
empresa tiene utilidad cero no significa que no hizo nada.

Escala de razón: igual que la escala de intervalos, pero el cero es un punto


natural, absoluto, además se puede expresar con sentido lógico la razón entre dos
valores, por ejemplo, la variable peso corporal, si una persona pesa 100 kilos y
otra persona pesa 50 kilos, tiene sentido decir que una persona es el doble de
pesada que la otra persona. El cero actúa como ausencia de la variable que se
mide, Ejemplo, se consulta el número de hijos por familia y una de las familias
podría decir que tiene cero hijos y significa que no tienen hijos en la familia

TIPOS DE PREGUNTAS

Preguntas abiertas, Se utilizan para expresar una situación o lo que se percibe,


este tipo de pregunta cuando se utiliza una base de datos requiere ser
recodificada
Ejemplo, ¿qué opina usted de la situación del dólar actualmente?

Preguntas dicotómicas, Se utilizan cuando ante una consulta, se requiere que se


de una respuesta de dos opciones posibles
Ejemplo, ¿Cuál es su género?, ¿Usted estudia o trabaja?

Preguntas de opción múltiple con una sola respuesta, Se utiliza cuando la consulta
de interés presenta varias opciones de respuesta, pero, solo una deberá ser
escogida
Ejemplo, ¿Cuál es su estado civil? 1. Casado, 2 Soltero, 3 Unión libre, 4
Separado, 5 Viudo
Preguntas de opción múltiple con múltiple respuesta, Se utiliza cuando la consulta
de interés presenta varias opciones de respuesta, donde todas o algunas o alguna
respuesta puede o pueden ser escogidas
Ejemplo, ¿Con qué tipo de negocio tiene relación comercial su empresa? 1 De
servicios, 2 De producción, 3 De comercio, 4 Otro ¿Cuál?

EJERCICIOS

1. Se tiene un embarque de 1000 cajas con 50 bombillas en cada una. Existe el


interés de conocer el número de bombillas defectuosas en cada caja, ¿cuál es
la población de interés?
2. En un día determinado se elaboraron 200 artículos promocionales y se
etiquetaron como bueno o defectuoso, según cumpliera con las
especificaciones o no, Describa la población de interés.
3. Las tarjetas de circuito impreso se montan con una combinación de montajes
manual y automatizado. Las tarjetas pasan por el proceso de soldado por flujo
casi continua y cada hora se toman cinco de ellas y se analizan con la finalidad
de controlar el proceso, registrando el número de defectos en cada muestra,
¿cuál es la población de interés?
4. Determine la población objetivo ó de interés, del diámetro de los terminales de
un fusible empleado en motores de aviones, el cual es una importante
característica de calidad. Un ingeniero tomó una muestra aleatoria de 25 de
estos terminales de los 1000 producidos en el último año, encontrando que el
99% cumplían con las condiciones de calidad.
5. Clasifique cada una de las siguientes variables, según el tipo, ya sean
cualitativas o cuantitativas (discretas o continuas) y según la escala de
medición.

 La profundidad en la ranura de una pieza


 No de botellas de plástico producidas en un proceso de moldeado
 No de defectos observados en la producción de gabinetes para
computadores
 Tipos de chips para circuitos integrados
 Temperatura interna de un horno durante su uso
 Tiempo que tarda un técnico para reparar una bomba
 Desperdicio de hojas en la fotocopiadora
 Tipos de defectos en tarjetas de circuito impreso
 Elongación de una barra de acero bajo una carga en particular
 Fabricantes de transformadores de alta en la ciudad
 Duración de un transistor
 Técnicas de mezclado de cemento tipo A
 Cantidad de corriente en microamperios en un cinescopio
 Contenido de titanio en una aleación para aviones
 Aceptación de los clientes del servicio de mantenimiento de un taller
mecánico
 Test de conocimiento de un cargo

IV. ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA

1. Definición del problema, justificación, objetivos, revisión bibliográfica, hipótesis


a probar.

2. Definición de la población de interés.

3. Determinar las variables de interés, definiendo las características de la


población que proporcionan la información necesaria para lograr los objetivos.

4. Diseño del estudio, definir si se realiza censo ó muestreo, en caso de ser


muestreo se tiene que definir el tipo, la logística, el tamaño de la muestra, el
error tolerable y el nivel de confiabilidad.
5. Recolección de la información, debe tenerse mucho control, pues los errores
cometidos aquí no se pueden medir estadísticamente, como son la medición, la
trascripción.

6. Procesamiento descriptivo de los datos, se elaboran cuadros y se grafica la


información, además se hallan indicadores, esta es una fase exploratoria.

7. Inferencia Estadística, Es el proceso inductivo que permite inferir sobre la


población, con base en los resultados del muestreo, con ayuda de la
probabilidad que cuantifica los errores y el nivel de confianza y los asocia a los
resultados minimizando la incertidumbre.

8. Conclusiones y planteamientos de nuevas hipótesis, las conclusiones deben


ser claras, mirando sus limitaciones y alcances, observar si con la exploración
de los datos podrían resultar nuevas hipótesis.

EJERCICIO

Plantee un problema de aplicación y defina los pasos a seguir, aplicando las


etapas de investigación estadística.

1. REPASO DE SUMATORIAS

Es importante recordar algunos conceptos de sumatorias, para manejar algunos


conceptos y aplicaciones básicos de estadística.

Como se necesita sumar cantidades de valores, se utiliza una sumatoria,


representada por la letra griega sigma Σ.
Si se desease sumar los siguientes valores de una muestra:

X1 = 1, X2 = 2, X3 = 1, X4 = 2 y X5 = 0.
Entonces, se recurre a una sumatoria, para sumar los valores desde X1 hasta X5,
de ahí que se necesite un subíndice i que se itere ó vaya cambiando desde 1
hasta 5, o sea que la sumatoria iría desde i = 1 hasta i = 5, que es la posición
máxima, equivalente a n.

n 5
 Xi =  Xi = X1 + X2 + X3 + X4 + X5 = 1 + 2 + 1 + 2 + 0 = 6
i=1 i=1

Observe que la variable Xi varía su valor de acuerdo al valor que tome el subíndice
i (valor de posición).

3
 Xi = X1 + X2 + X3 = 1 + 2 + 1 = 4
i=1

4
 Xi = X2 + X3 + X4 = 2 + 1 + 2 = 5
i=2

4 2
 Xi = X 2 + X 2 + X 2 = 22 + 12 + 22 = 9
2 3 4
i=2

Suponga que se le adiciona al ejercicio frecuencias de cada valor que toma X ó


veces que se repite el mismo valor, por ejemplo F1 = 2, significa que el valor de X1
= 1 se encuentra dos veces en la muestra.

F1 = 2, F2 = 1, F3 = 3, F4 = 1 y F5 = 2.

Por lo tanto Fi se mueve al igual que Xi desde 1 hasta 5 y ambas variables


cambian de valor ó se iteran de acuerdo al mismo subíndice i, el cual varía de 1
hasta 5.
Hallar las siguientes sumatorias por ejemplo:

5
 XiFi = X1F1 + X2F2 + X3F3 + X4F4 + X5F5 = 1x2 + 2x1 + 1x3 + 2x1 + 0x2 = 9
i=1
Observe que las variables Xi y Fi varían sus valores de acuerdo al valor que tome
el subíndice i (valor de posición).

4
 XiFi = X2F2 + X3F3 + X4F4 = 2x1 + 1x3 + 2x1 = 7
i=2

3 2
 Xi Fi = X 2F1 + X 2F2 + X 2F3 = 12x2 + 22x1 + 12x3 = 11
1 2 3
i=1

4 2 2
 Xi Fi = X 2F 2 + X 2F 2 + X 2F 2 + X 2F 2= 12x22 + 22x12 + 12x32 22x12= 21
1 1 2 2 3 3 4 4
i=1

4
(XiFi) 2 = (X2F2)2 + (X3F3)2 + (X4F4)2 = (2x1)2 + (1x3)2 + (2x1)2 = 17
i=2

4 2 2
(Xi Fi) = (X 2F2)2 + (X 2F3)2 + (X42F4)2 = (22x1)2 + (12x3)2 + (22x1)2 = 41
2 3
i=2

1.1. Algunas propiedades de las sumatorias.

 La sumatoria de una constante desde 1 hasta n, es n veces la constante.

n
 C = C + C + .…. + C = n C
i=1
 La sumatoria de una variable afectada por una constante, es igual a la
constante por la sumatoria de la variable.

n n
 CXi = CX1 + CX2 + .…. + CXn = C (X1 + X2 + …… + Xn) = C  Xi
i=1 i=1
 La sumatoria de una variable afectada de una combinación lineal con una
constante, es igual a la sumatoria de la variable más ó menos n veces la
constante.

n
 (C + Xi) = (C + X1) + (C + X2) +.….+ (C + Xn) = X1 + X2 +……+ Xn + C +....+ C
i=1

n
=  Xi + n C
i=1

n
 (Xi - C) = (X1 - C) + (X2 - C) +.….+ (Xn - C) = X1 + X2 +……+ Xn - C – C -....- C
i=1

n
=  Xi - n C
i=1

 La sumatoria de una constante cuando la sumatoria comienza en una


posición diferente a 1, se define como:

n
 C = (n – m + 1) C
i=m

1.2. Resuelva los siguientes ejercicios:

1. Sean : X1=5, X2=4, X3=6, X4=0, X5=1 y F1=2, F2=3, F3=1, F4=2, F5=4

Halle:
5
a.  Xi = 16
i=1

4
b.  Xi = 10
i=2

5
c.  (Xi)2 = 78
i=1
5
d.  (Fi) (Xi) = 32
i=1

5
e.  (Fi Xi)2 = 296
i=1

5
f.  Fi(Xi)2 = 138
i=1

5
g.  (Fi)2 Xi = 78
i=1

5
h.  9 (Xi) = 144
i=1

5
i.  (9 + Xi) = 61
i=1

5
j.  (Xi - 2) = 6
i=1

5
k.  (Xi + 2) = 26
i=1

5
l.  9 = 45
i=1

4
m.  9 (Xi) = 90
i=2
5
n.  9 (Xi + 6) = 414
i=1
5
o.  9 (Xi - 2) 2= 306
i=1

5
p.  (Xi - 2)/n = 1.2
i=1

5 5
q.  (Xi + 5) /  (Xi - 2) 2= 14.52
2

i=1 i=2

5 4
r.  (Xi + 5) /  (Xi + 2) 2= 15.6928
3

i=2 i=1

2. Escriba los términos de las siguientes sumatorias: 6


a.  (Xi - i) =
i=2

4
b.  (Xi +hi ) 2=
i=1

5
c.  (Xi * hi + i ) 2=
i=1

3. Exprese en forma de sumatoria los siguientes términos

( X1 + 2 ) 2 + ( X2 + 2 ) 3 + ( X3 + 2 ) 4
2. DESCRIPCIÓN DE LA INFORMACIÓN MUESTRAL

Se analizan situaciones de tipo muestral no poblacional.

 Representación de la información por medio de tablas.


 Representación de la información por medio de gráficos.
 Representación de la información por reducción de datos.

2.1. TABULACION DE DATOS CASO ATRIBUTOS

Se desea analizar el flujo turístico por nacionalidad, durante un mes en un hotel de


la ciudad de Cali, se toma una muestra de veinte personas, con la siguiente
información: C, M, P, A, M, B, P, C, V, A, M, P, B, B, V, V, M, V, A, M.

Donde A es Argentina, B Brasil, C Cuba, M México, P Perú y V Venezuela.

Distribución de Frecuencias del Flujo turístico por nacionalidad.

NACIONALIDAD FREC ABS ni FREC RELAT hi Grados 0º


ARGENTINA 3 0.15 54
BRASIL 3 0.15 54
CUBA 2 0.10 36
MÉXICO 5 0.25 90
PERU 3 0.15 54
VENEZUELA 4 0.20 72

Grados: se utiliza para el diagrama circular, a través de una regla de tres simple,
como es
360º 20
¿? Ni

ó utilizando un programa que tenga la opción de gráficos de pastel, torta ó circular.


2.1.1. Gráfico circular

FLUJO TURISTICO EN EL HOTEL X

20% 15% Argentina


Brasil
15%
Cuba
Mexico
15%
Perú
10%
25% Venezuela

Observe que el mayor flujo de turistas de otros países en dicho hotel, está a cargo
de mexicanos con un 25% y el menor por los cubanos con un 10%.

2.1.2. Diagrama de Barras

Comparación del flujo turístico por nacionalidad en el Hotel X en el


mes de octubre

5
4
3
2
1
0
Argentina Brasil Cuba Mexico Perú Venezuela

Oct-97 Oct-98

Observe que se puede comparar un mismo periodo de una misma característica.


3. DISTRIBUCION UNIDIMENSIONAL DE FRECUENCIAS

3.1. CASO VARIABLE DISCRETA

3.1.1. FUNCION DE DISTRIBUCIÓN DE FRECUENCIAS

Sea la variable X : No de hijos por familia en un barrio de la ciudad, se toma una


muestra de tamaño 10, o sea (n = 10), obteniéndose los siguientes resultados:
{0,2,1,2,1,2,2,3,3,3}.

Esta información hay que tabularla, graficarla y hallar estimadores a través de una
reducción de datos.

TABLA DE LA DISTRIBUCIÓN DE FRECUENCIAS PARA EL No DE HIJOS POR


FAMILIA EN UN BARRIO DE LA CIUDAD.

Variable Xi Frecuencia Frecuencia Frecuencia Frecuencia


Absoluta ni Relativa hi Acumulada Acumulada
Absoluta Ni Relativa Hi
X1= 0 1 0.1 1 0.1
X2=1 2 0.2 3 0.3
X3=2 4 0.4 7 0.7
X4=3 3 0.3 10 1.0
10 = n =1

La Frecuencia Absoluta (ni), se determina por el número de veces que se repite un


valor específico de la variable, para el caso n 2= 2, es que en la muestra se
encontraron dos familias que tienen de un hijo.

La Frecuencia Relativa (hi), se determina por el número de veces que se repite un


valor específico ( frecuencia absoluta), sobre el total de la muestra, h i = ni / n, para
el caso h3 = 0.4 = 4 / 10 = 40%, o sea, que el 40% de las familias de la muestra en
el barrio de la ciudad, tienen 2 hijos.

La Frecuencia Absoluta Acumulada (Ni), se determina por la acumulación de las


Frecuencias Absolutas hasta un valor específico de la variable, para el caso N2=3,
= n1 + n2 = 1 + 2 = 3, o sea, que en la muestra se encontraron tres familias que
tienen a lo sumo un hijo, ó que se encontraron tres familias que tiene entre cero
hijos y un hijo.

La Frecuencia Relativa Acumulada (Hi), se determina por la acumulación de las


Frecuencias Relativas hasta un valor específico de la variable, ó se determina por
el número de veces que se repite un valor específico acumulado ( frecuencia
absoluta acumulada), sobre el total de la muestra, Hi = h1 + h2 + ...+ hi = Ni / n para
el caso H3 = 0.7 = h1 + h2 + h3 = 0.1 + 0.2 + 0.4 = N3 / n = 7 / 10 = 0.7, o sea, que
en la muestra se encontró que el setenta porciento de las familias tienen a lo sumo
dos hijos, ó que se encontró que el setenta porciento de las familias tiene entre
cero hijos y dos hijos.

Deducciones:

k
 ni = n, donde k = No de valores distintos que toma la variable X.
i =1

k
 hi = 1
i =1

j k
Nj =  ni ijk Nk =  ni = n
i =1 i =1

j k
Hj =  hi ijk Hk =  hi = 1
i =1 i =1

hi = n i / n Hi = Ni / n

Los ni y los Ni son números naturales incluyendo el cero, los hi y los Hi están entre
cero y uno.
3.1.2. REPRESENTACIÓN GRAFICA

Diagrama de Barras, donde el eje Y corresponde a 3 / 4 del eje X y se realiza con


las frecuencias absolutas y relativas en el eje Y, contra los valores que toma la
variable X, que se tabulan sobre el eje X.

Diagrama de Frecuencias Acumuladas donde el eje Y corresponde a 3 / 4 del eje


X y se realiza con las frecuencias absolutas y relativas Acumuladas en el eje Y
contra los valores que toma la variable X, los cuales se tabulan sobre el eje X.

Diagrama circular, de torta ó de Pastel, representa las frecuencias relativas y se


construye de la siguiente manera:

360º = n ó 360º = 1.0


¿? º = ni ¿? º = hi

Gráfico de Barras de la muestra tomada en un barrio de la ciudad sobre el número


de hijos por familia, donde en el eje Y están los valores de n i Frecuencia absoluta.

No de hijos por familia en una


muestra de un barrio de la ciudad

4
No de familias

0
0 1 2 3
No de hijos por familia
Diagrama de Frecuencias Acumuladas, donde en el eje Y están los valores de N i.

Hi
1.0

0.7 o

0.3 o
0.1 o

0
0 1 2 3 X (No hijos / familia)

3.1.3. Función Empírica de Distribución Acumulada Relativa

0 si X  X1

H*(X) = Hi si Xi  X  X(i + 1)

1 si X  Xk

Para el ejercicio estaría definida como :

0 si X0

0.1 si 0  X  1

H*(X) = 0.3 si 1  X  2

0.7 si 2  X  3

1 si X3
Obsérvese un ejemplo de aplicación, supóngase que se está interesado en saber,
que porcentaje de familias tiene a lo sumo 2 hijos.

O sea, que se desea saber H*(2), donde X = 2, se observa en la función empírica


de Distribución acumulada ¿dónde está contenido X = 2? y se define que está
contenido en el intervalo 2  X  3, donde se tiene que H*(2) = 0.7, por lo tanto, el
número de familias que tienen a lo sumo 2 hijos es el 70% de la muestra.

Si se desease saber que porcentaje de familias tienen entre uno y dos hijos, se
tendría que hallar: H*(2) – H*(1) = 0.7 – 0.3 = 0.4, o sea, que el 40% de las
familias en la muestra tienen entre dos y un hijo.

3.1.4. ¿Ahora cómo reducir datos cuando la variable es Discreta?

A través de la localización o centramiento, de la dispersión, deformación ó


Asimetría y del Apuntamiento ó achatamiento ó curtosis.

Las características que sirven para definir una distribución son:

 Medidas de Localización ó de Tendencia Central, ó de ubicación, tales


como

La Media ó Media Aritmética, Media Geométrica


La Mediana
La Moda
Deciles, Percentiles y Cuartiles.

 Medidas de Dispersión, tales como

El Rango
La Varianza Muestral
La Desviación Estándar
Coeficiente de Variación

 Medidas de Formación tal como

El coeficiente de Asimetría

 Medidas de Apuntamiento

El Coeficiente de Curtosis

3.1.4.1. MEDIDAS DE TENDENCIA CENTRAL

3.1.4.1.1. La Media. Es el valor promedio de un grupo de datos y es


equivalente a sumar todos los datos y dividirlos por el número de ellos.

Se representa como parámetro de una población con la letra griega miu (  ) y


como estadígrafo ó estimador en una muestra por la letra X con una barra ( X ).

n
 Xi
i=1
X = -------------
n

Si se tienen frecuencias será :

k
 Xi ni
i=1 k
X = ------------- =  Xi hi
n i=1
3.1.4.1.2. Propiedades de la Media.

1. La suma de las desviaciones de los datos con respecto a la media debe ser
cero.

 (Xi – X) = 0

2. Si todos los valores de los datos X1, X2, X3,........., Xn, son iguales a una
constante k, entonces la Media será igual a esa constante k.
Si Xi = k  X=k

Por ejemplo, si todos los niños del grado cero en la escuela Honorio
Villegas tienen cinco años, entonces el promedio de edad del salón de
grado cero de la escuela Honorio Villegas será cinco años.

3. Si todos los datos de una muestra se multiplican por una misma constante
el promedio resulta multiplicado por la misma constante.

Si Y = a Xi  Y=a X

Por ejemplo, si el salario promedio de los trabajadores de una empresa es


cuatrocientos mil pesos en el año 2000, al hacer un aumento del 10% en el
año 2001 a cada uno de los trabajadores, el nuevo salario promedio en
dicha empresa para los trabajadores será igual al salario promedio del año
anterior por el incremento del 10%, en este caso la constante sería el 10%.

4. La Media de una combinación lineal es igual a la Media de cada una de las


combinaciones.

Si W = X + Y  W = X+ Y

Por ejemplo, si en su familia usted y su compañera (o), generan el ingreso


familiar, entonces el ingreso promedio de su familia, será igual al ingreso
promedio suyo más el ingreso promedio de su compañera (o).
5. La Media de una muestra de tamaño n, es igual a la Media ponderada de
las Medias de las r-submuestras mutuamente excluyentes de la muestra
original, tomando como ponderaciones los tamaños de las r-submuestras.

n1 X1 + n2 X2 + n3 X3 + ............. + nk Xk
X= -------------------------------------------------------------
n

Por ejemplo, si en un salón del tecnológico de treinta estudiantes, la nota


promedia de matemáticas del salón es 3.5 y la nota promedia de las
mujeres de ese salón es 3.9 y la nota promedia de los hombres de ese
mismo salón es 2.4. ¿Cuántos hombres y cuántas mujeres hay en dicho
salón?.

Como hay dos incógnitas, se tendría que solucionar por un sistemas de


ecuaciones y para que halla una solución optima se necesitarían dos
ecuaciones.

Ecuación 1 : n=H+M

Ecuación 2 : Utilizaríamos la propiedad 5

XM M + XH H
XT = ----------------------------------
n

Se despeja una de las dos incógnitas de la ecuación 1 y se reemplaza en la


ecuación 2. ( Usted la puede resolver por el método que desee).

Aquí se resolverá por sustitución.

M=n-H
XM ( n - H) + XH H
XT = ----------------------------------
n

XT * n = XM ( n - H) + XH H

Se destruyen los paréntesis

XT * n = XM * n - XM * H + XH * H

Se reemplazan los valores y se despeja la incógnita H.

3.5 * 30 = (3.9 * 30) - (3.9 * H) + (2.4 * H)

105 = 117 - 3.9H + 2.4H

105 - 117 = - 1.5 H

-12 = -1.5H

H = -12 / -1.5

H=8

O sea, que el número de hombres en el salón es ocho y el número de


mujeres será : 30 – 8 = 22.

Ahora se puede averiguar, a través de la aplicación del concepto ¿cuál es el valor


promedio ó la Media del número de hijos por familia en un barrio de la ciudad?.
Se recurre a la tabla de frecuencias del número de hijos por familia en un barrio de
la ciudad, recuérdese que se tienen frecuencias, por lo tanto la solución se puede
hallar utilizando cualquiera de las siguientes formulas:

k
 Xi ni
i=1 k
X = ------------- =  Xi hi
n i=1

Por la primera ecuación se tendría:

4
 Xi ni (0*1) + (1*2) + (2*4) + (3*3) 19
i=1 = ------------------------------------ = ----- = 1.9
----------- 10 10
n

Por la segunda ecuación se tendría:

4
 Xi hi = (0*0.1) + (1*0.2) + (2*0.4) + (3*0.3) = 1.9
i=1

O sea, que el promedio de hijos por familia en un barrio de la ciudad es 2.

Obsérvese, que el promedio dio 1.9, pero como es una variable discreta su
interpretación se asume como un valor entero.

3.1.4.1.3. La Mediana. Representa el valor de la mitad de los datos, o sea el


50%. Su notación es Me. La cantidad de datos que están por encima de dicho
valor es el 50% de los datos que es la misma de la que está por debajo, el otro
50% de los datos.

Se puede hallar con la Frecuencia Relativa Acumulada buscando en ella el 50% ó


con la Frecuencia Absoluta Acumulada de la siguiente forma:
Si el número de datos es impar será :
Me = X ((n + 1)/2), donde el término ((n + 1)/2) define la posición en que se encuentra
la mediana y X el valor de esa posición.

Si el número de datos es par será :

Me = (X ((n/2) + 1) + X (n/2))/2

Para este caso como n = 10, es par, por lo tanto la Mediana en esta situación será
= (X ((n/2) + 1) + X (n/2))/2

Primero se busca las posiciones que interesan:

(n/2) = 10/2 = 5

(n/2) + 1 = 5+1 = 6

Ahora en la columna de Frecuencias absolutas acumuladas se busca que valores


contienen dichas posiciones.
Frec. Abs. acum..
1
3
7
10
Obsérvese que las posiciones 5 y 6 están contenidas en el 7, ya que en él están
contenidas las posiciones 4, 5, 6 y 7.

Ahora bien los valores de X, para estas dos posiciones es 2, por lo tanto la
Mediana será igual a:

2+ 2
Me = ----------- = 2
2
Si se resuelve con la Frecuencia Relativa Acumulada se observa que el 50% está
contenido en H3 = 0.7, ya que en él están contenidos los valores 0.4, 0.5, 0.6 y 0.7,
este valor H3 corresponde al valor de X = 2, o sea que la Mediana es 2.

Interpretando este resultado se tiene que en ese barrio de la ciudad el 50% de las
familias tienen dos hijos ó más y el otro 50% tienen entre dos hijos ó menos.

Nótese que al tomar los valores de la tabla de frecuencias ya se tienen ordenados


los datos de menor a mayor.

Es importante anotar que cambios irrelevantes en una muestra pueden producir


grandes cambios en un indicador, lo cual ocasionaría interpretaciones
equivocadas, este caso ocurre en particular con la Media, cuando la distribución
es asimétrica, o sea que cuando hay unos pocos valores muy grandes ó muy
pequeños, la Media se afecta por ellos y la Mediana en este caso es un indicador
que no se afecta por los valores extremos.

Véase el siguiente ejemplo, los salarios semanales por empleado de una empresa
tienen la siguiente distribución:

Salario semanal Porcentaje de personas


(Xi) $ (hi) %
10.000 20
12.000 10
13.000 25
15.000 40
120.000 5
--------------
100%
Para tener una idea de la magnitud de los salarios a través de un indicador
adecuado, obsérvese lo que ocurre con la Media y la mediana.
k
X =  Xi hi = (10.000*0.2) + (12.000*0.1) + (13.000*0.25) + (15.000*.4)
i =1 +(120.000*0.05) = $ 18.450

Este valor es superior al 95% de los datos, por lo cual no es un adecuado


indicador, para representar esta muestra.

Me = 50% de la Frecuencia relativa Acumulada, como se tienen frecuencias


relativas simplemente se acumulan y así saber donde se encuentra el 50%,

0.2 + 0.1 + 0.25 = 0.55, luego entonces aquí estaría contenido el 50%, de ahí se
tiene que:

Me = $ 13.000 que si es un indicador más representativo de esta muestra.

3.1.4.1.4. La Moda. En los datos de una muestra es aquel que tiene la mayor
frecuencia, con lo cual se denominaría moda absoluta, en caso de que exista más
de un valor con la mayor frecuencia se denominará Multimodal, si es una será
unimodal y si son dos será bimodal y así sucesivamente. Su notación es Mo.

La Moda en el número de hijos por familia será X = 2, ya que la frecuencia


absoluta más alta es 4, o sea, que el número de hijos por familia más frecuente en
ese barrio de la ciudad es 2.

3.1.4.1.5. La Media Geométrica. Define un valor promedio de una muestra de


datos, que tengan la característica de tener un comportamiento de progresión
geométrica (Tasas de crecimiento), su notación es Mg.

Se halla en forma general de la siguiente forma:

Es la raíz n-ésima de la multiplicación de los n valores


n
Mg =  X1 * X2 * ......* Xn , donde los Xi son los valores a promediar

Si se tienen frecuencias sería:

n
Mg =  X1n1 * X2 n2
* ......* Xn nk , donde n1 + ……. + nk = n

Si son valores continuos se utiliza Mi ( Marca de clase) por los Xi.

Por ejemplo si se desease saber el crecimiento de US $ 1.000 en depósito en una


cuenta de ahorro al cabo de cinco años.

AÑO TASA DE FACTOR DE AHORROS AL


INTERES CRECIMIENTO FINAL DEL AÑO
ANUAL % ANUAL $
1 7 1.07 1.070,0000
2 8 1.08 1.155,6000
3 10 1.1 1.271,1600
4 12 1.12 1.423,6992
5 18 1.18 1.679,9650

Tasa de interés
El factor de crecimiento = 1 + --------------------------
100

Calcular el factor de crecimiento más adecuado.

Como es un promedio se hará con la Media y la Media Geométrica, para observar


su diferencia
k
 Xi ni
i=1 1.07 + 1.08 + …. + 1.18
X = -------------- = -------------------------------- = 1.11
n 5
5
Mg = 1.07 * 1.08*….. *1.18 =1.109327

Como se está hallando un valor futuro al quinto año de 1.000 dólares, se recurre a
la fórmula financiera de valor futuro.

F = P ( Factor de crecimiento promedio ) 5

Se hallará el valor futuro con los dos promedios y así determinar cual es el más
apropiado.

F = 1.000( 1.11 ) 5 = 1.685,068

F = 1.000( 1.109327 ) 5 = 1.679,956

Con lo cual se puede observar que el promedio más adecuado cuando se trabaja
con tasas es la Media Geométrica.

Cuando se requiera encontrar la tasa anual de cambio de un periodo a otro,


teniéndose la información de los periodos tanto inicial como final se recurre a la
siguiente fórmula

Valor.al. final.del. periodo


MG = n 1
Valor.al. principio.del. periodo

3.1.4.1.6. Cuartiles, Deciles y Percentiles. Los cuartiles se definen, para


repartir proporcionalmente una distribución de frecuencias en cuatro partes.
Se denomina Q1 al primer cuartil y equivale al 25% de los datos, Q2 al segundo
cuartil y equivale al 50% de los datos y es el valor también equivalente a la
Mediana el tercer cuartil es el equivalente al 75% de los datos y se denomina Q3 y
el último cuartil Q4 es el equivalente al 100%, ahora bien los deciles resultan de
repartir la distribución de frecuencias pero esta vez es diez partes y se denominan
por la letra D.
El Percentil P(n), es el área bajo la curva de un valor específico porcentual, se
utiliza con frecuencias absolutas ó relativas pero acumuladas y se halla como una
función empírica de distribución acumulada.

Se puede resolver cada caso con una fórmula específica, o sea, una para
cuartiles, otra para deciles y otra para percentiles, pero el cuartil 1 es igual al
percentil 25 y los otros cuartiles tendrán también su equivalente, lo mismo es con
los deciles, por ejemplo el decil 2 es el percentil 20 y así también los otros deciles.

Por lo tanto se sugiere aprender hallar los percentiles y se realiza luego su


equivalente.

PERCENTILES.

Para el caso discreto es equivalente al porcentaje acumulado, por ejemplo en el


ejercicio del número de hijos pro familia en un barrio de la Ciudad, el primer cuartil
es el percentil 25, que es equivalente al 25%, por lo cual el valor que contiene el
25% es X2 = 1, por lo tanto el primer cuartil es que tengan 1 hijo por familia ó
menos en ese barrio de la ciudad, si fuese el quinto decil, sería equivalente al
percentil 50, o sea al 50%, si se observa la tabla X3 = 2 contiene el 50%, de ahí
que el 50% de las familias de ese barrio de la ciudad tiene 2 hijos ó menos.
3.1.4.2. MEDIDAS DE DISPERSIÓN

3.1.4.2.1. El Rango. Mide la amplitud en una muestra ó la dispersión de los


valores extremos únicamente.

Rango = Valor Máximo - Valor Mínimo

Para el caso de la muestra del número de hijos por familia en un barrio de la


ciudad, el Rango será = 3 – 0 = 3, por lo cual diferencia entre la familia que más
hijos tiene y la que menos hijos tiene es de 3.

3.1.4.2.2. La Varianza. Mide la variabilidad de una muestra, pero en la practica


se utiliza para hallar la desviación estándar, que es la medida de dispersión más

importante. Cuando es un parámetro, o sea de la población, se denomina como 2


y si es un estadígrafo ó estimador se denomina como S2 y tiene la siguiente
forma general:

1 n
S = 2
-----  (Xi – X)2
n i=1

Si se cuenta con frecuencias la forma sería:

k
S2 =  ni (Xi – X)2
i=1
-----------------------------
n

k
S2 =  hi (Xi – X)2
i=1
Para cálculos se trabaja con :

k
 Xi2 ni n X2
i=1
S2 = --------------------- – --------------
n–1 n-1

si n  30

y con :

k
 Xi2 ni
i =1
S2 = --------------- - X2
n

si n  30

3.1.4.2.3. Propiedades de la Varianza.

Siendo X una característica numérica,

1. Si todos los datos de una muestra son iguales ó constantes su varianza


será cero.

S2 ( K ) = 0

2. La varianza siempre es mayor o igual que cero ó sea, no negativa.

3. Si una muestra tiene por varianza S2 y cada dato de la muestra se


multiplica por una constante K, la nueva varianza será igual a la constante
al cuadrado por la varianza anterior.

S2 ( X ), para Xi, si Y = K * Xi , entonces S2 ( Y ) = K2 * S 2 ( X )


4. Si todos los datos de una muestra se le suma la misma constante, o sea
que si cambian los datos de origen, la varianza sigue siendo la misma.

Si Xi tiene por varianza a S2 , entonces la varianza de (Xi + K ) será S2 ,

S2 ( X + k ) = S2 ( X ) + S2 ( k ), como la varianza de una constante es

cero, entonces queda igual a S2 ( X ).

3.1.4.2.4. Desviación estándar. Mide cuanto se desvían los datos con


respecto a la media, y se denomina  si es un parámetro, sino S si es un
estimador ó estadígrafo, se halla simplemente sacando la raíz cuadrada a la
varianza.

Para el caso del número de hijos por familia en un barrio de la ciudad, se desea
saber cual es su variabilidad y que tanto se desvían los datos de la Media.

Se halla primero la Varianza y luego su Desviación estándar.

k
 Xi2 ni – n X2
i=1
S = -----------------------------
2

n-1

Donde X2 = (1.9) 2 = 3.61

k
Y  Xi2 ni = (02 * 1) + (12 * 2) + (22 * 4) + (32 * 3) = 45
i =1

45 – 10 (3.61) 8.9
de ahí se tiene que S2 = ------------------ = --------- = 0.99
9 9
que es la variabilidad general de la muestra y su desviación estándar será:

S = 0.994

Por lo tanto los datos se desvían 0.994 con respecto al promedio, según
Tchebycheff se puede generar un intervalo con centro en la Media y los extremos
se forman aumentando y quitando la desviación estándar k-veces, para definir que
% de los datos está contenido en dicho intervalo, a través de (1 – (1/k2)) = %.

Con base en la regla empírica (cuando la distribución de los datos tenga forma de
campana) la mayoría de los datos (68%) estarán alrededor de la media a una
desviación de diferencia:

1.9 (+/-) 0.994

= 2.894 ; 0.906

Luego entonces la mayoría de familias tiene entre 3 y 1 hijo en ese barrio de la


ciudad.

Así mismo la gran mayoría el (95.5%) de los datos estarán a dos desviaciones de
diferencia de la media y la gran totalidad ó nuevamente la gran mayoría (99.7%)
de los datos estarán alrededor de la media a una diferencia de tres desviaciones.

Observemos una aplicación de la regularidad empírica, una muestra tiene media


40, varianza 16 y distribución simétrica acampanada. Esto significa que:

Responda falso o verdadero justificando la respuesta.

¿Aproximadamente el 99.7 de los datos están entre 38 y 42?


La desviación es 4, como el 99.7% son tres desviaciones, entonces sumamos y
restamos tres desviaciones a la media, 40 + 12 =52 y 40-12 = 28, por lo cual se
comprueba que es falso.

¿Entre 38 y 48 hay más del 75% de los datos?

Si a la media le sumamos dos desviaciones queda 48, y dos desviaciones


pertenece al intervalo del 95.5%, como solo se sumo sería la mitad de 95.5% que
sería 47.75%, ahora observemos el otro valor, si le restamos una desviación a la
media 40 – 4 = 36, estaría en la mitad del intervalo del 68% que es 34% pero
como no se le resta sino la mitad de la desviación sería solo 17%, ahora sumemos
los dos resultados, 47.75 + 17 = 64.75%, por lo tanto en ese intervalo no hay más
del 75% de los datos.

¿El valor aproximado para el percentil 84 es 44?

Un percentil es el valor porcentual acumulado desde 0% hasta el 84%, el valor 44


resulta de sumar una desviación a la media, por lo cual se estaría en el intervalo
alrededor de la media con una desviación de diferencia, que equivale al 68%, pero
como se está sólo sumando, sería la mitad 34%, ahora como la distribución es
acampanada y simétrica, entonces la media estará en la mitad de la distribución, o
sea, en el 50% de la distribución, luego entonces 50 + 34 será 84%.

¿El valor aproximado hasta el que se acumula el 97.75% de los datos es 55.?

De forma similar al punto anterior, para hallar el percentil el intervalo con dos
desviaciones sería el 95.5%, más el 2.25% inicial daría el 97.75%, luego entonces
el valor a busca es la media más dos desviaciones, 40 + 8 = 48 y no 55.

Realiza este ejercicio de aplicación. Para el rector de una universidad, los puntos
obtenidos por los aspirantes en las pruebas de admisión constituyen una variable
aleatoria con polígono de frecuencias relativas que sugiere una distribución
simétrica y en forma de campana. A su juicio la proporción de estudiantes que
obtienen más de 400 puntos es 0.0225 y además la proporción de estudiantes que
obtienen más de 370 puntos es 0.17. ¿Cuáles son la media y la desviación
estándar en esta prueba?.

3.1.4.2.5. Coeficiente de Variación. Mide la variabilidad relativa de una


muestra porcentualmente. Se denomina por CV y se halla de la siguiente forma:

S
CV (%) = x 100%

Para el caso del número de hijos por familia la variabilidad relativa es:

0.994
CV = --------- * 100% = 52.3 %
1.9

Que se considera heterogénea, lo cual es debido al tamaño tan pequeño de la


muestra, para poder tomar decisiones hacia el futuro hay dos opciones cuando los
datos son heterogéneos, uno aumentar la muestra y la otra es, si es lo
suficientemente grande, entonces es escoger otra muestra.

Al tener que compararse dos muestras, para escoger una de las dos, se escogería
la de menor coeficiente de variación.

Es importante tener en cuenta el coeficiente de variación, por que para hacer


trabajos posteriores y de estimación con base en el promedio de una muestra
anterior, la confiabilidad y el poderla utilizar depende en gran parte de la
homogeneidad de los datos.

Muchos autores consideran homogeneidad por debajo del 15%, aunque


dependiendo de la variable se puede considerar ó asumir hasta un 20%.
3.1.5. MEDIDAS DE FORMACIÓN

3.1.5.1. Coeficiente de Asimetría. Define una de las propiedades físicas de


las distribuciones, para definir la Simetría de cualquier distribución sea continua ó
discreta se consideran dos criterios:

1. El que involucra La Media, La Moda y La Mediana, y que establece que si


los tres indicadores son iguales, entonces la distribución se considera como
Simétrica.

Si la Moda es menor que la Media, entonces la distribución es Asimétrica


positiva y si la Moda es mayor que la Media, entonces la distribución es
Asimétrica negativa.

Este criterio se aplica a distribuciones unimodales.

La Mediana siempre se considera entre La Media y La Moda.

2. Este segundo criterio se apoya en el coeficiente de Asimetría, que se


denomina g1 y está definido por :

g1 =  ((Xi – X) / S)3 * hi
i=1

Para datos sin agrupar, con S desviación estándar de la muestra, X la Media de


la muestra, hi la frecuencia relativa de cada Xi observación diferente que toma la
variable.

Si es con datos agrupados, solamente es cambiar los Xi por sus Marcas de Clase
Mi.
Si g1 = 0, la distribución es Simétrica, si g1 es mayor que cero (0) la distribución
será Asimétrica positiva y si g1 es menor que cero (0) la distribución será
Asimétrica negativa.

También se puede utilizar la siguiente fórmula:

3 (Media – mediana)
CA :
(Desviación estándar)

Este coeficiente estará entre –3 y +3, si es 0 es simétrica y si da (+) será


asimétrica positiva ó con sesgo positivo, por lo tanto si es (-) será asimétrica
negativa ó con sesgo negativo.

Simétrica Asimétrica Positiva Asimétrica negativa

3.1.6. MEDIDAS DE APUNTAMIENTO

3.1.6.1. Coeficiente de Curtosis. Define si la distribución es achatada,


puntuda ó normal en su forma de campana.

Se define por:
k

g2 =  ((Xi – X) / S)4 * hi
i=1

El criterio se basa en Ec, donde Ec = g2 – 3

Si Ec = 0 La distribución tiene apuntamiento normal ó Mesocúrtica, si Ec es menor


que cero (0), entonces es de apuntamiento bajo ó inferior a lo normal, es
achatada ó Platicúrtica, si el Ec es mayor que cero (0), la distribución será puntuda
ó con apuntamiento excesivo mayor que el normal ó leptocúrtica.

En este criterio se sigue teniendo en cuenta que la distribución patrón de


normalidad, la deben tener la misma Media y la desviación estándar.

Mesocúrtica Platicúrtica Leptocúrtica

EJERCICIOS

2. Responda Falso o verdadero Justificando la respuesta.


a. La media de una muestra divide siempre a los datos en dos partes, la mitad
con valores mayores y la otra valores menores que aquella.
b. Una media de tendencia central es un valor cuantitativo que describe la
variabilidad de los datos con respecto a un valor central.
c. Algunas veces la suma de los cuadrados de las desviaciones con respecto
a la media, es negativa.
d. En cualquier distribución, la suma de las desviaciones con respecto a la
media es igual a cero.
e. La desviación estándar del conjunto de valores, 2, 2, 2, 2 y 2 es 2.
f. En un examen, la calificación de Carlos ocupa el percentil 50 y la de
Guillermo el percentil 25; por lo tanto la calificación de Carlos es dos veces
la de Guillermo.
g. En una distribución normal (en forma de campana), la amplitud es
aproximadamente igual a seis desviaciones estándares.
3. Responda y justifique la respuesta
La empresa XY vende fuentes de energía y de las últimas 100 fuentes
vendidas, 4 eran de 20 kv; 39 de 30 kv; 20 de 50 kv; 29 de 70 kv y 8 de 100 kv.
¿Qué medida de tendencia central permite resumir los datos más
objetivamente?

Resuelva los siguiente ejercicios

3. Entre los clientes de una empresa de mantenimiento, se tomó una muestra de


50 clientes, para observar el número de virus que han atacado su equipo en un
mes, con el propósito de estimar algunos indicadores sobre demanda potencial
de servicio. Esta arrojó los siguientes resultados por cliente:
1 2 3 1 2 4 3 1 3 2 1
2 1 3 1 3 0 1 0 2 3 0
1 2 2 1 4 3 2 1 4 2 3
1 2 0 1 3 2 2 4 2 3 3
2 0 2 4 2 0
a. ¿Cuál es la variable de interés?
b. ¿Qué tipo de variable es y su escala de medición?
c. ¿Cuál es la población de interés?
d. ¿Cuál es la muestra?
e. Haga una tabla de frecuencias e interprete algunos de los resultados

4. En la empresa de mantenimiento de computadores Guilena Ltda.. Se consultó


a 50 clientes, sobre la calidad del servicio de atención, con los siguientes
resultados (Donde: 1 es muy insatisfecho, 2 Insatisfecho, 3 Satisfecho y 4 Muy
Satisfecho).
2 1 2 1 4 4 3 3 3 4 4 4
3 3 3 3 2 2 3 2 2 2 2 3
3 1 3 2 4 3 2 2 2 3 2 3
3 1 1 4 2 2 3 3 2 3 2 1
4 2
a. ¿Cuál es la variable de interés?
b. ¿Qué tipo de variable es y su escala de medición?
c. ¿Cuál es la población de interés? ¿Cuál es la muestra?
d. Haga una tabla de frecuencias e interprete algunos de los resultados
e. Realice los gráficos pertinentes a los ejercicios 3 y 4

5. En una población del Cauca se tomó una muestra de 50 familias para


observar el número de personas menores de 12 años, con el propósito de
estimar algunos indicadores sobre demanda potencial de educación escolar.
Esta arrojó los siguientes resultados:
4 0 1 2 3 0 2 5 3 1 3
2 1 2 1 3 0 3 0 1 0 2
3 0 1 4 2 1 5 4 2 1 4
2 3 1 2 0 1 3 2 2 5 0
3 3 2 0 1 5
Resolver:
a. Hallar La Media, La Moda, La Mediana, La Desviación Estándar y el
Coeficiente de Variación.
b. Grafique El Diagrama de Frecuencias Absolutas y Relativas, El Diagrama de
Frecuencias Acumuladas.
c. Que porcentaje de las familias tienen 3 personas ó menos que son menores de
12 años.
d. Si la población consta de 1200 familias, estime usted el número de personas
menores de 12 años. (Estimación del Total = n X).

6. Redondee los siguientes valores:


a. 1.0549 a un decimal
b. 2.30449 a tres decimales
c. 0.096 a dos lugares decimales
d. 20.5% al porcentaje mas cercano
e. Exprese en porcentajes el valor resultante de : 15 / 60
f. Exprese con dos decimales el valor resultante de : 10 / 3
7. Se quiere estudiar las características de las familias de un barrio para
considerar la necesidad de un control de natalidad. La Población del barrio está
conformada por 20 familias y en las cuales hay el siguiente número de hijos de
familia.
Familia No No de Hijos
1 6
2 5
3 7
4 3
5 7
6 6
7 4
8 5
9 5
10 9
11 3
12 6
13 9
14 3
15 8
16 7
17 6
18 5
19 6
20 4
¿Cuál es el tamaño de la Población para este caso? ¿Cuál es la Variable de
interés? ¿Es continua ó Discreta?
Ordene los Datos. Tabúlelos, Calcule las Frecuencias Absolutas, Relativas,
Absolutas Acumuladas y Relativas Acumuladas, Haga un cuadro donde muestre
todos los cálculos anteriores, Grafique los diagramas de Barras, de Distribución
Acumulada y defina la Función empírica para este caso.
3.2. CASO VARIABLE CONTINUA

Los conceptos son los mismos en forma general, que para el caso de variable
discreta, lo diferente son las fórmulas utilizadas.

3.2.1. FUNCION DE DISTRIBUCIÓN DE FRECUENCIAS

Sea X la variable Nivel de glucosa en la sangre de los niños, que asisten a control
en un Centro de Salud de la ciudad.

Se toma una muestra de a 30 niños en ayunas, en la cual se obtiene la siguiente


información:

64 36 49 53 67 57 61 58 72 58 40 56

68 63 42 50 56 30 79 54 65 63 34 54

74 52 50 42 51 45 57 51 32 49 58 55

60 42 53 50 38 69 47 59 49 50 76 66

Lo primero que se hace es tabular la información obtenida en una tabla de


frecuencias, que contenga Intervalos reales, frecuencias absolutas, relativas
simples y acumuladas y la Marca de clase.

3.2.2. Tabulación de la Información.

Se generan los Intervalos de Clase, hay varias maneras de realizarlos, una de


ellas es de acuerdo a los siguientes pasos:

 Hallar el Rango de los datos, el cual se encuentra de la siguiente manera:

Rango = Valor máximo - valor mínimo


Rango = 79 - 30 = 49

 Definir el número de intervalos (K) en la distribución, que como mínimo se


sugiere que sean cinco y no más de veinte.

Si usted tiene experiencia en el manejo de la información a analizar, puede definir


con cuantos intervalos se puede trabajar ó si hay estudios anteriores, trabajar con
el mismo número de intervalos utilizados en dichos estudios, de lo contrario
existen unas ayudas para estimar y tener una idea de con cuantos intervalos se
puede trabajar una información, como son:

 K =  n , donde n es el número de datos

 Utilizar la fórmula de Sttugers, la cual es

K = 1 + ( 3.3 * log (n) )

donde n es el número de datos y log es logaritmo en base 10.

En ambos casos se aproxima al siguiente entero el resultado.

K =  48 = 6.9 , se aproxima a 7

K = 1 + ( 3.3 * log (48) ) = 1 + (3.3 * 1.68) = 1 + 5.548 = 6.548 , se aproxima a 7

 Definir el tamaño de los intervalos (C), si no se tiene idea, con que tamaño
de intervalos trabajar, ya que el investigador los puede construir a su
manera, se halla de la siguiente forma:
Rango
C = --------------
K

Si los datos contienen valores muy pequeños, el tamaño de los intervalos se deja
tal como da, si por el contrario son valores grandes se puede aproximar a valores
enteros, fáciles de manejar.

En lo posible se debe tratar de construir intervalos del mismo tamaño, ya que esto
simplifica algunos cálculos y facilita la interpretación de la información.

49
C = ------------ = 7
7

Ahora si se pueden generar los intervalos de clase, de esta forma:

Se construye el primer intervalo como ( Límite inferior - Límite superior), donde


el límite inferior será el valor mínimo de la muestra y a partir de ahí se construyen
los demás intervalos así:

(Valor mínimo - Valor mínimo + 7), el límite superior de este intervalo será el
límite inferior del siguiente intervalo y su límite superior será, este nuevo valor de
límite inferior más 7 unidades y así sucesivamente.

Es importante tener en cuenta que debe existir continuidad entre los intervalos, o
sea que el valor que es límite superior en un intervalo dado, será límite inferior en
el siguiente.

Construcción de los intervalos, para el caso de la muestra de niños en el centro de


salud.
No del intervalo Intervalo
Límite inferior Límite superior
1 30 37
2 37 44
3 44 51
4 51 58
5 58 65
6 65 72
7 72 79

Nótese que todos los valores deben quedar contenidos en los intervalos, esto se
garantiza con el 30 y el 79 que son los valores máximo y mínimo, estén contenidos
en la tabla de frecuencias, ahora bien, si entre los datos estuviera el valor 44,
existiría la duda que origina la siguiente ambigüedad, que el valor 44 pertenece al
intervalo No 2 y al No 3.

Entonces, ¿en cuál de los dos colocarlo?, pero un valor debe pertenecer a un
intervalo y solo uno. Hay varias opciones de solucionar dicha ambigüedad, una es
definiendo intervalos cerrados ó abiertos en los límites, por ejemplo si el intervalo
2, su límite superior es abierto y el intervalo 3 su límite inferior es cerrado, esto
significa que el 44 no estará contenido en el segundo intervalo, pero si lo estará en
el tercer intervalo, otra forma es generando Intervalos Reales de clase, que en
últimas son los que se colocarían en la tabla de frecuencias en vez de los
intervalos iniciales y se construyen de la siguiente forma:

Si son valores enteros los datos de la muestra, se le resta 0.5 a cada límite y en el
caso de que el último intervalo al restarle 0.5 no contendría el valor 79, entonces
en vez de quitarle 0.5 al límite superior, se le aumenta ó se deja tal como está, si
los datos de la muestra tienen un decimal, se le quita 0.05 a cada límite y si los
datos constan de dos decimales, se les quitará 0.005 a cada límite y así
sucesivamente.
Hay que construir los límites reales, para que cada valor pertenezca a un solo
intervalo y solo uno.

No del intervalo Intervalo Reales


Límite inferior Límite superior

1 29.5 36.5
2 36.5 43.5
3 43.5 50.5
4 50.5 57.5
5 57.5 64.5
6 64.5 71.5
7 71.5 79.5

volviendo al caso del valor 44, ahora si se puede decir sin ninguna duda a que
intervalo pertenece dicho valor, al intervalo No 3, note que por uniformidad y para
que contuviera el máximo valor 79, se le aumentó 0.5 al límite superior del último
intervalo 79.

En la tabla de Frecuencias aparecerán las siguientes columnas: Intervalos reales,


frecuencias absolutas y frecuencias relativas, al igual que las frecuencias tanto
absoluta como relativa pero acumuladas, que se hallan igual que en las variables
discretas y además una columna nueva, la Marca de clase (Mi), que es el valor
que representa al intervalo en todo sentido y se halla con la semisuma de los
límites de cada intervalo.

Por ejemplo para el primer intervalo No 1, su Marca de Clase será igual a sumar
sus límites y dividirlos por dos, así:

M1 = (29.5 + 36.5) / 2 = 33.


Cabe anotar que al agrupar los datos en intervalos de clase, se produce pérdida
de información, puesto que no se cuenta con los datos en forma individual sino de
un valor global, la Marca de clase, pero se gana rapidez en las operaciones.

Al construirse los intervalos todos deben contener datos, sino hay que
reconstruirlos, ya que un intervalo sin datos, distorsiona la idea de la distribución
de la información, en esta fase exploratoria a través de la muestra.

TABLA DE LA DISTRIBUCIÓN DE FRECUENCIAS DEL NIVEL DE GLUCOSA EN


LA SANGRE DE LOS NIÑOS DE UN CENTRO DE SALUD DE LA CIUDAD.
INTERVALOS FRECUENCIAS FRECUENCIAS FRECUEN. FRECUEN. MARCA
REALES ABSOLUTAS RELATIVAS ABSOL. RELATIV. DE
ni hi ACUMUL. Ni ACUMUL. Hi CLASE Mi
29.5-36.5 4 0.0833 4 0.0833 33
36.5-43.5 5 0.1042 9 0.1875 40
43.5-50.5 9 0.1875 18 0.3750 47
50.5-57.5 12 0.2500 30 0.6250 54
57.5-64.5 9 0.1875 39 0.8125 61
64.5-71.5 5 0.1042 44 0.9167 68
71.5-79.5 4 0.0833 48 1.0000 75.5

Las frecuencias se obtienen de la misma manera que se obtuvieron con el caso de


variables discretas, por lo tanto se interpretará un valor de cada columna.

Intervalo No 3 : 43.5 - 50.5 : Indica que el nivel de glucosa en la sangre de los


niños está entre 43.5 y 50.5.

La frecuencia absoluta n2 = 5, define que 5 niños en la muestra tienen un nivel de


glucosa en la sangre entre 36.5 y 43.5.

La frecuencia relativa h4 = 0.25, indica que en el 25% de la muestra los niños


tienen un nivel de glucosa en la sangre entre 50.5 y 57.5.

La frecuencia absoluta acumulada N3 = 18, indica que 18 niños de la muestra


presentan un nivel de glucosa en la sangre de a lo sumo de 50.5 ó que 18 niños
de la muestra, presentan un nivel de glucosa en la sangre entre 29.5 y 50.5.
La frecuencia relativa acumulada H3 = 0.375, define que el 37.5% de la muestra de
los niños tienen un nivel de glucosa en la sangre entre 29.5 y 50.5 ó de a lo sumo
50.5.

3.2.3 REPRESENTACIÓN GRAFICA

Una de las representaciones gráficas se define como el Histograma de


Frecuencias, tanto para frecuencias absolutas como para frecuencias relativas y
se conforma por rectángulos, que tienen como lados el tamaño del intervalo y su
frecuencia.

Histograma

14

12
Frecuencia absoluta ni

10

8
6

2
0
33 40 47 54 61 68 75,5
Marcas de Clase

Normalmente se colocan en el eje X los valores de los límites de los intervalos, (en
este caso se omiten por espacio solamente y se colocaron las marcas de clase).

Al unir las marcas de clase a través de una línea, se forma otro gráfico como es el
Polígono de Frecuencias, el cual empieza en el límite inferior del primer intervalo y
termina en el límite superior del último intervalo.

Note que en el polígono de frecuencias se unen las Marcas de clase con la


frecuencia absoluta del intervalo.
Polígono de Frecuencias

Frecuencias Absolutas ni
14
12
10
8
6
4
2
0
29,5 33 40 47 54 61 68 75,5 79,5
Marcas de Clase

Para graficar las frecuencias acumuladas se utiliza el gráfico denominado La


Ojiva, el cual comienza con el límite inferior del primer intervalo y va acumulando
de intervalo en intervalo, al igual que con las variables discretas a partir del último
límite superior, el cual es igual al 100%, la gráfica se vuelve asíntota al eje X, o
sea paralela.

Ojiva

120,00%
100,00%
Frecuencia

80,00%
60,00%
40,00%
20,00%
,00%
29,5 36,5 43,5 50,5 57,5 64,5 71,5 79,5
Intervalos de Clase

Existen otros tipos de gráficos como el de línea, que utilizado si en el eje X está el
tiempo.
EJERCICIO

Analice e interprete cada uno de los siguiente gráficos (Fuente Planeación


Municipal Cali).

Muncipio Santiago de Cali


Consumo anual de agua
1987 - 2005
180,000

160,000

140,000
Miles de m3

120,000

100,000

80,000

60,000

40,000

20,000

0
1987 1989 1991 1993 1995 1997 1999 2001 2003 2005
Año
Residencial Comercial-industrial Oficial-otros

Municipio Santiago de Cali


Consumo anual de energía
3,500,000
1987 - 2005
3,000,000

2,500,000
Mwh

2,000,000

1,500,000

1,000,000

500,000

0
1987 1989 1991 1993 1995 1997 1999 2001 2003 2005

Año
Total Residencial
Comercial-industrial Oficial-otros
Municipio Santiago de Cali
Instituciones Educación Superior
Distribución de alumnos matriculados según modalidad
2002

Maestría
1%
Técnica Especialización
4% Doctorado
Profesional
4% 0%

Tecnología
11%

Universitaria
80%

Municipio de Santiago de Cali


Emergencias atendidas
1998 - 2004
8,000
7,000
6,000
5,000
Número

4,000
3,000
2,000
1,000
0
1998 1999 2000 2001 2002 2003 2004

Año

Incendios Otros
Municipio Santiago de Cali
Población total
1999 - 2005
2,450,000 2,423,381

2,400,000 2,369,696

2,350,000 2,316,655

2,300,000 2,264,256
Habitantes

2,250,000 2,212,430

2,200,000 2,161,130
2,150,000 2,110,571
2,100,000
2,050,000
2,000,000

1,950,000
1999 2000 2001 2002 2003 2004 2005

Año

Municipio de Santiago de Cali


Coeficiente de empleo, tasas de desempleo,
participación global y bruta
1999 - 2005
90.0

80.0

70.0

60.0

50.0
Tasa

40.0

30.0

20.0

10.0

0.0
1999 2000 2001 2002 2003 2004 2005

Coeficiente de empleo Año Tasa de desempleo


Tasa global de participación Tasa bruta de participación
%PET/PT
En ocasiones los tamaños de los intervalos son diferentes, por lo tanto se requiere
de una función que defina donde se agrupa más información en los intervalos, o
sea donde hay mayor densidad.

Dicha función es la (3.2.4.) Función empírica de densidad, que tiene la siguiente


forma general:
0 si X  L1 ó X  Lm

h*(X) = hi
------- si Li  X  L(i + 1)
Ci

La función empírica de densidad para la distribución de frecuencias del nivel de


glucosa en la sangre de los niños de la muestra en un centro de salud de la ciudad
será: (Ver página siguiente)

Observe que el intervalo 50.5 y 57.5, es el intervalo de mayor densidad ó el de


mayor frecuencia.

Como los tamaños de los intervalos en esta distribución son iguales, exceptuando
el último se puede definir la mayor frecuencia a través de las frecuencias
absolutas ó relativas simples.
0 si X  29.5

0.0833
------------ = 0.0119 si 29.5  X  36.5
7

0.1042
------------ = 0.0149 si 36.5  X  43.5
7

0.1875
------------ = 0.0268 si 43.5  X  50.5
7

0.2500
------------ = 0.0357 si 50.5  X  57.5
7
h*(X) =
0.1875
------------ = 0.0268 si 57.5  X  64.5
7

0.1042
------------ = 0.0149 si 64.5  X  71.5
7

0.0833
------------ = 0.0104 si 71.5  X  79.5
8
0 si X  79.5

Cuando se quiera definir un valor porcentual de la distribución en un punto


cualquiera, se recurre a la (3.2.5.)Función empírica de distribución acumulada,
la cual utiliza la función empírica de densidad dentro de la composición de su
fórmula, esta función empírica de distribución acumulada, podría ser usada en
forma inversa para encontrar un percentil.
La forma general de esta función está dada por:

0 si X  L1

hi
H*(X) = H( i-1)+ -------( X – Li ) si Li  X  L(i + 1)
Ci

1 si X  Lm

Donde: hi / Ci, es hi* (función de densidad) del valor X.

H (i – 1), es la Frecuencia acumulada relativa del intervalo


Anterior, de donde se encuentra el valor X.

Li, es el límite inferior del intervalo donde se encuentra el


valor X.

L1, Límite inferior del primer intervalo de la distribución

Lm, Límite superior del último intervalo de la distribución

X, valor al que se le quiere hallar el porcentaje de


equivalencia en la función.

Vale la pena recordar el concepto de a lo sumo, o sea a lo máximo ó como


máximo, al igual que el concepto de a lo mínimo ó como mínimo ó a lo menos, ya
que son términos utilizados por esta función.

Por ejemplo tener a lo sumo 2 hijos, significa que desea tener 0 ó 1 ó 2 hijos, si se
dice que desea ganar a lo menos tres materias de las cinco que ve, está diciendo
que desea ganar 3 ó 4 ó 5 materias.
Se define la función empírica de distribución acumulada, para el nivel de glucosa
en la sangre de los niños, en un centro de salud de la ciudad, así:

0 si X  29.5

0 + 0.0119 ( X – 29.5) si 29.5  X  36.5

0.0833 + 0.0149 ( X – 36.5) si 36.5  X  43.5

0.1875 + 0.0268 ( X – 43.5) si 43.5  X  50.5

0.375 + 0.0357 ( X – 50.5) si 50.5  X  57.5

H*(X) =

0.625 + 0.0268 ( X – 57.5) si 57.5  X  64.5

0.8125 + 0.0149 ( X – 64.5) si 64.5  X  71.5

0.9167 + 0.0104 ( X – 71.5) si 71.5  X  79.5

1 si X  79.5

3.2.5.1. Aplicaciones de esta función, recuérdese que esta función es


acumulada, o sea que va desde 0 hasta el valor que se desee.
¿Qué porcentaje de niños tienen un nivel de glucosa de a lo sumo 55?

Lo primero es definir en que intervalo está contenido el valor 55 y aplicar la función


en ese intervalo, ya que piden es desde 0 hasta 55.

H (55) = 0.375 + 0.0357 ( X – 50.5) = 0.375 + 0.0357 (55 – 50.5)

= 0.375 + 0.0357 ( 4.5 )

= 0.375 + 0.16065

= 0.53565

O sea, el 53.57% de los niños en la muestra tienen un nivel de glucosa en la


sangre de a lo sumo 55.

¿Qué porcentaje de niños tienen un nivel de glucosa de a lo menos 55?.

Aquí lo que se pide es los niños que tienen un nivel de glucosa entre 55 y 100, por
lo tanto se resuelve de la siguiente manera:

100% - H (55), o sea que al 100% se le quita el acumulado desde 0 hasta 55 y


quedaría desde 55 hasta 100.

100 – 53.57 = 46.43%

Luego entonces, el 46.43% de los niños en la muestra tienen un nivel de glucosa


de a lo menos 55.
¿Qué porcentaje de niños tienen un nivel de glucosa de a lo menos 85?.

Como está por encima del valor máximo 79.5, se tiene lo siguiente:
100% - 100% = 0%, ya que el H (85) vale 100%, o sea que ningún niño presenta
un nivel de glucosa de a lo menos 85.

¿Qué porcentaje de niños tienen un nivel de glucosa de a lo sumo 25?

Como este valor está por debajo de 29.5 vale 0%, igual que el caso anterior.

¿Qué porcentaje de niños tienen un nivel de glucosa de a lo sumo 63 y de a lo


menos 42?

Es lo mismo que si preguntaran sobre en que porcentaje de los niños, su nivel de


glucosa está entre 63 y 42, observe que sigue siendo un intervalo esta pregunta,
luego entonces se resuelve como un intervalo, el valor mayor menos el valor
menor.

H (63) - H (42)

Se hallan por separado y luego se restan sus resultados.

H (63) = 0.625 + 0.0268 (63 – 57.5)

= 0.625 + 0.0268 (5.5)


= 0.625 + 0.1474

= 0.7724

H (42) = 0.0833 + 0.0149 (42 – 36.5)

= 0.0833 + 0.0149 (5.5)

= 0.0833 + 0.08195
= 0.16525

de ahí = 0.7724 - 0.16525

= 0.60715

Luego entonces el porcentaje de los niños en la muestra que tienen un nivel de


glucosa de no menos 42 y no más de 63, es del 60.72%.

3.2.6. REDUCCIÓN DE DATOS PARA VARIABLES CONTINUAS

En los indicadores tanto de Tendencia Central como los de Dispersión, en sus


conceptos y propiedades son los mismos que para el caso de la variable discreta.

3.2.6.1. MEDIDAS DE TENDENCIA CENTRAL

3.2.6.1.1. La Media, es el valor promedio de la muestra y la forma de hallarla


es la siguiente:

k
 Mi ni
i=1 k
X = ------------- =  Mi hi
n i=1

donde: Mi es la marca de clase del intervalo i

K es el número de intervalos en la distribución

Las frecuencias absolutas y relativas simples ni y hi respectivamente

Por ejemplo, La Media para la distribución de frecuencias del nivel de glucosa en


la sangre de los niños en un centro de salud de la ciudad se tiene:
Por la primera ecuación se tendría:

7
 Mi ni (33*4) + (40*5) + (47*9) + (54*12) + (61*9) + (68* 5) + (75.5*4)
i =1
----------- = ------------------------------------------------------------------------------------
n 48

2.594
= ---------------- = 54.04
48

Por la segunda ecuación se tendría:

7
 Mi hi = (33*0.0833) + (40*0.1042) + (47*0.1875) + (54*0.25) +
i =1 (61*0.1875) + (68* 0.1042) + (75.5*0.0833)

= 54.04

Luego entonces el nivel promedio de glucosa en la sangre de los niños es de


54.04, ubicado en el 4º intervalo.

3.2.6.1.2. La Mediana, representa el valor que parte en dos partes iguales la


distribución y que para datos continuos se halla de dos formas así:

(Número de datos)/2 - N (i-1)


Me = Li + ----------------------------------------- * Ci
ni

Donde : Li, es el límite inferior del intervalo donde se encuentre la Mediana


N(i-1), Es la frecuencia absoluta acumulada del intervalo anterior
al que se encuentra la Mediana.

ni, Es la frecuencia absoluta del intervalo donde se encuentre la


Mediana.

Ci, Es el tamaño del intervalo en donde se encuentre la Mediana.

Número de datos, es el tamaño de la muestra.

0.5 - H(i-1)
Me = Li + --------------------------- * Ci
hi

Donde : Li, es el límite inferior del intervalo donde se encuentre la Mediana

H(i-1), Es la frecuencia relativa acumulada del intervalo anterior al


que se encuentra la Mediana.

hi, Es la frecuencia relativa del intervalo donde se encuentre la


Mediana.

Ci, Es el tamaño del intervalo en donde se encuentre la Mediana.

Para la distribución de frecuencias del nivel de glucosa en la sangre de los niños


en un centro de salud de la ciudad se tiene:

Como primera medida se busca en la columna de frecuencias relativas


acumuladas donde se encuentra la Mediana, ubicando el 50%.

El 50% está ubicado en el 4º intervalo, entre 50.5 y 57.5


Por la primera fórmula sería:

(48)/2 - 18
Me = 50.5 + ---------------------- * 7
12

24 - 18
= 50.5 + --------------- * 7
12

6
= 50.5 + --------- * 7
12

= 50.5 + 3.5

= 54

Para La segunda forma sería:

0.5 - 0.375
Me = 50.5 + --------------------------- * 7
0.25

0.125
= 50.5 + --------------- * 7
0.25

= 50.5 + 0.5 * 7

= 50.5 + 3.5

= 54

Por lo tanto el 50% de los datos de la muestra del nivel de glucosa en la sangre de
los niños, están por encima de 54 y el otro 50% está por debajo.
3.2.6.1.3. La Moda, el valor más alto en la muestra ó el que más se repite, y su
forma de hallarlo es, si los intervalos son del mismo tamaño, ubicar el intervalo
que más se repite a través de las frecuencias absolutas ó relativas simples, siendo
ese el intervalo de mayor frecuencia, definido como el Intervalo modal, si los
intervalos son de diferente tamaño se halla el intervalo de mayor densidad a través
de la función empírica de densidad.

Luego que esté definido el intervalo de mayor frecuencia, se determina que valor
corresponde a la Moda, con la siguiente fórmula, en algunos casos específicos:

hi/Ci - h(i-1)/C(i-1)
Mo = Li + -------------------------------------------------------------- * Ci
2hi/Ci - h(i-1)/C(i-1) - h(I+1)/C(I+1)

Donde : Li, es el límite inferior del intervalo donde se encuentre la Moda

h(i-1), Es la frecuencia relativa del intervalo anterior al que se


encuentra la Moda.
hi, Es la frecuencia relativa del intervalo donde se encuentre la
Moda.

Ci, Es el tamaño del intervalo en donde se encuentre la Moda.

h(i+1), Es la frecuencia relativa del intervalo posterior al que se


encuentra la Moda.

C(i+1), Es el tamaño del intervalo posterior, en donde se encuentra


La Moda.

C(i-1), Es el tamaño del intervalo anterior, en donde se encuentra


La Moda.
El intervalo Modal , para la distribución de frecuencias del nivel de glucosa en la
sangre de los niños en un centro de salud de la ciudad es:

El intervalo con mayor frecuencia es el No 4, entre los valores 50.5 y 57.5

Siendo este el intervalo más frecuente del nivel de glucosa encontrado en los
niños muestreados.

Ahora bien si se deseara encontrar el valor puntual más frecuente, este sería:

0.25/7 - 0.1875/7
Mo = 50.5 + ------------------------------------------------------ * 7
2(0.25/7) - 0.1875/7 - 0.1875/7

0.0625
Mo = 50.5 + -------------- * 7
0.125

Mo = 50.5 + (0.5 * 7)

Mo = 54

El nivel de glucosa de 54 sería el valor más frecuente en la distribución.

3.2.6.2. MEDIDAS DE DISPERSIÓN

3.2.6.2.1. La varianza muestral, define la variabilidad en una muestra y para


variables continuas con frecuencias se halla de la siguiente forma:

k
 ni (Mi – X)2
i=1
S2 = -----------------------------
n
ó

k
S2 =  hi (Mi – X)2
i=1

Para cálculos se trabaja con :

k
 Mi2 ni n X2
i=1
S2 = -------------------- – ----------
n–1 n–1

si n  30

y con :

k
 Mi2 ni
i =1
S2 = --------------- - X2
n

si n  30

Para la distribución de frecuencias del nivel de glucosa en la sangre de los niños


en un centro de salud de la ciudad, se utilizaría la fórmula para datos mayores de
30 y se tiene que:
7
 Mi2 ni (332*4) + (402*5) + (472*9) + (542*12) + (612*9) + (682* 5) + (75.52*4)
i =1
----------- = ----------------------------------------------------------------------------------------------
n 48

de ahí se obtiene :

146.639
S2 = ----------------- - 54.042
48

S2 = 134.66

Que sería la variabilidad general de la información

3.2.6.2.2. Desviación estándar, mide la variación de los datos con respecto al


valor promedio y simplemente es hallar la raíz cuadrada de la varianza.

S = 11.6

Una forma practica de interpretar este resultado sería utilizando el argumento de la


regla empírica : la media (+/-) una desviación estándar, se espera que contengan
el 68% de los datos, si la distribución es simétrica, lo cual es cierto, puesto que la
media, la mediana y la moda están en 54, entonces se diría que la mayoría de los
niños en ese centro de salud de la ciudad, tienen un nivel de glucosa entre 54.04
(+/-) 11.6, lo que daría que la mayoría de estos niños tienen un nivel de glucosa en
la sangre entre 65.64 y 42.44.
También se puede interpretar como, que los datos se desvían en 11.6 con
respecto al valor promedio, pero ¿es mucha la dispersión o es poca?

Para dar respuesta a esta pregunta se halla el (3.2.6.2.3.)Coeficiente de


Variación porcentual (CV),

S
CV(%) = ----------- * 100%
X

11.6
CV (%) = ----------- * 100%
54.04

CV(%) = 0.214 * 100%

CV(%) = 21.4%

Valor que se puede considerar como poco homogéneo.

Observe que La Media, La Mediana y La Moda tienen valores muy similares, por lo
cual esta información se puede considerar una distribución simétrica.

Se evalúa el (3.2.7.)Coeficiente de Asimetría (g1), para confirmar esta


apreciación.

k
g1 =  ((Mi – X) / S)3 * hi
i=1
7
g1 =  ((Mi –54.04 ) / S)3 * hi
i=1

g1 = 0.0258

con lo cual se corrobora la simetría con el valor tan cercano a cero, lo que
determina una muy leve asimetría positiva que se puede desapercibir.

Se halla el (3.2.8.) Coeficiente de Curtosis (g2), para visualizar su apuntamiento.

k
g2 =  ((Mi – X) / S)4 * hi
i=1

7
g2 =  ((Mi – 54.04) / 11.6)4 * hi
i=1

g2 = 2.369

Ec = g2 - 3

Ec = 2.369 - 3

Ec = - 0.631

Por lo cual es considerada esta distribución como una distribución tendiendo a ser
Platicúrtica, o sea que presenta un apuntamiento levemente por debajo de lo
normal.
3.2.9. Percentiles

Ya se sabe que los deciles y los cuartiles se pueden expresar a través de los
percentiles, pero se debe definir ¿cómo resolver un percentil?, se sabe además,
que la función empírica de distribución acumulada se utiliza, si se conoce el valor
de la variable y se requiere encontrar el porcentaje, pero cuando se conoce el
porcentaje y se requiere saber a que valor de la variable corresponde, se debe
utilizar Percentiles.

PASOS PARA ENCONTRAR UN PERCENTIL

1. Encuentre el valor que corresponde al percentil n P(n)

Pn * (n + 1)
P(n) =
100

2. Ubique en que fila (i) está contenido el valor P(n) en la columna de la frecuencia
acumulada absoluta (Ni)
3. Halle el valor de razón K

K = P(n) – N(I - 1)

4. Defina una regla de tres de la siguiente manera, para encontrar X que


correspondería al K
K * Ci
X=
ni

De ahí se tiene que el valor de X para el percentil P(n) es : Li + X


Si el percentil que se requiere está en la tabla como frecuencia acumulada relativa
el valor de X será el límite superior del intervalo donde esté el percentil a
encontrar.

¿Qué nivel de glucosa tienen como máximo el 62.5% de los niños de ese centro
de salud de la ciudad de Cali?

57.5 es el nivel de glucosa que como máximo tienen el 62.5% de los niños de ese
centro de salud de la ciudad de Cali.

Observe que no hubo necesidad de realizar el proceso puesto que el percentil a


buscar estaba en la tabla.

¿Qué nivel de glucosa tienen como máximo el 75% de los niños de ese centro de
salud de la ciudad de Cali? (que corresponde al tercer cuartil)
75 * (48 + 1)
P(75) = = 36.75
100

Está contenido en la quinta fila, i = 5 en N5 = (39)

K = 36.75 - 30 = 6.75

6.75 * 7
X= = 5.25
9

Luego entonces el valor del Percentil de 75 será: 57.5 + 5.25 = 62.75

P(75) = 62.75, el 75% de los niños de ese centro de salud de la ciudad de Cali
tienen como máximo un nivel de glucosa en la sangre de 62.75.
También se puede hallar, usando la generalización de la ecuación para la mediana
como:
0.75 – 0.625
57.5 + * 7 = 62.2
0.1875

Con esta forma se obtiene un valor muy aproximado al anterior, ambos métodos
me proporcionan una excelente aproximación al valor

¿Qué nivel de glucosa tienen como mínimo el 10% de los niños de ese centro de
salud de la ciudad de Cali, que tienen el nivel de glucosa más alto?

Aquí en realidad de verdad el percentil que se está queriendo hallar es el de 90,


puesto que los niveles más altos están a la derecha (al final) de la distribución.

90 * (48 + 1)
P(90) = = 44.1
100

Está contenido en la séptima fila, i = 7 en N7 = (48)

K = 44.1 - 44 = 0.1

0.1 * 7
X= = 0.175
4

luego entonces el valor del Percentil de 75 será: 71.5 + 0.175 = 71.675

P(90) = 71.675, el 10% de los niños de ese centro de salud de la ciudad de Cali
tienen como mínimo un nivel de glucosa en la sangre de 71.675.
También se puede hallar como:

0.90 - 0.8125
64.5 + *7 = 70.4
0.1042

Recuerde que ambos métodos dan una buena aproximación del percentil.

¿Qué nivel de glucosa tienen entre el 75% y el 90% de los niños de ese centro de
salud de la ciudad de Cali?

P(90) – P(75)

Entre el 75% y el 90% de los niños de ese centro de salud, tienen entre 71.675 y
62.5 de nivel de glucosa.

3.3. Resuelva los siguientes ejercicios:

1. Una entidad encargada del control de contaminación de cierto río, lleva


registros sobre el oxígeno disuelto X, expresada en mg/lt, éstos se
presentan a continuación.

3.6 3.1 2.6 2.7 3.9 2.4 2.7 2.5 2.3 4.0 2.5 1.7
3.1 2.6 1.3 4.3 1.5 2.8 1.8 4.2 2.4 2.2 3.4 3.7
0.8 2.3 1.9 4.5 1.2 2.2 2.2 2.1 1.8 2.9 3.8 3.5
1.6 3.2 4.4 1.4 0.7 2.8 3.2 3.5 3.0 3.3 0.5 2.3
0.3 2.6

Resolver:
a. Hallar La Media, La Moda, La Mediana, La Desviación Estándar y el
Coeficiente de Variación.
b. Grafique El Histograma, El Polígono de Frecuencias y La Ojiva.
c. ¿Qué porcentaje de registros son inferiores a 3.1 mg/lt.?
d. ¿Qué porcentaje de registros son mayores que 1.5 mg/lt, pero, son menores
que 3.5 mg/lt.?
e. ¿Cuánto oxígeno disuelto en mg/lt tienen como máximo el 70% de los
registros?
f. ¿Cuánto oxígeno disuelto en mg/lt tienen como mínimo el 15% de los registros
más altos?

2. En una granja cafetera se estudia cierta Variedad de Café.

Se requiere saber las características de la variable altura de dicha variedad, con


este propósito se tomaron los siguientes datos.

No del árbol Altura en cms

1 52.0
No del árbol Altura en cms
2 45.7
3 47.0
4 31.8
5 34.0
6 43.2
7 46.0
8 49.0
9 49.5
10 53.0
11 41.0
12 44.2
13 39.0
14 37.0
15 40.0
16 47.8
17 43.0
18 39.0
19 43.4
20 47.4
21 46.0
22 51.3
23 48.7
24 46.9
25 52.6
26 58.8
27 53.5
28 55.4
29 52.6
30 54.9

¿Cuál es su Población y cuál su tamaño? ¿Cuál es la muestra y cuál su tamaño?


¿Cuál es la variable de interés? Ordene los datos, tabúlelos utilizando intervalos
de clase, calcule las Frecuencias Absolutas, Frecuencias Relativas, Absolutas
Acumuladas y Relativas Acumuladas. ¿Qué puede decir acerca del procesamiento
ó la información? ¿Los resultados son exactos? ¿Hay pérdida de información?.
¿Si la hay cuál es la compensación?
Grafique el Histograma, El Polígono de Frecuencias y El Ojiva, además defina la
Función empírica para este caso.

3. Una compañía especializada en la fabricación de ejes para máquina está


planeando la compra de una máquina de corte controlada por computadora. El
ingeniero de la compañía prueba dos máquinas de diferentes fabricantes. Los
diámetros (en centímetros) de las barras cortadas por las máquinas fueron los
siguientes:
Fabricante 1: 2.001 2.000 2.004 1.998 1.997
Fabricante 2: 2.002 2.008 1.995 1.990 2.005
¿Qué máquina le recomienda comprar al ingeniero? Justifique la respuesta
4. El gráfico muestra el consumo de energía mensual (kv) de 80 salas de micros
en una ciudad.

Consumo de Energia - mes


100
90
80
70
60
%

50
40
30
20
10
0
250 500 750 1000 1250 1500 1750 2000
Kv/h

a. Determine e interprete los valores n2 y S.


b. Hallar e interpretar el percentil 80 y el cuartil 2.
c. Qué porcentaje de salas presentaron consumos de energía menores a
1000 kv?
d. Si Yi = 40 Xi - 2500 es el costo de energía para una sala i, siendo X el
consumo, calcular el promedio y la desviación estándar del costo de
energía de todas las salas en la muestra.
5. Dada la rapidez necesaria en el mantenimiento de máquinas eléctricas, el jefe
de mantenimiento de una empresa que brinda este tipo de servicio, decide
evaluar el servicio prestado por tres funcionarios a su cargo. Los últimos 90
mantenimientos se distribuyen aleatoriamente y por igual entre los tres
funcionarios distintos y se registró el número de horas que requirió cada
mantenimiento. A juzgar por los diagramas de caja, ¿cuál servicio presenta el
mejor promedio?, ¿cuál servicio presenta la desviación estándar mas
pequeña? Justifique las respuestas.
I
*
II

III

20 25 30 35 40 45 50 55 60 65 70
horas

El Diagrama de Cajas, se construye con el primer y tercer cuartil, además de la


mediana ó la media y también interviene el Rango intercuartil (RIC), que es la
diferencia entre el tercer cuartil y el primer cuartil, donde los valores que estén
alejados 1.5 * RIC del primer ó tercer cuartil, se denomina un valor inusual y si
está alejado a 3 * RIC, será un valor extremadamente inusual, del resto los valores
alejados se denominan moderados, observemos una caja.

Mediana
Q1 Q3

Bigotes
Primer Cuartil
Tercer cuartil

En algunos casos se coloca la media con un símbolo que puede ser un más ó un
por.

6. Una máquina produce piezas de acero. Se tomaron 80 piezas consecutivas y


se midió el grosor. Con esta información se construyó el siguiente gráfico:
Determine:
a. La media, la mediana, la moda, el rango, la desviación estándar, la varianza y
el CV(%)
b. Los cuartiles, Qué tan homogéneos son los datos?
Porcentaje de piezas
30
25
Porcentaje

20

15

10

5
0
0 10 20 30 40 50
Grosor

7. Se midió los tiempos de CPU en segundos aproximados al segundo decimal,


de los trabajos realizados en un equipo y se obtuvo el siguiente diagrama de
tallo y hojas:
Tallo H o j a s
0 02 15 19 47 71 75 82 92 96
1 16 17 23 38 40 59 61 94
2 01 16 41 59
3 07 53 76
4 75

Calcule el promedio, la mediana, la desviación estándar y a partir de ellos,


presente un análisis descriptivo de los datos.

El Diagrama de Tallos y Hojas, es una alternativa para el histograma ó el diagrama


de barras, donde los tallos son las decenas ó centenas, mientras que las hojas
son las unidades ó como en el caso del ejercicio planteado, las hojas son las
unidades y las decenas, mientras que los tallos son las centenas, observe que en
el cuarto tallo 3 los valores representados son : 307, 353 y 376.

8. Para incrementar la rapidez del etiquetado de botellas por una máquina de


modelo antiguo en una compañía de jugos, se decide observar la variabilidad
del proceso mediante la elaboración de un histograma de frecuencias. Para
iniciar este proyecto, se tomaron datos, para conocer la cantidad de cajas de
botellas etiquetadas por día. Se hicieron 50 observaciones, cuyos resultados
son:
7532 8457 6275 5944 8963 6501 7883 9121 7569 6578 6991
7932 6549 6897 7396 8254 7453 7032 6854 8337 8457 8011
8115 7457 8745 7253 6485 5985 8736 7693 8457 6337 7352
8119 6429 7470 8019 6581 6825 7318 6584 6867 8643 7237
7593 8240 6953 7495 8230 7645

a. Construya la tabla de frecuencias, haga una breve interpretación de ella.


b. ¿Qué porcentajes de días se etiquetaron entre 7800 y 8200 cajas?
c. Si se define que el estándar de cajas etiquetadas es de a lo menos de
7850, ¿en qué porcentaje de días no se cumplió con el estándar?.
d. El rublo del costo de mano de obra se dispara, si la cantidad de cajas
etiquetadas en un día no supera las 7000. ¿en qué porcentaje de días
se disparó este rublo?.
e. Se da bonificación por día, si la cantidad de cajas etiquetadas es a lo
menos 8350, ¿en que porcentaje de días se dio bonificación?.
f. El 75% de los días que cantidad de botellas se etiquetaron como
máximo?
g. ¿Qué cantidad de botellas se etiquetaron como mínimo en el 5% de los
días que más etiquetaron botellas?.
h. Halle e interprete los indicadores de tendencia central.
BIBLIOGRAFÍA

CORRALES V. RUBEN DARIO, Notas de clase de ESTADÍSTICA, 1996-2007

LINCOYAN PORTUS GOVINDEN, Curso Práctico de ESTADÍSTICA, Editorial Mc


Graw Hill, 1985.

BEHAR R. y YEPES M., ESTADÍSTICA un Enfoque Descriptivo, Publicaciones


Ingeniería Univalle, 1986

MENDENHALL REINMUTH Y TERRY SINCICH, Estadística para Ingeniería y


Ciencias, Editorial Iberoamericana, 1997.

MOOD, GRAYBILL AND BOES, Introducción a la Estadística, Editorial Aguilar,


1985.

You might also like