You are on page 1of 35

UNSCH Bioestadstica I Prof. Reynn Cndor A.

I. BIOESTADSTICA
1.1. Estadstica y bioestadstica
Daniel indica que la estadstica es la disciplina que se ocupa de 1) la recoleccin, organizacin,
resumen y anlisis de datos, y 2) la obtencin de inferencias a partir de un volumen de datos
cuando se examina solo una parte de estos.
La Bioestadstica, en el mbito de la Estadstica, hace referencia a mtodos estadsticos y
matemticos que se aplican al anlisis de datos provenientes de las ciencias biolgicas. Debido
a que las cuestiones a investigar, cuando se trabaja con personas, animales, plantas u otros
organismos vivos, son de naturaleza muy variada. Incluye no slo herramientas para el anlisis
estadstico descriptivo de datos biolgicos sino tambin el uso de numerosos procedimientos
y algoritmos de clculo y computacin para el anlisis inferencial, el reconocimiento de
patrones en los datos y la construccin de modelos que permiten describir y analizar procesos
aleatorios (Balzarini et al, 2011).
1.2. Objeto de estudio.
El objetivo de la estadstica es investigar y evaluar la naturaleza y el significado de la
informacin contenida en los datos (Daniel).
Es necesario tener en cuenta que la estadstica se ha propuesto como instrumento de
investigacin. La investigacin puede ser en gentica, mercadeo, nutricin, agronoma, etc.
Es el campo de investigacin, no el instrumento, el que debe proporcionar los porqu del
problema de investigacin. Aveces, este hecho se pasa por alto y los usuarios olvidan que
tienen que pensar, que la estadstica no puede pensar por ellos. La estadstica, sin embargo,
ayuda a los investigadores a disear experimentos y a evaluar objetivamente los datos
numricos resultantes. Es nuestra intencin proporcionar a los investigadores instrumentos
estadsticos tiles para este fin.
1.3. Estadstica descriptiva y estadstica
inferencial.

La Estadstica puede ser dividida en:

La Estadstica Descriptiva. Parte de la


estadstica que se ocupa de la clasificacin,
descripcin, simplificacin y presentacin de
los datos. Comprende el uso de tablas de
frecuencias, grficos y el clculo de medidas
estadsticas.

La Estadstica Inferencial. Parte de la


estadstica que se ocupa de la estimacin y
prueba de hiptesis de los parmetros de una
poblacin, a partir de una muestra aleatoria
extrada de dicha poblacin.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 5


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Ejemplo
Se desea hacer un estudio sobre el consumo de drogas en el distrito de Comas. Con esta
finalidad se extrae una muestra aleatoria de 240 adolescentes del distrito de Comas en el 2013
y se les aplica la encuesta respectiva.
Se aplica la Estadstica Descriptiva para recopilar, clasificar, organizar y presentar en una
tabla de frecuencias y en forma grfica los datos recogidos de una encuesta.

Distribucin de la frecuencia de consumo de droga

Frecuencia de
consumo Nmero Porcentaje
No 100 41.7
Interdiario 80 33.3
Diario 40 16.7
A veces 20 8.3
Total 240 100.0
Fuente: UNAL La Molina Dpto. de Estadstica e Informtica

45.0 41.7
40.0
33.3
35.0
30.0
25.0
%

20.0 16.7
15.0
8.3
10.0
5.0
0.0
No Interdiario Diario A veces
FRECUENCIA

Fuente: UNALM La Molina Dpto. de Estadstica e Informtica

Figura. Frecuencia de consumo de droga.


Tambin se calcula medidas estadsticas. La edad promedio de la muestra de los adolescentes
que consumen droga es 20.5 aos.

Se aplica la Estadstica Inferencial para estimar la proporcin de adolescentes que consumen


drogas diariamente del distrito de Comas, cuya estimacin fue de 16.7%. Para probar la
hiptesis si esta proporcin es mayor al 17%.

1.4. Conceptos bsicos

1) Poblacin. Es el conjunto de unidades elementales con caractersticas similares. El estudio


de toda la poblacin constituye un censo.

Ejemplo
1. El conjunto de todos los estudiantes de una institucin educativa.
2. El conjunto de todos los meses de venta en una casa comercial entre el 2007- 2011.
3. El conjunto de personas que viven en el Distrito de Ayacucho.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 6


UNSCH Bioestadstica I Prof. Reynn Cndor A.

2) Unidad Elemental. Es un elemento particular de la poblacin o muestra.

Ejemplo
1. Un estudiante de la Institucin educativa.
2. Cada mes de venta en una casa comercial entre el 2007-2011.
3. Cada persona que viven en el Distrito de Ayacucho.

3) Muestra. Es un subconjunto de la poblacin. Al proceso de obtencin de una muestra se


le llama "muestreo". Para que una muestra sea representativa debe cumplir con las
siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamao y sus elementos deben haber sido seleccionados aplicando un mtodo de
muestreo.

Ejemplo
1. 120 estudiantes de la institucin educativa.
2. 45 meses de venta en una casa comercial entre el 2007-2011.
3. 80 personas que viven en el Distrito de Ayacucho.

4) Variable. Son las caractersticas que toman diferentes valores cuando son evaluadas en las
unidades elementales de una poblacin o muestra. Se representan por las ltimas letras
maysculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc.

Tipos de Variables
A. Variables Cuantitativas. Son aquellas que se expresan en forma numrica y tiene
sentido realizar operaciones matemticas con ellas. Pueden ser del tipo:

Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor
numrico dentro de un intervalo continuo. Se utiliza un instrumento de medicin
para generar sus valores: balanza, termmetros, test, escalas, cronmetros,
winchas, etc.

Ejemplo
1. Peso del langostino de ro (en gr)
2. Tiempo para encontrar estacionamiento en un centro comercial (minutos)
3. Gasto mensual familiar en atencin mdica (nuevos soles)

Variable Cuantitativa Discreta. Son aquellas que cumplen con la condicin de


que entre un valor cualesquiera y su consecutivo no es posible que existan valores
intermedios. Generalmente son representados por el conjunto de nmeros enteros.
Las observaciones cuantitativas discretas se registran por conteo.

Ejemplo
1. Nmero de artculos defectuosos en un lote de 20
2. Nmero de clientes atendidos cada 20 minutos en una ventanilla
3. Nmero de predios que posee un agricultor de un valle

DEPARTAMENTO DE CIENCIAS BIOLGICAS 7


UNSCH Bioestadstica I Prof. Reynn Cndor A.

B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
sentido realizar operaciones matemticas con ellas. Son aquellas cuyos valores
posibles son atributos o categoras.
Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o
atributos) no son factibles de ser clasificados a travs de un criterio de orden o
jerarqua. Sus valores posibles no tienen un orden de importancia.
Ejemplo
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Marca de una computadora (A, B, C o D)
4. Marca de Automvil (Toyota, Chevrolet, Mercedes Benz, etc...)

Variable Cualitativa Jerrquica u Ordinal. Son aquellas donde s se puede establecer


un criterio de orden o jerarqua entre sus atributos de la variable.
Ejemplo
1. Nivel de instruccin (Sin instruccin, Primaria, Secundaria o Superior)
2. Nivel socioeconmico de un cliente (Alto, Medio o Bajo)
3. Calificacin de un servicio (Bueno, Regular o Malo)
4. Rango Militar (Cabo, Sargento, Coronel)

Variable aleatoria?
Otros autores hacen uso de la definicin de variables aleatorias, que en realidad se tratan de
las variables cuantitativas, pudiendo ser stas discretas y continuas. Pondremos nfasis en la
aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de un
individuo, el resultado frecuentemente se denomina valor de la variable respectiva. Cuando
los valores se originan como resultado de factores aleatorios (al azar), que no pueden
predecirse con exactitud y anticipacin, la variable se llama variable aleatoria. Un ejemplo
de variable aleatoria es la estatura de los adultos; cuando nacen los nios no es posible
predecir con exactitud la estatura que tendrn en su edad adulta; la estatura que alcanza un
adulto es el resultado de muchos factores genticos y ambientales. Los valores resultantes
de los procedimientos de medicin se denominan observaciones o medidas.
Variable aleatoria discreta (Variable cuantitativa discreta)
Entre los ejemplos de variables aleatorias discretas: El nmero de admisiones diarias en
un hospital general es una variable aleatoria discreta, puesto que el nmero de
admisiones por da debe representarse con nmeros enteros tales como 0, 1, 2 o 3. El
nmero de admisiones en un da determinado no puede ser 1.5, 2.997 o 3.333. El nmero
de caries, amalgamas o prdida de dientes por nio en una escuela primaria es otro
ejemplo de una variable discreta.
Variable aleatoria continua (variable cuantitativa continua)
Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden
hacerse en individuos tales como su estatura, peso y dimetro craneano. Sin importar
cun cerca estn las estaturas de dos personas, tericamente siempre es posible encontrar
otra persona cuya estatura se encuentre entre las dos estaturas de referencia.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 8


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Ahora bien, debido a las limitaciones de los instrumentos de medicin disponibles, las
observaciones sobre variables que son inherentemente continuas se registran como si fueran
discretas. La estatura, por ejemplo, normalmente se redondea metros o centmetros completa
ms cercanos, mientras que si se cuenta con el instrumento de medicin adecuado, esa medida
puede hacerse tan precisa como se desee.
Ejemplos:
1. Decir cules de estos datos son discretos y cules continuos:
(a) Nmero de acciones vendidas un da en la Bolsa de Valores.
(b) Temperaturas medidas en un observatorio cada media hora.
(c) Vida media de los tubos de televisin producidos por una fbrica.
(d) Ingresos anuales de los profesores de Enseanza Media.
(e) Longitudes de 1000 tornillos producidos en una empresa.
Solucin
(a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos.

2. Dar el dominio de las siguientes variables y decir cules son continuas:


(a) Nmero G de galones (gal) de agua en una lavadora.
(b) Nmero B de libros en una estantera.
(c) Suma S de los puntos obtenidos al lanzar un par de dados.
(d) Dimetro D de una esfera.
(e) Pas P de Europa.
Solucin
(a) Dominio: Cualquier valor entre 0 gal y la capacidad de la lavadora. Variable: Continua.
(b) Dominio: 0, 1, 2, 3,... hasta el nmero total de libros que caben en la estantera. Variable:
Discreta.
(c) Dominio: Los puntos de un dado pueden ser 1. 2, 3, 4, 5 6. Luego la suma de dos
dados puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 12, que es el dominio de S. Variable: Discreta.
(d) Dominio: Todos los valores positivos. Variable: Continua.
(e) Dominio: Francia, Italia, ..., etc., que pueden representarse numricamente como 1. 2,
Variable: Discreta.

5) Observacin. Es el valor posible que toma una variable. A las observaciones se les suele
representar con las letras minsculas subindicadas, como por ejemplo x, y, zi

Ejemplo
1. X = Peso del langostino de ro (en gr). Observaciones:
x1= 2.5, x2 = 3.0,..,x10 = 3.2
2. Y = Calificacin de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo

6) Parmetro. Es una medida estadstica para describir el comportamiento de una variable en


la poblacin. Son calculadas con los datos de toda la poblacin. Es un valor constante. Se
representan con letras griegas.
Ejemplo
1. Suponga que el nmero promedio de cocinas vendidas en todos los meses de venta es 15.4
( = 15.4).

DEPARTAMENTO DE CIENCIAS BIOLGICAS 9


UNSCH Bioestadstica I Prof. Reynn Cndor A.

2. El Censo Nacional 2007: XI de Poblacin y VI de Vivienda indica que en el grupo edad


de 20 a 29 aos, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1% de
las mujeres no sabe leer y escribir (P1 = 0.014 y P2 = 0.031).
3. Suponga que en todo Brea la proporcin del nivel de instruccin result:
Instruccin Proporcin (Pi)
Primaria 0.455
Secundaria 0.445
Superior 0.100
TOTAL 1.000

7) Valor estadstico o Estadgrafo. Es una medida para describir el comportamiento de una


variable en la muestra. Se calculan con los datos obtenidos de una muestra. Son valores
variables (varan de muestra a muestra). Los estadsticos sirven para estimar a los
parmetros. Se representan con letras latinas.

Ejemplo
1. En una muestra de 30 meses de venta se encontr que el nmero promedio de cocinas
vendidas fue de 14.9 ( X = 14.9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no sabe
leer y ni escribir (p = 0.011) .
3. Suponga que en el distrito de Brea se ha seleccionado una muestra de 500 personas
encontrndose los siguientes resultados:
Instruccin Proporcin (pi)
Primaria 0.460
Secundaria 0.430
Superior 0.110
TOTAL 1.000

Notacin de los principales parmetros y estadsticos


Medidas estadsticas En una poblacin En una muestra
(parmetro) (estadstico)
Media X
Mediana ME me
Moda MO mo
Proporcin , P p
Variancia o varianza s2 s2
Desviacin estndar s s
Coeficiente de variabilidad CV cv

1.5. Importancia de la Estadstica


Ya hemos visto que la Estadstica se encuentra ligada a nuestras actividades cotidianas. Sirve
tanto para pronosticar el resultado de unas elecciones, como para determinar el nmero de
ballenas que viven en nuestros ocanos, para descubrir leyes fundamentales de la Fsica o para
estudiar cmo ganar a la ruleta.
La Estadstica resuelve multitud de problemas que se plantean en ciencia:

DEPARTAMENTO DE CIENCIAS BIOLGICAS 10


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Anlisis de muestras. Se elige una muestra de una poblacin para hacer inferencias
respecto a esa poblacin a partir de lo observado en la muestra (sondeos de opinin,
control de calidad, etc).
Descripcin de datos. Procedimientos para resumir la informacin contenida en un
conjunto (amplio) de datos.
Contraste de hiptesis. Metodologa estadstica para disear experimentos que
garanticen que las conclusiones que se extraigan sean vlidas. Sirve para comparar las
predicciones resultantes de las hiptesis con los datos observados (medicina eficaz,
diferencias entre poblaciones, etc).
Medicin de relaciones entre variables estadsticas (contenido de gas hidrgeno neutro
en galaxias y la tasa de formacin de estrellas, etc).
Prediccin. Prever la evolucin de una variable estudiando su historia y/o relacin con
otras variables.
1.6. La bioestadstica en la investigacin cientfica.
La estadstica es un instrumento aplicable en el mtodo cientfico, para el cual fue
desarrollada. Su aplicacin particular est en los muchos aspectos del diseo de un
experimento, desde el plan inicial para la recoleccin de los datos, y en el anlisis de los
resultados a partir de los datos resumidos, hasta la evaluacin de la incertidumbre de toda la
inferencia extrada de ellos.
De una forma esquemtica, el proceso experimental suele desarrollarse siguiendo el siguiente
esquema: Definir la pregunta o problema a resolver. Cuanto ms claro y definido sea el
objetivo del experimento, mucho ms fcil ser realizar su planificacin y ejecucin.
Obtener informacin y recursos. Una vez definido el objetivo del experimento, es
necesario elaborar un plan de trabajo para poder alcanzarlo. Hay que identificar qu
equipos son necesarios, qu cantidades hay que medir, y de qu manera se va a realizar
el experimento.
Formular hiptesis, acerca de los resultados de nuestro experimento. Hacerlo antes de
su ejecucin evita el sesgo personal de identificar los resultados que ya se conocen
como objetivos iniciales (no debemos engaarnos a nosotros mismos).
Realizar el experimento y obtener las medidas. Esta tarea se subdivide en varios pasos:
Preparacin: el equipo debe ser puesto a punto para su utilizacin. Si el
experimento requiere la utilizacin de aparatos con los que no estamos
familiarizados, es necesario leer atentamente los manuales de utilizacin, e
incluso consultar a experimentadores con experiencia previa en su manejo.
Todo ello evita perder tiempo y cometer errores de bulto, a la vez que preserva
la integridad del equipo (y la nuestra!).
Experimentacin preliminar: suele ser muy aconsejable realizar una pequea
experimentacin de prueba antes de iniciar la toma definitiva de medidas.
Esto facilita el uso correcto del equipo instrumental, permitiendo identificar
los aspectos ms difciles o en los que resulta ms fcil cometer errores.
Toma de datos: el trabajo cuidadoso y detallado son fundamentales en todo
proceso experimental. Ejecutar dicha labor siguiendo un plan de trabajo bien
definido resulta bsico. No hay nada ms frustrante que descubir, tras largas
horas de medidas, que hemos olvidado anotar algn parmetro esencial o sus

DEPARTAMENTO DE CIENCIAS BIOLGICAS 11


UNSCH Bioestadstica I Prof. Reynn Cndor A.

unidades. En este sentido resulta imprescindible tener presentes varias


cuestiones
Cules son las unidades asociadas a cada medida?
Cul es la incertidumbre asociada?
Qu variabilidad presentan las medidas?
Cmo puedo tener una idea del orden de magnitud de una medida
antes de realizarla y saber as que los resultados que se van obteniendo
son razonables?
Qu informacin debe ser incluida en la tabla de datos?
Comprobacin de la repitibilidad: siempre que sea posible, todo experimento
debera repetirse varias veces para comprobar que los resultados obtenidos
son repetibles y representativos. Y aunque, obviamente, la repeticin de un
experimento no proporciona exactamente los mismos nmeros, discrepancias
muy grandes deben alertarnos acerca de la existencia de efectos sistemticos
que pueden estar distorsionando el experimento.
Analizar los datos: una vez obtenidas las medidas es necesario su tratamiento
estadstico para poder obtener magnitudes (e incertidumbres asociadas)
representativas del objeto de nuestro estudio.
Interpretar los datos y extraer conclusiones que sirvan como punto de partida para
nuevas hiptesis. El xito de esta interpretacin depender, bsicamente, de la calidad
de las medidas y de su anlisis.
Publicar los resultados. Los resultados de cualquier proceso experimental deben ser
comunicados de manera clara y concisa. Esto incluye desde un sencillo informe de
laboratorio, como el que se exigir en los diversos laboratorios en los que se trabajar
durante la licenciatura de Biologa, hasta la publicacin de un artculo cientfico en
una revista reconocida.
Referencias bibliogrficas
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM

DEPARTAMENTO DE CIENCIAS BIOLGICAS 12


UNSCH Bioestadstica I Prof. Reynn Cndor A.

2. LOS DATOS
2.1. Observacin
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para
que se pueda aplicar la estadstica a esas observaciones stas deben estar en forma numrica.
- En el mejoramiento de cultivos, los nmeros bien pueden ser rendimientos por parcela.
- En la investigacin mdica, pueden ser tiempos de recuperacin bajo varios
tratamientos.
- En la industria, pueden ser cantidad de defectos en varios lotes de un artculo
producido en una lnea de montaje.
Tales nmeros constituyen datos y su caracterstica comn es la variabilidad o variacin.
2.2. Datos
Daniel indica que los datos son la materia prima de la estadstica. Para este propsito defini
a los datos como nmeros. Las dos clases de nmeros que se utilizan en estadstica son
nmeros que resultan de la toma en el sentido literal del trmino de medidas, y aquellos
que resultan del proceso de conteo.
Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la
medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centgrados. Un
tipo bastante diferente de nmeros se obtiene cuando el administrador de un hospital cuenta
el nmero de pacientes, quiz 20, dados de alta en un da. Cada uno de los tres nmeros es un
dato (datum) y los tres juntos son datos.
REDONDEO DE DATOS
El resultado de redondear un nmero como 72.8 en unidades es 73, pues 72.8 est ms
prximo de 73 que de 72. Anlogamente, 72.8146 se redondea en centsimas (o sea con
dos decimales) a 72.81, porque 72.8146 est ms cerca de 72.81 que de 72.82.
Al redondear 72.465 en centsimas nos hallamos ante un dilema, ya que est
equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear al
entero par que preceda al 5. As pues, 72.465 se redondea a 72.46, 183.575 se redondea
a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta estrategia es
particularmente til para minimizar los errores de redondeo acumulados cuando se
efecta un gran nmero de operaciones.
2.3. Recoleccin de datos
Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se obtienen
de los elementos de una muestra, y las muestras se toman de la poblacin, de tal forma que
sean lo ms representativas posible. La tcnica ms comn para asegurar una representacin
adecuada es usar una muestra aleatoria.
2.4. Sistema y fuentes de informacin
El desempeo de actividades estadsticas obedece a la necesidad de responder a diversas
preguntas. Por ejemplo, los mdicos probablemente quieran encontrar respuestas a preguntas
con respecto a la utilidad relativa de procedimientos de tratamiento alternativos. Los
administradores posiblemente quieran responder a preguntas respecto a reas de inters como
el espritu de equipo de los empleados o el uso de las instalaciones. Cuando se determina que

DEPARTAMENTO DE CIENCIAS BIOLGICAS 13


UNSCH Bioestadstica I Prof. Reynn Cndor A.

el enfoque adecuado para buscar una respuesta a la pregunta requiere del uso de la estadstica,
se comienza a investigar datos apropiados que sirvan como la materia prima en la
investigacin. Estos datos normalmente estn disponibles de una o ms fuentes como las
siguientes:
1. Registros rutinarios. Es difcil imaginar algn tipo de organizacin que no lleve
registros de la operacin diaria de sus actividades. Mientras que los registros clnicos de
un hospital, por ejemplo, contienen una inmensa cantidad de informacin acerca de los
pacientes, los registros contables de la institucin contienen datos en abundancia sobre las
actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe
buscar primero en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no estn disponibles a
partir de los registros almacenados de manera rutinaria, la fuente lgica puede ser una
encuesta. Por ejemplo, suponga que el administrador de una clnica desea obtener
informacin respecto a la forma de transporte que utiliza el paciente para visitar la clnica.
Si la forma de admisin no contiene una pregunta acerca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta informacin.
3. Experimentacin. Frecuentemente, los datos necesarios para responder una pregunta
estn disponibles slo como resultado de la experimentacin. Tal vez una enfermera quiere
saber qu estrategia es mejor para maximizar el seguimiento de las indicaciones mdicas
por parte del paciente. La enfermera podra conducir un experimento en el que se prueben
diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes.
La evaluacin subsecuente de las respuestas a las diversas estrategias puede capacitar a la
enfermera para decidir cul es ms efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir
como informes publicados, bancos de datos disponibles o en la literatura de investigacin.
En otras palabras, uno se puede encontrar con que alguien ms ya plante la misma
pregunta y que la respuesta que obtuvo puede aplicarse a la situacin presente.
2.5. Poblacin
Habitualmente se considera a una poblacin como una coleccin de entidades, por lo general
personas. Sin embargo, una poblacin o coleccin de entidades puede estar compuesta de
animales, mquinas, plantas o clulas. Una poblacin de entidades se define como la coleccin
ms grande de entidades de inters en un momento particular. Si se toma la medida de alguna
variable para cada una de las entidades en una poblacin, se obtiene una poblacin de valores
para esa variable. Por lo tanto, una poblacin de valores se puede definir como la mayor
coleccin de valores para una variable aleatoria, los cuales son de inters en un momento
particular. Por ejemplo, si se tiene inters en conocer el peso de todos los nios inscritos en el
sistema de educacin primaria del estado, la poblacin est formada por todos esos pesos. Si
se tiene inters slo en el peso de los estudiantes inscritos en el primer grado, se tiene una
poblacin diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo tanto,
las poblaciones se determinan o definen con base en el campo de inters. Las poblaciones
pueden ser finitas o infinitas. Si una poblacin de valores consiste en un nmero fijo de esos
valores, se dice que la poblacin es finita. Si, por otra parte, una poblacin consiste en una
sucesin interminable de valores, entonces es una poblacin infinita.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 14


UNSCH Bioestadstica I Prof. Reynn Cndor A.

2.6. Muestra
Una muestra puede definirse simplemente como una parte de una poblacin. Suponga que una
poblacin se compone de los pesos de todos los nios inscritos en el sistema de educacin
primaria del estado, y se escoge para el anlisis slo una fraccin de los nios; entonces se
tiene nicamente una parte de la poblacin, es decir, se tiene una muestra.
2.7. Elaboracin de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede tomar
una muestra aleatoria sin emplear un proceso mecnico. En el proceso usado para obtener una
muestra aleatoria o para introducir la aleatoriedad en un experimento o encuesta, por lo general
interviene una tabla de nmeros aleatorios, como la tabla A.1. Esta tabla est formada por los
dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100 por 100, dando lugar a
10,000 dgitos aleatorios. Estos nmeros se obtuvieron en una mquina y no hay razn para
pensar que algn nmero apareciera con ms frecuencia que otro, ni que alguna sucesin de
nmeros fuese ms frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013
doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves;
5,094 son pares y 4 906 son impares. Ilustremos el uso de la tabla tomando una muestra
aleatoria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de
acuerdo con la magnitud asignndoles nmeros de orden. La organizacin por orden no es
necesaria para extraer muestras al azar; el orden de los nmeros aleatorios pudo haberse
asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tmense 20 dgitos consecutivos de la tabla
A.1 y regstrense como 10 pares. Estos sern los nmeros de orden de los pesos
correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma ms
satisfactoria es sealar con el dedo en una de las pginas, leer los cuatro nmeros opuestos
ms cercanos a la punta del dedo y utilizar stos para localizar el punto de partida. As:
1. En la primera pgina de la tabla A.1, el dedo encuentra el nmero 1188 (frente a 10 y
son los primeros cuatro dgitos en la columna 20-24).
2. Se va a la fila 11, columna 88, como punto de partida.
3. Se registran en pares los 20 dgitos que se encuentran yendo hacia la derecha, y que
son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una lnea y se procede al revs para obtener
los otros nmeros, o sea, 09,15,30 y 59.
4. Se toman los nmeros de los elementos y se llevan a la tabla 4.1 para obtener las
correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 frjoles
marcados con 100 contenidos de grasa de leche, volviendo cada frjol a la bolsa y mezclando
bien los frijoles antes de cada extraccin. Por esta razn, se dice que el muestreo es con
reemplazo. Ntese que cada elemento puede sacarse cualquier nmero de veces

DEPARTAMENTO DE CIENCIAS BIOLGICAS 15


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein
durante un mes.
Los datos originales se modificaron para que se aproximaran a una distribucin normal con
=40 lb y =12 lb.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0 10 25 33 50 40 75 47
1 12 26 33 51 40 76 48
2 14 27 34 52 41 77 48
3 15 28 34 53 41 78 48
4 17 29 34 54 41 79 49
5 18 30 35 55 41 80 49
6 20 31 35 56 42 81 49
7 22 32 35 57 42 82 50
8 23 33 36 58 42 83 50
9 25 34 36 59 42 84 51
10 26 35 36 60 43 85 51
11 27 36 37 61 43 86 52
12 28 37 37 62 43 87 52
13 28 38 37 63 43 88 53
14 29 39 37 64 44 89 54
15 29 40 38 65 44 90 55
16 30 41 38 66 44 91 57
17 30 42 38 67 45 92 58
18 31 43 38 68 45 93 60
19 31 44 39 69 45 94 62
20 31 45 39 70 46 95 63
21 32 46 39 71 46 96 65
22 32 47 39 72 46 97 66
23 32 48 40 73 47 98 68
24 33 49 40 74 47 99 70
Fuente: Steel y Torrie (1988)

Luego de usar la Tabla A.1, se obtiene una muestra aleatoria de 10 pesos, procedentes de la
Tabla 4.1
Tabla 4.2 Muestra aleatoria de 10 pesos.
grasa de
pares de leche
dgitos (libras)
06 20
17 30
22 32
84 51
44 39
55 41
09 25
15 29
30 35
59 42

DEPARTAMENTO DE CIENCIAS BIOLGICAS 16


UNSCH Bioestadstica I Prof. Reynn Cndor A.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 17


UNSCH Bioestadstica I Prof. Reynn Cndor A.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 18


UNSCH Bioestadstica I Prof. Reynn Cndor A.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 19


UNSCH Bioestadstica I Prof. Reynn Cndor A.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 20


UNSCH Bioestadstica I Prof. Reynn Cndor A.

2.8. Mecanismos para presentar, tabular y graficar datos

La siguiente Tabla muestra el nmero de bushels (bu) de trigo y maz producidos en la


cooperativa PQR durante los aos 1975-1985. Con referencia a esa tabla, determinar el ao o
aos durante los cuales: (a) la produccin de trigo fue mnima, (b) la de maz fue mxima, (c)
se dio el mayor descenso en la produccin de trigo, (d) decreci la produccin de maz
respecto del ao anterior y creci la de trigo, (e) se produjo idntica cantidad de trigo y (f) la
produccin conjunta de trigo y maz fue mxima.

Nmero de Nmero de
Ao bushels de bushels de
trigo maz
1975 200 75
1976 185 90
1977 225 100
1978 250 85
1979 240 80
1980 195 100
1981 210 110
1982 225 105
1983 250 95
1984 230 110
1985 235 100
Solucin
(a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y
1983; (f) 1983.

Representar los datos del Problema anterior usando: (a) grficos de trazos y (b) grficos de
barras.

Solucin
(a) La Figura muestra el grfico de trazos.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 21


UNSCH Bioestadstica I Prof. Reynn Cndor A.

300

250

Nmero de bushels 200

150
Trigo

100 Maz

50

0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao

(b) Grfico de barras.


300

250
Nmero de bushels

200

150
Trigo
100
Maz
50

0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao

Grfico de barras en componentes

400
350
Nmero de bushels

300
250
200
Maz
150
Trigo
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao

DEPARTAMENTO DE CIENCIAS BIOLGICAS 22


UNSCH Bioestadstica I Prof. Reynn Cndor A.

(a) Expresar la cantidad anual de bushels de trigo y maz del Problema como porcentajes de
la produccin total anual.
(b) Representar los porcentajes obtenidos en la parte (a).

Solucin
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maz 100% 72.7% =
27.5%; etc. Los porcentajes se indican en la Tabla 1.5.

Ao 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985

Porcentaje de trigo 72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%

Porcentaje de maz 27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%

(b) El grfico de tales porcentajes, Figura 1.11, se llama grfico de porcentajes en


componentes. Puede usarse un grfico similar al de la Figura 1.9.

100.0%
90.0%
80.0%
70.0%
Porcentaje

60.0%
50.0%
Maz
40.0%
Trigo
30.0%
20.0%
10.0%
0.0%
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao

Ejemplo: Las reas de los continentes se recogen en la siguiente Tabla. Representar los datos
grficamente.
Tabla. reas de los continentes
rea
Continente
km2 %
Asia 43810000 29.3%
Amrica 42330000 28.3%
frica 30370000 20.3%
Antrtida 13720000 9.2%
Europa 10180000 6.8%
Oceana 9008500 6.0%
Total 149418500 100.0%

Solucin
DEPARTAMENTO DE CIENCIAS BIOLGICAS 23
UNSCH Bioestadstica I Prof. Reynn Cndor A.

Grfico de barras en el que las barras son horizontales.

REAS DE LOS CONTINENTES

Oceana

Europa
Continentes

Antrtida

frica

Amrica

Asia

0 10000000 20000000 30000000 40000000 50000000


rea en km2

Diagrama circular o de pastel.


ngulo del sector
29
Oceana, 6% 360 104
Europa, 7% 100
28
Asia, 29% 360 101
Antrtida, 9% 100
20
360 72
100
9
360 32
100
frica, 20% 7
360 25
100
6
Amrica, 28% 360 22
100

2.9. Distribucin de frecuencias (Tablas de frecuencia)

a. Organizacin para variables cualitativas (nominal o jerrquica)


La tabla de frecuencia es organizada por clases o categoras que corresponden a los distintos
valores (atributos) que toma la variable cualitativa.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 24


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Tabla de frecuencias
Clase o categora (f) (fri) (p)
Atributo 1 f1 fr1 P1
Atributo 2 f2 fr2 P2
.
.
.
Atributo k fk frk Pk
n 1 100

Donde:
k= Nmero de clases
n= Nmero de observaciones o unidades elementales
Frecuencia absoluta ( fi ). Es el nmero de observaciones que existen en la clase o
categora i.
k
Se cumple: f
i 1
i n

Frecuencia relativa ( fri ). Es la proporcin o porcentaje de obaservaciones con respecto al


total (n) que existen en l clase o categora i.
fi
fri
n
k
Se cumple: fr 1
i 1
i

Frecuencia porcentual ( pi ). Es el porcentaje de observaciones con respecto al total (n) que


esxisten en la clase o categora i. se tiene:
pi fri 100
k
Se cumple: p
i 1
i 100%

Tipo de grficos
Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
grficos
Grfico de barras vertical u horizontal
Grfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se
obtuvo los siguientes resultados:

DEPARTAMENTO DE CIENCIAS BIOLGICAS 25


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Tabla. Encuesta a una muestra de 45 clientes del Banco Comercial.


Caso Edad Ingreso N de viajes Tarjeta de Lugar de uso de Monto de Sexo
1 29 Mensual
3,00 (mensual)
3 crdito
Ta1 tarjeta
centros de crdito deuda
comerciales 1,80(miles F
(miles de S/.) usada de S/.)
2 34 1,99 3 Ta2 discotecas 1,10 F
3 61 2,90 2 Ta3 restaurantes 0,60 M
4 28 4,70 0 Ta2 grifos 2,70 M
5 41 3,00 1 Ta4 centros comerciales 1,30 F
6 57 5,80 2 Ta1 otros 0,80 F
7 30 4,50 4 Ta4 grifos 0,64 M
8 43 7,09 0 Ta3 centro de estudios 0,90 F
9 45 4,40 1 Ta5 centros comerciales 1,40 M
10 35 6,82 0 Ta2 grifos 2,46 F
11 42 5,30 3 Ta1 restaurantes 1,10 F
12 28 5,80 2 Ta4 discotecas 0,20 M
13 28 5,70 1 Ta2 grifos 0,80 F
14 24 4,70 4 Ta4 restaurantes 0,50 M
15 35 6,60 1 Ta5 discotecas 0,40 F
16 42 6,60 2 Ta4 restaurantes 3,46 F
17 48 5,74 1 Ta1 discotecas 1,20 M
18 34 4,23 0 Ta5 centros comerciales 1,90 F
19 66 5,50 3 Ta1 restaurantes 2,35 M
20 36 6,60 1 Ta4 centros comerciales 1,90 F
21 59 3,85 1 Ta4 restaurantes 0,30 M
22 37 6,70 3 Ta6 centros comerciales 0,70 F
23 53 3,50 0 Ta5 restaurantes 0,67 F
24 35 8,80 1 Ta1 discotecas 0,50 F
25 63 10,00 4 Ta5 restaurantes 1,50 M
26 28 10,10 2 Ta1 centro de estudios 0,70 F
27 43 13,40 2 Ta2 discotecas 1,50 F
28 60 3,90 0 Ta5 otros 1,99 M
29 59 5,84 1 Ta5 restaurantes 0,60 M
30 63 3,50 1 Ta4 grifos 1,50 M
31 55 4,40 2 Ta2 centro de estudios 0,40 M
32 42 3,70 0 Ta5 centros comerciales 1,80 F
33 51 4,50 1 Ta1 otros 0,70 M
34 39 5,63 1 Ta1 otros 0,80 M
35 55 4,60 4 Ta1 discotecas 1,25 M
36 35 5,79 0 Ta5 discotecas 1,60 M
37 42 2,93 3 Ta5 grifos 0,20 M
38 36 6,60 1 Ta3 grifos 4,37 F
39 49 4,60 0 Ta3 centros comerciales 2,00 M
40 27 6,60 0 Ta4 grifos 0,90 F
41 36 2,90 4 Ta1 discotecas 0,47 M
42 42 4,69 2 Ta2 centros comerciales 0,80 F
43 25 3,99 1 Ta4 restaurantes 4,32 F
44 32 6,70 2 Ta1 centros comerciales 0,60 M
45 28 2,58 1 Ta4 otros 1,70 M

DEPARTAMENTO DE CIENCIAS BIOLGICAS 26


UNSCH Bioestadstica I Prof. Reynn Cndor A.

a.1 Organizacin de datos cualitativos nominales


Tabla de frecuencia de tipo de tarjeta de crdito usada
Tarjeta
N de de crdito Frecuencia Frecuencia Frecuencia
clase usada Absoluta relativa porcentual
1 Ta1 12 0.27 26.67
2 Ta2 7 0.16 15.56
3 Ta3 4 0.09 8.89
4 Ta4 11 0.24 24.44
5 Ta5 10 0.22 22.22
6 Ta6 1 0.02 2.22
Total 45 1.00 100.00
f3 = 4 indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crdito
Ta3
fr1 = 0.2667 indica la proporcin de clientes del Banco Comercial que utilizan la tarjeta de
crdito
Ta1.
P2 = 15.56 indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de
crdito Ta2.

Grfico de barras

30.00
25.00
20.00
15.00
%

10.00
5.00
0.00
Ta1 Ta2 Ta3 Ta4 Ta5 Ta6
TARJETA DE CRDITO

En el grfico de barras, se aprecia que la tarjeta Tal es la de uso ms frecuente.


Grfico circular

2%
22% 27%

16%
24%
9%

Ta1 Ta2 Ta3 Ta4 Ta5 Ta6

En el grfico circular, se aprecia que la tarjeta de crdito Ta6 es la de uso menos frecuente.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 27


UNSCH Bioestadstica I Prof. Reynn Cndor A.

a.2 Organizacin de datos cualitativos ordinales


Ahora veamos un caso que involucre una variable cualitativa jerrquica u odinal, pero tambin
veremos el uso de frecuencias acumuladas, para este caso estudiaremos los datos de la base
de datos de la tabla 2.1 (Blair et al 2008).
La tabla 2.1 muestra las respuestas (cticias) de 60 pacientes postoperados, a quienes se
solicit calicar su percepcin del dolor en una escala ordinal de cuatro puntos, como parte
de un estudio de manejo del dolor. Como puede verse, estos datos desorganizados son
bsicamente no informativos en lo que se reere a los patrones de respuesta. Algunos niveles
de dolor dominaron? Era comn el dolor severo? Qu proporcin de pacientes no tena
dolor? Qu proporcin sufra de dolor leve o de menor intensidad?
Con esta pequea cantidad de datos usted puede pasar unos minutos observando la tabla para
formular respuestas aproximadas a estas preguntas. Sin embargo, esta estrategia no sera
efectiva con un gran conjunto de datos. Aun con este nmero limitado de respuestas sera
conveniente reordenar los datos para facilitar la obtencin de las respuestas.
TABLA 2.1: Mediciones de dolor percibido de 60 pacientes.
Nmero Nmero Nmero Nmero
Nivel de Nivel de Nivel de Nivel de
de de de de
dolor dolor dolor dolor
paciente paciente paciente paciente
1 moderado 16 leve 31 ninguno 46 severo
2 ninguno 17 leve 32 moderado 47 ninguno
3 leve 18 moderado 33 ninguno 48 ninguno
4 ninguno 19 ninguno 34 ninguno 49 leve
5 severo 20 ninguno 35 leve 50 leve
6 ninguno 21 leve 36 ninguno 51 leve
7 moderado 22 ninguno 37 moderado 52 ninguno
8 ninguno 23 ninguno 38 leve 53 leve
9 ninguno 24 leve 39 ninguno 54 severo
10 leve 25 moderado 40 ninguno 55 moderado
11 leve 26 moderado 41 ninguno 56 ninguno
12 ninguno 27 ninguno 42 ninguno 57 ninguno
13 leve 28 ninguno 43 ninguno 58 ninguno
14 leve 29 leve 44 ninguno 59 leve
15 ninguno 30 severo 45 ninguno 60 ninguno

Distribuciones de frecuencias absolutas (fi)


La tabla 2.2 muestra estos datos ordenados en distribuciones de frecuencias, frecuencias
relativas, frecuencias acumulativas y frecuencias relativas acumulativas. La primera columna
lista las categoras de la escala de menor a mayor. La segunda muestra la frecuencia de
respuesta para cada categora, que se obtiene mediante el conteo del nmero de veces que
ocurre cada respuesta en el conjunto de datos. La frecuencia, entonces, es el nmero de
respuestas de cada tipo.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 28


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Tabla 2.2. Distribuciones de mediciones de dolor percibido.

Frecuencia Frecuencia
Frecuencia Frecuencia
Categora absoluta relativa
absoluta relativa
de dolor acumulada acumulada
(fi) (fri)
(F) (Fr)
Ninguno 31 0.52 31 0.52
Leve 17 0.28 48 0.80
Moderado 8 0.13 56 0.93
Severo 4 0.07 60 1.00
Total 60 1

Distribuciones de frecuencias relativas (fri)


La tercera columna de la tabla 2.2 muestra la frecuencia relativa de respuesta, la cual se
obtiene dividiendo cada frecuencia entre el nmero total de respuestas (en este caso 60). La
frecuencia relativa, entonces, es la proporcin de respuestas de cada tipo.
Usted puede percibir rpidamente a partir de las dos primeras columnas que el mayor nmero
de pacientes (31) indic no haber tenido dolor. Este nmero representa 0.52 (o 52%) del total
de la muestra. El dolor severo fue menos comn, pues nicamente 4 personas (0.07 de la
muestra) eligieron esta categora. En general, el nmero de respuestas en las categoras
disminuy conforme stas representaban niveles ms altos de dolor.
Distribuciones de frecuencias acumulativas (F)
La columna de la frecuencia acumulativa muestra el nmero de pacientes que indicaron que
su dolor era menor o igual al nivel representado. Por ejemplo, 48 pacientes (31+17)
clasificaron su dolor como leve o menor que leve, mientras que 56 pacientes (31+17+8)
percibieron su dolor como moderado o menor que moderado. La frecuencia acumulativa se
obtiene mediante la suma de la frecuencia en una categora dada con las categoras que indican
un nivel menor de la variable medida.
Distribuciones de frecuencias relativas acumulativas (Fr)
La frecuencia relativa acumulativa se calcula al dividir cada frecuencia acumulativa entre el
nmero total de encuestados. Se puede ver que 0.80 de los pacientes creyeron que su dolor era
leve o de menor intensidad, mientras que 0.93 sintieron que su dolor era moderado o de menor
intensidad. La columna de la frecuencia relativa acumulativa, entonces, muestra la proporcin
de los pacientes que indicaron que su dolor fue menor que o igual que el nivel representado.
Las distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y
frecuencias relativas acumulativas que se muestran en la tabla 2.2 fueron calculadas para una
variable de nivel ordinal. Las primeras dos distribuciones tambin pueden utilizarse para
una variable de nivel nominal. Obviamente las distribuciones acumulativas no seran
apropiadas en este caso puesto que no hay un orden cuantitativo para una variable de
nivel nominal.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 29


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Figura. Representacin en barras de las frecuencias absolutas, relativas, absolutas


acumuladas y relativas acumuladas.

35 31 0.6 0.52
Frecuencia absoluta

30

Frecuencia relativa
0.5
25
0.4
20 17 0.28
0.3
15
8 0.2 0.13
10
4 0.1 0.07
5
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

70 1.2
Frecuencia absoluta acumulada

Frecuencia relativa acumulada


60 1
60 56 0.93
1
48 0.8
50
0.8
40
31 0.6 0.52
30
0.4
20
10 0.2

0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

70 1.2
60 60 1 1
56 0.93
50 48 0.8 0.8
40 31 0.6 0.52
30
17 0.4 0.28
20
8 0.2 0.13
10 4 0.07
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

Frecuencia absoluta Frecuencia relativa


Frecuencia absoluta acumulada Frecuencia relativa acumulada

b. Organizacin para variables cuantitativas discretas


La tabla de frecuencia es organizada por clases o categoras que corresponden a los distintos
valores (nmeros) que toma la variable cuantitativa discreta. Se usa cuando el conjunto de
valores posible de la variable cuantitativa discreta es pequeo.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 30


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Tabla de frecuencias
N de Valor de la (fi)(fri) (p)
clase variable
1 X1 f1 fr1 P1
2 X2 f2 fr2 P2
.
.
.
k Xk fk frk Pk
Total n 1 100
Tipo de grfico. Se elabora el grfico de bastones o varas con las frecuencias absolutas,
relativas o porcentuales.

Ejemplo 2. Organizacin de datos cuantitativos discretos

Tabla de frecuencias del nmero de viajes al mes


Frecuencia
N de
Absoluta Frecuencia Frecuencia
viajes al
No de Relativa Porcentual
mes
clientes fi fri Pi
0 10 0.2222 22.22
1 15 0.3333 33.33
2 9 0.2000 20.00
3 6 0.1333 13.33
4 5 0.1111 11.11
Total 45 1 100

Interprete:
f2 = 15 Existen 15 clientes del Banco Comercial que hacen un viaje al mes.
p1 = 22.22 El 22.22% de los clientes no han realizado viajes.

Grfico de bastones o varas


35.00

30.00

25.00

20.00
%

15.00

10.00

5.00

0.00
0 1 2 3 4
VIAJES

En el grfico de varas, se aprecia que en la variable nmero de viajes al mes, el nmero 1


(un viaje al mes) es el ms frecuente.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 31


UNSCH Bioestadstica I Prof. Reynn Cndor A.

c. Organizacin para variables cuantitativas continuas


El conjunto de datos es agrupado por intervalos de clase que conforman las clases o
categoras de la tabla de frecuencias.

N de Intervalos Marca Frec. Frec. Frec. Frec. Frec. Frec.


clases de clase de Absoluta Relativa Porc. Acumulada Acumulada Acum.
clase Absoluta Relativa Porc.
[LI-LS> X'i fi fri p F Fri Pi
1 [LI1-LS1> X'1 f1 fr1 p1 F1 Fr1 P1
2 [LI2-LS2> X'2 f2 fr2 p2 F2 Fr2 P2
.
.
.

k [LIk-LSk] X'k fK frK pk Fk Frk Pk


Total N 1 100 1 100

Donde:
LI i = Lmite inferior de la clase i (Lmite cerrado)

LSi =Lmite superior de la clase i (Lmite abierto, salvo ltima clase que es cerrado)

Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerar como el valor
representativo de los valores que pertenecen al intervalo de clase.
LI i LSi
Se calcula: X i' o X i' X i'1 TIC , donde TIC es el tamao del intervalo de clase
2

Frecuencia porcentual ( pi ). Indica el porcentaje de observaciones o unidades elementales


k
que hay en la clase i. Se cumple: p
i 1
i 100%

Frecuencia acumulada absoluta (Fi). Indica el nmero de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. se calcula por:
k
Fk fi f1 f 2 ... f k
i 1

t
Propiedad: Ft Fh
i h 1
fi , h t

Frecuencia Acumulada Relativa (Fri). Indica la proporcin de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. Se calcula por:
i

Fi
f j i
fri
j 1
Fri
n n j 1

DEPARTAMENTO DE CIENCIAS BIOLGICAS 32


UNSCH Bioestadstica I Prof. Reynn Cndor A.

t
Propiedad: Frt Frh
i h 1
fri , h t

Frecuencia Acumulada Porcentual (pi). Indica el porcentaje de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i.
t
Propiedad: pt ph p,
i h 1
i ht

Pasos para la construccin de una tabla de frecuencias:

Paso 1. Hallar el rango o amplitud (r). r = Mximo-Mnimo

Paso 2. Hallar el nmero de intervalos de clase (k). Se aplica la regla de Sturges: k = 1 +


3.3log(n). Eligiendo un valor: 3 k 15
Se aplica el redondeo normal a entero.
Si el primer dgito decimal: es 5, se redondea al entero Inmediato superior y si es
< 5, se considera el entero obtenido.

Paso 3. Hallar el tamao de Intervalo de Clase (TIC).


r
TIC
k
El nmero de decimales debe ser igual al de las observaciones.
Se aplica el redondeo por exceso. Si la posicin del decimal es 1, se redondea al
valor inmediato superior, de lo contrario no se redondea.

Paso 4. Hallar los lmites inferiores y superiores de cada intervalo de clase.

LI1 = Mnimo LS1= LI1 + TIC


LI2 = LI1 + TIC = LS1 LS2= LI2 + TIC
LI3 = LI2 + TIC = LS2 LS3= LI3 + TIC

LIk = LIk-1 + TIC = LSk-1 LSk= LIk + TIC

Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observacin a alguno de los intervalos de clase. Luego completar la tabla hallando
X i' , fi , fri , Fi , Fri

Tipos de grficos
Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos
de clase en el eje horizontal.
Polgono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de clase
en el eje horizontal.

Ejemplo 3. Organizacin de datos cuantitativos continuos


Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de
nuevos soles).

DEPARTAMENTO DE CIENCIAS BIOLGICAS 33


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Paso 1. Calcule el rango ( R ).


R = Xmax - Xmin
En el ejemplo R = 13.40 - 1.99 = 11.41

Paso 2. Determine el nmero de intervalos de clase (k). Utilice la regla de Sturges


k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556

Redondeo estadstico: Se toma en consideracin el primer valor decimal, si es:


5 se redondea al entero inmediato superior < 5 se considera el entero obtenido

En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el nmero de clases
que se debe considerar es k=6.

Paso 3. Halle el tamao de los intervalos de clase (TIC)


r 11.41
TIC 1.90167
k 6
Redondeo por exceso: se toma en consideracin el nmero mayor de decimales que tienen las
observaciones. Considerando la posicin de este decimal, se presentan 2 casos:
Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor
inmediato superior
Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se realiza
ningn redondeo
TIC = 1.90167
Como las observaciones tienen 2 decimales en el TIC tambin se considerar con 2 decimales
y como hay al menos un valor diferente de cero a la derecha de las centsimas se incrementa
en una centsima quedando TIC = 1.91

Paso 4. Construya la tabla de frecuencias.


Tener en cuenta que en la ltima clase el intervalo es cerrado en el lado derecho.

Tabla de frecuencias del ingreso mensual


Ingreso Marca Frec. Frec. Frec. Frec.
Frec.
N de mensual de clase Frec. Porc. Acum. Acum. Acum.
Rel. fri
clases [LI-LS> X i' Abs. f P Abs. f Rel. fri Porc. P
1 [1.99 - 3.90> 2.945 11 0.2444 24.44 11 0.2444 24.44
2 [3.90 - 5.81> 4.855 20 0.4444 44.44 31 0.6888 68.88
3 [5.81 - 7.72> 6.765 10 0.2222 22.22 41 0.9110 91.10
4 [7.72 - 9.63> 8.675 1 0.0222 2.22 42 0.9332 93.32
5 [9.63 -11.54> 10.585 2 0.0444 4.44 44 0.9776 97.76
6 [11.54-13.45] 12.495 1 0.0222 2.22 45 1.000 100
45 1.0000 100

Interprete:

DEPARTAMENTO DE CIENCIAS BIOLGICAS 34


UNSCH Bioestadstica I Prof. Reynn Cndor A.

f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900
pero menos de S/. 5810.
fr4 = 0.0222; 0.0222 es la proporcin de clientes que ganan por lo menos S/. 7720 pero
menos de S/. 9630
p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.
3
F3 fi f1 f 2 f3 11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por
i 1

lo menos S/. 1990 pero menos de S/. 7720.


F5 - F2 = 44 - 31 =13
5
F5 - F2 = fi f3 f 4 f 5 10 + l + 2 = 13; 13 de los clientes ganan por lo menos S/.
i 3

5810 pero menos de S/. 11540


4
Fr4 = fri 1
i = fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica

que 0.9332 es la proporcin de clientes que ganan por lo menos S/. 1990 pero menos
de S/. 9630.
Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666
5
Fr5 - Fr3 = fr = fr4 + fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la
i4
i

proporcin de los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
3
P3 = pi = pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los
i 1

clientes tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720
P5 - P2 = 97.76 - 68.88 = 28.88
5
P5 - P2 = p
i 3
i =P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de

los clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos
de S/. 11540.
X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810
pero menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son
representadas por el valor S/. 6765.
Histograma de frecuencias

50.00

40.00

30.00
%

20.00

10.00

0.00
2.945 4.855 6.765 8.675 10.585 12.495
INGRESO

DEPARTAMENTO DE CIENCIAS BIOLGICAS 35


UNSCH Bioestadstica I Prof. Reynn Cndor A.

En el histograma se puede apreciar que la clase ms frecuente es la segunda esto indica que
los ingresos ms frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810.
Polgono de frecuencias

50.00
45.00 44.44
40.00
35.00
30.00
25.00
%

24.44
22.22
20.00
15.00
10.00
5.00 4.44
2.22 2.22
0.00
2.945 4.855 6.765 8.675 10.585 12.495
INGRESO

En el polgono de frecuencias se observa que son pocos los clientes con Ingresos mensuales
altos.
50.00
45.00
40.00
35.00
30.00
25.00
%

20.00
15.00
10.00
5.00
0.00
2.945 4.855 6.765 8.675 10.585 12.495
INGRESO

Presentamos a continuacin un nuevo caso, la tabla 2.3 presenta una distribucin de


frecuencias de las presiones sanguneas sistlicas (cticias) de 144 adolescentes
moderadamente obesos. En esta tabla las frecuencias se relacionan con los valores de la
presin sangunea ms que con categoras discretas, como fue el caso en la tabla 2.2. Como
resultado, hay un gran nmero de valores y sus frecuencias. Esto puede causar dicultades de
interpretacin, especialmente cuando las frecuencias individuales son pequeas e incluyen el
cero. En estos casos a veces es til reducir el nmero de valores mediante la formacin de
grupos. Entonces se pueden dar distribuciones de frecuencias, frecuencias relativas,
frecuencias acumulativas y frecuencias relativas acumulativas para estos grupos de valores en
lugar de valores individuales.

DEPARTAMENTO DE CIENCIAS BIOLGICAS 36


UNSCH Bioestadstica I Prof. Reynn Cndor A.

Ejemplo 4. La tabla 2.4 presenta distribuciones agrupadas para los datos de la presin
sangunea. Como puede observarse, los valores de presin sangunea se colocaron en
intervalos que tcnicamente se conocen como intervalos de clase. Las diversas distribuciones
se basan entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de
respuesta se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad
interpretativa es la prdida de informacin.
Por ejemplo, mientras que es fcil ver que alrededor del 21.5% de los valores cae en el
intervalo 135-139, no hay informacin acerca de los valores individuales en este intervalo.
Al construir tablas de este tipo se deben responder dos preguntas relacionadas. En cuntos
intervalos se deben agrupar los valores y qu tan grandes debern ser los intervalos? Muy
pocos intervalos provocan la prdida de mucha informacin, mientras que muchos intervalos
hacen fracasar el propsito de resumir los datos. El tamao de los intervalos depender del
nmero de intervalos utilizados y viceversa. No existen reglas rgidas y rpidas al respecto.
En esencia, usted desear presentar los datos dndoles el mayor signicado posible. Sin
embargo, hay algunas reglas generales que sirven como gua. Una sugerencia comn es que
no debe haber menos de seis ni ms de 15 intervalos. Otra regla til es que, cuando sea posible,
se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades o de algn
mltiplo de 10 para que el resumen de los datos sea ms comprensible.
TABLA. Las presiones sanguneas de 144 adolescentes moderadamente obesos.

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Presiones sanguneas 86 90 92 92 93 95 95 95 96 96 97 97 98 98 99
Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Presiones sanguneas 100 100 100 100 102 103 105 105 106 107 107 109 110 110 110
Paciente 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Presiones sanguneas 111 111 111 114 114 115 115 115 115 115 115 116 116 116 117
Paciente 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Presiones sanguneas 118 118 119 119 120 120 120 121 122 122 122 123 123 124 124
Paciente 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
Presiones sanguneas 124 124 125 125 125 125 126 126 126 126 126 126 126 127 127
Paciente 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
Presiones sanguneas 127 128 128 128 129 129 129 130 130 130 130 130 131 131 131
Paciente 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105
Presiones sanguneas 132 132 132 132 133 133 133 133 133 133 133 133 134 134 134
Paciente 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
Presiones sanguneas 134 134 135 135 135 135 135 135 135 135 136 136 136 137 137
Paciente 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
Presiones sanguneas 137 137 137 137 137 137 137 137 137 138 138 138 139 139 139
Paciente 136 137 138 139 140 141 142 143 144
Presiones sanguneas 139 139 139 140 140 140 140 143 143

DEPARTAMENTO DE CIENCIAS BIOLGICAS 37


UNSCH Bioestadstica I Prof. Reynn Cndor A.

TABLA 2.3: Distribucin de frecuencias de las presiones sanguneas de 144 adolescentes


moderadamente obesos.

PS Frec. PS Frec. PS Frec. PS Frec.


143 2 128 3 113 0 98 2
142 0 127 3 112 0 97 2
141 0 126 7 111 3 96 2
140 4 125 4 110 3 95 3
139 6 124 4 109 1 94 0
138 3 123 2 108 0 93 1
137 11 122 3 107 2 92 2
136 3 121 1 106 1 91 0
135 8 120 3 105 2 90 1
134 5 119 2 104 0 89 0
133 8 118 2 103 1 88 0
132 4 117 1 102 1 87 0
131 3 116 3 101 0 86 1
130 5 115 6 100 4
129 3 114 2 99 1

Paso 1. Calcule el rango ( R ).


R = Xmax - Xmin
En el ejemplo R = 143 - 86 = 57

Paso 2. Determine el nmero de intervalos de clase (k). Utilice la regla de Sturges


k = 1 + 3.3 log n = 1 + 3.3 log 144 = 8.122596224
k=8

Paso 3. Halle el tamao de los intervalos de clase (TIC)


R 57
TIC 7.125
k 8
TIC = 8
TABLA 2.4: Distribuciones agrupadas de las presiones sanguneas sistlicas utilizando 8
intervalos.
Presin Marca de Frec. Frec. Frec.
N de clase Frec. Frec. Frec.
sangunea Acum. Acum. Rel. Acum.
clases Abs. fi Rel. fri Porc. Pi
[LI-LS> X i' Abs. fi fri Porc. Pi
1 [86-94> 90 5 0.035 3.47 5 0.035 3
2 [94-102> 98 14 0.097 9.72 19 0.132 13
3 [102-110> 106 8 0.056 5.56 27 0.188 19
4 [110-118> 114 18 0.125 12.50 45 0.313 31
5 [118-126> 122 21 0.146 14.58 66 0.458 46
6 [126-134> 130 36 0.250 25.00 102 0.708 71
7 [134-142> 138 40 0.278 27.78 142 0.986 99
8 [142-150] 146 2 0.014 1.39 144 1.000 100
144 1 100

DEPARTAMENTO DE CIENCIAS BIOLGICAS 38


UNSCH Bioestadstica I Prof. Reynn Cndor A.

30.00

25.00

20.00

15.00
%

10.00

5.00

0.00
90 98 106 114 122 130 138 146
PRESIN SANGUNEA

Figura. Histograma y polgono de frecuencias de la presin sangunea.


El nmero y tamao de los intervalos es exible.
No siempre es necesario formar distribuciones agrupadas para variables continuas. Cuando el
nmero de valores no es muy grande, las distribuciones pueden basarse en datos no agrupados.

Referencia bibliogrfica:
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin, Mxico, 2008

DEPARTAMENTO DE CIENCIAS BIOLGICAS 39

You might also like