You are on page 1of 37

Apuntes sobre Estadística

Elemental
1. Generalidades

Es generalizada la práctica de empezar a abordar un concepto nuevo a partir de la


definición del mismo. No obstante, en ocasiones, conocer la definición no aporta
elementos que ayuden a conocerlo mejor o simplemente a concebirlo y entenderlo. Sería
el caso de que un profesor iniciara la disertación acerca de Física Cuántica
proporcionando una definición de la misma. En este caso se corre el riesgo de que la
definición pudiese caer en el vacío, toda vez que el estudiante carecería de los elementos
básicos con los cuales asociar los conceptos subyacentes en tal definición. En el mejor de
los casos podría memorizarse la definición y hasta repetirla todas las veces que fuese
necesario, pero este conjunto de palabras no necesariamente producen el efecto
deseado. Esto es, que el estudiante automáticamente reproduzca en su mente el
concepto u objeto definido.

Contrario a la aseveración del párrafo precedente, si al estudiante se le pidiese una


definición de un concepto u objeto con el cual tenga cierta familiaridad, es probable que
pueda hacerlo con relativa facilidad. Por ejemplo, si se le pidiese que defina lo que
entiende es una silla rápidamente respondería que se trata de un objeto que sirve para
sentarse. Si a seguidas se le preguntase por la fuente de esa definición es muy probable
que su respuesta sea que ninguna, nunca ha visto u oído una definición de silla.

La discusión precedente podría estar sugiriendo que desde la perspectiva enseñanza-


aprendizaje, comenzar el abordaje de un concepto nuevo, como el de Estadística o de
otra área del conocimiento cualquiera, tratando de entender sus orígenes y evolución
podría ser mucho más provechoso que hacerlo a partir de su definición.

1.1. Breve bosquejo histórico sobre los orígenes de la Estadística


Existe abundante información a través de la cual es posible construir un trozo de texto,
donde se proporcione una idea del proceso seguido por una serie de prácticas que
inicialmente podrían tipificarse como simples ejercicios de contabilidad social, cuya
evolución a través del tiempo dieron origen a lo que hoy día se conoce como Estadística.
Experiencias derivadas de revisiones bibliográficas y discusiones sobre el origen y
trayectoria de la Estadística permiten inferir que el estado actual de esta disciplina es el
producto prácticas milenarias.

Desde la aparición de los primeros conglomerados humanos cohesionados por cierto


grado de organización social surgieron formas sencillas de registrar hechos relacionados
con la vida cotidiana de los grupos humanos. En rocas, paredes de grutas, guijarros y
otros objetos se han encontrado evidencias relativas al conteo de personas, animales y
eventos.

El conteo sobre la población y las riquezas existentes en el territorio del Egipto antiguo
data de tiempos tan remotos como el año 3,050 antes de nuestra era. Esa práctica, de
acuerdo al historiador griego Heródoto, constituía un ejercicio orientado a la construcción
de la Pirámides. Esa experiencia ganada por los egipcios le permitió al gobierno del
faraón Ramsés II la realización de un censo de naturaleza agraria, destinado a verificar
un reparto de tierras. En años inmediatamente posteriores, hacia el año 3,000 antes de
nuestra era, en los pueblos de Babilonia, una de las importantes civilizaciones de la
antigüedad, ya se utilizaban piezas de arcilla para grabar inscripciones relativas a datos
acerca de la producción agrícola y las cantidades vendidas o cedidas a través de
trueques 1 .

Un evento de naturaleza considerado de alta trascendencia en el desarrollo histórico de la


Estadística es recuento de población ordenado por el Emperador Yao, de la China hacia
el año 2,238 antes de nuestra era. Ese operativo estuvo destinado a establecer el tamaño
de la población del imperio y algunas de sus características, con el objeto de determinar
el número de subditos del imperio y algunas de sus características. A su vez, hacia Siglo
VI antes de nuestra era, los griegos hacían levantamientos periódicos de información
acerca de la población del territorio, con propósitos de determinar los recursos
disponibles, determinar los derechos al voto, fijar impuestos y determinar la cantidad de
hombres disponibles para formar parte del ejército.

El nivel de organización social alcanzado por el Imperio Romano hizo que su nivel de
requerimientos de información fuese elevado. Por esta razón se considera a los romanos
como la civilización de la antigüedad que llegó más lejos en relación al empleo de
prácticas estadísticas. A los funcionarios al servicio del imperio se les exigía registrar
algunos eventos relacionados con el ciclo vital de las personas como: nacimientos,
defunciones y casamientos. En forma adicional, en los territorios conquistados se hacían
inventarios periódicos del ganado, los esclavos y otras riquezas existentes.

En pleno apogeo de este Imperio Romano, cada cinco años se hacían recuentos en la
población. Uno de estos eventos, del cual también se da cuenta en el Nuevo Testamento,
fue el recuento de población levantado en el año I de la Era Cristiana, a partir de un
edicto del Emperador Cesar Augusto. De acuerdo al Nuevo Testamento, durante este
recuento poblacional se produjo el nacimiento de Cristo, en momentos en que sus
progenitores se trasladaron a Belén, su lugar de residencia habitual, para empadronarse.
Este evento estuvo destinado a cuantificar la población del imperio, determinar el número
de propietarios y las propiedades que poseían como: tierras, cabezas de ganado,
esclavos y otras riquezas, por que, entre otras utilidades, sirvió para fijar impuestos. Este
levantamiento de información, de naturaleza universal, pues se aplicó en todo el imperio,
fue conocido con el nombre de censere. Esta palabra sirvió como antecedente para
denominar como censo a todo aperativo destinado a recabar información a cerca de una
población completa.

Durante el período de cerca de 10 siglos que siguió a la caída del Imperio Romano se
considera que hubo pocos eventos de naturaleza estadística de envergadura. Las
excepciones las constituyen las recopilaciones de información acerca de las tierras
propiedad de la iglesia católica desarrolladas por Pipino el Breve en el año 758 y por
Carlomagno en el año 762; además de algunos recuentos de población que de manera
parcial se levantaron en Francia en el Siglo IX.

En las postrimerías del Siglo XI, el rey Guillermo I, conocido como Guillermo el
Conquistador, encargó en el año 1086, la realización de un conteo de la población, las
propiedades, así como de la extensión y el valor de las tierras en Inglaterra. Esta
recopilación se recoge en un importante documento conocido como Domesday Book, o

1
Hernández González, Sergio. Historia de la estadística. In: Revista de divulgación científica y tecnológica
de la Universidad Veracruzana, Volumen XVIII, No. 2. Mayo-Agosto de 2005. Veracruz, 2005.
Libro del Gran Catastro, el cual se considera como el primer compendio estadístico
británico, y uno de los primeros del mundo.
Aunque Carlomagno en Francia y Guillermo el Conquistador en Inglaterra trataron de revivir
la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad
Media. Durante los siglos XV, XVI y XVII, hombres como Leonardo de Vinci, Nicolás
Copérnico, Galileo Galilei, William Harvey, Francis Bacon y René Descartes hicieron grandes
operaciones con base en el método científico, de tal forma que cuando se crearon los
Estados nacionales y surgió como fuerza el comercio internacional, había ya un método
capaz de aplicarse a los datos económicos.

Debido al temor que Enrique VII tenía de la peste, en el año 1532 empezaron a registrarse en
Inglaterra las defunciones causadas por esta enfermedad. En Francia, más o menos por la
misma época, la ley exigía a los clérigos registrar los bautismos, fallecimientos y matrimonios.

Durante un brote de peste que apareció a fines del siglo XVI, el gobierno inglés comenzó a
publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y en
1632 los llamados Bills of Mortality (Cuentas de Mortalidad) ya contenían datos sobre los
nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt compiló documentos
que abarcaban treinta años, mediante los cuales efectuó predicciones sobre el número de
personas que morirían de diversas enfermedades, así como de las proporciones de
nacimientos de hombres y mujeres que cabía esperar. El trabajo de Graunt, condensado en
su obra Natural and political observations… made upon the Bills of Mortality (Observaciones
políticas y naturales…hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo de
inferencia y teoría estadística.

Alrededor del año 1540, el alemán Sebastián Muster realizó una compilación estadística de
los recursos nacionales, que comprendía datos acerca de la organización política,
instrucciones sociales, comercio y poderío militar. Durante el siglo XVII se aportaron
indicaciones más concretas sobre los métodos de observación y análisis cuantitativo y se
ampliaron los campos de la inferencia y la teoría estadística.

Los eruditos del siglo XVII demostraron especial interés por la estadística demográfica como
resultado de la especulación sobre si la población aumentaba, disminuía o permanecía
estática.

En los tiempos modernos, tales métodos fueron resucitados por algunos reyes que
necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos
países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en
1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este
investigador se propuso destruir la antigua creencia popular de que en los años terminados
en 7 moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los
archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción, pudo
demostrar que en tales años no fallecían más personas que en los demás. Los
procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor
del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos
sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de
seguros.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra


estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón,
que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La
raíz remota de la palabra se halla en el término latino s t a t u s, que significa “estado”
o“situación”. Esta etimología aumenta el valor intrínseco de la palabra por cuanto que la
estadística revela el sentido cuantitativo de las más variadas situaciones.

Uno de los primeros trabajos sobre las probabilidades corresponde al matemático italiano del
siglo XVI Girolano Cardano, aunque fue publicado 86 años después de su fallecimiento. En el
siglo XVII encontramos correspondencia relativa a la probabilidad en los juegos de azar entre
los matemáticos franceses Blaise Pascal y Pierre de Fermat, fundamentos sobre los que
Christian Huygens, físico, matemático y astrónomo danés, publicaría un libro en 1656.
Durante ese mismo siglo y principios del XVIII, matemáticos como Bernoulli, Maseres,
Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante, durante cierto
tiempo la teoría de las probabilidades limitó su aplicación a los juegos de azar, y no fue sino
hasta el siglo siguiente que comenzó a aplicarse a los grandes problemas científicos.

Durante el sigo XVIII empieza el auge de la estadística descriptiva en asuntos sociales y


económicos, y es a finales de ese siglo y comienzos del XIX cuando se comienzan a asentar
verdaderamente las bases teóricas de la teoría de probabilidades con los trabajos de Joseph
Louis Lagrange y Pierre Simon de Laplace, del brillantísimo y ubicuo matemático y astrónomo
alemán Carl Friedrich Gauss, y de Simeón-Denis Poisson. Previamente, cabe destacar el
descubrimiento de la distribución normal por Abraham de Moivre, distribución que será
posteriormente “redescubierta” por Gauss y Poisson.

Jacques Quételect es quien aplica la estadística a las ciencias sociales. Interpretó la teoría de
la probabilidad para su uso en esas ciencias y aplicó el principio de promedios y de la
variabilidad a los fenómenos sociales. Quételect fue el primero en efectuar la aplicación
práctica de todo el método estadístico entonces conocido a las diversas ramas de la ciencia.

En el periodo de 1800 a 1820 se desarrollaron dos conceptos matemáticos fundamentales


para la teoría estadística: la teoría de los errores de observación, aportada por Laplace y
Gauss, y la teoría de los mínimos cuadrados, realizada por Laplace, Gauss y Legendre. A
finales del siglo XIX, Sir Francis Galton ideó el método conocido como c o r r e l a c i ó n, que
tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió
el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la
ciencia biométrica, tales como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron
amplios estudios sobre la medida de las relaciones.

Una vez sentadas las bases de la teoría de probabilidades, podemos situar el nacimiento de
la estadística moderna y su empleo en el análisis de experimentos en los trabajos de Francis
Galton y Kurt Pearson. Este último publicó en 1892 el libro The Grammar of Science (La
gramática de la ciencia), un clásico en la filosofía de la ciencia, y fue él quien ideó el conocido
test de Chi -cuadrado. El hijo de Pearson, Egon, y el matemát ico nacido en Polonia Jerzy
Neyman pueden considerarse los fundadores de las pruebas modernas de contraste de
hipótesis.

Pero es sin lugar a dudas Ronald Arnold Fisher la figura más influyente de la estadística,
pues la situó como una poderosa herramienta para la planeación y análisis de experimentos.
Contemporáneo de Pearson, desarrolló el análisis de varianza y fue pionero en el desarrollo
de numerosas técnicas de análisis multivariante y en la introducción del método de máxima
verosimilitud para la estimación de parámetros. Su libro Statistical Methods for Research
Workers (Métodos estadísticos para los investigadores), publicado en 1925, ha sido
probablemente el libro de estadística más utilizado a lo largo de muchos años.

Mientras tanto, en Rusia, una activa y fructífera escuela de matemáticas y estadística aportó
asimismo –como no podía ser de otro modo– su considerable influencia. Desde finales del
siglo XVIII y comienzos del XIX cabe destacar las figuras de Pafnuty Chebichev y Andrei
Harkov, y posteriormente las de Alexander Khinchin y Andrey Kolmogorov.

En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos
de las ciencias naturales y sociales, los investigadores vieron la necesidad de reducir la
información a valores numéricos para evitar la ambigüedad de las descripciones verbales.

En nuestros días, la estadística se ha convertido en un método efectivo para describir físicos,


y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto
estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en interpretar esa
información.

El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la


estadística. Muchos conjuntos de datos se pueden estudiar con gran exactitud utilizando
determinadas distribuciones probabilísticas. La probabilidad es útil para comprobar la
fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos
necesarios en un determinado estudio estadístico.

1.2 ¿Cómo surgió la Estadística?

Si se toma en cuenta la forma como diferentes responsables por la conducción de


colectivos humanos usaron algunos ejercicios de contabilidad social como forma de
generar información útil en su quehacer cotidiano, podría afirmarse que la Estadística
nació de la necesidad que tenían los pueblos de contar con información acerca de
sus recursos económicos y sociales. De esta forma, cuando se establecía el número
de habitantes de un territorio y sus características, como el sexo y la edad, se hacía una
cuantificación referida a recursos sociales, pues la población constituye un recurso social,
el más valioso de todos. A su vez, cuando se determinaba el número de propietarios y el
tamaño de las propiedades que poseían (tamaño de las explotaciones agrícolas, número
de cabezas de ganado, número de esclavos, etc.) se hacía una medición de los recursos
económicos existentes en el territorio.

1.3 ¿Cómo surge la Estadística Matemática en el Siglo XVII?

Como se infiere a partir de las discusiones subyacentes en la evolución seguida por la


estadística desde sus orígenes, la orientación que inicialmente tuvo esta práctica era
netamente de carácter administrativo. Estaba destinada a producir información para ser
utilizada como insumo en la toma de decisiones relacionadas con el arte de gobernar. No
obstante, hacia mitad del Siglo XVII se produce un importante acontecimiento en el
desarrollo de la Estadística. Se trata del surgimiento de una rama nueva de esta
disciplina, a la cual se le denominó Estadística Matemática.

Esquema 1
Origen y evolución de la Estadística

Surgimiento de la
Estadística

Siglo XVII
Tiempos Epoca
remotos actual
Estadística
Matemática

Sin embargo, esta nueva rama de la Estadística nació de una práctica de los nobles
ingleses de la época durante sus momentos de ocio. Los hombres pertenecientes a la
casta social de mayor estatus, entre otras formas de entretenimiento, con frecuencia eran
dados a la práctica de juegos de azar.

Mientras jugaban observaron que en los resultados de este tipo de ejercicio se producían
ciertas regularidades. Así por ejemplo, al lanzar una moneda al aire, el resultado al caer
era cara o cruz, pues eran las estampas que poseían las monedas existentes en la época
en los dos lados. Sin embargo, después de estar jugando durante un período largo
observaban que el número de veces que la moneda había caído con la cruz hacia arriba
era similar al número de veces en que el resultado había sido cara. De igual forma, a
lanzar el dado una vez su resultado era cualquiera de los números del 1 al 6, dado que
este objeto tiene 6 caras, las cuales están numeradas en forma correlativa desde 1 hasta
6. No obstante, después de un número grande de jugadas, en que el dado el dado había
sido lanzado un número grande de veces, se observaba que cada uno de los números
había salido aproximadamente un sexto (1/6) de las veces. Este tipo de comportamiento
fue observado por los nobles ingleses de mediados del Siglo XVII cuando practicaban
otros juegos de azar.

Ante las interrogantes surgidas a los nobles jugadores supusieron que estos fenómenos
podían estar relacionados con cuestiones de índole matemática, por esa razón expusieron
la situación ante algunos matemáticos de la época. Estos científicos hicieron
experimentos de laboratorio y comprobaron las observaciones de los nobles jugadores,
llegando a la conclusión de que estas regularidades seguidas por los juegos de azar
obedecen a leyes matemáticas, nominadas posteriormente como leyes de las
probabilidades. A su vez, las leyes de las probabilidades constituyen la base de la
Teoría de las Probabilidades. Finalmente, la Teoría de las Probabilidades constituyen la
piedra angular sobre la cual se basa la Estadística Matemática.

En resumen: La Estadística Matemática surgió a partir del desarrollo de la Teoría de


las Probabilidades, la cual a su vez se originó a partir de las respuestas que los
matemáticos de la época dieron a los problemas asociados a los juegos de azar.

Esquema 2
Surgimiento de la Estadística Matemática

Regularidades
observadas por
los nobles
jugadores del
Siglo XVII en los
juegos de azar

Respuestas de
los matemáticos
de la época a los Teoría de las Estadística
problemas aso- Probabilidades Matemática
ciados a los
juegos de azar

2. Concepto de Estadística y Estadísticas

Desde el momento en que, en las Generalidades, se planteaba la inconveniencia de


empezar el abordaje de la Estadística a partir de su definición, se ha suscitado una
discusión que ha permitido adentrarse en el conocimiento de esta práctica, inicialmente a
cargo de los gobernantes, que hoy se conoce como el nombre de Estadística. En
consecuencia, si en este momento se diera una definición, los términos envueltos en la
misma no le resultarían ajenos al estudiante, toda vez que en su acervo de conocimientos
ya posee un concepto al cual asociarla.

Ahora bien, definir Estadística obliga a establecer su diferenciarla con el concepto


estadísticas. Inicialmente podría pensarse que apenas se alude al mismo tópico, solo
que el primer caso se presenta en singular, mientras que en el segundo está en plural. Sin
embargo no es así, pues se trata de dos conceptos completamente diferentes.

2.1 Estadísticas

2.1.1 Concepto básico

Tomando en consideración la naturaleza de las informaciones subyacentes en el


concepto, en principio podrían existir una amplia gama de definiciones del mismo. Una
forma simple y hasta burda de definir estadísticas podría referirla a un conjunto de datos
numéricos relativos a un determinado fenómeno, los cuales se presentan clasificados en
función de una determinada característica.

Para ser analizada estadísticamente, la información debe estar expresada en forma


cuantitativa o en una forma que pueda convertirse a la forma cuantitativa. No obstante, no
toda información cuantitativa constituye un dato estadístico. Los datos estadísticos son
conjuntos de números referidos a una misma característica y recogidos de tal forma que
puedan ser comparados, analizados e interpretados. Por ejemplo, un número no
constituye un dato estadístico a menos que se le compare o que muestre una relación
significativa con otros números. De este modo, los datos relacionados con el rendimiento
escolar de un alumno no constituyen un dato estadístico. Sin embargo, los datos
correspondientes al rendimiento escolar de los estudiantes del curso sí constituyen datos
estadísticos, porque a partir del análisis estadístico de los mismos se pueden derivar
medidas y relaciones a través de las cuales es posible tipificar las características del
rendimiento escolar y así poder contribuir con la solución de este tipo de problema.

2.1.2 Tipos de estadísticas

Las estadísticas pueden ser de naturaleza muy diversa, en función del tema o materia a la
cual hagan referencia. De esta forma se tienen:

a) Estadísticas educativas, las cuales se refieren a datos relacionados con el


quehacer educativo como es el caso de: número de estudiantes inscritos en
función de la provincia; número de estudiantes inscritos en función del nivel de
instrucción; número de maestros en función de la provincia; número de aulas
construidas en función de los años; número de inscritos en función del grado; etc.

b) Estadísticas judiciales, las cuales hacen referencia a datos relacionados con las
actividades del área judicial, como es: número de personas sometidas a la justicia
durante el año 2009 en función de la provincia; número de personas sometidas a la
justicia durante el año 2009 en función del tipo de infracción cometida; número de
tribunales existentes en la República Dominicana en función de la provincia;
número de magistrados existentes en la república Dominicana en función de la
edad; número de reos sentenciados en la República Dominicana en función de la
edad; etc.

c) Estadísticas industriales, las cuales se refieren a los datos relacionados con la


industria tales como: número de industrias de acuerdo clasificadas por tipo
actividad al cual se dedica; número de industrias clasificadas por número de
trabajadores que posee; número de industrias clasificadas por monto de capital
invertido; volumen de las exportaciones clasificadas por tipo de actividad al cual se
dedica la industria; etc.

d) Estadísticas agropecuarias, referidas al quehacer agropecuario como: número de


fincas clasificadas por provincia; número de fincas clasificadas por tamaño; número
de tareas cultivadas clasificadas por provincia; número de tareas cultivadas
clasificadas por tipo de cultivo; número de cabezas de ganado clasificadas por
provincia; número de animales existentes en las explotaciones pecuarias
clasificados por tipo de animal; etc.

De la misma forma que se hace referencia a las estadísticas educativas, judiciales,


industriales y agropecuarias también puede aludirse a las estadísticas: de
construcciones, de transporte y comunicaciones, de comercio interno, de comercio
exterior, de moneda y finanzas, de precios y salarios, de empleo y laborales,
demográficas, de salubridad y de justicia, entre otras.

2.1.3 Diferencia entre estadísticas y dato

Cuando se definía el concepto de Estadísticas se aludía a un conjunto de informaciones


numéricas que representan la ocurrencia o presencia de un fenómeno, las cuales se
presentan clasificadas de acuerdo a las categorías de una característica. Un ejemplo de
estadísticas puede estar constituido por las informaciones contenidas en los cinco
arreglos siguientes: 1) número de docentes de la República Dominicana en el año 2007
clasificados por nivel educativo; 2) número de estudiantes matriculados la República
Dominicana en el año 2007 clasificados por nivel educativo; 3) número de estudiantes
matriculados la República Dominicana en el año 2007 clasificados por provincia; 4)
número de estudiantes matriculados en la Educación Superior en la República
Dominicana en el año 2007 clasificados por centro educativo; 5) número de estudiantes
egresados de la Educación superior en la República Dominicana en el año 2007
clasificados por centro educativo.

La situación expuesta en el párrafo precedente indica que se dispone de cinco series de


datos relativas a las estadísticas educativas; por tanto al hacer referencia a este
conjunto de informaciones puede aludirse a estadísticas educativas. Sin embargo, si
apenas se dispusiera del número de docentes de la República Dominicana en el año
2007; del número de estudiantes matriculados en la República Dominicana en el año
2007; del número de estudiantes matriculados en la Educación Superior en la República
Dominicana en el año 2007; y del número de estudiantes egresados de la Educación
superior en la República Dominicana en el año 2007, entonces apenas se dispondría de
cuatro datos. En consecuencia, en este caso no podría hablarse de estadísticas.
Estadística

2.2.1 Concepto básico

La Estadística es una disciplina científica dedicada al desarrollo y aplicación de la teoría y


las técnicas apropiadas para la recolección, clasificación, presentación, análisis e
interpretación de información cuantitativa obtenida por observación o experimentación. La
estadística se concibe como una rama de las Matemáticas Aplicadas, pero también
incluye elementos teóricos y técnicas propias. En contraste con otros científicos, cuyos
datos vienen de su propia disciplina, los estadísticos toman sus datos de todos los
campos.

2.2.2 Usos de la Estadística

La Estadística se utiliza en todas las áreas del quehacer humano. En función de lo


anterior, es frecuente el uso de la Estadística para producir conocimiento que permite
tomar decisiones en los negocios, la industria, las ciencias sociales, ciencias biológicas,
humanidades, planificación y en las ciencias de la salud, entre otros campos del
conocimiento.

1) Uso en los negocios: Factibilidad de un nuevo tipo de spaguettis

Un inversionista está interesado en producir spaguettis con ajo, para lo cual requiere
saber si por lo menos el 10% de la población estaría dispuesto a consumirlo. Con tales
propósitos decide hacer un estudio en todo el país, para lo cual selecciona una
muestra de 5,000 hogares distribuidos en todo el territorio nacional. En esos hogares
entrevista al ama de casa, por ser la persona que comúnmente determina qué se
consume en el hogar. Si por lo menos un 10% de estas amas manifiesta su
disposición a consumir los spaguettis con ajo, entonces el inversionista decidirá
fabricar el producto.

2) Uso en las ciencias sociales: Eficacia de una campaña de alfabetización

El Ministerio de Educación del país está desarrollando un programa de alfabetización


con el propósito de reducir el analfabetismo entre las personas de 15 años y más a un
máximo de 5%. Con ese propósito, un año después de haberse completado el referido
programa, el Departamento de Estadística del ministerio levantará una encuesta en
10,000 hogares distribuidos a lo largo y ancho del país. Mediante esta encuesta se
entrevistará a todas las personas de 15 años y más residentes en esos 10,000
hogares y cada una se le preguntará si sabía leer y escribir. Si al analizar los
resultados se determina que quienes no saben leer y escribir no pasan de un 5%,
entonces se concluye que la campaña de alfabetización habrá sido eficaz.

3) Uso en el área de la salud: Eficacia de un medicamento

A través de estudios epidemiológicos se ha determinado que el 50% de las personas


residentes en las cinco comunidades del municipio de Agua Dulce se enferma de gripe
cada año. Conociendo esta situación, un investigador del área de la medicina está
desarrollando un medicamento para prevenir la gripe, para lo cual selecciona una
muestra de 300 personas de la comunidad I y le aplica el medicamento. A su vez,
selecciona una muestra de 300 personas de la comunidad II, quienes tienen
características similares a los residentes en la comunidad I, y les suministra un
placebo (una simple pastilla de almidón con la misma forma, color y sabor que el
medicamento).

Al completarse el año después de haber aplicado el tratamiento a ambas comunidades


entrevista a ambos grupos y le pregunta a cada persona si tuvo gripe durante los
últimos 12 meses. A partir del análisis de los datos determina que el 50% de los
residentes en la comunidad II tuvo gripe y que solo el 25% de quienes residen en la
comunidad I la tuvieron, entonces concluirá que el medicamento reduce el riesgo de
gripe a la mitad.

4) Uso en las ciencias biológicas: Herencia mendeliana

Gregor Mendel descubrió las bases de la genética hace más de un siglo, por métodos
esencialmente estadísticos. Trabajando con guisantes, notó las características de los
padres y contó el número de hijos con determinadas características. Las regularidades
que observó lo condujeron a formular sus teorías.

2.2.3 Usos equivocados de la Estadística

Se ha escuchado la frase: Con estadística se puede probar cualquier cosa. Esto sin
embargo es falso. Lo que ocurre es que se puede hacer uso equivocado de la
Estadística como en los casos siguientes:

a) Aludir a definiciones diferentes. Por ejemplo: Severidad de


enfermedades: Los grados de severidad de una enfermedad pueden ser
definidos en forma diferente de un hospital a otro. Así, las comparaciones
entre hospitales y la combinación de cifras de varios hospitales se hacen
difíciles.

b) Errores debidos al método de selección de los casos: Enfermedades


mentales en hombres y mujeres.
La incidencia de enfermedades mentales y nerviosas parece ser mayor en
los hombres que en las mujeres. Sin embargo, es más probable que los
hombres sean detectados y recluidos en instituciones de salud, pues ellos en
proporción mayor obtienen sus ingresos de actividades para las cuales
quedan inhabilitados, y es menos probable que puedan ser mantenidos por
otros miembros de la familia que no pueden mantenerse ellos mismos.

c) Errores de cambio en la composición de los grupos. Cambio en el


promedio de un grupo.
Los graduados en cierto año en una universidad en una fecha tenían en
promedio 87 años de edad y un año después el promedio era 85 años. No
se hicieron más jóvenes, simplemente murieron los más viejos.

d) Errores debidos a la mala interpretación de asociación de correlación


En una ciudad se observó una correlación positiva entre los salarios de los
maestros y el consumo de licor. Puede parecer que esto implica que los
maestros al recibir más una salario más alto compran más licor. Se observó,
sin embargo, que el aumento de los salarios de los maestros era parte de un
aumento general de salarios, lo cual explica la correlación.

e) Errores debidos a la no consideración de la noción de dispersión.


Temperatura promedio.
La temperatura promedio del año en una ciudad es 22 grados celsius. Por lo
tanto, debe ser muy agradable vivir ahí. Aquí la conclusión es claramente
adecuada, pues bien puede suceder que las temperaturas sean muy altas y
muy bajas, obteniéndose un promedio de 22 grados Celsius, sin que esa
temperatura se haya observado ni un solo día.

f) Afirmaciones que engañan. Estudiantes se casan con profesores.


La afirmación: un tercio de las mujeres estudiantes en la Universidad de
John Hopkins durante su primer año se casan con profesores, crea una
impresión equivocada. Había solamente tres estudiantes mujeres.
En forma similar: Treinta y tres por ciento de las mujeres se casaron con dos
por ciento de los hombres.

2.2.4 Clasificación de la Estadística

En función del universo utilizado para la observación, la Estadística se


clasifica en dos tipos: descriptiva e inductiva o inferencial.

Estadística descriptiva está constituida por un conjunto de técnicas o


instrumentos que se emplean cuando se desea describir un conjunto de
datos, sin importar la profundidad y detalle con que se haga, ya que no se
pretende hacer generalizaciones o inferencias para un conjunto mayor.

Se puede definir como un conjunto sistemático de procedimientos para


observar y describir numéricamente el fenómeno, y descubrir las leyes que
regulan la aparición, transformación y desaparición del mismo.

2.2.5 Herramientas de análisis de la Estadística descriptiva

Para fines de análisis, la Estadística descriptiva se basa en tres tipos de


herramientas. Utiliza instrumentos como gráficos y cuadros; adicionalmente usa los
denominados números relativos como: las proporciones, porcentajes, razones y
las tasas; y también recurre al uso de medidas como: los índices, las medidas de
tendencia central y las medidas de variabilidad.. Dado que más adelante se
abordan los promedios, las medidas de variabilidad y algunos índices,
específicamente los números índices, así como las medidas de tendencia central y
las medidas de variabilidad, entonces conviene que los números relativos sean
tratados brevemente en este capítulo.

i) Proporción

Las proporciones se obtienen como el cociente entre el valor correspondiente a una


parte del grupo en consideración y el valor correspondiente al total de elementos
que forman el referido grupo. Las proporciones tienen más utilidad como medida,
cuando los valores analizados corresponden a variables que se expresan en
unidades monetarias, como es el caso del ingreso y el gasto.

Ejemplo 1: En el cuadro 1 se presenta la información correspondiente al valor de


los ingresos mensuales (en dólares) percibidos por los cuatro miembros del hogar
de la familia Gómez durante el mes de junio del 2005.

Cuadro 1
Valor de los ingresos percibidos por los cuatros miembros de la familia
Gómez durante el mes de junio del 2005
(En dólares)

Valor de los ingresos


Miembros de la familia Total Por concepto de Provenientes de
salarios donaciones, regalos y
bonificaciones
Total 3,600 3,050 550
Padre 1,200 900 300
Madre 800 700 100
Hijo 900 850 50
Hija 700 600 100

La lectura de estos valores puede resultar bastante fácil, sin embargo, la


interpretación podría implicar algún grado de complejidad, toda vez que se trata de
valores absolutos. Sin embargo, si esas cifras son convertidas en proporciones,
como se expresa en el cuadro 2, la interpretación podría simplificarse
sustancialmente.

Cuadro 2
Proporción de los ingresos percibidos por los cuatros miembros de la
familia Gómez por concepto de salarios y provenientes de donaciones
regalos y bonificaciones, durante el mes de junio del 2005
(En dólares)

Valor de los ingresos


Miembros de la familia Total Por concepto de Provenientes de
salario donaciones, regalos y
bonificaciones
Total 100.0 0.85 0.15
Padre 100.0 0.75 0.25
Madre 100.0 0.87 0.13
Hijo 100.0 0.94 0.06
Hija 100.0 0.86 0.14

Entonces puede concluirse que, en general, de cada dólar que ingresó al hogar de
la familia Gómez en el mes de junio del 2005, 85 centavos provinieron del salario
percibido por cada uno de sus cuatro miembros, mientras que 15 centavos
correspondieron a las entradas provenientes de donaciones, regalos y
bonificaciones. Mientras tanto, de cada dólar que le ingresó al padre en durante el
mes, 75 centavos llegaron por concepto de salario, mientras que 25 centavos
provinieron de donaciones, regalos y bonificaciones, y de esta misma forma se
pueden interpretar las demás proporciones. Siguiendo el mismo procedimiento de
análisis se puede abordar la el origen de los ingresos de la madre, el hijo y la hija.

Ejemplo 2: En el cuadro 3 se presenta la información relativa al valor del gasto


mensual de los hogares dominicanos, clasificado por destino del mismo. En este
caso solo se consideran dos categorías del destino del gasto, por un lado, los
alimentos y bebidas no alcohólicas, y por el otro, los demás gastos, es decir, los
gastos en otros bienes y servicios.

Cuadro 3
REPUBLICA DOMINICANA: Valor del gasto mensual de los hogares en alimentos y bebidas
no alcohólicas y en otros bienes y servicios, según región geográfica, 2007
Valor del gasto mensual de los hogares
Región geográfica Total En alimentos y En otros bienes y
bebidas servicios
Total 51,637,308,855 11,036,578,616 40,600,730,239
Región Ozama o Metropolitana 21,152,615,621 3,704,577,019 17,448,038,602
Región Norte o Cibao 18,353,750,634 4,098,582,180 14,255,168,454
Región Sur 6,707,685,474 1,921,363,875 4,786,321,599
Región Este 5,423,257,126 1,312,055,542 4,111,201,584
Fuente: Oficina Nacional de Estadística: Encuesta Nacional de Ingresos y Gastos de los Hogares, 2007. Santo Domingo, 2009.

De la misma forma que en el caso de los ingresos de los miembros del hogar de la
familia Gómez, la interpretación de los componentes del gasto de los hogares
según región se hace más fácil a través de proporciones como las expuestas en el
cuadro 4.

Cuadro 4
REPUBLICA DOMINICANA: Proporción del valor del gasto mensual de los hogares en
alimentos y bebidas no alcohólicas y en otros bienes y servicios,
según región geográfica, 2007
Proporción del gasto mensual de los hogares
Región geográfica Total En alimentos y bebidas En otros bienes y
no alcohólicas servicios
Total 1.00 0.21 0.79
Región Ozama o Metropolitana 1.00 0.18 0.82
Región Norte o Cibao 1.00 0.22 0.78
Región Sur 1.00 0.29 0.71
Región Este 1.00 0.24 0.76

De los valores de este cuadro se concluye que, en el año 2007, de cada peso gastado
mensualmente por los hogares dominicanos, 21 centavos se destinaban a la compra de
alimentos y bebidas no alcohólicas, mientras que los otros 79 centavos se gastaban en la
compra de otros bienes y servicios. A su vez, mientras que en los hogares de la Región
Sur, de cada peso gastado, 29 centavos eran usados para comprar alimentos y bebidas
no alcohólicas, en la Región Ozama o Metropolitana, de cada peso gastado, solo 18
centavos iban a la compra de estos bienes. Mientras tanto, en el Cibao Norte se
destinaban 22 centavos de cada peso se destinaban a estas compras y en el Este 24
centavos.

ii) Porcentaje

Los porcentajes constituyen una forma de expresión relativa de valores que forman parte
de un total. Esto es, la representación de las partes del total mediante unidades del 100
por ciento.

Ejemplo: En el Cuadro 3 se presenta el número de hogares existentes en la República


Dominicana de acuerdo al VIII Censo Nacional de Población y Vivienda del 2002, en
función de la existencia de computador de acuerdo a zona de residencia. El cuadro
muestra que en el año 2002, en la República Dominicana existían 2,193,848 hogares,
entre los cuales, en 119,609 había computador, mientras en los 2,074,239 restantes no
existía ese tipo de artefacto. A su vez, en la zona urbana, en el mismo año había un total
de 1,398,614 hogares, entre los cuales en 108,613 había computador y en 1,290,001 no
existía. Mientras tanto, que en la zona urbana había 795,234 hogares, de los cuales
10,996 tenían computador y en los 784,238 restantes no existía este tipo de aparato.

Cuadro 3
REPUBLICA DOMINICANA: Número de hogares, por tenencia de computador,
según zona, 2002
Zona Número de hogares
Total Tiene computador No tiene
Total 2,193,848 119,609 2,074,239
Urbana 1,398,614 108,613 1,290,001
Rural 795,234 10,996 784,238
Fuente: Oficina Nacional de Estadística: VIII Censo Nacional de Población y Vivienda, 2002.

Comprender el significado de esos valores puede hacerse mucho más fácil si se llevaran
a sus equivalencias en porcentajes.

En el cuadro 4 se presenta la composición porcentual de los hogares, por tenencia de


computador, según zona, 2002. En este caso lo que se ha hecho es calcular el porcentaje
de hogares de cada zona (Urbana y Rural) y del país en su conjunto (Total), en los cuales
existe computador. De estos resultados se deduce que, al año 2002, en el 5.5% de los
hogares del país había computador. Sin embargo ese porcentaje presentaba diferencias
importantes entre el campo y la ciudad, pues mientras casi un 8% de los hogares urbanos
tenía computador, solo el 1.4% de los hogares rurales disponía de ese artefacto. En otras
palabras, mientras ocho de cada 100 hogares urbanos tenían computador, en la zona
rural apenas uno de cada 100 tenía este tipo de aparato.

Cuadro 4
REPUBLICA DOMINICANA: Composición porcentual de los
hogares, por tenencia de computador, según zona, 2002
Porcentaje de hogares
Zona Total Tiene No tiene
Total 100.0 5.5 94.5
Urbana 100.0 7.8 92.2
Rural 100.0 1.4 98.6
Fuente: Oficina Nacional de Estadística: VIII Censo Nacional de Población y Vivienda, 2002.

Cuando se trabaja con valores porcentuales, no es lo mismo calcularlos en función del


total obtenido a partir de la suma de los valores de las columnas, que obtenerlos a partir
del total obtenido a partir de la suma de las filas. Para hacer esta distinción se ha
convenido denominar composición porcentual a los primeros y distribución porcentual
a los segundos.

Las cifras relativas expuestas en el cuadro 4 constituyen un ejemplo de lo que es una


composición porcentual. Mientras tanto, la forma de colocar las informaciones en el
cuadro 5 constituye un ejemplo típico de lo que se denominaría distribución porcentual.
Cuadro 5
REPUBLICA DOMINICANA: Distribución porcentual de los
hogares, por tenencia de computador, según zona, 2002

Porcentaje de hogares
Zona Total Tiene No tiene
Total 100.0 100.0 100.0
Urbana 63.8 90.8 62.2
Rural 36.2 9.2 37.8
Fuente: Oficina Nacional de Estadística: VIII Censo Nacional de Población y Vivienda, 2002.

De la lectura del cuadro 5 se deduce que el 63.8% de los hogares del país estaban en la
zona urbana, mientras el 36.2% restante estaba en la zona rural. A su vez, entre los
hogares que disponían de computador, el 90.8% esta en la zona urbana y el 9.2% en la
rural. Mientras tanto, de los hogares donde no había computador, el 62.2% estaba en la
zona urbana y el restante 37.8% en la zona rural.

El porcentaje también es útil al momento de hacer comparaciones de dos o más


situaciones representadas por valores de órdenes de magnitud diferentes. Un ejemplo de
esto se presenta al momento de querer relacionar la tenencia de computador en los
hogares del municipio de La Vega con los del municipio de Sosúa. En el primero de estas
unidades geográficas, un total de 1,718 hogares poseen computador, mientras que ese
tipo de artefacto es poseído por 642 hogares en el municipio de Sosúa. Sin embargo,
esto no significa en modo alguno que los hogares veganos posean más este tipo de
tecnología informática, pues esto debe relacionarse con el número total de hogares, el
cual es de 53,342 en el municipio de La Vega y de 12,187 en Sosúa. De esta forma, si el
número de hogares que dispone de computador se lleva a valores relativos, se encontrará
que el 5.0% de los hogares de Sosúa posee el artefacto en cuestión, mientras que esa
proporción es de solo 3.1% en el caso de los hogares del municipio de La Vega. Por
consiguiente, en este último municipio, los hogares que disponen de computador son
menos frecuentes que en el primero.

iii) Razón

La razón es la relación por cociente entre dos valores. Por lo general, se utiliza para
establecer la magnitud de un valor frente a otro.

Ejemplo: Si se toman los datos del cuadro 3 y se dividen los de la columna tres entre los
de la columna dos entonces se obtendrá la razón del número de hogares que no tiene
computador en relación al de aquellos hogares que sí tiene. De esta forma se generaron
los resultados expuestos en el cuadro 6.
Cuadro 6
REPUBLICA DOMINICANA: Razón entre el número de hogares
que no tiene computador y el que sí tiene, según zona, 2002

Zona Razón
(No tiene/Tiene)
Total 17.34
Urbana 11.88
Rural 68.05
Fuente: Oficina Nacional de Estadística: VIII Censo Nacional de Población
y Vivienda, 2002.
De acuerdo a las razones exhibidas en el cuadro 6, a nivel nacional, por cada hogar que
tenía computador un total de 17 no disponían de este artefacto. A vez, la zona urbana, por
cada hogar que tenía, 12 no disponían del mismo; mientras que en la zona rural, por cada
hogar con computador habían 68 que no tenían.
Uno de los usos más frecuentes que se da a la proporción es su aplicación en el concepto
epidemiológico de riesgo relativo. Se trata del cociente entre dos porcentajes, dos tasas,
dos proporciones, dos índices, etc., de modo que se puede establecer el exceso del valor
de uno con relación al otro. Cuando se alude al exceso se hace referencia a cuánto mayor
que un valor es el otro, y no cuántas veces es una valor con respecto al otro. De esta
forma, si A=3 y B=3, la razón será: 3/3=1. Esto significa que si ambos valores son iguales,
entonces no hay exceso de un valor con respecto al otro, por tanto, la diferencia con
respecto a uno (1) será el exceso. Normalmente, como base para la comparación suele
tomarse al valor que representa la mejor situación.

Ejemplo 1: Si el porcentaje de hogares donde hay computador es 7.8% en la zona


urbana 1.4% en la zona rural, la razón de hogares con computador en la zona urbana con
respecto a la rural es: 7.8/1.4=5.6. Esto significa que la posibilidad o probabilidad de que
en un hogar urbano exista computador es 5.6 veces la de la zona rural; o la posibilidad o
probabilidad de que en un hogar urbano exista computador es 4.6 veces mayor que en la
zona rural.

Ejemplo 2: Si la tasa de analfabetismo (Porcentaje de personas de 15 años y más que no


sabe leer y escribir) en la zona urbana es 10% y en la zona rural es 30%, el riesgo relativo
de ser analfabeto en la zona rural con respecto a la urbana es: 30/10=3. Esto es, el riesgo
que tiene una persona que vive en la zona rural de ser analfabeto es el triple del que tiene
quien vive en la zona urbana; o dos (2) veces mayor que el de quien reside en la zona
urbana.

Ejemplo 2: En el cuadro 7 se expone el porcentaje de personas de 10 años y más que al


año 2007 nunca había asistido a la escuela, clasificado en función de la región geográfica
de residencia. Además se presentan los valores del riesgo relativo de no haber asistido a
la escuela para las personas de cada región con relación a aquellas residentes en Santo
Domingo.
Cuadro 7
REPUBLICA DOMINICANA: Porcentaje de personas de 10 años y más de
edad que no asistieron a la escuela, según región de residencia, 2007
Región de residencia Porcentaje Riesgo relativo
Santo Domingo 3.1 -
Cibao Central 6.1 1.97
Valdesia 6.7 2.16
Yuma 6.9 2.22
Cibao Occidental 9.2 2.97
Enriquillo 10.5 3.39
El Valle 11.5 3.71
Fuente: Cesdem-Macro Internacional. Encuesta Demográfica y de Salud, 2007 (ENDESA-2007).
Santo Domingo, 2008.

En este caso se ha tomado el porcentaje correspondiente a Santo Domingo como base


para la comparación por ser el valor más bajo, el que representa la situación más positiva.
De esta forma, los valores del riesgo relativo indican que quienes viven en el Cibao
Central poseen un riesgo de no haber asistido nunca a la escuela un 97% mayor que
quienes residen en Santo Domingo; quienes viven Valdesia tienen un riesgo de no haber
asistido nunca a la escuela 116% mayor que quienes viven en Santo Domingo, es decir,
más del doble. En forma similar se interpretan los valores del riesgo relativo
correspondiente a las restantes regiones de residencia.

Otros usos que se da a la razón es el cálculo de los índices simples, pertenecientes al


campo de los números índices. Así, cuando se alude al precio relativo, cantidad relativa o
al valor relativo, se hace referencia a la razón entre el precio, la cantidad o el valor de un
bien o servicio en un período dado con respecto al precio, cantidad o valor de ese mismo
bien o servicio en un período base.

iv) Tasa

La tasa es un indicador de la intensidad con que se produce un fenómeno en una


población dada durante un período determinado. Las tasas se obtienen como cociente
entre el número de hechos ocurridos durante un determinado período y la población
donde se producen esos hechos, multiplicado por una constante que puede ser: 100;
1,000; 10,000, etc.

Las tasas poseen la característica denominada intensidad, que es la fuerza con que se
produce el fenómeno en la población. En este caso será: uno por cada cien, uno por cada
mil, uno por cada diez mil, etc.

Ejemplos:

1) La tasa de desempleo de la República Dominicana en abril del 2011 era 14%. Eso
significa que en ese momento, en la República Dominicana, 14 de cada 100 personas
en condiciones para trabajar se encontraban desempleadas. Por tanto, la intensidad
del desempleo era de 14 de cada 100.

2) La tasa de analfabetismo de la República Dominicana de acuerdo a la Encuesta


Nacional de Hogares de Propósitos Múltiples (ENHOGAR-2011) era 11.6%. Ese valor
indica que en el 2011, en la República Dominicana, de cada 100 personas de 15 años
o más de edad no sabían leer y escribir. En consecuencia, la intensidad es de 12 de
cada 100.
3) La tasa de mortalidad infantil de la República Dominicana, de acuerdo a la Encuesta
Nacional de Hogares de Propósitos Múltiples (ENHOGAR-2009-2010) era 28%0. Ese
valor indica que en los años inmediatamente anteriores al 2010, en la República
Dominicana, por cada mil 1,000 niños que nacían, 28 morían antes de cumplir el
primer año de vida. En consecuencia, la intensidad es de 28 de cada 1,000.

2.3 Conceptos utilizados en estadística relacionados con la exactitud de los datos

En el análisis estadístico con frecuencia se manejan cifras contentivas de valores


decimales. Este tipo de cifra puede tener diferentes orígenes. Podría derivarse de valores
de una variable expresados con un elevado nivel de exactitud, como sería el resultado de
pesar a una persona en una balanza electrónica, la cual normalmente posee un elevado
grado de precisión. Los valores con decimales también pueden derivarse de cálculos,
donde una cifra cualquiera se multiplica por otra que contiene decimales. Un ejemplo de
este tipo lo constituye el número de casos que se obtiene para una variable cualquiera en
una encuesta, al multiplicar por factores de ponderación que pueden contener varios
valores decimales. Una tercera forma a través de la cual se pueden generar cifras con
valores decimales es cuando realizan cálculos para obtener medidas estadísticas como
proporciones, porcentajes, tasas, promedios o índices.

Ante situaciones como las anteriores, con frecuencia se requiere de la reducción de la


cantidad de cifras decimales. Este tipo de objetivo se puede alcanzar recurriendo al
concepto de redondeo o al de truncamiento.

2.3.1 Redondeo

Se entiende como redondeo al procedimiento mediante el cual se lleva un valor a la


unidad más cercana. En el caso de valores decimales existen tres criterios para
redondear, los cuales se relacionan con el dígito “5”.

Primera regla: Si el dígito a eliminar es menor que “5”, entonces simplemente se descarta
y se le suma “1” al dígito anterior.

Ejemplos:

1) Si se quiere redondear el número 123.564 a dos cifras decimales, se elimina el dígito


‘‘4’’, quedando así el número 123.56.

2) Si se quiere redondear el número 8.23 a una cifra decimal, se elimina el ‘‘3’’, quedando
entonces el número 8.2.

Segunda regla: Si el dígito a eliminar es mayor que “5”, entonces se descarta y se le


suma “1” al dígito anterior.

Ejemplos:

1) Si se quiere redondear el número 12.567 a dos cifras decimales, se elimina el dígito ‘‘7’’
y se le suma ‘‘1’’ al dígito ‘‘6’’, quedando así el número 12.57.

2) Si se quiere redondear el número 19.28 a una cifra decimal, se elimina el ‘‘8’’ y se le


suma ‘‘1’’ al dígito ‘‘2’’, quedando entonces el número 19.3.

Tercera regla: Si el dígito a eliminar es igual a “5” y el anterior es un número par,


entonces simplemente se descarta y si la cifra anterior es impar, se le suma “1” a ésta y
se descarta el ‘‘5’’.

Ejemplos:

1) Si se quiere redondear el número 16.765 a dos cifras decimales, se elimina el dígito


‘‘5’’, quedando así el número 16.76.

2) Si se quiere redondear el número 5.35 a una cifra decimal, se elimina el ‘‘5’’ y se le


suma ‘‘1’’ al dígito ‘‘3’’, quedando entonces el número 5.4.
2.3.2 Truncamiento

Se podría denominar truncamiento al procedimiento que consiste en tomar solo la parte


entera de un número, independientemente de la magnitud de los valores decimales que
se están descartando.

Ejemplos:

El valor truncado de 287.4 es 287.


A su vez, el valor truncado de 85.8 es 85.

En el primer caso se ha eliminado el valor 0.4, el cual también se habría eliminado si el


valor 287.4 se hubiese redondeado a un número entero. A su vez, en el segundo caso se
ha eliminado el valor 0.8, el cual habría sido elevado a 1 si se hubiese estado
redondeando y entonces se habría obtenido un valor redondeado de 86, diferente al valor
truncado de 85..

Debe tenerse cuidado al momento en que se decide truncar, pues si se hace con números
grandes no tiene mayores consecuencias. Por ejemplo, si se trunca el número 387.8,
entonces se convertirá en 587. La pérdida es de apenas es de 0.8, lo cual representa
apenas un 0.2%. Sin embargo si se truncase el número 2.8, se estaría despreciando un
valor de 0.8 que representa casi un 29%.

2.4 Estadística inductiva o inferencial

Estadística inductiva, también llamada estadística inferencial es aquella que busca dar
explicaciones al comportamiento de un conjunto de observaciones, probar la significación
o validez de los resultados; intenta descubrir las causas que lo originan, con gran
aplicación en el campo del muestreo, lográndose de esta manera conclusiones que se
extienden más allá de las muestras estadísticas mismas.

Uno de los principales objetivos de la estadística inductiva es hacer inferencias acerca de


los valores estadísticos de la población, denominados parámetros, a través de la
información obtenida en una muestra, que permite el cálculo de estimadores.

2.3.1 Conceptos asociados con la Estadística inductiva o inferencial

Incursionar en una definición de Estadística inferencial lleva a la mención de una serie de


conceptos asociados a la misma, los cuales requieren ser abordados.

i) Población. Es el universo en el cual se hace el estudio estadístico. Podría definirse


como un conjunto de individuos, objetos o mediciones que poseen una
característica común.

Ejemplos:

1) Los estudiantes de la Universidad Autónoma de Santo Domingo en el semestre


2012-1.
2) Las vacas de la Región Este de la República Dominicana en el mes de febrero
del 2012.
3) Las plantas de cacao de la provincia Duarte en el mes de abril del 2010.

4) El número de viviendas de la República Dominicana en diciembre del 2010.

5) Las estaturas de los estudiantes de la Sección 29 de Estadística General de la


UASD en el semestre 2011-2.

A juzgar por los las situaciones expuestas a través de los ejemplos precedentes, las
poblaciones pueden ser de naturaleza muy diversa. Pueden estar constituidas por
individuos, como las correspondientes a los ejemplos 1, 2 y 3; por objetos, como la del
ejemplo 4; o por mediciones, como la del ejemplo 5.

Toda población está definida en función las dimensiones: espacio y tiempo. De esa
forma, en el ejemplo 1, el espacio es la Universidad Autónoma de Santo Domingo y el
tiempo es el semestre 2012-1; en el ejemplo 2, el espacio es la Región Este de la
República Dominicana y el tiempo es el mes de febrero del 2012; y así sucesivamente.

Por su naturaleza, las poblaciones pueden ser de dos tipos: finitas e infinitas.

Población es finita es aquella que posee un número de elementos que puede ser contado
o estudiado. Es el caso, por ejemplo, de los estudiantes de la Universidad Autónoma de
Santo Domingo en el semestre 2012-1 o el número de viviendas de la República
Dominicana en diciembre del 2010. En ambos casos, bastaría con hacer un censo de
cada población y se podría contar a todos los elementos.

Población infinita es aquella cuyo número de elementos no puede ser contado o


estudiado. Ejemplos de esta naturaleza serían los números reales, los números pares y
los números reales, entre otras series. No obstante, rara vez interesará este tipo de
población desde la perspectiva de la Estadística. Por tanto, cuando en Estadística se
alude a población infinita normalmente se hace referencia a grupos de elementos que
desde la perspectiva matemática pueden ser finitos, pero que en términos prácticos es
imposible estudiarlos a todos.

Ejemplo: Un ambientalista está interesado en estudiar la contaminación con metales en


los peces del Río Ozama. El número de peces existentes en este universo acuático,
desde la perspectiva matemática es finito, no importa cuan grande pueda ser. Sin
embargo, resultaría estudiar a cada uno de los peces de este entorno, porque se trata de
una población que se torna incontrolable. Por tanto, dado que no es posible estudiarlos a
todos, entonces esta población es considerada como infinita desde el punto de vista
estadístico.

ii) Muestra. Es una parte representativa de la población, la cual se toma con el propósito
de derivar resultados de ésta sin la necesidad de estudiarla completa. La
representatividad se torna en una propiedad inherente a toda muestra y consiste en que
los elementos de ésta última posean las mismas características que el conjunto de
elementos de la población. Por tanto, la muestra será representativa en la medida que
esté compuesta por elementos pertenecientes a todos los grupos que componen la
población.
Ejemplo 1: Juan Sánchez es un investigador del área social quien está interesado en
determinar el porcentaje de jefes de hogar analfabetos en la ciudad de Aguas Claras. En
esta ciudad existe un total de 350,000 hogares, por tanto, existen 350,000 jefes de hogar.
La ciudad está compuesta por 120 barrios; 60 de ellos compuestos por hogares de clase
baja donde reside el 50% de los hogares de la ciudad; 40 barrios constituidos por hogares
de clase media, donde reside el 35% de los hogares; mientras que los 20 barrios
restantes pertenecen a clase alta, y allí reside el 15% de los hogares de Aguas Claras.

Dado el tamaño de la población a estudiar, 340,000 hogares, el señor Sánchez ha


decidido hacer el estudio utilizando una muestra de solo 1,200 hogares, los cuales ha
distribuido en los 60 barrios de clase baja. El equipo de investigación del señor Sánchez
recorre los 60 barrios y en cada uno de ellos visita a un conjunto de hogares que han sido
seleccionados y a cada jefe de hogar le pregunta si sabe leer y escribir. De esta forma, al
haber concluido el recorrido por los 60 barrios habrán entrevistado los 1,200 jefes de
hogar.

Una vez concluida la recolección de los datos se cuenta el número de jefes de hogar que
sabe leer y escribir y se determina que son 240, mientras los que saben leer y escribir son
960. Esto indicaría que el 20% de los jefes de hogar estudiados es analfabeto.

A partir del resultado anterior ¿podría decirse que el 20% de los jefes de hogar de la
ciudad de Aguas Claras es analfabeto? La respuesta es NO, porque la muestra no es
representativa, dado solo toma en cuenta hogares pertenecientes a la clase baja y resulta
que el analfabetismo es diferencial por clase social. Es decir, es más elevado, cuanto más
bajo es el grupo social al cual pertenecen las personas.

Ejemplo 2: Pedro González es un investigador del área educativa y también está


interesado en determinar el porcentaje de jefes de hogar de la ciudad de Aguas Claras
que no sabe leer ni escribir. Considerando el tamaño de la población, el señor González
ha decidido hacer su estudio, igual que el señor Sánchez, a partir de una muestra de
1,200 hogares, los cuales ha distribuido en los 20 barrios de clase alta.

Después de visitar los 20 barrios y en cada uno haber preguntado a un grupo de jefes de
hogar si saben leer y escribir se contó el número de aquellos que saben leer y escribir y
se determinó que son solo 24, mientras los que saben leer y escribir son 1,176. Esto
indicaría que el 2% de los jefes de hogar estudiados es analfabeto.

Tomado en cuenta el resultado anterior ¿podría decirse que el 2% de los jefes de hogar
de la ciudad de Aguas Claras es analfabeto? En este caso la respuesta también es NO,
porque la muestra no es representativa, dado solo toma en cuenta hogares
pertenecientes a la clase alta.

Ejemplo 3: María García, también investigadora del área educativa, está interesada en
establecer el porcentaje de jefes de hogar de la ciudad de Aguas Claras que no sabe leer
ni escribir. Para su investigación, la señora García, de la misma forma que Sánchez y
González, tomó una muestra de 1,200 hogares, solo que ella tomó la decisión de estudiar
los cuales ha distribuido en los 20 barrios de clase alta.

Dado que en los barrios de clase baja reside el 50% de la población de la ciudad, la
señora García decidió estudiar el 50% de la muestra de los 1,200 hogares en los 60
barrios de clase baja, es decir, tomó 600 hogares y los distribuyó en esos 60 barrios. Del
mismo modo, dado que el 35% de los hogares de la ciudad reside barrios de clase media,
tomó el 35% de la muestra, es decir 420 hogares, en los 40 barrios de clase media.
Además, dado que 15% de la población de la ciudad reside en barrios de clase alta,
reservó el 15% de la muestra, es decir 180 hogares, para estudiarlos en los 20 barrios de
clase alta.

Después de visitar los 120 barrios de la ciudad y entrevistar allí los 1,200 jefes de hogar
encontró que 156 de ellos no saben leer y escribir, mientras que los 1,044 restantes sí
saben. Esto indicaría que 13% de los jefes de hogar estudiados es analfabeto.

Tomado en cuenta el resultado anterior ¿podría decirse que el 13% de los jefes de hogar
de la ciudad de Aguas Claras es analfabeto? Dado que se trata de una muestra
autoponderada, es decir, está formada por hogares de los tres grupos sociales en la
misma proporción que éstos están representados en la población, si la selección de cada
hogar se hizo respetando principios estadísticos de aleatoriedad, entonces sí podría
hacerse la afirmación de que el 13% de los jefes de hogar de la ciudad de Aguas Claras
son analfabetos, puesto que la muestra es representativa.

3. El muestreo: uso de la Estadística inductiva o inferencial

El uso más frecuente de la Estadística inductiva o inferencial son sus aplicaciones en el


campo del muestreo. Cuando se alude al muestreo se hace referencia a las técnicas
utilizadas para diseñar y seleccionar muestras.

A través del muestreo se estudia solo a una parte de la población, con la intención de
obtener un valor que se espera sea de magnitudes similares al de ese mismo valor de la
población. A este proceso se le denomina inferencia o inducción, es decir,
procedimiento a través del cual se le atribuye a la población la propiedad observada en la
muestra.

Población
Muestra
Extracción de la muestra

Inferencia o inducción

Análisis

En el muestreo se trabaja con los resultados derivados del estudio de muestras y con
frecuencia también se alude a medidas estadísticas obtenidas a partir de los datos de una
población completa. De esa forma, hace referencia los conceptos de estimador y
parámetro.
i) Estimador. Es toda medida obtenida a partir del estudio de una muestra. De esta
forma, si con los datos de una muestra se calcula un porcentaje, ese valor será el
estimador del porcentaje; si en cambio se obtiene una proporción, entonces ese valor será
el estimador de la proporción, y si lo que obtiene es el promedio, entonces se habrá
obtenido el estimador del promedio, y así para cada medida.

Ejemplo: Pedro Sánchez, investigador del área de la salud está interesado en


determinar el porcentaje de hogares de la República Dominicana que usan agua
embotellada para beber. Con esos propósitos, en vez de estudiar los 2,663,000
hogares existentes en el país, selecciona una muestra nacional de 3,000 hogares.
Luego determina que en 1,930 de esos 3,000 hogares se consume agua
embotellada.

El valor 64.3% representa el estimador del porcentaje de hogares de la República


Dominicana que usa agua embotellada para beber. En este caso se afirmaría que
en el 64.3% los hogares del país se consume agua embotellada. A pesar de
haberse estudiado apenas una muestra se está haciendo referencia a todos los
hogares del país, por cual se está haciendo un proceso de inferencia, en la medida
que a la población se le está atribuyendo lo que se ha observado en la muestra.

ii) Parámetro. Así como el estimador es la medida calculada a partir de los datos de una
muestra, el correspondiente valor en la población se le llama parámetro, por tanto, las
medidas calculadas a partir de los datos de toda la población son parámetros. Por tanto,
si a partir de los datos de la población completa se calcula el porcentaje, entonces se
habrá obtenido el parámetro del porcentaje; si en cambio, lo que se calcula es la
proporción, se habrá obtenido el parámetro de la proporción; y si lo que se calcula es el
promedio se habrá obtenido el parámetro del promedio.

Ejemplo: Juana Castro, estudiosa del tema de las comunicaciones está interesada
en establecer el porcentaje de hogares de la ciudad de Las Lavas que posee
internet. En la ciudad existe un total de 4,000 hogares y ella decide hacer un censo,
es decir, los estudiará a todos, de modo que visitará a cada hogar y allí preguntará
si existe servicio de Internet. Luego de la visita a los hogares contó aquellos donde
le informaron que ‘‘poseen’’, así como los que ‘‘no poseen’’. Los que ‘‘poseen’’ son
800, mientras que los que ‘‘no poseen’’ son 3,200. Esto significa que el 20% de los
hogares de la ciudad de Las Lavas dispone de servicios de internet.

El 20% obtenido en forma previa se deriva de los datos de la población completa.


En consecuencia, representa el parámetro del porcentaje de hogares de la ciudad
de Las Lavas que posee servicio de Internet.

3.1 Tipos de muestreo

Para usar muestreo lo primero que debe hacerse es construir el marco de muestreo, el
cual consiste en la lista o mapa contentivo de todas las unidades que constituyen la
población a ser estudiada. Como parte de la construcción del marco muestral, conviene
que cada elemento de la población está identificado con un número único e irrepetible.
Por esta razón, lo que se hace es numerar las unidades en forma correlativa desde 1
hasta n, siendo n el número total de elementos que componen la población en estudio.
Dependiendo de que la selección de la muestra se haga o no mediante procedimientos
basados en el azar, el muestreo puede ser de dos tipos: aleatorio y no aleatorio.

3.1.1 Muestreo aleatorio, también llamado muestreo probabilístico o muestreo al


azar es aquel en el cual los elementos que formarán parte de la muestra son
seleccionados de forma tal que su inclusión depende exclusivamente del azar. Este
tipo de muestreo, a su vez se subdivide en cuatro formas diferentes:

1) Muestreo aleatorio simple, probabilístico simple o simple al azar. Se define


como aquel mediante el cual las unidades se seleccionan de modo que todas
tienen la misma probabilidad de selección. Es decir, las unidades seleccionadas
tienen la misma probabilidad de ser seleccionadas que aquellas que no fueron.

En el muestreo aleatorio simple, las unidades que forman parte de la muestra se


pueden seleccionar usando dos procedimientos, dependiendo del tamaño de la
población a ser estudiada.

a) Población pequeña. Si la población no es grande, las unidades muestrales


pueden seleccionarse mediante un simple sorteo.

Ejemplo: La profesora Hernández está interesada en determinar el gusto por


la música clásica de los 50 estudiantes de su curso. Ella decide no estudiarlos
a todos, por lo que decidió seleccionar una muestra aleatoria simple de 10
estudiantes. En este caso la profesora procederá de la forma siguiente:

Primero. Elabora una lista con los nombres de los 50 estudiantes del curso y le
coloca un número a cada estudiante, comenzando con el 1 al lado del nombre
del primer estudiante, el 2 al lado del nombre del segundo estudiante, el 3 al
lado del nombre del tercer estudiante hasta terminar con el número 50 al lado
del nombre del último estudiante. De esta forma habrá construido el marco de
muestreo, como se muestra a continuación:

No. Nombre No. Nombre


1. Ana María Pérez 26. Roberto Rosa
2. José Rafael Santos 27. Mónica Fernández
3. Juan Daniel Martínez 28. Aurelio Faña
4. Pedro Quezada 29. Alberto Bonnelly
5. Pamela Paredes 30. Gumercindo Soler
6. Ktherine González 31. Juan Reyes
7. Rosa María Sánchez 32. Donalda Brea
8. Roberto Antonio Pérez 33. Brenda Peña
9. Kelvin Javier Peña 34. Agustín Nova
10. Paola Altagracia García 35. Pedro Bobea
11. Johanna Fermín 36. Adalberto Henríquez
12. Iluminada Hernández 37. Dolores del Río
13. Antonio Glass 38. Anastacia Gómez
14. Cesar Solano 39. Viviana Camacho
15. Magnolia Ubiera 40. Persio Mota
16. Cesareo Oller 41. Manuel Gómez
17. Margarita DOleo 42. Mauricio Pérez
18. Angela Sang 43. Belarminio Peña
19. Michel Donoso 44. Justiniano Pérez
20. Mayra Moronta 45. Ciro Gómez
21. Fermín Decamps 46. Alcides Duvergé
22. Feliciano Graciano 47. José Antonio García
23. José Miguel Sala 48. Delcio Ramírez
24. Alejandra Mena 49. Petra Disla
25. Donaida Peña 50. Altagracia Bueno
Segundo. Corta 50 pedacitos de papel de igual tamaño y en cada uno anota un
número hasta haber anotado el número 50 en el último pedacito de papel y
luego los dobla.
Tercero. Coloca los 50 papelitos en una bolsa, los agita y luego extrae uno. Si el
número resultante es el ‘‘15’’ indica que el primer estudiante a incluir en la
muestra es Magnolia Ubiera, Al extraer el segundo papelito resultó el número
‘‘43’’, lo cual indica que el tercer estudiante de la muestra es Belarminio Peña.
Extrae el tercer papelito y resultó el número ‘‘4’’, lo cual indica que el tercer
estudiante a formar parte de la muestra es Pedro Quezada. Así continuará
hasta haber extraído los siete números restantes y así completar la selección de
la muestra de 10 estudiantes.
Finalmente, la profesora Hernández le preguntará a cada uno de esos 10
estudiantes si le gusta escuchar música clásica. Tres de ellos responden
positivamente, por tanto, si considera que esta muestra es representativa de
toda la población, entonces concluirá que al 30% de los estudiantes del curso le
gusta la música clásica.
b) Población grande. En el caso en que la población sea grande o
relativamente grande, ya el sorteo no resulta práctico. Por ejemplo: El señor
Eladio Prieto, Encargado de la Dirección Regional Central de Educación está
interesado en determinar el nivel académico de los directores de los 1,500
centros educativos de esa jurisdicción educativa, para lo cual decide hacerlo a
través de una muestra de 40 centros. En este caso sería extremadamente
complicado cortar 1,500 papelitos, numerarlos y luego hacer las 40
extracciones.
En casos como el anterior, primero se construye el marco de muestreo,
asignando un número al lado de cada centro educativo, desde 1, al lado del
nombre del primer centro educativo de la lista, hasta 1,500, al lado del nombre
del último establecimiento escolar. Luego se usa una tabla de números
aleatorios para hacer la selección de los 40 centros educativos a ser
estudiados.
Para usar la tabla de número aleatorios se puede proceder de dos formas
diferentes. Una forma es a través de un sorteo y la otra es mediante un
procedimiento más simple, pero también aleatorio.
Uso del sorteo. Esta vez se trata del uso de un procedimiento aleatorio para
seleccionar la fila y la columna en cuya intersección se inicia la selección de la
muestra.
Ejemplo: El señor Prieto, Encargado de la Dirección Regional Central de
Educación, puede seleccionar la muestra de 40 centros educativos para su
estudio, utilizando la tabla de números aleatorios de la página siguiente, la
cual contiene 50 filas y 50 columnas. En este caso puede cortar 50 pedacitos
de papel los cuales debe numerar de 1 a 50 y colocarlos en una bolsa de
papel para escoger el número correspondiente a la fila de inicio. Considere
que al hacer la extracción saliera el papelito con el número 18. Eso indica
que la selección se inicia en la fila 18.
Tabla de números aleatorios o tabla de dígitos al azar

Columnas
Filas 01 a 05 06 a 10 11 a 15 16 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50

01 54463 22662 65905 70639 79365 67382 29085 69831 47058 08186
02 15389 85205 18850 39226 42249 90669 96325 23248 60933 22927
03 85941 40756 82414 02015 13858 78030 16269 65978 01385 15345
04 61149 69440 11286 88218 58925 03638 52862 62733 33451 77455
05 05219 81619 10651 67079 92511 59888 84502 72095 83463 75577
06 41417 98326 87719 92294 46614 50948 64886 20002 97365 30976
07 28357 94070 20652 35774 16249 75019 21145 05217 47286 76305
08 17783 00015 10806 83091 91530 36466 39981 62481 49177 75779
09 40950 84820 29881 85966 62800 70326 84740 62660 77379 90279
10 82995 64157 66164 41180 10089 41757 78258 96488 88629 37231

11 96754 17676 55659 44105 47361 34833 86679 23930 53249 27083
12 34357 88040 53364 71726 45690 66334 60332 22554 90600 61113
13 06318 37403 49927 57715 50423 67372 63116 48888 21505 80182
14 62111 52820 07243 79931 89292 84767 85693 73947 22278 11551
15 47534 09243 67879 00544 23410 12740 02540 54440 32949 13491
16 98614 75993 84460 62846 59844 14922 48730 73443 48167 34770
17 24856 03648 44898 09351 98795 18644 39765 71058 90368 44104
18 96887 12479 80621 66223 86085 78285 02432 53342 42846 94771
19 90801 21472 42815 77408 37390 76766 52615 32141 30268 18106
20 55165 77313 83666 36028 28420 70219 81369 41943 47366 41067

21 75884 12952 84318 95108 72305 64620 31318 89872 45375 85436
22 16777 37116 58550 42958 21460 43910 01175 87894 81378 10620
23 46230 43877 80207 88877 89380 32992 91380 03164 98656 59337
24 42902 66892 46134 01432 94710 23474 20423 60137 60609 13119
25 81007 00333 39693 28039 10154 95425 39220 19774 31782 49037
26 68089 01122 51111 72373 06002 74373 96199 97017 41273 21546
27 20411 67081 89950 16944 93054 87687 96693 87236 77054 33848
28 58212 13160 06468 15718 82627 76999 05999 58680 96739 63700
29 70577 42866 24969 61210 76046 67699 42054 12696 93758 03283
30 94522 74358 71659 62038 79643 79619 44741 05437 39038 13163

31 42626 86819 85651 88678 17401 03252 99547 32404 17918 62880
32 16051 33763 57194 16752 54450 19031 58580 47629 54132 60631
33 08244 27647 33851 44705 94211 46716 11738 55784 95374 72655
34 59497 04392 09419 89964 51211 04896 72882 17805 21896 83864
35 97155 13428 40293 09985 58434 01412 69124 82171 59058 82859
36 98409 66162 95763 47420 20792 61527 20441 39435 11859 41567
37 45476 84882 65109 96597 25930 66790 65706 61203 53634 22557
38 89300 69700 50741 30329 11658 23166 05400 66669 48708 03887
39 50051 95137 91631 66315 91428 12275 24816 68091 71710 33258
40 31753 85178 31310 89642 98364 02306 24617 09609 83942 22716

41 79152 53829 77250 20190 56535 18760 69942 77448 33278 48805
42 44560 38750 83635 56540 64900 42912 13953 79149 18710 68618
43 68328 83378 63369 71381 39564 05615 42451 64559 97501 65747
44 46939 38689 58625 08342 30549 85863 20781 09284 26333 91777
45 83544 86141 15707 96256 23068 13782 08467 89469 93842 55349
46 91621 00881 04900 54224 46177 55309 17852 27491 89415 23466
47 91896 67126 04151 03795 59077 11848 12630 98375 52068 60142
48 55751 62515 21108 80830 02263 29303 37204 96926 30506 09808
49 85156 87689 95493 88842 00664 55017 55539 17771 69448 87530
50 07521 56898 12236 60277 39102 62315 12239 07105 11844 01117
Una vez seleccionada la fila de inicio, se selecciona el número de la
columna cuya intersección con la fila 18 determinará el punto de partida de
la selección de la muestra. Dado que la tabla también tiene 50 columnas,
pueden usarse los mismos papelitos. Considere que al hacer la extracción
se sacó el papelito cuyo número es 12. Esto indica que la selección inicia a
partir del número correspondiente a la fila 18 y columna 12, es decir, con el
dígito 0 marcado en la tabla.

Resulta que se quiere seleccionar 40 números de cuatro dígitos debido a


que el tamaño de la población es 1,500. Entonces, partiendo del dígito 0 ya
marcado, se completa un número de cuatro cifras. En este caso, el número
de inicio de la selección es el 0621. Esto indica que el primer centro
educativo seleccionado es el correspondiente al número 621 en el marco
muestral. Luego continúa seleccionando números de cuatro dígitos hacia
abajo (debajo del 0621), de modo que el siguiente centro seleccionado es el
correspondiente al número 0207 (en la fila 23), el siguiente será 1111 (FILA
26), y así continuará hasta haber seleccionado los 40 centros que
constituyen la muestra.

Procedimiento aleatorio alternativo. Una forma muy simple de


seleccionar el número de inicio de la selección es, con los ojos cerrados, se
coloca la punta del lápiz en la tabla de números aleatorios. El dígito sobre el
cual queda la punta del lápiz es el número de inicio. Luego, a partir de ese
dígito se completa el primer número de la selección y para la obtención de
los números restantes se procede de la misma forma que en el
procedimiento basado en el sorteo.

2) Muestreo aleatorio sistemático. Es un procedimiento mediante el cual, la


primera unidad de la muestra se selecciona en forma aleatoria, mientras las
restantes se obtienen sumando de manera sucesiva una cantidad constante
al número correspondiente a la primera unidad seleccionada.

El procedimiento para seleccionar la muestra sigue los siguientes pasos:

Primero. Cálculo del intervalo de selección (I), el cual se obtiene como el


cociente entre el tamaño de la población (N) y el tamaño de muestra (n).

Segundo. Selección del número inicial de selección (#), el cual se obtiene


en forma aleatoria simple entre 1 y el intervalo inicial de selección. Este
número corresponde a la primera unidad muestral seleccionada, así, si el
número seleccionado fuese el ‘‘3’’, eso indica que la unidad a la cual se le
asignó el número ‘‘3’’ en el marco muestral es la primera que formará parte
de la muestra.

Tercero. Selección de las n-1 unidades muestrales faltantes, las cuales se


obtienen sumando, en forma sucesiva, el intervalo de muestreo al número
inicial de selección, de modo que:

La segunda unidad será: #+I.


La tercera unidad será: #+2I.
La cuarta unidad será: #+3I.
Y así sucesivamente…, de modo que la última unidad será: #+(k-1)I, donde
K es el tamaño de la muestra a ser estudiada.

Ejemplo: Para determinar el gusto de sus estudiantes por la música clásica,


la profesora Hernández también puede usar muestreo aleatorio sistemático.
En este caso procederá de la siguiente forma:

Calcula el intervalo de selección: I=50/10=5, es decir, estudiará uno de


cada cinco estudiantes.

Selecciona el número inicial de selección: 1< # < I, en este caso,


1< # < 5
Si al seleccionar un número aleatorio entre 1 y 5 resultara el número 2,
entonces indica que José Rafael Santos es el primer estudiante
seleccionado como parte de la muestra, de modo que ahora falta
seleccionar los nueve restantes.

Para seleccionar los nueve estudiantes restantes y así completar la muestra


se procede de la forma siguiente:

El segundo será: 2+5=7, Rosa María Sánchez.


El tercero: 7+5=12, Iluminada Hernández.
El cuarto: 12+5=17, Margarita De Óleo.
El quinto: 17+5=22, Feliciano Graciano.
El sexto: 22+5=27, Mónica Fernández.
El séptimo: 27+5=32, Donalda Brea.
El Octavo: 32+5=37, Dolores del Río.
El noveno: 37+5=42, Mauricio Pérez.
Y el décimo: 42+5=47, José Antonio García.
Finalmente, a cada uno de estos 10 estudiantes le preguntará si le gusta
escuchar música clásica.

3) Muestreo aleatorio estratificado

Cuando se quiere seleccionar una muestra para estudiar un fenómeno que


se supone con un comportamiento diferente de un grupo poblacional a otro,
entonces el muestreo aleatorio simple o muestreo aleatorio estratificado
podría no garantizar la representatividad. En este caso conviene seleccionar
una muestra estratificada en función de aquellos grupos poblacionales
según los cuales se espera un comportamiento diferenciado del fenómeno.
Es decir, conviene usar muestreo aleatorio estratificado.

Para seleccionar una muestra usando muestreo aleatorio estratificado se


procede en varios pasos.

Primero. Se definen los estratos, los cuales no son más que grupos de
unidades en cuyo interior se supone que el fenómeno se comporta sin
variaciones de consideración.

Segundo. Se construye un marco muestral para cada estrato. Es decir, se


elabora la lista de unidades que componen cada estrato y luego, cada una
es enumerada en forma correlativa de 1 a n. Por tanto, habrá tantos marcos
muestrales como estratos se han definido.
Tercero. Se divide la muestra en tantas submuestras como estratos se han
definido en la población. Esta división se puede hacer en función de los
porcentajes representados por cada estrato en la población.

Cuarto. Se selecciona la submuestra correspondiente a cada estrato, lo cual


puede hacerse usando muestreo aleatorio simple o muestreo aleatorio
sistemático.

Ejemplo. Juan González, encargado del área de cultura de cultura del


Ministerio de Educación, está interesado en estudiar la existencia de
bibliotecas en las 2,400 escuelas de la Región Norte. De estos 2,400
establecimientos educativos, 800 están localizados en la zona urbana y los
1,600 restantes en las ciudades de la región; es decir, el 33.33% es urbano
y el 66.7% rural. El señor González ha decidido hacer su estudio a partir de
una muestra de 300 escuelas.

Se sabe que la existencia de biblioteca es más frecuente en las escuelas de


la zona urbana. En consecuencia, para garantizar la representatividad de la
muestra debe usarse muestreo aleatorio estratificado por zona. Por tanto,
los pasos a dar para la selección de la muestra son los siguientes:

Primero. Se define un estrato poblacional urbano y otro rural.

Segundo. Se construye una marco muestral de escuelas rurales numerados


desde 1 hasta 800 y se construye una marco muestral de escuelas urbanas
numeradas desde 1 hasta 1,600.

Tercero. Se divide la muestra de 300 escuelas en dos submuestras, una


rural de 100 establecimientos, equivalente al 33.3% y otra urbana de 200
centros educativos, equivalente al 66.7%.

Cuarto. En el marco de muestreo de las 800 escuelas rurales se selecciona


una submuestra de 100 establecimientos, mientras que en el marco de
muestreo de las 1,600 escuelas urbanas se selecciona una submuestras de
200 centros educativos. Este procedimiento de selección se puede hacer
mediante muestreo aleatorio simple, muestreo aleatorio sistemático o
muestreo aleatorio estratificado.

4) Muestreo aleatorio por conglomerados

Esta forma de obtener muestras es diferente a las tres anteriores, porque


esta vez, en vez de seleccionar unidades se obtienen grupos de unidades,
llamadas conglomerados. Los conglomerados son agrupamientos naturales
de unidades, es decir, no hay que construirlos porque ya existen, los cuales
se suponen relativamente homogéneos.

Para seleccionar la muestra utilizando este procedimiento se procede de la


forma siguiente:
Primero. Se definen los conglomerados, tomando en cuenta el concepto de
agrupamiento natural de unidades, es decir, agrupamiento ya existente de
unidades.

Segundo. Se construye un marco de muestreo cuyos elementos son los


conglomerados que se hayan definido.

Tercero. Se selecciona una muestra de conglomerados, los cuales, en


conjunto, contienen el número de unidades de estudio que componen la
muestra.

Ejemplo: Augusto Ocampo, investigador del área comercial, está


interesado en estudiar la existencia de Internet en los hogares de la ciudad
de Los Álamos. El número de hogares de la ciudad, de acuerdo al último
censo es de 6,000 y el señor Ocampo quiere estudiarlos a partir de una
muestra de 525 viviendas.

Para la selección de la muestra, el señor Ocampo de agotar el


procedimiento siguiente:

Primero. Deberá procurar un mapa de la ciudad de Valle Verde donde


consten las viviendas, es decir, que estén dibujadas en el mapa.

Segundo. Deberá definir los conglomerados de viviendas. En este, caso el


conglomerado puede ser la manzana, dado que las viviendas se encuentran
agrupadas en manzanas.

Tercero. Deberá construir un marco muestral de manzanas. En este caso se


numeran las manzanas desde 1 hasta n. En este caso, al contar las
manzanas existentes en el mapa se determinó que son 400, por tanto, se
numeran de modo que la primera levará el número 1, segunda el número 2
y así por delante, de modo que la última llevará el número 400.

Cuarto. Deberá seleccionar la muestra de manzanas necesaria para poder


entrevistar los 525 hogares. En este caso hay que saber cuántas viviendas
en promedio contiene cada manzana. Este valor se obtiene dividiendo el
número total de viviendas de la ciudad entre el número total de manzanas.

Viviendas/Manzana=6,000/400=15 viviendas por manzana. Esto es,


cada manzana contiene un promedio de 15 viviendas.

Si cada manzana posee un promedio de 15 viviendas, para obtener una


muestra de 525 viviendas se requerirá seleccionar una muestra de
manzanas que contengan ese número de viviendas que es igual al cociente
entre el tamaño de la muestra de viviendas necesaria y el tamaño promedio
de la manzana. Entonces:

nmanzanas=525/15=35 manzanas. Es decir para obtener una muestra de 525


viviendas se precisará seleccionar una muestra de 35 manzanas.
Estas 35 manzanas se seleccionan en el marco muestral de 400
manzanas, utilizando muestreo aleatorio simple, muestreo aleatorio
sistemático o muestreo aleatorio estratificado. Luego, el equipo de trabajo
del señor Ocampo visitará a todos los hogares existentes en cada una de
las 35 manzanas seleccionadas y en ellos preguntará ¿Existe en este hogar
servicio de internet? Dado que cada manzana contiene en promedio 15
viviendas y son 35 manzanas a entrevistar 15x35=525 que es el tamaño de
la muestra.

3.1.2 Muestreo no aleatorio es el modo de selección de muestras mediante


procedimientos no aleatorios, no probabilísticas o no al azar. Los distintos
modos de seleccionar muestras no aleatorias pueden resumirse en dos:
intencional y por conveniencia.

1) Muestreo por conveniencia es aquel en el cual las unidades a ser


estudiadas se seleccionan en función de su disponibilidad, de su
facilidad para conseguirlas.

Esta forma de seleccionar muestras no garantiza la representatividad,


toda vez que es muy posible que las unidades estadísticas más fáciles
de conseguir son diferentes a las otras.

Ejemplo: Antonio Sánchez, investigador del área de mercado, está


interesado en estudiar el consumo lecha descremada en los hogares de
la ciudad de Santo Domingo. Dado que es un producto que se consume
en los hogares, la unidad de estudio sería el hogar y en él preguntaría al
ama de casa, quien es la persona que maneja mejor ese tipo de
información.

El señor Sánchez decide hace su estudio a partir de una muestra de 500


hogares. Dado que el estudio supone entrevistar a 500 amas de casa, él
decide entrevistar ese número de personas en los supermercados de la
ciudad, pues es un lugar donde estas personas concurren a hacer sus
compras, y por tanto es fácil de conseguirlas.

Distribuye la muestra en 25 supermercados localizados en diferentes


partes de la ciudad y en cada uno de éstos entrevistará a 20 amas de
casa. De esas 500 amas de casa entrevistadas, 100 dicen que en su
hogar se consume leche descremada. Sin embargo, a partir de se
resultado no podría asegurase que en el 20% de los hogares de la
ciudad de Santo Domingo se consume ese producto, puesto que es
posible que la muestra no sea representativa, dado que las amas de
casa que compran en el supermercado sean diferentes a las que
compran en colmados u otro tipo de establecimiento. Es posible que
quienes compran en el supermercado pertenezcan a un estrato social un
poco más elevado que aquellas que compran en otro tipo de
establecimiento, por tanto, la muestra no sería representativa.

2) Muestreo intencional es aquel en el cual las unidades que componen la


muestra se seleccionan el juicio o criterio de una persona con experiencia y
conocimiento acerca de la población estudiada. Esta forma de seleccionar
las unidades a ser estudiadas también puede estar afectada por problemas
que atentan contra la representatividad, pues el criterio de una persona
podría llevarlo a una selección que favorece a un grupo en particular.

Ejemplo: Luis Jiménez, investigador del área de recursos humanos, está


interesado en estudiar el nivel de satisfacción en el trabajo de los empleados
del Ministerio de Agricultura de la República Dominicana. Para esto selecciona
una muestra nacional de 2,000 empleados. Con la intención de que su muestra
sea lo más representativa posible distribuye la muestra en las 32 provincias, de
modo que a aquellas provincias con más empleados le corresponderá una
parte mayor de la muestra, y por consiguiente, a las provincias donde el
Ministerio tiene menos empleados, entonces le corresponderá una parte más
pequeña de la muestra.

El señor Jiménez piensa que una forma ágil de conducir su estudio es pedirle al
Director de Agricultura en cada provincia, que le seleccione las personas que él
debe entrevistar en cada una. Así, si la distribución que él hizo de la muestra le
dice que debe entrevistar 10 empleados en Barahona, entonces le pedirá al
Director Provincial de Agricultura en Barahona que le seleccione 10 empleados,
pues su equipo de trabajo irá a entrevistarlos allá en una fecha convenida.

Después de haber entrevistado a los empleados que corresponden a cada


provincia y así haber completado la muestra de 500, determina que 450 de
ellos dicen estar satisfechos y solo 50 manifestaron estar insatisfechos en su
trabajo. Esto significaría que el 90% de los empleados del Ministerio de
Agricultura de la República Dominicana estaría satisfecho en su trabajo. Sin
embargo no existe seguridad de se pueda hacer esta afirmación, puesto que no
hay garantías de que esta muestra sea representativa, pues existe la
posibilidad de que, por interés propio, el Director Provincial de Agricultura haya
seleccionado empleados que él entienda que podrían estar satisfechos en su
trabajo. De esa forma el estudio lo haría quedar muy bien, pues estaría
mostrando lo bien que su institución trata a los empelados y por eso su alto
grado de satisfacción en el trabajo.

3.2 Errores inherentes al muestreo

Cuando una población es estudiada a través de una muestra existen riesgos de


cometer errores. Es decir, es posible que el valor que se obtenga para una
medida no sea exactamente igual al que se obtendría si se estudiase la
población completa. Estos errores son de dos tipos: error de muestreo y
sesgo.

Error de muestreo. Es la discrepancia producida por la selección al azar entre


el resultado derivado de una muestra y el valor que se obtendría si se estudiara
a toda la población.

Sesgo. Es un error que generalmente se produce al seleccionar muestras en


forma intencional. También puede producirse al seleccionar muestras
aleatorias, pero concentradas en un segmento poblacional no representativo
del universo.
El sesgo es un error que se produce en un solo sentido y puede ser de
selección o de medición. El sesgo de selección solo se produce cuando se
utilizan muestras, mientras que el sesgo de medición se presenta tanto cuando
se estudian muestras como cuando se estudia a toda la población.

Un ejemplo de sesgo de medición se presenta en los datos sobre los ingresos


familiares o personales declarados por las personas en los censos y en las
encuestas por muestreo. Es común que las personas tiendan a no declarar el
verdadero valor del ingreso, pues generalmente informan valores inferiores a
los reales.

Si se conociera el sentido y la magnitud del sesgo podría corregirse. Por


ejemplo: Si se midiera a los niños de segundo curso de una escuela Primaria
con un metro al cual le faltan tres centímetros. Al terminar de hacer las
mediciones si se descubriese el error podrían corregirse fácilmente las
mediciones. No obstante, la realidad muestra que los sesgos casi nunca se
conocen, por lo cual resulta imposible o al menos muy difícil su evaluación y
corrección.

A su vez, los errores de muestreo, por su naturaleza aleatoria no se pueden


predecir individualmente, es decir, en una muestra determinada. Sin embargo,
pueden ser estudiados y evaluados en muestras sucesivas utilizando modelos
matemáticos proporcionados por la Teoría de las probabilidades.

3.3 Factores que determinan el tamaño de la muestra

De la discusión seguida en la sección 3.2 se deduce que siempre que se


estudien muestras se obtendrán estimadores asociados a error. Este tipo de
error, si embargo, se reduce en la medida que se seleccionan muestras de
tamaño adecuado, es decir, muestras suficientemente grandes.

Las consideraciones subyacentes en el párrafo precedente llevan a la


formulación de la pregunta siguiente: ¿De qué depende el tamaño de la
muestra? La respuesta sería que depende de dos factores:

1) El tamaño de la muestra a ser utilizada depende de la homogeneidad


mostrada por los elementos de la población en relación a la característica
estudia.

Ejemplo 1: En la sala ‘‘A’’ hay 200 estudiantes pertenecientes a una misma


carrera, pero se desconoce cuál es la carrera a la cual pertenecen. Mientras
en la sala ‘‘B’’ hay 60 estudiantes pertenecientes a cuatro (4) carreras
diferentes, las cuales se desconocen.

Si se desea saber cuál es esa carrera a la cual pertenecen los 300


estudiantes de la sala ‘‘A’’ bastaría con seleccionar una muestra de un (1)
estudiante y preguntarle a cuál carrera pertenece. Es decir, con n=1 es
suficiente. Por la respuesta que ofrezca ese estudiante se puede inferir cuál
es la carrera de pertenencia de los otros 199 estudiantes. Sin embargo, si
se quisiera saber cuáles son las cuatro (4) carreras de pertenencia de los
60 estudiantes de la sala ‘‘B’’ se requeriría una muestra de por lo menos
cuatro (4) estudiantes. Es decir, n=>4.

Ejemplo 2: Empresas dedicadas a las encuestas electorales en los Estados


Unidos realizan estudios sobre preferencias partidarias con muestras
nacionales de 600, 700 u 800 personas en condiciones de votar. En cambio,
en la República Dominicana, las encuestas de intención de voto se hacen a
partir de muestras de 1200, 1400 o 1600 electores, etc. Lo que ocurre es
que en este último país, a pesar de que la población electoral es mucho
menor que la de los Estados Unidos, la población es más heterogénea en
cuanto a la característica ‘‘preferencia partidaria’’, pues existe una amplia
gama de partidos políticos, mientras que en los Estados Unidos solo existen
dos (2).

2) El tamaño de la muestra a ser utilizada también depende del grado de


confianza que se quiere tener en la inferencia. Un mayor grado de confianza
requerirá de una muestra más grande que si el nivel de confianza requerido
fuese menor.

Ejemplo: Un investigador está interesado de seleccionar una muestra para


estimar el ingreso promedio mensual de las familias de un municipio. Por
un estudio realizado anteriormente en el municipio se sabe que la
desviación estándar de los ingresos familiares es 300 pesos.

El investigador quiere tener un 95% de confianza de que la discrepancia


entre el ingreso promedio que él obtenga a través de la muestra, y aquel
que se obtuviera si se estudiase la población completa no fuese mayor de
20 pesos. En este caso requeriría una muestra de 865 familias. Sin
embargo, si el investigador se conformara con 90% de confianza solo
precisaría de una muestra de 609 familias.

3.4 Razones para usar muestras

Existe consenso en relación a que estudiar una población a través de una


muestra conduce a la obtención de estimadores asociados a errores de
muestreo cuya magnitud es inversamente proporcional al tamaño de la
muestra. Esto supone que no hay forma de eliminar el error de muestreo y que
a lo máximo que podría aspirarse es a reducir el tamaño del error,
seleccionando muestras suficientemente grandes. En este contexto cabría
preguntase ¿Por qué no estudiar la población completa sí de esta forma se
puede evitar el error de muestreo? La respuesta iría en el sentido de que
existen razones que, independientemente del deseo de estudiar la población
completa, obligan a usar muestras. Entre esas razones se distinguen las cuatro
siguientes:

1) Cuando la población es infinita o muy grande y, por tanto, es


materialmente imposible estudiar a todos los elementos que la componen.

Ejemplo: Omar Rugama, investigador del área de la biología, está


interesado en estudiar la contaminación con metales en los peces del Río
Ozama. En este caso, dado que se trata de una población infinita desde el
punto de vista estadístico, el investigador obligatoriamente tendrá que basar
su estudio en una muestra que seleccionará en varios lugares del río.

2) Financieras. En este caso la población es finita, pero por su tamaño,


estudiarla en forma completa podría implicar gastos muy elevados, por lo
cual se decide seleccionar una muestra para estudiarla a través de ésta.

Ejemplo: Juan Sánchez, investigador del área de mercado, está interesado


en estudiar la aceptación de la pasta de tomate ‘‘La Cocinera’’ en la
población de la ciudad de ‘‘Puerto Montero’’, donde existen 2,100,000
hogares y residen 5,600,000 personas. Un estudio para entrevistar
2,100,000 amas de casa conllevaría un presupuesto bastante elevado. En
este caso, el señor Sánchez no estaría en condiciones de solventar un
estudio con un presupuesto de esa magnitud solo para saber el grado de
aceptación del producto entre los hogares, por lo tanto está obligado a
recurrir a una muestra para realizar su estudio.

3) Tiempo. Existen ocasiones donde se está frente a una población finita y


donde los recursos financieros no constituyen problema alguno, sin
embargo los resultados del estudio son requeridos con cierta urgencia. Este
es un caso típico donde el tiempo se constituye en el elemento que obliga al
uso de muestras para realizar las investigaciones.

Ejemplo: El departamento de mercado de un partido político vinculado a


grupos económicamente poderosos y que, además ha detentado el poder
durante un largo período, está interesado en realizar un estudio con el
objeto de determinar el posicionamiento de su candidato, de frente a las
elecciones nacionales a realizarse dos meses más tarde. Obviamente se
trata de una población finita, constituida por todos los habitantes del país
habilitados para ejercer el sufragio y, a demás, es probable que lo financiero
no constituya restricción alguna. Sin embargo, el partido requiere saber en
pocos días cuál es la situación de su candidato para así saber que
estrategia seguir en los próximos dos meses. Esta es una situación que el
departamento de mercado del partido está obligado a usar una muestra
para realizar su investigación.

4) Las unidades estudiadas se transforman o se destruyen al ser


estudiadas. Existen situaciones en que se está frente a una población
finita, no existen limitaciones de tipo financiero y no hay restricciones en
cuanto al tiempo, pero los elementos se transforman o se destruyen al
estudiarlos. En este caso se está obligado a estudiar una muestra, puesto
que el estudio de la población completa implicaría su destrucción, y no
tendría sentido hacer un estudio y sacar conclusiones acerca de una
población que ya no existe.

Ejemplo: Un fabricante de fósforos está obligado a mantener el nivel de


calidad de 95% establecido por el ministerio de industria. Con estos
propósitos debe hacer estudios de control de calidad en los fósforos
fabricados para asegurarse de que la proporción de palitos con algún
defecto no sobrepasa el 5% del número total fabricado.
En aras de supervisar la calidad, el departamento de control de calidad de
la fábrica toma una muestra de los palitos de fósforos fabricados en una
hora. Luego lleva esa muestra al laboratorio y raya cada uno de los palitos
de la muestra; los que encienden sin defectos los coloca en una bandeja y
los que presentan problemas para el encendido los coloca en otra. Al final
del proceso de prueba cuenta los que presentaron defectos y calcula el
porcentaje que éstos representan con relación al total. Si el porcentaje es
5% o menos indica que la producción está bien, por tanto avisa al área de
producción que puede continuar fabricando. Obviamente este es un caso
típico en el cual hay que recurrir a una muestra para estudiar la población.

You might also like