Professional Documents
Culture Documents
2
ESTADÍSTICA GENERAL APLICADA CON EXCEL
INTRODUCCIÓN .............................................................................................................................. 8
¿Pero cuáles son los antecedentes de la transición del lápiz como principal instrumento a la tecla del
ordenador en la docencia universitaria? .............................................................................................. 9
Nueva pedagogía ............................................................................................................................... 10
Alcance de un libro así concebido..................................................................................................... 11
Método de enseñanza ........................................................................................................................ 12
Significado de estadística .................................................................................................................. 14
¿Pero es realmente una ciencia o es un método?............................................................................... 15
Evolución de su significado: ............................................................................................................. 16
II.1 Características básicas del programa de Excel 2013, su simbología y las funciones necesarias
para poder operarlo. .......................................................................................................................... 23
II.2 Aplicación del método estadístico a la economía................................................................... 27
II.3 Niveles de medición ............................................................................................................... 28
II.4. Análisis de datos..................................................................................................................... 31
II.4.1 Distribución de frecuencias ............................................................................................. 31
II.6 Exámenes de reconocimiento básico sobre agrupamientos distintos de datos ..................... 124
II.6.1 Importante: Ejercicio adicional sobre agrupamientos distintos de datos ...................... 127
III.3 Pruebas matemáticas para escoger el índice más apropiado ................................................ 133
III.4 Cambio de base .................................................................................................................... 133
III.5. Deflactación ........................................................................................................................... 133
III.5.1. Inflactación ......................................................................................................................... 134
5
VI.4.1 Límites de confianza ..................................................................................................... 287
VI.4.2 Distribuciones de medias y proporciones muestrales ................................................... 288
VI.4.3 Error máximo permitido y error de muestreo................................................................ 294
VI.6 Precisión alcanzada en la estimación lograda con diferentes métodos de muestreo ........... 300
VI.6.1 Muestreo simple aleatorio ............................................................................................. 301
VI.6.2 Estratificado y replicado ............................................................................................... 301
VI.6.3 Obtención del tamaño de la muestra en estadística de atributos ................................... 302
VI.6.4 RED GENERAL DE ACTIVIDADES EN UNA ENCUESTA DE MUESTREO ...... 316
VI.6.5 Práctica VIII .................................................................................................................. 322
VI.6.6 Práctica IX..................................................................................................................... 329
6
VIII.8.3 Phi (𝝓) .......................................................................................................................... 397
VIII.8.4 V de Cramer .................................................................................................................. 397
VIII.8.5 Procedimiento ............................................................................................................... 398
VIII.9 Prueba de hipótesis con Ji - cuadrado usando Excel (Martínez, 2005:122) ..................... 409
VIII.10 Prueba de hipótesis con F: Análisis de variancia .............................................................. 412
VIII:10.1. Prueba de hipótesis con F aplicada a la verificación de la igualdad de varianzas. .... 412
VIII:10.2. Prueba de hipótesis con F aplicada a la verificación de la igualdad de más de dos
medias .......................................................................................................................................... 413
BIBLIOGRAFÍA............................................................................................................................. 475
7
ESTADÍSTICA GENERAL APLICADA CON EXCEL
INTRODUCCIÓN
Desde que el ser humano tuvo conciencia de su existencia buscó expresar sus pensamientos y
sus actividades, en forma tal que éstos le permitieran valorarse en su interrelación con el grupo
social al que pertenecía.
La matemática surgió como una experiencia en la mente humana; ella refleja la voluntad activa y su
objetivo es precisar en forma sistematizada el mundo interno y externo en que se desenvuelve el ser
humano. Observan los estudiosos de esta ciencia que sus elementos básicos son: lógica e intuición,
análisis y construcción, generalidad y particularidad. Advierten que diversas actividades han
destacado sus enfoques diferentes y que es únicamente el juego de estas fuerzas opuestas y la lucha
por su síntesis, lo que constituye su teoría, su utilidad y el supremo valor de la ciencia matemática.
Sin duda todo el desarrollo matemático ha tenido sus raíces psicológicas en necesidades más o
menos prácticas. Pero una vez en marcha, bajo la presión de las aplicaciones necesarias, dicho
desarrollo gana impulso por sí mismo y trasciende los confines de una utilidad inmediata. Esta
tendencia de la ciencia aplicada dio origen a la estadística. Así, se intuye que la estadística es una
rama de la matemática aplicada, que tiene sus orígenes en la observación y descripción en la
matemática pura, que termina siendo uno de los instrumentos para hacer investigación aplicada.
Así, la estadística como instrumento operativo de las matemáticas se revela como una disciplina con
técnicas y procedimientos de gran ayuda para la configuración, análisis e interpretación de
cualquiera de los fenómenos económicos conocidos o por identificar.
¿Pero cuáles son los antecedentes de la transición del lápiz como principal instrumento a la
tecla del ordenador en la docencia universitaria?
Al respecto, se considera que si la educación del conocimiento hace posible que el ser humano
como creador (hardware) aplique la tecnología (hardware) materializando el conocimiento para
captar , manejar y tratar la información con programas de cómputo (software) donde refleja el
conocimiento para su aplicación para presentarla en producto, es indudable que brinda una opción
para la mejor transmisión del conocimiento a los estudiantes, quienes además de adquirir una
amplia información que puede ser teórica y práctica. Facilitando con celeridad su capacidad creativa
para ser profesionistas e investigadores competitivos al contar, en el caso de los economistas, con
instrumentos que los auxilian para hacer análisis e interpretaciones apropiadas de los fenómenos
económicos que suelen estudiar.
Para que ellos puedan generar ese producto, que no es más que la aplicación inteligente del acervo
adquirido y de su hábil instrumentación técnica en la solución de los problemas económicos que
aquejan a la sociedad, requieren de cambios radicales no solo en los contenidos de los programas de
estudio, también en los sistemas de enseñanza- aprendizaje.
9
Nueva pedagogía
Ello conlleva a elaborar nuevos textos de estadística diferentes a los vigentes hasta hace poco, cuya
obsolescencia entre otras cosas ha sido ocasionada por la ausencia de bases de datos y de softwares
(programas de cómputo) que faciliten la transmisión de sus contenidos a una generación nacida en
la era de la electrónica y, por consiguiente, ávida de libros de texto cuyos contenidos se puedan
ilustrar con el uso de la computadora, del internet y de programas de cómputo. Lo anterior, obliga a
pensar en una nueva pedagogía, cuya connotación es la de enseñar a aprender dentro de la sociedad
del conocimiento, pero no sólo a los alumnos, también al profesor quien ahora debe tener la
humildad de aceptar que debe aprender todos los días a conocer el potencial de estos medios para
enseñarlos a sus discípulos.
Así, quiérase o no ha surgido una nueva pedagogía, la cual tiene como referente básico las Nuevas
Tecnologías sobre la Informática y Comunicación, cuyas siglas son: NTIC, apuntaladas por la
tecnología del internet que es el vehículo que ha hecho posible el surgimiento, expansión y rápida
aplicación del conocimiento económico. De ahí que sea conveniente abrevar en ésta para determinar
los nuevos espacios en que se debe educar sobre la ciencia económica en la UNAM. Esta situación
ahora induce a pensar cómo se debe enseñar a aprender y con qué libros se debe hacer para evitar el
rezago de la UNAM con respecto a otras instituciones que enseñan economía en el país y en el
extranjero.
Vistos así los nuevos libros, su alcance es muy grande porque deben hacer posible el uso en el “aula
de clase” del internet, que tiene la capacidad de transportar palabras, archivos, imágenes, gráficas y
así establecer “una relación educativa entre tutores y alumnos” sin más limitación que la capacidad
de los servidores utilizados.
En este contexto es que se dice que los nuevos libros de estadística deben permitir a profesores y
alumnos acceder conjuntamente a las bibliotecas virtuales, a diccionarios especializados, a bases de
datos y a una amplia gama de softwares especializados que de manera enunciativa pero no
limitativa, se pueden mencionar entre ellos a Word, Excel, Spss, Eviews, Stata, R, etc.
El alcance así visualizado de los nuevos libros de estadística modifica la relación entre maestro y
alumnos, que en esta etapa de transición es forma muy parecida al enfoque de la educación
presencial, pero que evoluciona constantemente hacia nuevos horizontes de trabajo derivados de la
sociedad del conocimiento, cuyo eje rector son las NTIC.
¿Qué características debe tener ahora un libro de estadística básica que sirva para enseñar a
aprender a profesores y estudiantes de economía, de contabilidad, finanzas, mercadotecnia, ventas,
y otros campos de las ciencias sociales y de las administrativas?
10
La respuesta en parte es que debe servir para el desarrollo de la pedagogía de la información
económica, analizada e interpretada con la ayuda de la cibernética a nivel de licenciatura, es decir,
que ayude a los estudiantes a acercarse a la metodología de la estadística sin la preocupación o
ansiedad que suele asociarse con esta disciplina. Para ello los contenidos de este libro deben
presentarse e ilustrarse con el rigor técnico necesario para que los alumnos dominen formalmente
sus métodos de trabajo, dominio que debe facilitarse aplicando dichos métodos al análisis e
interpretación de variables económicas mexicanas, mediante el uso de las tecnologías de la
información y las comunicaciones (TIC). Con esta nueva pedagogía los profesores y los estudiantes
desempeñan un nuevo y más activo papel de grupo, que rompe con el tradicional método de
enseñanza-aprendizaje, en el que el profesor es protagonista porque constituye la fuente del
conocimiento. Con estos nuevos textos todos somos protagonistas, se elimina el monólogo y
estimula el diálogo porque se dispone de más tiempo para hacer análisis y porque la información
está disponible simultáneamente para todos, de manera que ya no es exclusiva del profesor. Por
consiguiente, debe interpretarse que las NTIC usadas en textos de estadística deben hacer de los
nuevos libros además de un recurso didáctico importante, deben constituir la base para conformar
nuevos métodos de enseñanza de esta importante hibridación de la economía con las matemáticas.
Así, un libro moderno de estadística debe caracterizarse por contener la metodología estadística
básica, tanto la descriptiva como la inferencial; además debe mostrar cómo se pueden estudiar con
mayor facilidad, profundidad y extensión los fenómenos económicos usando las NTIC. Puede
decirse que el “nuevo libro electrónico” debe fungir como el hilo conductor para que como un solo
grupo, maestros y alumnos deban prepararse para captar y utilizar la información que les permita
crear, administrar, seleccionar, procesar y difundir conocimientos de utilidad social e individual, en
este caso, económicos. Así, ambos actores desarrollar un método didáctico que les ayude a aprender
para enseguida enseñar cómo manejar o manipular la información con propósitos educativos y
formativos.
Como las NTIC ayudan a mejorar el método didáctico, ello permitirá atenuar y quizás eliminar la
heterogeneidad que suelen tener los estudiantes sobre conocimientos de teoría económica,
matemáticas y estadística, en virtud de que se uniforma la transmisión virtual del conocimiento, se
incrementa el número de los ejercicios porque los cálculos ahora los hace la computadora y se
intensifica el manejo conceptual porque el profesor tiene más tiempo para atender a los alumnos
rezagados. Todas estas ventajas cristalizan en un mejor método de enseñanza mediante el cual ha
sido posible reducir los altos índices de deserción y de reprobación que antes existían en esta
materia.
11
de contribuir a su formación sólida, ésta sea la base para su especialización que lo convierta luego
en experto; en otras palabras, que la pedagogía de las NTIC le abra escenarios en que pueda actuar a
futuro con agrado en cosas que le gusten y sean útiles para su comunidad.
Es indudable que el profesor al estarse preparando continuamente, porque este tipo de libros lo
obliga a actualizarse, motivarse y capacitarse permanentemente, actúa como medio de desarrollo
académico profesional, de manera que estará en condiciones de orientar oportunamente a los
alumnos a hacer durante el curso un mayor uso del correo electrónico, de los browsers o buscadores
de información, al chateo para precisar la definición de los conceptos, etc. Por consiguiente, este
tipo de libro induce a revolucionar la concepción pedagógica tradicional de la estadística, todo ello
gracias a la aplicación de las innovaciones tecnológicas derivadas de la NTIC en este tipo de
modernos textos de estadística básica.
Método de enseñanza
Al contarse con un libro con estas características, en el pasado reciente ha servido como
instrumento para formular y conducir la práctica docente con las siguientes características:
Se han podio conjugar el método holístico con el Montessori, el socrático y el sistémico; éste último
se basa en la relación de sistemas que se establecen, básicamente los constituidos por los alumnos,
los maestros y la sociedad. Así al trabajar con sistemas vivos, se está en condiciones de dialogar
(método socrático), de reflexionar, de cuestionar, no repetir sino explorar, indagar la causalidad de
los fenómenos en estudio y generar el conocimiento necesario para que los alumnos trabajando en
el presente se preparen para afrontar su destino en el futuro con éxito. En lo que se refiere al método
holístico, con él se fomenta la terapia de grupo al intentar entender conjuntamente las totalidades o
realidades complejas, entendimiento que adquieren a partir de la demostración de las leyes
económicas, de los axiomas, de los teoremas, de las propiedades o características del instrumental
matemático- estadístico que se utilizan en el grupo. Con el método de Montessori, caracterizado por
“aprender haciendo con acciones lúdicas que favorecen el autoeducación”, se ha logrado la
motivación de los estudiantes, evitando la deserción masiva, ya que la motivación se mantiene a lo
largo de la exposición temática del curso en cada semestre escolar.
En este contexto es que se usa el aula tradicional para exponer el contenido de los cursos, para
organizar y administrar la cátedra y la investigación, así como para realizar evaluaciones sobre el
grado de asimilación que logran los alumnos sobre las materias que se imparte, y, para hacer
ejercicios manualmente y en esa forma afianzar los conocimientos. El aula multimedia se usó para
exponer la teoría y enfatizar conceptos relevantes, así como para los seminarios y presentación de
expertos que se invitan periódicamente, en tanto que el aula de cómputo sirve para ilustrar la teoría
con la metodología electrónicamente usando diferentes programas y para hacer operaciones
rápidamente.
En consonancia con la necesidad de crear nuevos conocimientos y métodos de trabajo para analizar
e interpretar con rigor técnico los datos de los fenómenos bajo estudio, el profesor investiga,
genera y difunde periódicamente sus hallazgos en el aula y foros académicos relacionados con sus
temas de investigación. Con esta simbiosis se asegura la congruencia de la didáctica con la
12
investigación aplicada hacia un objetivo específico: producir para transmitir el conocimiento
ampliado y actualizado de las materias.
Lo anterior apunta al diseño de modelos de enseñanza – aprendizaje especiales, acordes con las
características escolares de los alumnos y sobre todo porque el docente está actualizado en el
sentido de que usa métodos pedagógicos que motivan a los estudiantes a profundizar en los temas
de la estadística, haciendo ejercicios interesantes sobre los fenómenos de la economía mexicana,
utilizando para ello preferentemente programas de cómputo para ilustrar los cálculos rápidos en
forma que hacen factible optimizar el tiempo disponible en el análisis e interpretación de los
resultados estadísticos que se obtienen sobre los fenómenos económicos en estudio; además,
tomando en cuenta que la ciencia actualmente se hace y difunde a partir de sus avances en el mundo
anglosajón, por esa razón se recomienda que se consulte la bibliografía en inglés para mantener
actualizados a los alumnos en el estado del arte estadístico y conocimientos frontera que surgen.
Derivado de lo anterior puede decirse que esta obra es original porque la presentación de su
contenido se caracteriza por; primero, la exposición del método estadístico, sus características,
alcance y limitaciones, fenómenos factibles de analizar y, finalmente, se indica cómo se aplica en el
análisis e interpretación de los resultados correspondientes. Con ello se hace una aportación en la
nueva presentación del conocimiento, cuya transmisión resulta rápida y atractiva; en ocasiones se
ratifican o rectifican algunas interpretaciones superficiales o radicales en cuanto a la bondad del
método estadístico aplicado a la empresa y la economía en general.
Con base en lo anterior, los contenidos temáticos de la obra se presentan con la siguiente secuencia:
En el capítulo I se establece la relación que existe entre la Estadística y la Economía, así como la
función específica que tiene la primera como instrumento de análisis de la segunda.
Aquí se presentan los métodos necesarios para identificar, recopilar, clasificar, procesar, presentar
para analizar e interpretar la información de un fenómeno de interés para el (la) investigador(a),
hombre o mujer de negocios, estudiante o analista. Es por ello que se hace una amplia exposición de
los diferentes métodos que se usan para clasificar y agrupar los datos de una variable en estudio, así
como de los métodos que se utilizan para tipificar estadísticamente las características de la variable
mediante las medidas de tendencia central, las de dispersión, las de asimetría y curtosis, así como de
las de posición y las de concentración.
En este contexto conviene decir que para constatar la buena o mala asimilación de estos
conocimientos, al final de cada capítulo se incluyeron, ejercicios, prácticas y exámenes contestados
con el fin de que el lector verifique personalmente su dominio de los temas.
Observaciones: 1) Los ejercicios con Excel toman como guía los de los profesores Ciro Martínez
(2005) y María E. Cristófoli (2005) adaptados a variables mexicanas; 2) lo aquí expuesto tiene su
origen en nuestra larga experiencia docente, lo que significa que muchos conocimientos también
provienen de los autores descritos en la bibliografía y de muchos otros que resulta difícil acordarse;
para estos últimos, nuestras disculpas; 3) así, el mérito de este libro es de muchos pero los errores,
deficiencias, omisiones y limitaciones en general, son responsabilidad exclusiva del responsable
del proyecto PAPIME 304414.
Finalmente, se desea expresar sinceros agradecimientos a los dictaminadores de este libro, cuyas
opiniones permitieron mejorar sus contenidos y vigorizar la autorización para la publicación
institucional de este libro. Igualmente, se reconoce en mucho la colaboración académica del
profesor José Alberto Reyes de la Rosa, así como el trabajo de las becarias Campos Soberanes Ana
Xiadani, Colinas Picazo Montserrat, Hernández Valdez Karla Ivette, Martínez González Jessica
Lorena y Martínez Servín Diana, cuya participación entusiasta enriqueció esta obra.
Significado de estadística
Su significado emana del vocablo “estado” y en general es sinónimo de datos (Rojas: 2001).
Lo anterior se debe básicamente a que cuando el ser humano se organiza en sociedad y aparece el
Estado como promotor de su bienestar, entonces es cuando el gobernante se empieza a preocupar
por la obtención de datos relativos a la población y a la riqueza, para fines guerreros y de
administración pública. Con el transcurso del tiempo la sociedad se fue desarrollando y con ella se
fueron obteniendo datos de carácter más variado para uso general de los gobiernos, cuyo análisis se
hace con la metodología de lo que hoy se conoce como estadística descriptiva.
En este contexto también se usa mucho la estadística inferencial, cuya aplicación se basa en
muestras. El origen de esta disciplina puede atribuirse a las personas que trabajan los seguros de
vida y principalmente ciertas áreas de la experimentación biológica durante el siglo XIX, la cual se
hacía con muestras empíricas. En opinión de Maddala (1996:33) lo anterior llevó a Sir R.A.Fisher a
desarrollar la metodología de la estadística inferencial; el muestreo probabilístico a principios del
siglo XX.
14
¿Pero es realmente una ciencia o es un método?
Para contestar esta pregunta antes es conveniente señalar como preámbulo de la respuesta la opinión
de los señores F. E. Croxton y D. J. Cowden (1965), quienes la consideran no como ciencia sino
como un método científico, es en esta acepción que coincide el Profesor Gilberto Loyo (q.e.p.d.)
quien en cierta ocasión de 1967 indicó que precisamente la estadística es un conjunto de métodos.
Agréguese a lo anterior que varios de los autores que se citarán en este libro son de la opinión de
que es un método. No obstante, otros consideran que es una ciencia. Esta situación dubitativa hace
que en este libro se indique que es ambas, dado que la ciencia al no ser estática gracias a la
investigación pura y aplicada que se realiza, continuamente aumenta sus conocimientos, es decir se
está haciendo ciencia estadística al incrementarse sus leyes, teoremas, axiomas, etc.
Ahora bien, ante la contundencia mostrada por otros autores quienes consideran que es un método,
se decidió profundizar en su estudio para demostrar porqué también es un método. Así, ahora
conviene decir que la ciencia en general ha evolucionado conforme avanzan los instrumentos, las
técnicas y métodos usados para aumentar el conocimiento científico. En este contexto, señala
Riveros et al (2009: 17) “Una de las tareas del hombre de ciencia es encontrar, generalizar, y
extrapolar nuevas leyes y teorías que le permitan predecir, dentro de ciertos límites, situaciones
futuras, ya que, además, le ayuden a explicar los fenómenos naturales que vaya descubriendo”.
Este incremento en el acervo de información científica se logra con el uso de los métodos, de más y
mejores instrumentos de trabajo, etc. utilizados para aumentar, corroborar, mejorar o corregir los
conocimientos existentes en un momento dado. Derivado de este continuo flujo de información
robusta es que el concepto de ciencia cambia con el tiempo, motivo por el cual algunos estudiosos
del tema como Riveros et al (ídem) comentan que “la ciencia no tiene ni tendrá definición exacta”.
Lo antes dicho hace más difícil determinar si la estadística es ciencia o método. Así, con ánimos de
coadyuvar en el arribo a una definición firme se ha creído conveniente citar la que hace
Rosenblueth (1971) de la misma; quien dice: “La ciencia es el conocimiento ordenado de los
fenómenos naturales y de sus relaciones mutuas”, aquí se considera apropiado enfatizar:
“conocimiento de los fenómenos sociales y de sus relaciones mutuas”.
Al respecto, se considera que para arribar a ese conocimiento ordenado se requiere de un método
para lograrlo y en este sentido se intuye que la estadística es un método porque es un conjunto de
procedimientos para obtener, clasificar, analizar e interpretar la información de un fenómeno de
interés para el investigador, ya que al aplicar los procedimientos en forma sistemática, se obtienen
conocimientos científicos que son racionales, se demuestran con evidencias y son congruentes con
los objetivos que tiene en mente el investigador.
En consonancia con esta opinión de que es un método, la Academia Mexicana de Ciencias (2013)
informa que la estadística es “una herramienta primordial en la planeación de políticas públicas, en
la investigación científica, para conocer a un país o el funcionamiento de las empresas públicas y
privadas”.
15
A manera de complemento al enfoque macroeconómico anterior, ahora se hace referencia a su uso
en el campo de la microeconomía, concretamente en el estudio de la producción manufacturera. Al
respecto, Kume (1990: xv) corrobora que la estadística está constituida por métodos “que son
herramientas para mejorar los procesos de producción y reducir sus defectos”. Abunda indicando
que estas herramientas aportan objetividad y exactitud a la observación y que las máximas de la
línea de pensamiento estadístico son:
Independientemente del campo en que se aplique la estadística, se infiere que con sus métodos, al
estar caracterizando a los fenómenos en estudio vía la cuantificación y descripción de sus datos de
sección cruzada o temporal, de hecho lo que está proporcionando es una metodología para realizar
un análisis de sus variaciones con las cuales el investigador ésta en condiciones de poder decir que
tal o cual indicador es mayor, menor, más grande, inferior, etc. que él mismo en otro momento en el
tiempo o con respecto a otro indicador. En este amplio e integral contexto se corrobora la vigencia
de la definición de estadística que le diera la Matemática Ana María Flores (q.e.p.d) (1964), quien
asevera que “con ella se miden las variaciones de un fenómeno en estudio, sin importar el campo
del conocimiento, el método ni la época en que se haga”.
Evolución de su significado:
Derivado de esta última aseveración: ¿Pero ha existido siempre un criterio uniforme a través del
tiempo sobre el concepto de estadística?
Es obvio que no, ya que lo que es ahora estadística es completamente distinto a lo que se creía hace
medio siglo, y aún hace mucho más tiempo.
Por ejemplo, como se indicó previamente, es sinónimo de “dato” o de número, ya que por ejemplo
cuando se hace mención a las estadísticas de alumnos, de su matrícula, de su número, de sus
calificaciones, el semestre que cursan, etc., se está haciendo referencia a sus datos.
Sin embargo dicha acepción no corresponde, no es congruente con la función que desempeña como
disciplina dentro del método científico, ni con las actividades que desempeñan en la actualidad los
expertos en estadística, puesto que no son meros “recolectores y tabuladores de datos numéricos”
(Mood: 1955).
Pensando que no es suficiente esa exposición para dar una respuesta satisfactoria a la pregunta
arriba mencionada, es conveniente profundizar en lo antes dicho, en particular desglosar y explicar
los diferentes concepciones que han existido con el fin de contar con elementos para pronunciarse
16
sobre si es o no ciencia, para ello ahora se expondrán varias definiciones sobre la materia y se
observará como han variado a través del tiempo.
17
CAPÍTULO I. GENERALIDADES
Como todas las disciplinas la Estadística ha sido considerada, por los teóricos dedicados a ella, según
el grado de desarrollo en que se encuentra su teoría y su aplicación.
Al dar a conocer las definiciones que sobre ella existen, se está interpretando como la expresión de lo
que se consideró en una fecha dada; lo que era y para qué servía.
Achenwall (1748).- "La Estadística tiene por objeto el conocimiento de las cosas públicas, y
enseña los medios para percibir las relaciones que hay entre ellas, siempre que sean dignas de notarse
en cada República".
Achenwall (1749).- "La Estadística es la ciencia del Estado que se ocupa de la riqueza y
contiene el conocimiento básico de las verdaderas posibilidades de una sociedad burguesa".
Achenwall (1749).- "La Estadística es la ciencia del Estado que se ocupa de determinar la
riqueza individual".
Bielfield (1770).- "La Estadística es aquella rama del conocimiento político cuyo objeto de
estudio es el poder real y relativo de los diversos estados modernos, el poder emanado de sus
ventajas naturales, la industria y la civilización de sus habitantes y la sabiduría de sus gobiernos".
Joe Fallati (1843).- "La noción de lo real es el punto medio de la Estadística, la realidad se
encuentra, en parte, en los hechos, en parte en las leyes de los fenómenos".
Noreau de Jonneis (1847).- "La Estadística es la ciencia de los hechos sociales, expresados
en términos numéricos".
18
Romelín (1863).- "La Estadística describe las características de la sociedad humana a base de
observaciones metodológicas y de enumeraciones de fenómenos similares".
Arturo Bowley (1901).- "La Estadística es la ciencia de los promedios, la ciencia de los
grandes números".
Wilburg Jimenez Castro (1963).- La define como "método científico o ciencia de previsión
de hechos futuros con base en el conocimiento de datos pasados y presentes."
Stuart y Ord (1991).- “La estadística es la rama del método científico relacionada con la
recopilación de los datos que se obtienen al contar o medir las propiedades de las poblaciones”.
Mendenhall, Wackerly y Scheaffer (1994).- “La estadística trata del diseño de experimentos o
encuestas mediante muestras para obtener una cantidad determinada de información a un costo
mínimo y del uso óptimo de esta información para hacer inferencias con respecto a una población”.
19
Montgomery y Runger (2004).- “El campo de la estadística trata de la recolección,
presentación, análisis y uso de datos para tomar decisiones, solucionar problemas y diseñar
productos y procesos”.
Como puede observarse, todavía no está claro si es ciencia o método, lo cual es comprensible porque
la ciencia en particular ha evolucionado conforme avanzan los instrumentos, las técnicas y métodos
usados para aumentar el conocimiento científico. En este contexto, como antes se indicó, para
Riveros et al (2009:17) “Una de las tareas del hombre de ciencia es encontrar, generalizar, y
extrapolar nuevas leyes y teorías que le permitan predecir, dentro de ciertos límites, situaciones
futuras, y que, además, le ayuden a explicar los fenómenos naturales que vaya descubriendo”. Se
aclara que antes de esa tarea es fundamental para el investigador describir las características del
fenómeno en estudio de su interés, mismas que le ayudan a determinar si es o no necesario buscar,
establecer y aplicar nuevas leyes y teorías que expliquen mejor el fenómeno que está estudiando.
Por otra parte, se cree conveniente hacer un resumen de las definiciones anteriores con el fin de
constatar la evolución del concepto de ciencia y para que coadyuve a demostrar que la estadística es
un método. Así, en principio puede decidirse que cada una de las definiciones refleja lo que se
entendía por dicha disciplina en cada época, esto es, son viva expresión del campo en que se le
aplicaba, del momento y enuncian lo que se pretendía obtener. En otras palabras, estas definiciones
indican para quien se investigaba y qué es lo que interesaba saber (alimentación, riqueza, número de
hombres disponibles para el trabajo, producción, etc.).
Así se constata que las definiciones que abarcan toda la segunda mitad del siglo XVIII están
enfocadas a hacer de la Estadística una ciencia de información acorde con el industrialismo que ya se
gestaba en Inglaterra, y a la consolidación de los Estados europeos.
Así pues el siglo XlX, es un período en que se fortalece la idea de aplicar los métodos estadísticos al
análisis general de las ciencias sociales (Véase definiciones de Levaseer y Romelin).
Nuevas definiciones (Véase definiciones de Arturo Bowley y W.F. Willcox) habían de formularse en
torno al inicio de un siglo XX cuya primera mitad se caracteriza por cambios profundos e
imprevistos. Estos hechos hicieron una necesidad la existencia de datos estadísticos que sirvieron
para la formulación de planes bélicos o científicos. Esto fue un primer paso hacia la programación
adecuada porque se basaba en datos estadísticos.
Una vez terminadas las dos guerras mundiales, viene una paz que hace posible que se logre un gran
avance en la técnica de producción, en donde una vez más surge la competencia entre las grandes
corporaciones (monopolios), la que da lugar a la búsqueda de nuevos métodos estadísticos que
garanticen la producción en masa y con el mínimo de defectivos (control estadístico de calidad). Hay
20
otra característica importante en esta segunda mitad del siglo XX; la liberación de una gran cantidad
de países que antes de la segunda guerra mundial eran "colonias", y que, ahora como países
independientes elaboran sus planes de desarrollo con un conocimiento aceptable de la realidad en
que se desenvuelven, gracias a la aplicación de los métodos estadísticos en el estudio de sus
economías.
Se considera que las definiciones de los señores Claudio Napoleoni, Mood y los autores que
posteriormente les siguieron conforme al orden cronológico establecido, corresponden al significado
que tiene actualmente la estadística. Por su atemporalidad, la definición de la maestra Ana María
Flores es la más conveniente para el concepto general de la Estadística.
Como el objetivo es presentar y exponer el uso de los Métodos Estadísticos, aplicados a la economía
se ha considerado convenientemente ajustarse a la definición dada por los señores Croxton &
Cowden para la descriptiva, y la especializada de Claudio Napoleoni ya que ésta es la más idónea
para los propósitos del economista.
2. Estadística Inductiva o Estadística Inferencial. Comprende los métodos para obtener inferencias
a partir de datos muestrales. Para ser específicos, la inducción o inferencia estadística incluye los
métodos de generalización, estimación ó predicción de las características de una población o
universo basados en una muestra.
Es conveniente mencionar que aunque los métodos estadísticos en general son prácticamente
universales en su aplicación, siempre aparecen problemas especiales en cualquier campo de la
investigación que hacen dudar al investigador sobre la aplicación de este método para el logro de los
objetivos buscados; esto también aplica en el campo de la economía, donde en determinados
fenómenos en estudio suelen surgir dificultades peculiares y problemas que dificultan la obtención
de los resultados por lo que en esos casos, el estudioso se avoca al diseño de la metodología
específica para alcanzar los objetivos concretos de su investigación.
En general, afortunadamente puede decirse que los métodos estadísticos aplicados a la economía han
experimentado amplio desarrollo, siendo confiable su aplicación a la ciencia económica; ya que
como informa el profesor Zamora (1963: 66) en opinión de J. M. Keynes (con las consideraciones
del momento en que lo dijo y desde su óptica muy particular): "este método se basa en la
observación cuantitativa de agregados, en el estudio de ellos y encaminado a descubrir
uniformidades y constancias entre los elementos que los constituyen. Se funda en la observación
21
porque considera directamente los hechos, y los reúne, selecciona y clasifica; se asienta en la
observación cuantitativa porque sólo opera con hechos que son medibles: Y se ocupa en la
observación de agregados, porque aun cuando para llegar al análisis de ellos hayan de pasar antes por
el de los individuos o cosas que los forman, su verdadero campo de aplicación es el estudio de los
conjuntos, no el de los elementos que lo forman".
En este contexto conviene agregar que si se recuerda que las leyes económicas son la expresión de
sucesos que se repiten (Sweezy, 1987:22) uniformemente en fenómenos globales, lo anterior se
corrobora precisamente con la metodología estadística.
En consonancia con lo anterior el Profesor Alonso Aguilar Monteverde (q.e.p.d; 1965) señaló que
"las leyes económicas son estadísticas en virtud de que requieren de la repetición para poder
configurarse". Derivado de lo anterior se puede afirmar que las leyes económicas son hechos
repetidos en sucesos masivos dentro del sistema económico, que se identifican con los métodos
estadísticos.
Así, puede decirse que el método científico, que es la estadística, efectivamente sirve para el análisis
de los fenómenos económicos dentro de sus múltiples manifestaciones. Con su aplicación se puede
evaluar, hasta donde es posible la magnitud y el impacto que tiene el acto del hecho económico
dentro de la sociedad, al igual que ayuda a determinar si se puede prever o proyectar; en otras
palabras; en general permite cuantificar las diferentes acciones que realizan los individuos dentro del
sistema económico en que se desarrollan.
En este sentido, pueden mencionarse como ejemplos de la antes dicho situaciones tan diversas como
las siguientes: Si se desea saber la producción de bienes y servicios en un período determinado; si
interesa conocer las características de la población económicamente activa, su aportación al
Producto Interno Bruto; o quizás indagar su incidencia en el fortalecimiento del mercado interno, en
el consumo y adquisición de bienes de capitales, etc. entonces la estadística es el método que ayuda
a contestar estas interrogantes.
Este breve análisis además, permite detectar la estrecha relación que hay entre la economía y la
estadística así como la importancia que tiene ésta última dentro de la primera. Esto no debe llevar al
extremo de pensar que la economía vale por la estadística, o que se desarrolla a expensas de ella
como llegó a pensar el profesor Moore, quien dijera, "nada se sabe en tanto que no pueda medirse”
(Zamora, ibíd., 67).
Todo estudio cuantitativo exige una selección y organización de los datos numéricos, o sea, la
existencia previa de una teoría. Por ejemplo antes de cuantificar el consumo es necesario definirlo
como una categoría económica particular.
22
Una serie de datos numéricos, un cuadro estadístico, con un estudio sólo cuantitativo, carece en sí de
interés, si no se le somete a un trabajo cualitativo de interpretación.
A esta fundamentación debe sumarse la de Samuelson (1963:8) quien indica: "el razonamiento
lógico es la clave del éxito para dominar los principios fundamentales (teoría económica), mientras
que la ponderación sagaz de los datos empíricos es la llave para dominar las aplicaciones
económicas".
II.1 Características básicas del programa de Excel 2013, su simbología y las funciones
necesarias para poder operarlo.
Microsoft Excel es un programa de hoja de cálculo que forma parte del paquete integrado Microsoft
Office, que permite crear y aplicar formatos para analizar datos y tomar decisiones. Concretamente,
se puede usar para hacer un seguimiento de datos, crear modelos de análisis, escribir fórmulas para
realizar cálculos, dinamizarlos de diversas maneras y presentarlos en una variedad de gráficos con
aspecto profesional, que se ajusta al trabajo de modo claro y conciso..
Sin embargo, debido a la importancia que tiene el programa Microsoft Excel en este libro, de manera
concreta en los métodos de enseñanza y aprendizaje de la estadística, es conveniente describir
algunas de sus características, propiedades y alcances básicos que se logran con su desarrollo
aplicado en el análisis de la economía.
Es conveniente decir que este software fue seleccionado por ser uno de los programas más utilizados,
con mayor disponibilidad y popularidad en el ámbito educativo. Con esto se pretende que el lector no
encuentre obstáculos en su funcionamiento y utilización del software.
23
A lo largo de esta obra se presentan una serie de cálculos con el empleo de las funciones que incluye
Excel 2013, gráficos para una mejor visualización de los datos, así como funciones que permiten
aplicar formatos con aspecto profesional, como los siguientes:.
- Recomendación de gráficos. Al crear un gráfico a partir de una tabla, se puede utilizar esta nueva
funcionalidad. Excel, dependiendo de los datos, propondrá varios tipos de representaciones,
consiguiendo así, evitar tener que definirlo manualmente.
- Guardar los archivos en OneDrive es más fácil. Al guardar los documentos en la nube se podrá
acceder a ellos desde prácticamente cualquier dispositivo conectado a internet. Además es muy
sencillo compartir presentaciones en modo lectura o escritura.
- Con Excel Online sólo es necesario disponer de una cuenta de correo de Microsoft para acceder a
una versión reducida de Excel de forma gratuita. Se puede crear y modificar presentaciones de Excel
desde el navegador de cualquier equipo conectado a internet, sin necesidad de instalar la versión de
escritorio de Excel 2013.
- Etiquetas de datos más enriquecidos. Se podrás incluir en los gráficos etiquetas que contengan texto
actualizable, es decir, al modificar los datos cambiará el valor de la etiqueta. A su vez, también se
tendrá la oportunidad de combinarlo con texto libre. Si cambias el tipo de gráfico las etiquetas no
desaparecerán.
- Cambios en la cinta de opciones para gráficos. Antes, al crear un gráfico, se disponía de tres
pestañas para modificar sus características. En la nueva versión de Excel el número ha sido reducido
a dos, esto facilita encontrar aquello que se quiere variar en el formato del gráfico.
- Ajuste rápido de gráficos. A las anteriores mejoras mencionadas se une la aparición de tres botones
a la derecha del gráfico que permiten variar su aspecto de manera sencilla y rápida.
- Conexión con nuevos orígenes de datos. Se dispone de mayor versatilidad al crear tablas, puesto
que, permite importar datos desde nuevas fuentes, por ejemplo, proveedores OLE DB.
APERTURA DE EXCEL
24
Cuadro II.1
Apertura de Excel desde el buscador
Escribe
Cuadro II.2
Apertura de Excel con función Ejecutar
Independientemente de la opción que elijas se deberá dar clic en: libro en blanco.
Cuadro II.3
Inicio de un nuevo documento de Excel
25
Es importante señalar que para los ejercicios de Excel de este libro se utiliza el signo diagonal “/”
que indica la separación de una instrucción a otra. Algunos simboles como +, -, *,=, etc. Se incluyen
en paréntesis pero se teclean sin este.
HOJA DE TRABAJO
4 El cuadro II.4
Entorno de trabajo de Excel 2013
9 1 2
7
5
6
La herramienta Análisis de Datos es muy útil para desarrollar análisis estadísticos simple o complejo,
ya que puede ahorrar pasos y tiempo. Cuando utilice una de estas herramientas, deberá proporcionar
26
algunos datos y parámetros para cada análisis y la herramienta utiliza las funciones de macros
estadísticas o técnicas correspondientes para realizar los cálculos y mostrar los resultados. Algunas
herramientas además de generar gráficos también elabora tablas de resultados.
Cuadro II.5
Herramienta Análisis de Datos
Con el objetivo de ilustrar los métodos estadísticos que se aplican con máxima frecuencia en el
análisis del sistema económico, se ha considerado necesario hacer una exposición en forma detallada
de los mismos a fin de demostrar su uso, y con ello tratar de hacer clara su aplicación en el desarrollo
del curso que se pretende dar al alumnado.
27
Población
Se denomina población o Universo a todo grupo o conjunto total de elementos que tienen ciertos
atributos que lo caracterizan en común, como por ejemplo: pueden ser los habitantes de la
República Mexicana con un determinado grado de enseñanza primaria para el año 2010. Como se
ve, éste es un grupo con una característica, que es la instrucción primaria para el año 2010.
Las poblaciones pueden ser finitas o infinitas. Se dice que una población es finita cuando está
compuesta por un número determinado de elementos. Ejemplo de ello puede ser los habitantes de
una localidad que tienen agua potable en sus hogares.
Una población es infinita cuando sus elementos sean inconmensurables, por ejemplo, la población de
moscas en todo el mundo.
Serie estadística
Es la sucesión de los datos de una variable en el tiempo. Ejemplo: sea Xi donde X representa a la
variable cuyos valores de sus datos los da i que toma valores desde i = 1,2,3,4, …., 27, 28, …., 45,
46, ……, 75,76, ….., 𝑛. Lo que se estudia es la distribución de los datos de la variable. Cuando los
datos corresponden a un punto en el tiempo se le llama serie de datos de corte transversal; cuando
corresponden a diferentes momentos en el tiempo, se le llama serie de tiempo. Si sus datos se
relacionan con la variable tiempo, se establece una relación que se gesta entre dos variables, donde
una de ellas es el tiempo, en función del cual se observa la evolución de la otra variable. En este caso
se les llama series de tiempo porque los valores corresponden a varios puntos de la variable en el
tiempo; ejemplo:
Tabla II.1
Producción de oro
1 2 3 4 5 6 7
Producción de oro (kilos) 10.3 9.7 9.3 8.3 7.3 7.4 6.5
Fuente: Investigación directa con datos hipotéticos
Como puede observarse, la producción de oro del año 1 al 7 constituye una serie estadística
temporal, ya que se observa el comportamiento de la producción en el tiempo.
Importancia: Los datos de un fenómeno en estudio se pueden clasificar de acuerdo con los niveles de
medición (Mason, 2000:11) para detectar sus características relevantes; estos niveles determinan los
cálculos que pueden realizarse para resumir, presentar e interpretar la información, así como las
pruebas estadísticas que pueden aplicarse para verificar determinadas hipótesis sobre el fenómeno en
estudio. En otras palabras, sirven para cuantificar, dimensionar la magnitud de sus datos.
Son cuatro los niveles de medición: nominal, ordinal, de intervalo y de razón que los describe
Mason (2011:12):
28
Nivel nominal: es la más baja o primitiva, con ella los datos sólo pueden clasificarse o
contarse. No existe ningún orden específico para las marcas. Mason comenta que un ejemplo
puede ser que si hay 6 colores de dulces en una bolsa de lunetas: M&M, y si a cada uno de
los colores se le asigna un número: al café, el valor 1; al amarillo, el 2; al azul, el 3; al
naranja, el 4; al verde, el 5 y al rojo el 6. Entonces se pueden clasificar los dulces
simplemente por colores.
Ahora bien, a cada color se le puede llamar categoría. Así, se pueden contar o colocar primero el
color amarillo, enseguida el verde, etc., en otras palabras, no hay un orden específico para clasificar
los colores (también sexos, bancos, compañías telefónicas, aerolíneas, etc.). Las categorías son: a)
mutuamente excluyentes y b) exhaustivas. Son mutuamente excluyentes porque cada color, persona,
banco, etc. se clasifican en tan sólo una categoría. Por ejemplo, si se hace referencia a los bancos,
Banamex y Bancomer; éstos no pueden ser al mismo tiempo, es uno o es otro. Son exhaustivas,
porque cada color, persona u objeto de medición debe aparecer registrado por lo menos en una
categoría. Así, dado que sólo se pueden contar, cuando se codifican en 1,2,3, … . . , 𝑛, no se pueden
manipular (hacer cálculos), por ejemplo, 1 + 2 no es igual a 3; en este sentido, si son colores, no se
puede decir que el color café más el color amarillo no es igual al color azul. Por consiguiente, si
ahora se toma el ejemplo de registrar el uso del teléfono por tipo de compañía, se tendrá un nivel
nominal de las siguientes categorías o compañías:
Tabla II.2
Compañías telefónicas y llamadas
Compañía Número de llamadas %
Telmex 5 50
Telcel 3 30
Otras 2 20
Total 10 100
Fuente: datos hipotéticos
Lo más que se puede hacer es clasificarlas en forma diferente, ergo, poner primero a Telcel. No
existe ninguna medida para el nivel nominal de medición, sólo un conteo; luego no hay un orden
específico para las categorías: cada compañía telefónica; eso sí, éstas son mutuamente excluyentes
porque el usuario usa el servicio de una u otra empresa; son exhaustivas porque cada usuario aparece
registrado en una categoría. De manera que todas las categorías (compañías) incluyen todos los
usuarios de teléfonos.
Nivel ordinal: Supone que una categoría ordenada de derecha a izquierda, está clasificada
como más alta que otra. En este caso las categorías se clasifican con un orden de acuerdo con
las características que poseen y son mutuamente excluyentes y exhaustivas, pero no es
posible distinguir la magnitud de la diferencia que existe entre ellas. Tampoco es posible
sumarlas entre sí, tampoco se puede concluir que una categoría, por ejemplo, sea el doble o
en triple de otra categoría (ya que los datos simplemente se ordenan). Ejemplo:
29
Tabla II.3
Calificación de los alumnos
Categorías Frecuencia
Muy bien 6
Bien 15
Regular 20
Mala 12
Muy mala 3
Fuente: datos hipotéticos
Lo único que se puede decir es que una calificación “Bien” es mejor que una “Mala”, pero no se
puede saber qué tan distante una calificación de otra.
Nivel de Intervalo: Aquí también las categorías de datos son mutuamente excluyentes y
exhaustivas, y se clasifican de acuerdo con la cantidad de la característica que poseen. Las
diferencias iguales en la característica son representadas por iguales diferencias en los
números asignados a las categorías.
Ejemplo: Las temperaturas en grados centígrados en el Distrito Federal, México, de los últimos
cuatro días son: 22; 24; 25; 27, las cuales se pueden medir fácilmente; además se puede determinar la
diferencia entre las mismas. Ello es posible gracias a que un grado centígrado representa una unidad
constante de medición.
En este nivel de medición el cero existe, es un número importante porque representa el origen de las
temperaturas sobre y bajo cero. Otros casos serían por ejemplo, la talla o medida de los zapatos como
el coeficiente intelectual, etc.
Nivel de razón: Cuenta con todas las características del nivel de intervalo, incluyendo los
hechos de que el punto cero es importante al ser el origen y que la razón entre dos números
también es importante. Ejemplos: Los salarios, los impuestos, los niveles de producción, la
estatura, el peso de las personas, etc.
Aquí también las categorías son mutuamente excluyentes y exhaustivas y se clasifican de acuerdo
con la cantidad de la característica que poseen. El punto o valor cero representa una ausencia de la
característica. Ejemplo:
Tabla II.4
Ingresos anuales por familia
Nombre de la familia Ingresos anuales $ Ingresos anuales $
(apellido) (padre) (hijo)
Rosales 80,000.00 40,000.00
Blanco 90,000.00 30,000.00
Salinas 60,000.00 135,000.00
Tovar 75,000.00 115,000.00
Fuente: datos hipotéticos
30
En conclusión, es muy importante porque permite conocer los niveles de medición que existen y que
de acuerdo con ellos se pueden clasificar, cuantificar, analizar e interpretar los datos. El nivel de
medición de la información indica los cálculos que se pueden hacer para resumir y presentar los
datos (Lind et al, 2005), además de que determinan las pruebas estadísticas que se deben realizar. De
los cuatro niveles de medición el más bajo o simple es el nominal. El más alto es el nivel de razón
porque proporciona mayor cantidad de información acerca de la observación de interés para el
investigador.
Tabla II.5
Resumen de las principales características de los diversos niveles de medición
Nominal Ordinal De intervalo De razón
Diferencia
Los datos sólo se Los datos se Punto CERO significativo
significativa entre
clasifican ordenan y razón entre valores
los valores
Ejemplos: Ejemplos: Ejemplos: Ejemplos:
1. Las marcas de 1. El número de 1. La temperatura. 1. La distancia a la
los autos. lista de los 2. La medida de los escuela desde la casa.
2. La talla de las alumnos en clase. zapatos. 2. Número de pacientes
camisas. 2. Posición de los 3. El coeficiente atendidos por un médico.
3. Clasificación equipos de futbol intelectual de las 3. Número de horas de
de los alumnos en la temporada personas. estudio de un alumno a la
según la entidad actual. 4. El promedio de semana.
en que nacieron. 3. La clasificación las calificaciones 4. La edad de las
4. Acomodar las de los alumnos de cada estudiante. personas.
entidades según el semestre 5. Calificación de 5. Número de llamadas
federativas que cursan. los alumnos en su realizadas.
siguiendo primer examen de 6. El ingreso monetario
cualquier orden. estadística. de la gente.
7. La inversión de los
accionistas.
8. El consumo de las
personas.
Fuente: Investigación directa con enfoques de Mason et al (2000) y Lind et al (2005)
Estos datos complementan la tipificación de estos cuatro niveles de medición y sus ejemplos
esclarecen aún más sus características y usos ya expuestos anteriormente..
Es del dominio general que en la práctica los datos de un fenómeno bajo estudio se encuentran
dispersos y es necesario organizarlos y agruparlos con el fin de poder analizarlos e interpretarlos, de
manera que el investigador esté en condiciones de destacar sus principales características para tomar
decisiones fundamentadas estadísticamente.
Cuando se hace esta operación de agrupamiento, se dice que se está elaborando una distribución de
frecuencias. Así, sea la antigüedad operando en años de 30 instituciones bancarias establecidas en el
país: 10, 7, 6, 5, 8, 9, 10, 11, 6, 7, 7, 12, 9, 6, 5, 9, 8, 13, 11, 12, 10, 9, 6, 7, 6, 6, 6, 6, 7, 8.
31
Cada número expresa la antigüedad en años de cada banco. Cuando los datos están presentados en
esta forma es difícil hacer observaciones porque no se pueden captar las características a simple
vista y se dice que estos datos están desordenados, para lo cual existen dos formas de ordenación
cuantitativa que son creciente o decreciente, para este caso se procederá a ordenarlos en forma
decreciente, con lo cual podemos observar fácilmente varias característica por ejemplo el valor
máximo y el valor mínimo que en este caso son : 13 años el máximo valor y 5 años el valor mínimo.
Esta información permite ubicar la magnitud de la variabilidad entre el agrupamiento de dichos datos
con una simple diferencia del valor máximo menos el valor mínimo que da como resultado 8 años de
variabilidad que se conoce estadísticamente como rango que representa la variabilidad total de los
datos. Este ordenamiento de los datos se conoce como serie de frecuencias, que a continuación se
explica en detalle. .
Ejemplo:
Serie simple:
Para analizarlos se puede proceder a ordenarlos en forma ascendente o descendente conforme a sus
respectivos valores con los que se obtiene la siguiente tabla:
Tabla II.6
Ordenación decreciente por columna en años de antigüedad
13 11 10 9 8 7 7 6 6 6
12 11 10 9 8 7 7 6 6 5
12 10 9 9 8 7 6 6 6 5
Fuente: datos hipotéticos
Una vez ordenados los datos en forma decreciente, se puede hacer análisis y conocer los límites
entre los cuales varía la antigüedad de los bancos, es entre 5 y 13 años, Su distribución es:
Serie de frecuencias:
Si los datos anteriores se agrupan conforme el número de veces que se repite cada uno de ellos, a su
agrupamiento se le llama serie de frecuencias, con el cual se genera la siguiente tabla:
Tabla II.7
Ordenación de los datos
Antigüedad en años 13 12 11 10 9 8 7 6 5 Suma
Número de bancos 1 2 2 3 4 3 5 8 2 30
Términos relativos (%) 3.33 6.67 6.67 10 13.33 10 16.67 26.67 6.67 100
Fuente: datos hipotéticos
En virtud de que la suma da treinta, ello significa que fueron concentrados en forma correcta las
edades o número de años operando de los bancos, ya que efectivamente son treinta los que, por
32
ejemplo tienen una antigüedad operando entre 5 y 13 años. Esta tabla permite analizar con mayor
claridad la información conforme a la antigüedad de los 30 bancos operando.
El renglón cuyo encabezado dice "número de bancos", suele llamarse "renglón de frecuencias", por
lo que las frecuencias se definen como el número de observaciones o veces que un término se repite
o existe en una serie; así se puede decir que los bancos cuya antigüedad es de siete años, tienen una
frecuencia de cinco, o lo que equivale a decir que hay cinco bancos cuya antigüedad es de siete años.
Esta forma de agrupar los datos se llama “Serie de frecuencias”.
Una distribución de esta naturaleza es un agrupamiento cuantitativo que se realiza cuando existe una
amplia variabilidad entre los datos y estos son muchos, ya sean discretos o continuos; para ello se
requiere hacer un agrupamiento en un reducido número de intervalos de clases y frecuencias, que en
opinión de algunos estudiosos del tema debe ser de 4 a 15, otros, de 4 a 21. Al respecto, se piensa
que dicho número más bien debe depender del número de datos que se estén estudiando o, como se
verá enseguida, dependerá del número de intervalos de clase que el investigador decida usar en su
estudio.
Pasos a seguir:
1. Se buscan el valor más pequeño (mínimo) y el más grande (máximo), que son
respectivamente 5 y 13 años.
2. Se procede a calcular el rango (R) que se determina por la diferencia entre el valor máximo
y el mínimo.
(𝑅) 8
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 = = =2
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑑𝑒𝑠𝑒𝑎𝑛 4
El número cuatro indica que se agruparon los datos en cuatro clases o grupos, y el número dos
expresa que cada clase tendrá una amplitud de dos unidades.
33
Tabla II.8
Clasificación de los datos en clases y frecuencias
Grupos de edades o
𝐹 = Frecuencia
antigüedad de los bancos
De 5 a 7 15
De más de 7 a 9 7
De más de 9 a 11 5
De más de 11 a 13 3
Total 30
Fuente: Investigación directa con datos hipotéticos
Esta forma de agrupar los datos es usada por muchos expertos y se le llama “Serie de intervalos de
clases y frecuencias, en donde cada intervalo de clase tiene su límite inferior y superior. En general
de hecho se dice (Kazmier, 1967) en términos de las propiedades estructurales de los intervalos de
las clases, que cada una de ellas: a) tiene un límite inferior y otro superior; b) una frontera inferior y
otra superior; c) un intervalo y d) un punto medio o su valor representativo, también llamado marca
de clase.
Por otra parte, conviene decir que con este agrupamiento de datos se puede saber de inmediato por la
frecuencia asociada cuáles son los datos que predominan o se repiten más dentro de la distribución
de datos en intervalos. Sin embargo, se tiene que pagar un precio por ello: no es posible saber con
exactitud el valor de cada uno de los datos incluidos en cada intervalo de la clase, sólo se sabe por la
frecuencia cuántos son, y que sus valores están entre sus valores extremos, llamados límite inferior y
límite superior, sólo eso.
Así, en el caso de estos datos, los límites de cada intervalo de clase son los números que típicamente
sirven para identificar los intervalos de las clases en una lista de distribución de frecuencias. Luego
en el intervalo de la clase cuya frecuencia es 15 de la tabla de arriba, el límite inferior es 5 y el límite
superior es 7. En la clase cuya frecuencia es 3, su límite inferior es 11 y el límite superior es 13.
Igualmente, se debe decir que cuando se establecen los límites de clase “ inclusive”, ello indican que
existirán datos cuyo valor sea exactamente el valor del límite inferior o del límite superior de la
clase.
Por otra parte conviene decir que “las fronteras” de clase son los puntos precisos que separan una
clase de otra (Kazmier, 1967: 20). Una frontera de clase se localiza a medio camino entre el límite
superior de una clase y el límite inferior de la siguiente clase. Así, en la siguiente tabla la frontera
precisa que separa la clase 63 a 65 de la clase 66 a 68 está a la mitad del camino entre 65 y 66, es el
punto 65.5. Así derivado de lo anterior, si por ejemplo se tiene dudas sobre en qué intervalo de clase
deber ir el número 66, ¿ En la primera o en la segunda clase? Este autor señala que se use el
procedimiento de redondeo con el cual se obtiene 66 y por consiguiente, el número 66 va en el
segundo el intervalo de clase (ídem, 1967:21), como lo ilustra en el siguiente ejemplo: con datos
continuos Tabla II.9.
34
Por el contrario, en este agrupamiento también se observa que no sucede lo mismo con los límites de
clase, es decir, se ve que el límite superior de la clase (ergo 62 de la primera clase) no es el valor del
límite inferior de la siguiente clase (ya que es 63).
Tabla II.9
Diferenciación de conceptos
Límites de Fronteras de Puntos medios
Frecuencias
clase clase o de clase
60 a 62 59.5 a 62.5 1 61
63 a 65 62.5 a 65.5 2 64
66 a 68 65.5 a 68.5 13 67
69 a 71 68.5 a 71.5 20 70
72 a 74 71.5 a 74.5 11 73
75 a 77 74.5 a 77.5 3 76
Total 50
Fuente:Datos de Kazmier (1967)
Por otra parte comenta Kazmier (1967: 20) que algunos estadígrafos usan los términos “límites
nominales” para referirse a los valores inclusive que identifican una clase y “límites exactos” para
referirse a los puntos precisos que separan una clase de otra clase, de manera que los “límites
nominales” son sinónimos de los límites de clase y los “límites exactos” son sinónimos de las
fronteras de clase.
En este contexto del agrupamiento de datos en una serie de intervalos de clases y frecuencias, este
autor indica (1967: 21) que ocasionalmente es algo difícil decidir si los valores que identifican las
clases son valores de límites de clase o fronteras de clase los valores particulares que identifican los
intervalos de las clases. Lo anterior lo ilustra con el siguiente:
Ejemplo 1
Suponiendo que la medición es a la unidad más cercana, los límites actuales “inclusive” para la
primera clase son 20 y 29 y la frontera inferior y la superior de esa primera clase son
respectivamente: 19.5 y 29.5
Finalmente en una clase abierta ya sea en su límite inferior o en el superior, se dice que no hay
ninguna frontera de clase asociada.
Como estos datos, a diferencia de los discretos o discontinuos, que son fraccionables o divisibles,
surge en el problema del redondeo que se resuelve calculando las fronteras de clase, mismas que se
35
definen como el punto preciso que separa una clase de otra. Una frontera de clase es un punto medio
entre el límite superior de una clase y el límite inferior de la que le sigue en la distribución de datos
(Kazmier, idem). Así en el siguiente ejemplo correspondiente a becas que reciben 50 estudiantes
semanalmente expresadas en pesos, se tiene:
Tabla II.10
Comparación numérica de conceptos
Límites de clase en Punto medio de
Fronteras de Frecuencia Amplitud
$: inferior( li )- y la clase
clase en $ (𝐹𝑖 ) de la clase
límite superior Ls) (𝑃𝑀𝑖 )
160 - 162 159.5 - 162.5 1 161 3
163 - 165 162.5 - 165.5 2 164 3
166 - 168 165.5 -168.5 13 167 3
169 -171 168.5 -171.5 20 170 3
172 -174 171.5 -174.5 11 173 3
175 -177 174.5 -177.5 3 176 3
Total 50
Fuente: Datos de Kazmier ( 1967)
Se observa que a) a diferencia de una frontera de clase, el límite superior de una clase no es el límite
inferior de la siguiente clase; b) la frecuencia o agrupamiento de datos se hace con base en los límites
y no de las fronteras de clase. Así, el valor 165.5, que es el valor de una frontera de clase, por el
criterio de redondeo, se registra en 166, límite inferior de la siguiente clase; c) la amplitud del
intervalo de una clase se determina sustrayendo el valor de la frontera inferior del superior. En la
clase 166-168, su amplitud = 168.5 − 165.5 = 3. También se puede obtener sustrayendo el valor
de su frontera inferior de la frontera inferior de la clase siguiente; o el límite superior de la clase del
límite superior de la clase siguiente.
Al respecto, se considera que para agrupar los datos los criterios aquí descritos para hacerlo son un
tanto convencionales ( Huntsberger, 1983:16) y que por consiguiente, se pueden usar cualquiera de
los procedimientos que se presentan aquí. Lo importante es la sistematización en su aplicación, la
descripción de sus características y decir porqué se aplica, ya que será conforme a los objetivos de la
investigación, al número de datos, a su naturaleza si son continuos o discretos, etc. lo que
determinará su agrupamiento adecuado para su análisis e interpretación correspondiente. En este
contexto es que en este libro se usan para ilustrar los agrupamientos en intervalos de clases algunos
de los criterios como los anteriores del Profesor Kazmier (“Al menos 20 pero menor que 30”) o de
otros similares como los que usa el Profesor Andrés García Pérez (“De más de”).
Para el agrupamiento de forma objetiva se pueden utilizar diversas reglas que determinan dicho
número, dentro de las cuales destacan la de Sturges, Kaiser, Heller y la regla G. En este contexto es
que a continuación el Dr. Alfonso Gómez Navarro expone esta metodología.
36
La construcción de tablas de distribuciones de frecuencia.
Tabla II.11
Modelo de una tabla estadística de una distribución en intervalos de frecuencias
X f
Sin duda los aspectos que es indispensable considerar para la determinación de de los intervalos son:
Conforme al análisis de estos tres aspectos la relación matemática que se establece para definir
cuantitativamente la amplitud de cada intervalo, que se da por la relación del rango y el número de
𝑅
intervalos. C= 𝐾
, donde C representa la amplitud del intervalo, R el rango de la variable y K el
número de intervalos.
37
En las distribuciones los intervalos, estos representan estratos de magnitud, ordenados que se
pueden presentar en forma creciente o decreciente, en términos absolutos conforme a los
requerimientos del problema.
Cuando hay que considerar el tamaño de la población o muestra, la estratificación en intervalos para
la construcción de distribuciones de frecuencias en intervalos de clases es importante el análisis
estadístico tanto para la Estadística Descriptiva como para la Inferencia Estadística. Hay que analizar
las muestras conforme los requerimientos del problema ya sea este de naturaleza discreta o continua.
El detalle y la configuración de la distribución son de gran importancia y el número de intervalos
juega un papel muy importante en dicho trabajo. Una distribución con un mayor número de
intervalos permite conocer con mayor detalle la distribución, siempre y cuando no se extralimite el
número de partes y se pierda significado en el análisis requerido. Por el contrario un número
reducido de intervalos puede ocultar información relevante para el análisis. Respecto a la
configuración esta también se ve afectada ya que puede presentar gráficamente una distribución
alejada de su verdadera forma.
Conforme la práctica y experiencia existe la forma subjetiva para la determinación del número de
intervalos y los autores de textos dan diversas recomendaciones: Taro Yamane recomienda de “7 a
15 intervalos” (Yamane, 1979:8), Frederick E.Croxton y Dudley J. Cowden señalan:”Podría
decirse, en general, que raras veces deberán usarse menos de 6 u 8 clases, y más de 16 clases serán
útiles solamente para trabajar con datos muy abundantes.” (Croxton y Cowden, 1965:189); otra
opinión de afamados autores es la de Paul G. Hoel y Raymund J. Jessen que dicen:”Por la teoría y la
experiencia se sabe que para la mayoría de los tipos de datos es conveniente usar de 10 a 20 clases,
con menor número de clases para menor cantidad de datos. Con menos de 10 clases se pierden
muchos detalles de la muestra, mientras que con más de 20 clases, el cálculo se hace tedioso.” (Hoel
y Jessen, 1983:30), sin duda para expertos el problema no es muy complejo, el problema es que
pueden hacer los no expertos y particularmente el estudiante de la estadística que aún no es experto,
se recomiendo apoyarse en algún experto y uno de ellos que nos proporciona una regla que está
38
fundamentada en la teoría estadística y que la práctica la confirma es sin duda la regla elaborada por
Herbert A. Sturges, el cual publica su regla en el Journal of American Statistical Association1
K = 1+3.322 log(N)
Otra de las fórmulas utilizadas utilizada y recomendada por algunos autores de la bibliografía de la
Estadística es la atribuida a Kelley2:
N=2k
La fórmula que se define literalmente como la relación del número dos elevado a una potencia que
lo determina el número de intervalos dando como resultado un número de elementos a considerar
como muestra.
Un ejemplo de aplicación lo muestra el popular libro de Lind, Marchal y Wathen que dice lo
siguiente: “Una receta útil para determinar la cantidad de clases (K) es la regla de 2 a la K. Esta guía
sugiere que se elija el menor número de (K) para el número de clases, de tal manera que 2 k (en
palabras, dos elevado a la k-ésima potencia) sea mayor que el número de observaciones (n).”
(Lind/marchal/Waten ,2013:30).
Un ejemplo numérico para una muestra de 100 elementos tendría que buscar la potencia que al
aplicar la formula el resultado sea igual o menor al tamaño de la muestra:
26=64 no cubre el tamaño de la muestra por lo cual hay que calcular 27=128 resultado que abarca al
número. Conforme a esto se infiere que se deben utilizar 7 intervalos para muestras de 65 elementos
hasta 128. Conforme a esto se puede elaborar una tabla:
1
Journal of the American Statistical Association, Vol. 21, No. 153 (Mar., 1926), pp. 65-66
2
Esta fórmula es atribuida a Truman L. Kelley (1884-1991) más no cuento con la fuente correspondiente para hacer la afirmación
correspondiente. Sus trabajos uno de 1924, donde publica el libro Método estadístico de la editora Mac Millan, EE.UU. y su otro libro del
año de 1947 de Fundamentos de la estadística de la Universidad de Harvard no se tuvo acceso a los mismos por lo cual desconozco si en
dichas obras se localiza dicha fórmula.
39
Tabla II.12
Rangos de diferentes tamaños de muestras y su correspondiente número de intervalos de clase.
K 3 4 5 6 7 8
N 5-8 9-16 17-32 33-64 65-128 129-256
Esta fórmula se fundamenta en el número 2 como base y como potencia k, al igual que la formula de
Sturges, con la diferencia de que Sturges toma como base el binomio en función a sus coeficientes
en el desarrollo los cuales son n+1. Y la relación a la potencia a la cual esta elevado el binomio, que
es donde resulta el 1 que se le suma al producto de coeficiente del logaritmo base 10 en su formula.
Por otra parte, para darle funcionalidad a la formula desarrollé el algoritmo que le da funcionalidad
quedando de la siguiente forma:
log(𝑁)
Kelley; G.Navarro 𝐾 = 0.30103
Esta fórmula nos indica directamente el número de clases para un determinado tamaño de N.
Ej. Para N= 100 aplicando el algoritmo da como resultado K=6.6439, redondeando al número entero
más próximo tenemos que k=7 intervalos a utilizar sin necesidad de utilizar una tabla ni realizar
tanteos para determinar en qué potencia se cubre el tamaños de la muestra deseado.
La tercera fórmula o regla de H.F.Kaiser3 que se aplica para la determinación del número de
intervalos es:
𝐾 = √𝑁
Esta fórmula al igual que la anterior se encontró solo una referencia en la bibliografía revisada en el
que se le da crédito como criterio Kaiser más no hay referencia fidedigna de que H.F. Kaiser sea el
autor de dicha regla y en las referencias bibliográficas señaladas no trata el tema de dicha regla. Esta
fórmula se puede considerar como la más simple ya que determina el número de intervalos con una
simple raíz cuadrada del tamaño de la muestra, es decir reduce el tamaño de la muestra a una base
que es el número de intervalos.
3
La referencia es la que realiza Francisco Álvarez González, en Métodos estadísticos aplicados a las Ciencias Sociales.
Facultad de Ciencias del Trabajo. Universidad de Cádiz.2005 Kaiser, H.F. (1960).
The application of electronic computers to factor analysis. Educational and Psychological Measurement, 20, 141-51.
Kaiser, H.F. (1970). A second generation little jiffy. Psychometrika, 35, 401-415.
Kaiser, H.F. (1974). An index of factorial simplicity. Psychometrika, 39, 31-36.
40
William Stevenson al respecto dice: “Una regla empírica es calcular la raíz cuadrada de n, y ajustarla
para adaptarla a (si es necesario) los limites 5 a 15. Por ejemplo, para 400 observaciones, √400 = 20,
resultado que se debe ajustar a 15.”(Stevenson, 2006:40).
K = 2 + ln (N)
K= 2+ 2.3026 log N
Por lo que respecta a la Regla “G”, es una regla empírica que al igual que la regla de Sturges
permite determinar el número de intervalos o clases en que se puede dividir una distribución de
frecuencias en el análisis estadístico. La base de su desarrollo se basa en el número 2,
considerado como el número mínimo en que se puede dividir una distribución de frecuencias y
los logaritmos naturales cuya base es el número “e” el cual representa una constante en el
desarrollo de la formula de la distribución normal, así como encontrar una expresión fácil de
memorizar y manejo. Por otro lado el complementar a la regla de Sturges como una alternativa
para la mejor configuración de las distribuciones hacia un modelo de distribución normal y poder
utilizar la fórmula para muestras o poblaciones grandes donde la Regla de Sturges rebasa los
parámetros de elasticidad establecidos entre 5 y 20 intervalos.
4
Memoria XIX Coloquio Mexicano de Economía Matemática y Econometría (2009) IPN La Regla de Sturges vs la Regla G. Alfonso
Gómez Navarro.
41
Gráfico II.1
Regla G y de Sturges
9.00
8.00
7.00
Numero de clases
6.00
5.00
4.00
3.00
2.00
1.00 k= 1 + 3.322 log (N)
K= 2 + ln (N)
0.00
0 20 40 60 80 100 120
Tamaño de Muestra
Para una mejor funcionalidad en el análisis estadístico se recomienda para la regla “G” el utilizar un
número impar de intervalos, lo mismo que para la regla de Sturges, redondeando al entero impar
más cercano al resultado de respectivas formulas.
Ejemplo: para N=45 la regla “G” da como resultado 5.8 el número impar más cercano es 5 clases.
Al analizar los resultados que indica la Tabla II.13, encontramos que la fórmula:
𝑘 = √𝑁
Para muestras mayores a 500 datos, se sale de los límites marcados por los especialistas y para
tamaños de poblaciones o muestras de 10,000 elementos el número de intervalos es extremadamente
grande (100 intervalos).
42
Tabla II.13
Tabla de sensibilidad para las cuatro fórmulas
K=1+3.322 log
K= 2 +ln (N)
(N)
N K K K K
25 5 6 5 5
50 7 7 6 6
75 9 7 6 6
100 10 8 7 7
150 12 8 7 7
200 14 9 7 8
300 17 9 8 9
400 20 10 8 9
500 22 10 8 10
1,000 32 11 9 10
10,000 100 14 11 14
100,000 316 18 14 17
1,000,000 1,000 21 16 20
10,000,000 3,162 24 18 23
Para el caso de la regla de Sturges se encuentra una gran estabilidad y consistencia con las
diferentes muestras manteniéndose en el rango hasta con muestras un millón de dato.
La regla de 2 al exponente k para delimitar el número de elementos de la muestra, también presenta
una alta consistencia a las diferentes alternativas presenta un paralelismo con la regla de Sturges,
siendo menos sensible a muestras grandes en relación a Sturges.
Por lo que respecta a la regla “G” se denota que es la menos afectada a los efectos de muestras
grandes y la más recomendada para tamaños de N referentes a poblaciones.
Hay que considerar que el análisis económico si bien predominan los análisis con el muestreo
estadístico, el análisis poblaciones en diversos casos es necesario. Casos en los cuales se requieren
presentaciones de poblaciones donde se utilizan 6 o más dígitos es de recomendar utilizar la regla
“G”.
43
Tabla II.14
La Regla “G” y de “Sturges” en el análisis para el modelaje de las muestras en las distribuciones de
intervalos de frecuencias.
Diferentes alternativas utilizando la regla Diferentes alternativas utilizando la Regla
Regla G: de Sturges:
Observaciones Intervalos Observaciones Intervalos
7 3 7 3
8 a 54 5 8 a 31 5
55 a 403 7 32 a 127 7
404 a 2980 9 128 a 511 9
2981 a 22026 11 512 a 2047 11
22027 a 162754 13 2048 a 8190 13
162755 a 1202604 15 8191 a 32760 15
1202605 a 8886110 17 32761 a 131038 17
8886111 a 65659969 19 131039 a 524138 19
65659970 a 485165171 21 524139 a 2096491 21
Fuente: Elaboración Gómez Navarro
Como podemos observar en las dos alternativas, Sturges para 15 intervalos considera un máximo de
32,760 observaciones, mientras que la regla G, se extiende a un millón 202,604 observaciones que
representan muestras 35 veces mayores.
Para el análisis del modelaje se presentan dos alternativas utilizando dos muestras una 40 unidades y
la otra de 50 unidades.
En cada una de ellas se utilizan tanto la regla de Sturges como la regla “G” y la alternativa de un
número de intervalos de clase par.
44
Modelo de ejemplo I
Este modelo de ejemplo presenta las tres alternativas que permiten el contraste de las fórmulas de
Sturges y “G” , la primera con 5 intervalos que proporciona la regla “G” al redondear al número
entero impar más cercano, la segunda con la regla de Sturges que nos indica siete intervalos y la
tercera al redondear al entero más próximo que es seis intervalos.
Tabla II.15
Gastos fijos promedio diario de 40 empresas de la zona industrial Z en el año “X1” (Pesos
mexicanos)
10125 38456 50654 60567 12970 38600 53656 66987
15900 41234 54889 71323 23456 43784 55444 72432
24500 45634 56389 73211 25500 46789 56321 73956
28293 47654 57465 75643 29465 48965 57596 81564
32736 48999 57876 84878 35321 49676 58765 85830
Datos hipotéticos
Amplitud de clase:
Alternativa 1 Regla “G”
C= R/KG R= Xmax-Xmin= 86-10 =76
Formula: KG= 2+ln (N) ; KG=2+ln (40) =
C= 76/5 =15.2 (unidades de millar)
5.8918
C= 16 (redondeando a la unidad inmediata
KG= 5 intervalos
superior)
Tabla II.16
Distribución en intervalos de frecuencias de amplitud 16 unidades de millar de los gastos fijos
diarios de 40 empresas tomadas como muestra de la zona industrial “Z” en el año X1.
-x- Ls f M M*f (M-X)2*f (M-X)3*f (M-X)4*f
10-25 25 5 17.5 87.5 5120 -163840 5242880
26-41 41 8 33.5 268 2048 -32768 524288
42-57 57 14 49.5 693 0 0 0
58-73 73 8 65.5 524 2048 32768 524288
74-89 89 5 81.5 407.5 5120 163840 5242880
40 1980 14336 0 11534336
Fuente: Elaboración Gómez Navarro
45
Gráfico II.2
12
10
8 8
8
6 5 5
2
0 0
0
1.5 17.5 33.5 49.5 65.5 81.5 97.5
Histograma Poligono
Alternativa 2
Tanto la regla “G” como la de Sturges el numero entero más próximo es 6 intervalos con una
amplitud de 13 unidades monetarias.
Tabla II.17
Distribución de intervalos de frecuencias
X f M M*f (M-X)2*f (M-X)3*f (M-X)4*f
10 - 22 3 16 48 3361.7269 -112533.8071 3767069.1940
23 - 35 7 29 203 2934.5794 -60085.5127 1230250.8726
36 - 48 7 42 294 391.1294 -2923.6921 21854.5983
49 - 61 14 55 770 427.3588 2361.1571 13045.3929
62 - 74 5 68 340 1715.8781 31786.6423 588847.5480
75 - 87 4 81 324 3975.3025 125321.4113 3950757.4916
40 1979 12805.9751 -16073.8012 9571825.0974
Fuente: Elaboración Gómez Navarro
46
Gráfico II.3
Histograma Poligono
Estadísticos estimados
Media aritmética = 49.475 Desviación estándar = 17.865
M3 =-412.149 M4 = 245431.413
A3= -0.0723 A4= 2.4096
Alternativa 3
47
Tabla II.18
Distribución en intervalos de frecuencias de amplitud 11 unidades de millar de los gastos fijos
diarios de 40 empresas tomadas como muestra de la zona industrial “Z” en el año X1.
Gráfico II.4
8
8
6 5 5 5
4
4 3
0 0
0
4 15 26 37 48 59 70 81 92
Histograma Poligono
Este primer modelo con sus tres alternativas con la misma muestra pero diferentes números de
intervalos determinados con la regla “G” y la de “Sturges, nos presentan 3 configuraciones gráficas
48
que indican que la alternativa 1 es la que más se ajusta al modelo normal si ese es el objetivo,
confirmado por los indicadores de asimetría y Kurtosis.
Modelo de ejemplo II
Tabla II.19
Muestra de las ventas promedio diario de 50 empresas en la zona industrial z en el año x 2.(pesos
mexicanos).
109954 175568 195874 209125 234100
130498 178965 201456 209358 234432
134956 179546 203574 209489 237980
140235 181365 204852 213125 242876
147890 182456 206985 219345 247890
153478 183487 207120 221145 255643
157342 184123 207958 223786 258323
159123 184995 208456 228321 258900
163456 185498 208789 230987 261234
165897 187658 209021 233978 283123
Tabla II.20
Distribución en intervalos de frecuencias de amplitud 35 unidades de millar de las ventas diarias de
50 empresas tomadas como muestra de la zona industrial “Z” en el año X2.
X f M M*f (M-X)2*f (M-X)3*f (M-X)4*f
110 - 144 4 127 508 21609.00 -1588261.50 116737220.25
145 - 179 8 162 1296 11858.00 -456533.00 17576520.50
180 - 214 22 197 4334 269.50 -943.25 3301.38
215 - 249 11 232 2552 10914.75 343814.63 10830160.69
250 - 284 5 267 1335 22111.25 1470398.13 97781475.31
50 10025 66762.50 -231525.00 242928678.13
Fuente: Elaboración Gómez Navarro
49
Gráfico II.5
15
11
10 8
5
5 4
0 0 0
92 127 162 197 232 267 302
Histograma Poligono
50
Diseños Gráficos más usados para graficar los datos. Su utilidad está en que se ve más fácilmente
el comportamiento, evolución, tendencia, etc. del fenómeno en estudio.
Con estas referencias y regresando al ejemplo de la antigüedad de los bancos operando (tabla II.8), si
se quiere ver gráficamente cómo están distribuidas las edades de los bancos; basta hacer uso de los
ejes cartesianos, usando el primer cuadrante y poniendo en el eje de las "𝑌" las frecuencias, en el de
las " 𝑋 " los grupos de edades: así independientemente de que los datos sean discretos o continuos y
usando los límites de las clases, se tendrá:
Gráfica II.6
Histograma de la antiguedad de los bancos en años
16 15
14
12
Frecuencia
10
8 7
6 5
4 3
2
0
De 5 a 7 De más de 7 De más de 9 De más de
a9 a 11 11 a 13
Grupos de antigüedad de los bancos
Fuente: Investigación directa con datos hipotéticos
A esta representación gráfica suele llamársele "histograma". Ahora si se calculan los puntos medios,
𝑥𝑖 , de los intervalos de clase, se obtiene una nueva tabla, con cuyos valores llamados “Marcas de
clase o puntos medios” se construye la gráfica del “polígono de frecuencias”.
Tabla II.21
Cálculo de los puntos medios o marcas de clase
Intervalos de clases 𝐹 Número de 𝑋𝑖 Marca de clase o
(antigüedad en años) bancos punto medio
De 5 a 7 15 6
De más de 7 a 9 7 8
De más de 9 a 11 5 10
De más de 11 a 13 3 12
Total 30
Fuente: Investigación directa con datos hipotéticos
𝑖 = 1, 2, 3. . . 𝑛;
Obsérvese que un punto medio es la suma de los límites inferior y superior de cada clase, la cual se divide
entre dos. También se le llama “punto medio de la clase o marca de clase”, que en esencia es el valor
representativo de cada clase.
51
Gráficamente se tendrá:
Gráfica II.7
Representación gráfica de la antigüedad de los bancos
Polígono de frecuencias
10
7
5
5 3
0
0
Menos de 5 De 5 a 7 De más de 7 a 9 De más de 9 a De más de 11 a
11 13
Intervalos de clase y Xi
Al respecto, es interesante decir que autores como el Dr. Raúl Rojas Soriano (2001), Croxton &
Cowden (1964), entre otros, no cierran el Polígono de Frecuencias. Sin embargo, Yu Lun Chou
(1987) comenta que: “Aunque el histograma es una presentación gráfica eficaz y vívida de
distribuciones de frecuencias, el polígono no representa muy bien los datos básicos. La diferencia
más notable del polígono es que las áreas situadas debajo de él generalmente no son proporcionales a
las frecuencias. Una solución es cerrar el polígono en la base prolongando ambos extremos de la
curva hasta los puntos medios de dos clases hipotéticas situadas en los extremos de las distribuciones
que tienen cero frecuencias.” En apoyo de la opinión de cerrar el polígono de frecuencias se puede
mencionar a Richmond et (1964) y citar a Kazmier (1967) quien simplemente dice que es un gráfico
cerrado (1967: 28), a Blalock (1966) y Taro Yamane (1974) quienes sugieren que se cierre para que
comprenda toda el área bajo la curva. Esta última opinión sirve de referencia para después
adentrarse en la teoría de la probabilidad y en la inferencia estadística en su capítulo de la estimación
de punto y en la prueba de hipótesis, entre otras aplicaciones que tiene el concepto de “área bajo la
curva”, mismo que emana del cierre de la curva del polígono de frecuencias.
Resumiendo una vez más, se puede decir, en función de la forma en que están ordenados los datos,
que hay tres tipos de series:
1. Serie simple
2. Serie simple de frecuencia
3. Serie de intervalos o clases y frecuencias
52
Por lo que respecta a la representación gráfica serie simples existe una que resume los datos, es la
de intervalos de clase mediante la cual mediante éstos se pueden representar gráficamente, son el
histograma y el polígono de frecuencias, tanto en términos absolutos como relativos. Otra
representación la constituyen las ojivas que representan la información acumulada en forma creciente
o decreciente.
Con objeto de reafirmar la forma como se constituye una serie de intervalos de las clases y
frecuencias, a continuación se presentan los siguientes ejemplos adicionales:
Con los datos de la siguiente Tabla II.2 agrupe los datos con el método subjetivo
PASOS A SEGUIR
1. Se identifican el valor más grande y el más pequeño, que son: 96,500 - 11,169
2. Se calcula la amplitud o rango:
𝑅𝑎𝑛𝑔𝑜 85,331
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 = = = 17,066
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 𝑞𝑢𝑒 𝑠𝑒 𝑑𝑒𝑠𝑒𝑎𝑛 5
53
Tabla II.23
Agrupamiento de los datos en intervalos de clase
Intervalos de clase F Puntos Medios (𝑃𝑀)
De 11,169 a 28,235 12 19.702
De más de 28,235 a 45,301 15 36.768
De más de 45,301 a 62,367 8 53.834
De más de 62,367 a 79,433 8 70.9
De más de 79,433 a 96,500 7 87.966
Total 50
Fuente: Investigación directa con datos hipotéticos
Sin embargo, con el propósito de partir de una base matemática y no empírica en la construcción de
las tablas de frecuencias, H.A.Sturges sugirió un procedimiento basado en la siguiente fórmula.
𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛
𝑖=
1 + 3.32 log(𝑛)
Donde:
Oscilación: Es la diferencia absoluta que existe entre el dato de menor valor y el de valor más
elevado
𝑖 ∶ 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒
𝑛: 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡é𝑟𝑚𝑖𝑛𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛
Esto supone que una vez conocida la amplitud de la clase o intervalo de clase denotado por (𝑖), la
tabla de clases y frecuencias puede calcularse de inmediato. Como podrá intuirse una vez conocido
su valor se determina automáticamente el número de grupos o clases de la distribución.
𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛
𝑖=
1 + 3.32 log(𝑛)
85,331
Sustituyendo 𝑖=
1+3.32 log(𝑛)
Oscilación = 96,500 - 11,169 = 85,331
54
85,331 85,331
𝑖 = 1+3.32 log(𝑛) = 6.6
= 12,929 ≈ 13 Redondeando a miles
Tabla II.24
Ordenamiento de los datos usando el método de Sturges
Intervalos de clase (𝐹𝑖 ) Puntos Medios (𝑃𝑀𝑖 )
De más de 11 a 24 6 17.5
De más de 24 a 37 7 30.5
De más de 37 a 50 11 43.5
De más de 50 a 63 6 56.5
De más de 63 a 76 6 69.5
De más de 76 a 89 8 82.5
De más de 89 a 102 6 95.5
Total 50
Fuente: Investigación directa con datos Ibíd.
Tabla II.25
Acumulación de frecuencias
Frecuencia
𝑋𝑖
Acumulada (𝑓𝑎)
Menos de… 24 6
Menos de… 37 13
Menos de… 50 24
Menos de… 63 30
Menos de… 76 36
Menos de… 89 44
Menos de… 102 50
Fuente: Investigación directa con datos Ibíd.
Gráfica II.8
Acumulación de frecuencias u ojiva
60
Frecuencia acumulada
50 50
44
40
36
30 30
24
20
13
10
6
0 0
0 8 16 24 32 40 48 56 64 72 80 88 96 104 Xi
Fuente: Investigación directa con datos hipotéticos
55
Utilidad de la representación gráfica de los datos en histogramas, polígonos de frecuencia y ojivas.
Al graficar esta serie de datos se observa a través del histograma o del polígono de frecuencias la
distribución que tienen los datos; algunas veces hay más de ellos a la izquierda, otras veces a la
derecha de una referencia dada que suele ser la media aritmética.
Derivado de lo anterior puede decirse que gráficamente la forma de las curvas o representaciones
de una distribución de frecuencias, puede describirse de dos maneras: en términos de asimetría que
se conoce como dispersión (dirección) y en términos de su picudez (forma) que se conoce como
Kurtosis.
En capítulos posteriores se ilustrará la metodología usada para medir tanto la asimetría como la
Kurtosis de las curvas de frecuencias.
Tabla II.26
Serie de clases abiertas
Tarifa actualizada del impuesto correspondiente al ejercicio de 2001
% Para aplicarse
Límite Límite
Cuota fija $ sobre el excedente del
inferior $ superior $
límite inferior
0.01 5,153.22 0 3%
5,153.23 43,739.22 154.56 10%
43,739.23 76,867.80 4,013.10 17%
76,867.81 106,982.82 12,767.04 32%
106,982.83 215,769.06 18,407.70 33%
215,769.07 629,030.10 54,307.20 34%
629,030.11 1,887, 090.18 194,815.74 35%
1,887,090.19 2,516,120.46 635, 136.96 37.50%
2,516,120.47 en adelante 871,023.24 40%
Fuente: Investigación directa con datos de Secretaría de Hacienda y Crédito Público, (SHCP, 2001).
56
Recientemente se detectó que INEGI también decidió olvidarse del enfoque ortodoxo (Regla de
Sturges) para clasificar la información y usar en su lugar, un enfoque enteramente pragmático,
también de intervalos de clases abiertas y con amplitud variable de los mismos como el siguiente del
año 2012
Tabla II.27
Antigüedad de los micronegocios en México
Antigüedad de estos negocios Número de empresas %
Menos de 1 año 970,888 10.6
De 1 a 2 años 1,379,778 15
De 3 a 5 años 1,624,911 17.7
De 6 a 10 años 1,728,076 18.8
De 11 a 15 años 1,054,939 11.4
De 16 a 20 años 846,871 9.2
De más de 20 años 1,544,966 16.8
No especificado 42,061 0.5
Total 9,192,490 100
Fuente: Investigación directa con datos del Instituto Nacional de Estadística y Geografía, (INEGI, 2012)
Tabla II.28
Serie de clases abiertas
Crédito al salario - artículo 115°
Con ingreso desde Hasta (ingreso) Crédito al salario
$0.01 $1,768.96 $407.02
$1,768.97 $2,653.38 $406.83
$2,653.39 $3,472.84 $406.62
$3,472.85 $3,537.87 $392.77
$3,537.88 $4,446.15 $382.46
$4,446.16 $4,717.18 $354.23
$4,717.19 $5,335.42 $324.87
$5,335.43 $6,224.67 $294.63
$6,224.68 $7,113.90 $253.54
$7,113.91 $7,382.33 $217.61
$7,382.34 ... y más $0.00
Fuente: Investigación directa con datos del Cuadro 4.1 y 4.2 de indicadores estratégicos de ENAMIN 2012,
INEGI, 2013.
En general, se ha observado que en la práctica se acostumbra ordenar o agrupar los datos en las
formas anteriores, apoyándose en las recomendaciones de Huntsberger ( 1983).
Caso 1. Un caso demográfico útil en economía porque ayuda a hacer estimaciones y determinar
mercados de consumo, es el siguiente:.
El Instituto Nacional de Geografía y Estadística (INEGI) generó un intervalo de clases abiertas con
una amplitud variable para las edades de la población censada en México en el año 2010. INEGI no
57
menciona ningún criterio para determinar dichos intervalos de edades. Sin embargo, es posible
observar que dicho intervalo es de clases abiertas y amplitud variable. Posiblemente se elaboró de
esta forma porque es más fácil el manejo de datos. Con este ejemplo se continúa verificando que los
datos suelen agruparse de manera práctica: según los objetivos del investigador.
Tabla II.29
Grupos de población por edades y sexo
Total Hombres Mujeres
Total 84,927,468 40,947,872 43,979,596
De 12 a 14 Años 6,504,132 3,291,591 3,212,541
De 15 a 19 Años 11,026,112 5,520,121 5,505,991
De 20 a 24 Años 9,892,271 4,813,204 5,079,067
De 25 a 29 Años 8,788,177 4,205,975 4,582,202
De 30 a 34 Años 8,470,798 4,026,031 4,444,767
De 35 a 39 Años 8,292,987 3,964,738 4,328,249
De 40 a 44 Años 7,009,226 3,350,322 3,658,904
De 45 a 49 Años 5,928,730 2,824,364 3,104,366
De 50 a 54 Años 5,064,291 2,402,451 2,661,840
De 55 a 59 Años 3,895,365 1,869,537 2,025,828
De 60 a 64 Años 3,116,466 1,476,667 1,639,799
De 65 a 69 Años 2,317,265 1,095,273 1,221,992
De 70 a 74 Años 1,873,934 873,893 1,000,041
De 75 a 79 Años 1,245,483 579,689 665,794
De 80 a 84 Años 798,936 355,277 443,659
85 y Más Años 703,295 298,739 404,556
Fuente: Censo de población y vivienda 2010. INEGI.
Caso 2. La tabla II.20 muestra la retención del impuesto sobre la renta, hecha por CONTAMEX.
Como se puede ver, los intervalos de clases abiertas y amplitud variable no especifican el método
para obtener estos intervalos de clases pero se infiere que los datos fueron clasificados de manera
práctica.
Tabla II. 30
Ley del Impuesto Sobre la Renta (L.I.S.R) Válidas para periodo: mensual-febrero de 2014
Impuesto sobre el valor agregado (ISR) (artículo 113°)
% Excedente del límite
Límite inferior Límite superior Cuota
inferior
$0.01 $496.07 $0.00 1.92%
$496.08 $4,210.41 $9.52 6.40%
$4,210.42 $7,399.42 $247.24 10.88%
$7,399.43 $8,601.50 $594.21 16.00%
$8,601.51 $10,298.35 $786.54 17.92%
$10,298.36 $20,770.29 $1,090.61 21.36%
$20,770.30 $32,736.83 $3,327.42 23.52%
$32,736.84 $62,500.00 $6,141.95 30.00%
$62,500.01 $83,333.33 $15,070.90 32.00%
$83,333.34 $250,000.00 $21,737.57 34.00%
$250,000.01 ... y más $78,404.23 35.00%
Fuente: CONTAMEX http://www.contamex.com/info_oficial/tablas_isr.php, 2014
58
Caso 3. En este ejemplo se presenta todo el proceso para agrupar los datos, mismo que ilustra el uso
de los conceptos utilizados para ordenar los datos de un fenómeno en estudio. Así, sean los datos
dispersos siguientes:
Tabla II.31
Datos dispersos 𝑋𝑖
3 13 8 5 14 10 5 6 14 18
1 10 13 14 2 10 11 6 19 9
10 9 2 9 6 14 10 10 6 5
17 6 17 13 8 18 19 9 8 17
11 9 11 13 9 8 6 3 11 5
Fuente: Investigación directa con datos hipotéticos
Estos datos como aparecen en desorden no pueden analizarse ni interpretarse, para ello es
recomendable ordenarlos en forma creciente, dando origen a una serie simple. Ahora bien si se
agrupan conforme se repiten los términos, ello da lugar a una serie de frecuencias.
Tabla II.32
Serie de frecuencias
(𝑋𝑖 ) 1 2 3 5 6 8 9 10 11 13 14 17 18 19 ∑ 𝑓(𝑋𝑖 )
𝑓(𝑋𝑖 ) 1 2 2 4 6 4 6 6 4 4 4 3 2 2 50
Fuente: Investigación directa con datos hipotéticos
Esta serie de frecuencias de la tabla II.22 puede convertirse en una serie de intervalos clases y
frecuencias considerando 5 clases, como se ilustra a continuación aplicando los pasos antes
descritos:
Con ello se puede construir la serie siguiente de clases y frecuencias: absolutas y relativas:
Tabla II.33
Serie de clases y frecuencias absolutas y relativas
Clases 𝐹𝑖 𝐹𝑖 Relativa (%) 𝑃𝑀𝑖
De 1 a 4.6 5 5/50*100 = 10 2.8
De más de 4.6 a 8.2 14 14/50*100 = 28 6.4
De más de 8.2 a 11.8 16 16/50*100 = 32 10
De más de 11.8 a 15.4 8 8/50*100 = 16 13.6
De más de 15.4 a 19 7 7/50*100 = 14 17.2
Total 50 50/50*100 = 100
Fuente: Investigación directa con datos hipotéticos
Las frecuencias relativas son muy importantes en economía por que permiten conocer la
ponderación o importancia de los datos comprendidos en cada clase, además de que constituye la
59
base o introducción de la probabilidad en el análisis económico, cuando el polígono de frecuencias
se cierra (Yamane, 1974).
Gráfica II.9
fa
Observación: La curva tiende a ser simétrica o normal aún con pocos datos. La identificación de esta
característica es muy importante, ya que permite calcular medidas estadísticas para ampliar al
análisis de un fenómeno económico, como se verá posteriormente, haciendo o corroborando que la
estadística es un apoyo significativo para estudiar el comportamiento y caracterización estadística de
los fenómenos económico.
Estas características son comunes a todas las distribuciones, no importa el área de investigación de
donde provengan, siempre habrá una concentración máxima de términos, y éstos habrán de mostrar
variaciones, algunas veces pequeñas y otras veces variaciones significativas entre sí.
Las principales medidas usadas para tal propósito son: Las de tendencia central para medir la
acumulación o concentración alrededor de cierto valor, y las medidas de dispersión que sirven para
medir la variación de los términos con respecto a una medida de la tenencia central.
60
II.5.1 Medidas de tendencia central
Sabiendo que un cuadro estadístico indica cómo están clasificados en forma ordenada los
elementos de una población o muestra y que su representación gráfica pueda ser con el histograma
o polígono de frecuencias, con ellos se comprueba que hay valores que se presentan más seguido y
otros que ocurren con menos frecuencia, entonces los valores más característicos o de máxima
frecuencia están por lo general en la parte central de las distribuciones. Esta concentración se mide
con las medidas de tendencia central, (Croxfon Cowden: 1964).
Alcance de estas medidas: con base en las diferentes definiciones de estadística, en esta sección es
conveniente para el análisis de datos trabajar con la definición de estadística descriptiva, en su
acepción parámetrica en virtud de que con su metodología se pueden identificar, obtener, clasificar,
computar, analizar e interpretar los datos de un fenómeno bajo estudio, lo cual es precisamente el
objetivo del análisis de datos, ya que con este procedimiento se logra caracterizarlo, es decir,
destacar sus aspectos relevantes para actuar tomando decisiones correctas y oportunas sobre el
fenómeno en estudio.
Entre las medidas de tendencia central se indica que las más usadas son la media aritmética, la media
armónica, la media geométrica, la mediana, el centro recorrido y la moda.
Al respecto, su representación simbólica para poblaciones se utilizará letras del alfabeto griego y
para muestras, las del alfabeto latino.
Ejemplo 7: Sean los términos 1, 5, 2, 9, 7, 8, 5, 3; que, como puede observarse, son datos no
agrupados. Así, con base en su definición, si su valor resulta ser 5 con el que se comprueba lo antes
dicho:
1 + 5 + 2 + 9 + 7 + 8 + 5 + 3 = 40, se obtiene la
40
𝑥̅ = =5
8
5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 = 40
61
Esta verificación sirve de referencia para obtenerla. Así, generalizando a través del algebra, se dice
que la media aritmética se calcula de la siguiente manera: se suman todos y cada uno de los valores
de los datos; esta suma se divide por el número total de datos sumados. Ejemplo; en una muestra,
sea la sucesión cuyos términos son las siguientes (𝑥𝑖) :
𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 donde i= 1,2,3,……n
𝑥̅ + 𝑥̅ + 𝑥̅ + 𝑥̅ + 𝑥̅ … + 𝑥̅ = 𝑥1 + 𝑥2 + 𝑥3 … + 𝑥𝑛
𝑛𝑥̅ = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
∑𝑛
𝑖=1 𝑥𝑖
Despejando la igualdad anterior se obtiene la media aritmética: 𝑥̅ = 𝑛
, en otras palabras,
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑥̅ =
𝑛
Con base a esta demostración también se puede obtener la media aritmética de una sucesión de
frecuencias clasificadas.
Para una sucesión de frecuencias en una muestra la media aritmética está dada por:
∑𝑛𝑖=1 𝑥𝑖 𝐹𝑖
𝑥̅ =
𝑛
∑𝑁
𝑖=1 𝑥𝑖 𝐹𝑖
Para una población: μ= 𝑁
Donde Fi indica la frecuencia con que aparece cada término, donde i = 1,2,…, n para la muestra. Para
la población i toma valores hasta N.
En una población, la fórmula sufre una transformación al sustituir el valor de Xi por la marca de clase
correspondiente de cada intervalo, que se constituye en una constante que es afectada por su
∑𝑁
𝑖=1(𝑃𝑀𝑖) 𝐹𝑖
correspondiente frecuencia, que es la que la pondera: μ= 𝑁
62
Propiedades de la Media Aritmética
Demostración algebraica
∑ 𝑥𝑖 38
Se calcula su media 𝑥̅ = = = 7.6
𝑛 5
𝐴 = 𝑥̅
Demostración.
∑(𝑥𝑖 − 𝐴)2 = 𝑄(𝑥1 , 𝑥2 , … 𝑋𝑛 ; 𝐴)
28
𝑥̅ = ∴ 𝑥̅ = 5.6
5
Se tiene
= (3 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2 + (7 − 5)2
= 4 + 1 + 1 + 9 + 4 = 19
Cuando 𝐴 > 𝑥̅ ; 𝐴 = 6
63
Se tiene
= (3 − 6)2 + (4 − 6)2 + (6 − 6)2 + (8 − 6)2 + (7 − 6)2
= 9 + 4 + 0 + 4 + 1 = 18
Cuando A x ; A = 5.6
Conforme a lo anterior se confirma que el valor mínimo (17.20) sólo se obtiene para el valor de A=
5.6, ya que las otras sumas son mayores: 18 19, respectivamente.
3. El promedio aritmético por el número de términos es igual a la suma de los valores de los
términos.
Demostración.
1
Como 𝑥̅ = 𝑛 ∑ 𝑥𝑖 → 𝑛𝑥̅ = ∑ 𝑥𝑖
𝑛𝑥̅ = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑛𝑥̅ = ∑𝑛𝑖=1 𝑥𝑖
20
𝑥̅ = =4 𝑛=5
5
Se tiene: 4(5) = 3 + 5 + 6 + 4 + 2
20 = 20
1. Su cálculo es sencillo.
2. Con su valor y el número de términos se puede calcular la suma de todos los valores de los
términos.
3. Puede calcularse conociendo solamente la suma y el número de todos los términos de la
serie.
Desventajas de la media aritmética
64
Mediana (Md)
Se define como el valor central que divide una distribución de datos en dos partes iguales, siempre
y cuando los datos estén ordenados en forma creciente o decreciente.
Así, para localizar la mediana con datos discretos se utiliza la fórmula siguiente en el caso de una
serie simple, si los datos son:
1, 2, 3, 4, 5, entonces con base en la definición se tiene que el término 3 contiene a la mediana, que
en este caso su valor coincide con el 3.
𝑀𝑑 = 𝑛 + 1/2 = 5+1/2=3
Tabla II.34
Cálculo de Md en una serie de frecuencias
𝒙𝒊 𝑭𝒊 𝑭𝒊 Acumulada
2 5 5
3 6 11
4 3 14
5 3 17
Total 17
Fuente: Elaboración propia con datos hipotéticos
Pasos:
∑ 𝐹𝑖 +1
1. No. de orden o términos = 2
17 + 1 18
𝑁𝑜 = = =9
2 2
2. Indicando que el término noveno es el que contiene a la mediana. Para conocer el valor de
la mediana se acumularán las frecuencias hasta encontrar el número 9 que corresponde al
término 3, por consiguiente la 𝑀𝑑 = 3.
Lo anterior se puede comprobar abriendo la serie de frecuencias en una serie simple, esto es: 2, 2,
2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5; así, si 𝑁𝑜 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑟𝑑𝑒𝑛 𝑑𝑒 𝑙𝑎 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑛 +
18
1/2 = 17 + 1/2 = 2
= 9, entonces la Md = 3, que es el término que divide a la serie en dos partes
iguales..
Para obtener la Md a partir de una serie de intervalos de clases y frecuencias se usa la fórmula:
𝑛
−𝐶
𝑀𝑑 = 𝐿𝑖 + 2 (𝑖)
𝐹𝑖
Donde:
65
𝑀𝑑 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎
𝐿𝑖 = 𝐿í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎;
n = Número de términos o s𝑢𝑚𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠;
𝐶 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑙𝑎 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
𝐹𝑖 = 𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑡𝑖𝑒𝑛𝑒 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎.
𝑖 = 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑖𝑒𝑛𝑒 𝑙𝑎 𝑀𝑑.
Tabla II.35
Tabulaciones para obtener Md en una serie de clases y frecuencias
Clases 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 *𝐹𝑖 𝐹𝑖 − 𝑚𝑒𝑑𝑖𝑎 𝐹𝑖 𝐴𝐶
1 y menos de 3 2 5 10 0.07 5
3 y menos de 5 4 2 8 -3.93 7
5 y menos de 7 6 4 24 -1.93 11
7 y menos de 9 8 4 32 -1.93 15
Total 15 74
Fuente: Investigación directa con datos hipotéticos
Pasos:
∑ 𝐹𝑖 +1 15+1
1. Se obtiene el número de orden que contiene a Md 𝑁𝑜 = 2
= 2
=8
15
−7 7.5 − 7
𝑀𝑑 = 5 + 2 (2) = 5 + (2) = 5 + 0.125 (2) = 5 + 0.25 = 5.25
4 4
Se obtiene a partir de la ojiva, ordenando los datos con base a "menor de" "mayor de" o "más de".
Si se ordenan los datos con base a "menor de" se obtiene lo siguiente:
Tabla II.36
Tabulaciones para obtener Md para una serie de clases y frecuencia
Clase 𝐹𝑖 Acumulada
Menos de 1 0
Menos de 3 5
Menos de 5 7
Menos de 7 11
Menos de 9 15
Fuente: Investigación directa con datos hipotéticos
66
Gráfica II.10
Ojiva de la distribución Tabla II.26
Curva de frecuencias acumuladas
20 15
Frecuencia acumula
15 11
10 7
5
5 0
0
Menos de 1 Menos de 3 Menos de 5 Menos de 7 Menos de 9
Clase
Md = 5.255
La moda se define como el valor de máxima frecuencia o dicho en otras palabras, la moda es el
término que más aparece o se repite en una distribución de datos de un fenómeno en estudio. Se
utilizará para representarla al símbolo Mo.
Ejemplo 9:
Datos: 1, 2, 2, 2, 3, 4.
Mo = 2 porque es el término que más se repite.
5
En la gráfica II.6 se muestra el punto Md, con un valor de 5, esto se debe a que Excel redondea la cifra, no
permite ajustar el gráfico.
67
Tabla II.37
Tabulaciones para obtener Mo
𝒙𝒊 10 11 12 13
𝑭𝒊 6 40 2 1
Fuente: Investigación directa con datos hipotéticos.
En el caso de una serie de intervalos de clases y frecuencias, como la siguiente se debe de calcular
las marcas de clase y la moda se puede obtener calculando la marca de clase de máxima frecuencia.
A este método se le denomina “corto”. También se puede usar la fórmula de interpolación que se
describe a continuación:
Tabla II.38
Tabulaciones para obtener Mo
Clases 𝐹𝑖
1 y menos de 3 5
3 y menos de 5 2
5 y menos de 7 4
7 y menos de 9 4
Total 15
Fuente: Investigación directa con datos hipotéticos.
Partiendo de la definición de Mo, se observa que Mo está contenida en la clase "1 y menos de 3".
Su valor exacto se determina con la fórmula de interpolación siguiente:
𝑑1
𝑀𝑜 = 𝐿𝑖 + (𝑖)
𝑑1 + 𝑑2
Donde:
Mo= Moda
Luego:
5
𝑀𝑜 = 1 + 5+3 (2) 𝑑1 = 5 − 0 = 5
10
𝑀𝑜 = 1 + 8
= 2.25 𝑑1 = 5 − 2 = 3
𝑀𝑜 = 2.25
Multimodas:
68
Hay ocasiones en que en un conjunto de datos o en una distribución de datos de intervalos de clases
y frecuencias aparecen dos valores de máxima repetición a las que se conoce como bimodal; cuando
aparecen más de dos, se considerará como una distribución multimodal. Esto en la práctica se
presenta en el análisis empresarial y particularmente en casos en mercadotecnia. En estos casos la
moda no debe ser considerada como medida de tendencia central aun cuando despierte interés en el
investigado con fines económicos más que estadísticos. Esta medida es considerada por excelencia
para el estudio de poblaciones o muestras de naturaleza discreta.
Uno de los procedimientos alternos o métodos para identificar las modas es ver que la frecuencia
que le antecede sea menor y la que le siga también. Este procedimiento se aplica cuando el
investigador desea identificar los valores más representativos de un arreglo numérico. Así, sean los
datos:
Tabla II.39
Obtención de Mo usando frecuencias
𝒙𝒊 2 3 4 5 6 7 8 9
𝑭𝒊 1 10 3 4 7 2 3 1
Fuente: Investigación directa con datos hipotéticos.
𝑀𝑜 = 3 𝑀𝑜 = 6 𝑀𝑜 = 8
En este caso se obtiene una situación multimodal, que, se reitera, en algunas situaciones es útil
conocerla.
Centro recorrido
Esta medida es uno de los promedios generalmente omitidos u olvidados por los estudiosos de la
estadística por la simplicidad de su cálculo pero desdeñando la utilidad que dicho promedio tiene.
Para representarlo se utilizan las letras CR y se define como el promedio aritmético de los valores
extremos de un conjunto de datos. Su fórmula es:
Este valor es igual a la media aritmética, a la moda y a la mediana para distribuciones normales o
simétricas.
69
II.5.1.2.1 Relación entre la media aritmética, la moda y la mediana. Planteamiento inicial
Esta relación se establece con el fin de conocer su calidad o robustez como estimadores de los
datos, observaciones o mediciones de una distribución determinada (Kazmier: 1967), la cual se
gesta y expresa de acuerdo con los criterios matemático y empírico que se utilizarán. Así, primero
se describirá el criterio matemático y la forma en que es satisfecho por cada una de estas tres
medidas de tendencia central y, posteriormente, se verá cómo sus valores difieren sistemáticamente
entre sí debido a diversas distribuciones que adoptan los datos. En este contexto se dice que el
criterio matemático para determinar un “buen promedio” que satisface la media se expresa como
Ne= mínimo, el que puede interpretarse así: cuando se usa la media como el mejor estimador del
valor de cada medición en una distribución de mediciones, el número (N) de errores (e) es un
mínimo. En otras palabras, se dice que la media es la mejor medida de tendencia central porque
produce el menor número de errores, cuando se usa como el mejor estimador de cada medición en
un grupo o distribución de mediciones u observaciones.
Por otra parte, si ahora se toma como criterio la magnitud de cada error dentro del criterio
matemático, se dice que si se denomina a “𝑒” como la suma de los errores sin considerar su
dirección o signo algebraico, y si se desea minimizar la suma de errores en que se incurre al estimar
el valor de cada medición u observación, el criterio matemático se expresa como 𝛴𝑒 = 𝑚í𝑛𝑖𝑚𝑜,
que sólo la media lo satisface. Lo anterior significa que si se usa otra medida de tendencia central
para calcular cada estimación, la suma de los valores absolutos de los errores sería mayor que la
suma de los errores obtenidos cuando se usa la mediana como estimador.
Ahora bien el tercer criterio que deben satisfacer los “mejores” estimadores, es aquel en que la
suma de errores al cuadrado sea un mínimo, que por cierto, como ya se vio en páginas anteriores,
sólo lo satisface la media aritmética; se representa por 𝛴𝑒 2 = 𝑚í𝑛𝑖𝑚𝑜, que es muy importante en
el análisis estadístico, en especial en el análisis de regresión (relación de asociación o de
causalidad), campo en el que se le conoce como el criterio de “mínimos cuadrados”.
Al utilizar el criterio empírico, se observa que la media aritmética es la más afectada por la adición
de datos en cualquier extremo de la distribución, que ya fue descrita como una desventaja en
páginas anteriores.
Derivado de lo anterior puede decirse que según sea la distribución de los datos es que habrá
distribuciones simétricas de datos, de sesgo positivo y de sesgo negativo, mismas que se estudiará
más adelante con las medidas de asimetría y kúrtosis. Por el momento se dirá que en una
distribución simétrica se obtiene 𝑀𝑜 = 𝑀𝑑 = 𝑥̅ = 𝑐𝑒𝑛𝑡𝑟𝑜 𝑟𝑒𝑐𝑜𝑟𝑟𝑖𝑑𝑜.
Ejemplo: sea la siguiente distribución de datos, mismos que utilizan al número A como referente
para ver la dirección y forma que adopta dicha distribución de los datos de un fenómeno en estudio
y, por consiguiente para demostrar que 𝑀𝑜 = 𝑀𝑑 = 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎:
70
Tabla II.40
Ejemplo de las igualdades anteriores.
Clases 𝐹𝑖 𝑃𝑀𝑖 𝑃𝑀𝑖 − 𝐴 𝐹𝑖 (𝑃𝑀𝑖 − 𝐴)
2 y menos de 4 2 3 -4 -8
4 y menos de 6 3 5 -2 -6
6 y menos de 8 5 7 0 0
8 y menos de 10 3 9 2 6
10 y menos de 12 2 11 4 8
Total 15 0 0
Fuente: Investigación directa con datos hipotéticos.
Se establece que si 𝐴 = 7
∑ 𝐹𝑖 ∗ (𝑃𝑀𝑖 − 𝐴) 0
𝑥̅ = 𝐴 + =𝐴+ =7
∑ 𝐹𝑖 15
𝑁 15
2 −𝐶 −5
𝑀𝑑 = 𝐿𝑖 + (𝑖) == 6 + 2 (2) = 7
𝐹𝑖 5
𝑑1 2
𝑀𝑜 = 𝐿𝑖 + (𝑖) = 6 + (2) = 7
𝑑1 + 𝑑2 2+2
𝑀𝑜 = 𝑀𝑑 = 𝑥̅ = 7
Gráfica II.11
Ilustración de un Histograma y Polígono de frecuencias de una
distribución simétrica donde 𝑀𝑜=𝑀𝑑=𝑥 ̅
6
5
Frecuencia
4
3
2
1
1 3 5 7 9 11 13
0
2 y menos de 4 y menos de 6 y menos de 8 y menos de 10 y menos de
4 6 8 10 12
Clase y P.M
Puede concluirse diciendo que la relación entre estas tres medidas de tendencia central es indicativa
de la dirección y extensión del alejamiento de los datos de la distribución, de la simetría.
Con base en lo anterior puede preguntarse, entonces ¿Cuál de las tres representa el mejor “valor
medio”? La respuesta dependerá de si, o no, la distribución está sesgada, así como del uso que se
pretenda dar a ese valor.
71
A continuación se presentan otras dos medidas de tendencia central:
Su definición (Blalock, 1966:76) la da la fórmula que se obtiene del siguiente planteamiento. “Es
un valor tal, que multiplicado ese valor tantas veces como el número de términos, resulta un
producto igual al producto de los valores de los términos de la serie dada”. En el caso de datos de
una serie simple:
Luego 𝑀𝑔𝑛 = 𝑥1 , 𝑥2 , … , 𝑥𝑛
Despejando 𝑀𝑔 = 𝑛√𝑥1 ∗ 𝑥2 ∗ 𝑥3 ∗ … ∗ 𝑥𝑛
Igualdad que dice: el promedio geométrico de una serie simple es igual a la raíz que tiene como
índice el número de términos, del producto de los valores de los términos de la serie.
Como 𝑀𝑔 = 5√248,832 = 12
𝑀𝑔 = 𝑛√𝑥1 ∗ 𝑥2 ∗ 𝑥3 ∗ … ∗ 𝑥𝑛
𝑀𝑔𝑛 = 𝑥1 ∗ 𝑥2∗ … ∗ 𝑥𝑛
Conviene decir que se usan logaritmos para simplificar la magnitud de las cifras cuando dichos
cálculos se realizan manualmente con el auxilio de una calculadora simple. No obstante desde el
punto de vista pedagógico, es conveniente que los alumnos tengan este conocimiento, que les
permite poder desarrollar estos cálculos en ausencia de las nuevas tecnologías.
Tomando logaritmo
𝑛 ∗ log(𝑀𝑔) = log 𝑥1 + log 𝑥2 + ⋯ log 𝑥𝑛
Luego entonces:
∑ log 𝑥𝑖
log(𝑀𝑔) =
𝑛
∑ log 𝑥𝑖
Así, la Mg= Antilogaritmo de 𝑛
∑ log 𝑥𝑖
log(𝑀𝑔) =
𝑛
Tabla II.41
Tabulaciones
𝑥𝑖 Log 𝑥𝑖
1 0
20 1.30103
7 0.8451
30 1.47712
18 1.25527
Total 4.87852
Fuente: Investigación directa con datos hipotéticos.
Sustituyendo
4.87852
𝐿𝑜𝑔 𝑀𝑔 = = 0.975704
5
En virtud de que muchos estudiantes olvidan el cálculo del antilogaritmo, es prudente mostrar
enseguida la manera como se obtiene:
Si se sabe que el logaritmo de un número (𝑥) es el exponente (𝑛) al cual debe elevarse la base (𝑏)
para obtener dicho número (𝑥), entonces, por ejemplo si se tiene que LOG10 1000=3 porque 1000=
103; luego entonces el antilogaritmo10 de 3 = 103.
73
Para fines prácticos es preferible calcular el logaritmo de la media geométrica y luego el
antilogaritmo de ésta.
Cálculo de Mg
Tabla II.42
Tabulaciones en una serie de frecuencias
𝑥𝑖 𝐹𝑖 Log 𝑥𝑖 𝐹𝑖 Log 𝑥𝑖
12 3 1.0792 3.2375
10 6 1 6
15 9 1.1761 10.5848
20 12 1.301 15.6124
22 7 1.3424 9.397
Total 37 44.8317
Fuente: Investigación directa con datos hipotéticos.
∑ 𝐹𝑖 ∗ log 𝑥𝑖
log(𝑀𝑔) =
∑ 𝐹𝑖
44.8313
log(𝑀𝑔) = = 1.2116567
37
Cuadro II.43
Tabulaciones en una serie de clases y frecuencias
Clases 𝐹𝑖 𝑃𝑀𝑖 Log 𝑃𝑀𝑖 𝐹𝑖 Log 𝑃𝑀𝑖
De 10 a menos de 20 5 15 1.1761 5.8805
De 20 a menos de 30 6 25 1.3979 8.3876
De 30 a menos de 40 7 35 1.5441 10.8085
Fuente: Investigación directa con datos hipotéticos.
74
II.5.1.4 Media Armónica (Ma)
Esta es otra medida de tendencia central que se determina dividiendo el número total de valores por
la suma total de los recíprocos de Xi. También la Media Armónica es igual al número de sus
términos divididos entre la sumas de los recíprocos de ellos.
𝑛
𝑀𝑎 =
1
∑
𝑥𝑖
Donde:
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
𝑥𝑖 = 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑖 − é𝑠𝑖𝑚𝑎
Por consiguiente su cálculo en una serie simple de datos se efectúa de la siguiente manera:
Ejemplo: Para una serie simple de datos sean los cinco términos de la serie: 1, 2, 3, 4, 5
𝑛 5
𝑀𝑎 = = = 2.192
1 2.28
∑
𝑥𝑖
Tabla II.44
Tabulaciones para obtener Ma
𝒙𝒊 1/𝒙𝒊
1 1
2 0.5
3 0.3
4 0.3
5 0.2
15 2.28
Fuente: Investigación directa con datos hipotéticos.
Pasos:
Tabla II.45
Tabulaciones para obtener 𝑀𝑎
𝑥𝑖 𝐹𝑖 1/𝑥𝑖 𝐹𝑖 ∗ (1/𝑥𝑖 )
3 1 0.33 0.33
4 2 0.25 0.5
2 3 0.5 1.5
5 4 0.2 0.8
Total 10 3.13
Fuente: Investigación directa con datos hipotéticos.
75
𝑛 ∑ 𝐹𝑖 10
𝑀𝑎 = = 𝑀𝑎 = = 3.194
1 𝐹 3.13
∑ 𝑓 ∑ 𝑖
𝑥𝑖 𝑥𝑖
Ahora, en una serie de intervalos de clases y frecuencias:
Tabla II.46
Tabulaciones para obtener Ma
Clases 𝐹𝑖 𝑃𝑀𝑖 𝐹𝑖 /𝑃𝑀𝑖
De 1 a 2 2 1.5 1.33
De más de 2 a 4 3 3 1
De más de 4 a 6 4 5 0.8
De más de 6 a 8 1 7 0.14
Total 10 3.27
Fuente: Investigación directa con datos hipotéticos.
∑ 𝐹𝑖 ∑ 𝐹𝑖 10
𝑀𝑎 = = 𝑀𝑎 = = 3.05
𝐹𝑖 1 3.27
∑ ∑
𝑃𝑀𝑖 𝑃𝑀𝑖 𝐹𝑖
Estas medidas también llamadas de posición guardan una estrecha relación entre ellas sobre todo
cuando se trata de utilizar modelos estadísticos como la distribución normal donde la moda, la
mediana y el centro recorrido son iguales a su media aritmética, con lo cual se determina la
existencia de simetría. Así mismo, cuando dichas medidas difieren, nos indican la existencia de
modelos asimétricos, ya sean de sesgo positivo o negativo. Igualmente, son la base para la
determinación de las fórmulas de asimetría creadas por Karl Pearson, quien utiliza la relación del
promedio aritmético con la moda para su primer coeficiente y con la mediana para su segundo
coeficiente de asimetría.
Por lo que respecta a la media geométrica y la armónica se presenta una relación interesante al ser la
media aritmética mayor que la media geométrica y esta as u vez, mayor que la media armónica,
relación que tiene su excepción sólo cuando todos los valores sobre las cuales se calculan sean
iguales.
76
Al respecto, es importante recordar que una vez que se han clasificado los datos, el analista detecta
algunos aspectos fundamentales de las series estadísticas; sin embargo enseguida es aconsejable
calcularles varias medidas de tendencia central con el fin que caractericen estadísticamente mejor
las distribuciones de datos que se están estudiando. Así por ejemplo, una vez obtenidas la media
aritmética, la mediana y la moda de la distribución de los datos de un fenómeno en estudio, éstas se
grafican e identifican las relaciones siguientes entre ellas. Dentro de las relaciones conviene
enfatizar:
a) Cuando X = Mo = Md, se dice que la distribución de los datos es simétrica, en cuyo caso las
tres toman el mismo valor y esta relación entre ellas indica que igual número de datos (50%) se
distribuye a la izquierda como a la derecha del valor central (en que X = Mo = Md) de la serie
estadística. Dicha relación gráficamente se ve así:
Gráfica II.12
Distribución Simétrica
b) Cuando sus valores son distintos ello indica que los datos no se distribuyen simétricamente en
torno al centro de la curva e indica que la mayoría de ellos se distribuye o sesga ya sea hacia la
izquierda o a la derecha del valor central de la serie. Cuando 𝑀𝑜 < 𝑀𝑑 < 𝑥̅ se habla de una curva
con sesgo positivo, lo cual indica que la mayoría de los datos se localizan a la derecha de la moda,
que el valor de la mediana es mayor y que la media aritmética toma el mayor valor porque es
afectada por los valores de los términos extremos de la serie, en este caso los del lado derecho que
ostentan los valores más altos de la serie, tal que su dirección gráficamente es la siguiente:
Gráfica II.13
Sesgo positivo
𝑴𝒐 < 𝑴𝒅 < 𝒙
̅
77
c) Cuando se detecta la siguiente relación 𝑥̅ < 𝑀𝑑 < 𝑀𝑜 se dice que los datos tienen un sesgo
negativo lo cual revela que la mayoría de los datos de la serie se localizan en el lado izquierdo de la
curva y que por esa razón la mediana ahora tiene un valor menor que el de la moda y, la media
aritmética, es la que menos vale dado que al ser afectada por los valores de los términos extremos,
estos, aquí los de la izquierda, tienen los valores más pequeños. Gráficamente:
Gráfica II.14
Sesgo negativo
̅ < 𝑴𝒅 < 𝑴𝒐
𝒙
Resumen de estas relaciones: La importancia de estas relaciones radica en que revelan que los
valores que toman en los diferentes puntos de la curva, gráficamente constatan la definición y valor
de cada una de ellas. Por ejemplo, la Moda en una distribución de datos con sesgo negativo toma el
valor más alto porque ella ha sido definida como el valor de máxima frecuencia; en este caso el de
la mediana es menor pero sigue siendo de acuerdo con su definición, el valor central de la serie y, la
media aritmética, todavía es aún menor que las dos anteriores, debido a que su valor es
influenciado significativamente por los de los términos de la izquierda de la serie estadística, de
manera que de acuerdo con su definición: el valor representativo de todos los datos es la media
aritmética, efectivamente ello se constata gráficamente.
Cabe resaltar que la media aritmética, la media geométrica y la armónica se calculan con fórmulas
algebraicas, lo que facilita su manejo conforme las propiedades del algebra, a diferencia de la moda
y la mediana que son calculadas con fórmulas de interpolación cuando los datos están clasificados
en intervalos de clases y frecuencias.
78
Grafica II.15
Relación X > Mg > Ma.
̅
𝑴𝒂 < 𝑴𝒈 < 𝑿
Práctica I
Nombre:__________________________________________Grupo:_________
Problema 1. Construya usted una serie simple con los siguientes datos, que
representan la estatura de 20 estudiantes de la Facultad de Economía.
1.67, 1.72, 1.54, 1.57, 1.61, 1.61, 1.67, 1.54, 1.57, 1.72
1.85, 1.81, 1.54, 1.61, 1.81, 1.67, 1.81, 1.67, 1.61, 1.67
4 5 8 7 6 7 8 9 14 15
7 9 10 8 6 11 0 10 1 3
12 16 12 1 15 15 4 13 0 6
2 3 4 5 16 5 11 6 9 12
9 13 6 10 18 4 14 8 9 13
11 6 8 12 4 20 17 10 7 6
a) A partir de los datos anteriores, señale cuál es el número de hijos que se presentan con
mayor frecuencia en las familias campesinas y emita su opinión al respecto.
b) Considerando que uno de los objetivos del pasado régimen era el control de la natalidad,
y se pensaba que como resultado de esa campaña, el promedio de hijos entre las familias
sería menos de 5, considere la información y señale qué porcentaje de ellas no cumplieron
con el objetivo. Realice un análisis al respecto.
79
Práctica II
c) Si tomamos esta distribución como un fiel reflejo de la situación que impera en el país
en la actualidad, en la gran mayoría de las industrias, ¿cual debería de ser la política del
Estado en este renglón y porqué?
c) Si el lema de la marca llantera era garantizarlas por mas de 40,000 km, que porcentaje
de la producción no cumple ese requisito.
80
Práctica III.
Resuelva:
a) Ordene los datos anteriores en una serie de clases y frecuencias, de acuerdo al método
de Sturges.
81
Preguntas.
e) ¿Cuándo usar una u otra de los cinco medidas de tendencia central? Explique.
82
II.5.1.6 Trabajando con Excel: medidas de tendencia central
Datos no agrupados
Para ejemplificar el tema se utilizarán las siguientes calificaciones de Estadística, tomadas de una
muestra de 30 alumnos, las cuales son:
Tabla II.47
Calificaciones
8 7 10 10 8
9 6 8 10 9
10 10 9 9 10
10 9 5 7 10
6 5 7 9 7
8 9 7 10 8
Fuente: Investigación directa con datos hipotéticos.
MEDIA ARITMÉTICA
Pasos
1. Colocar en la hoja de cálculo los datos anteriores, en esta ocasión desde la celda A1 hasta la
celda E6, tal como se muestra en el siguiente cuadro.
Cuadro II.20
Calificaciones de 30 alumnos en una hoja de cálculo de Excel
4. Como se muestra en el siguiente cuadro, el resultado aparecerá en la celda G1. De modo tal
que el promedio de la calificación de los 30 alumnos de la materia de estadística es de 8.3.
Cuadro II.22
Resultado de la fórmula PROMEDIO
MEDIANA
Pasos
1. Ahora, para calcular la mediana se posiciona el cursor celda G2/clic y se coloca en 𝑓𝑥/clic.
En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará O seleccionar
una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de abajo se
busca la función MEDIANA/clic y se le da Aceptar/clic.
84
calificaciones de los alumnos al igual que se hizo con la función MEDIANA para obtener la
mediana. Para finalizar se busca Aceptar/clic.
Cuadro II.23
Selección de datos para la fórmula MEDIANA
3. En la celda G3, aparecerá como resultado una mediana de 9 para el caso de las
calificaciones de los 30 alumnos.
MODA
Pasos
Cuadro II.24
Selección de datos para la fórmula MODA.UNO
85
3. En la celda G3, aparecerá como resultado que el valor más repetido dentro de las
calificaciones es el de 10.
MEDIA GEOMÉTRICA
Pasos
Cuadro II.25
Selección de datos para la fórmula MEDIA.GEOM
4. En la celda G4, aparecerá como resultado una media geométerica de 8.1751 de las
calificaciones de los 30 alumnos. Empleando Excel se calcula la Media Armónica,
insertando la función =MEDIA.ARMO, la media armonica que se obtuvo es 7.99.
Como se recordará, las medidas de tendencia central proporcionan información importante, esta no
es suficiente al no indicar el grado de dispersión o variabilidad que tiene los datos, por lo cual para
el análisis estadístico y sobre todo para su uso en economia es indispensable conoicer qué tanto se
alejan las observaciones respecto a su promedio.Esta información se obtiene con las medidas de
dispersión.
86
II.5.2.1 Rango (𝑹)
La medida de dispersión más sencilla que permite visualizar la variación total del conjunto de datos
es el Rango. Su valor se determina por la diferencia existente entre el mayor y el mínimo de los
valores observados. El símbolo que se utiliza para representarlo es R.
R=Xmáxmo - Xmínimo
Ejemplo para su cálculo, en el caso de una muestra sean los siguientes datos: 2, 3, 4, 5, 6, 7, 8, 9
El Rango o Recorrido no refleja en modo alguno la forma de la distribución. y por eso se usa
poco como medida de dispersión. Desviación Media (𝑫𝑴)
El recorrido medio se considera como la medida de dispersión más simple que se determina por el
promedio de la diferencia del valor máximo menos el valor mínimo ( Rango). Se calcula como X
máximo menos X mínimo entre 2. Esta fórmula con sólo dos datos proporciona un promedio de
variabilidad o dispersión de una distribución de datos.
Para los mismos datos del ejemplo anterior, el recorrido medio sería:
Importancia: no es la mejor referencia para explicar la dispersión de los datos con respecto a la
media aritmética, ya que no considera las variaciones reales de los datos. Así, cuando la diferencia
entre el dato y la media aritmética es positiva, ello indica que el valor del primero es mayor que el
de la segunda; cuando es negativa, indica que su valor es menor y, cuando es igual a cero significa
que ambos tienen el mismo valor, es decir, hay cero variaciones.
Definición: Se define como la suma de las desviaciones en términos absolutos de los datos que
integran la serie, respecto a la media aritmética, entre el número de términos de la serie.
Observación: Esto se debe a que la suma de las desviaciones respecto de la media aritmética
siempre es cero, para evitarlo se utilizan valores absolutos.
87
∑ 𝐹𝑖 |𝑥𝑖 −𝑥̅ |
Serie simple de frecuencias 𝐷𝑀 = ∑ 𝐹𝑖
∑ 𝐹𝑖 |𝑃𝑀𝑖 −𝑥̅ |
Serie de intervalos de clases y frecuencias 𝐷𝑀 = ∑ 𝐹𝑖
Tabla II.48
Salarios de 7 trabajadores
𝑥𝑖 |𝑥𝑖 − 𝑥̅ |
22 2
23 1
23 1
24 0
25 1
26 2
27 3
170 10
Fuente: Investigación directa con datos hipotéticos.
Donde:
𝑖 = 22, 23, . . . , 27
170
𝑥̅ = 7
= 24 mil pesos al mes
∑|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛
10
𝐷𝑀 = = 1.42
7
Interpretación: Conforme a los valores extremos la variación se halla entre 22 mil y 27 mil pesos;
con base en la desviación media, el salario promedio de 24 mil pesos y tiene una variación media
de 1.42 miles de pesos.
Serie de frecuencias:
88
Tabla II.49
Serie de frecuencias
𝑥𝑖 |𝑥𝑖 − 𝑥̅ | 𝐹𝑖 𝑥𝑖 𝐹𝑖 𝐹𝑖 |𝑥𝑖 − 𝑥̅ |
22 2 5 110 10
23 1 4 92 4
23 1 2 46 2
24 0 7 168 0
25 1 8 200 8
26 2 2 52 4
27 3 2 54 6
10 30 722
Fuente: Investigación directa con datos hipotéticos.
∑ 𝑥𝑖 𝐹𝑖 722
𝑥̅ = = = 24.07
∑ 𝐹𝑖 30
Cuando los datos aparecen ya ordenados o agrupados en una serie de clases y frecuencias, la
fórmula que debe aplicarse es:
∑ 𝑃𝑀𝑖 ∗ 𝐹𝑖
𝑥̅ =
∑ 𝐹𝑖
∑ 𝐹𝑖 |𝑃𝑀𝑖 − 𝑥̅ |
Luego 𝐷𝑀 =
∑ 𝐹𝑖
Tabla II.50
Temperatura en el mes de mayo
Temperatura en intervalos 𝐹𝑖 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 |𝑃𝑀𝑖 − 𝑥̅ | 𝐹𝑖 |𝑃𝑀𝑖 − 𝑥̅ |
22 y menos de 24 5 23 115 3 15
24 y menos de 26 9 25 225 1 9
26 y menos de 28 10 27 270 1 10
28 y menos de 30 6 29 174 3 18
Total 30 784 52
Fuente: Investigación directa con datos hipotéticos.
Sustituyendo
784 52
𝑥̅ = = 26° 𝐷. 𝑀. = = 1.73°
30 30
89
Interpretación: independientemente de que la información aparezca ordenada en una serie simple,
de frecuencias o de clases y frecuencias, la desviación media permite verificar que la temperatura
no varió mucho en el mes de mayo, ya que en promedio fue de 26 grados, cuando los datos
provenían de una serie de clases y frecuencias y sin embargo, durante los 30 días del mes, en
promedio se observó una variación o dispersión de 1.73 grados con respecto a los 26 grados
centígrados.
Es muy importante recordar que la serie de clases y frecuencias da resultados de menor exactitud
que la simple y la de frecuencias, ya que maneja los puntos medios como valores sustitutos de los
valores originales de la serie.
Importancia: Es la medida de dispersión más utilizada debido a que considera las desviaciones de
todos y cada uno de los valores de los términos con respecto a la media aritmética. Es la medida de
dispersión que expresa en valores originales la variabilidad de cada uno de los términos de la
distribución de frecuencias con respecto a la media aritmética. Así, con ella se demuestran las dos
primeras propiedades de 𝑥̅ .
Definición: Es la raíz cuadrada positiva de la suma de las desviaciones al cuadrado de los valores
observados, respecto a la media aritmética; indica el grado de desviación media que tienen los
términos de la serie con respecto a su media aritmética. Su fórmula en el caso de una muestra es:
∑ 𝑑2 𝑓𝑖
𝑠=√
∑ 𝑓𝑖
Donde: 𝑑 = 𝑋𝑖 − 𝑋̅
Tabla II.51
Calculo de s en una serie simple
𝑋𝑖 𝑑 = 𝑋𝑖 − 𝑋̅ (𝑋𝑖 − 𝑋̅ )2
1 -9 81
2 -8 64
5 -5 25
9 -1 1
11 1 1
13 3 9
14 4 16
25 15 225
80 0 422
Fuente: Investigación directa con datos hipotéticos.
∑ 𝑋𝑖 80
𝑥̅ = = = 10
𝑛 8
90
En una serie de frecuencias:
Tabla II.52
Método para calcular s en una 𝑠𝑒𝑟𝑖𝑒 𝑑𝑒 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠
𝑥𝑖 𝐹𝑖 𝑥𝑖 𝐹𝑖 d 𝑑𝑎2 𝑑2 𝐹𝑖
1 9 9 -1.87 3.5 31.5
2 15 30 -0.87 0.76 11.4
3 29 87 0.13 0.02 0.58
4 10 40 1.13 1.28 12.8
5 7 35 2.13 4.54 31.78
Total 70 201 88.06
Fuente: Investigación directa con datos hipotéticos.
∑ 𝑥𝑖 𝑓𝑖 201
𝑋̅ = = = 2.87
∑ 𝑓𝑖 70
∑ 𝑑2 𝑓𝑖 88.06
𝑠=√ =√ = 1.28
∑ 𝑓𝑖 − 1 69
Tabla II.53
Tabulaciones para obtener s
Intervalos de clase 𝐹𝑖 𝑃𝑀𝑖 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 − 𝑥̅ (𝑃𝑀𝑖 − 𝑥̅ )2 (𝑃𝑀𝑖 − 𝑥̅ )2 𝐹𝑖
De 1.0 a 1.5 inclusive 2 1.25 2.5 -1.69 2.86 5.71
De más de 1.5 a 2.0 5 1.75 8.75 -1.19 1.42 7.08
De más de 2.0 a 2.5 12 2.25 27 -0.69 0.48 5.71
De más de 2.5 a 3.0 28 2.75 77 -0.19 0.04 1.01
De más de 3.0 a 3.5 20 3.25 65 0.31 0.1 1.92
De más de 3.5 a 4.0 14 3.75 52.5 0.81 0.66 9.19
De más de 4.0 a 4.5 3 4.25 12.75 1.31 1.72 5.15
De más de 4.5 a 5.0 1 4.75 4.75 1.81 3.28 3.28
Total 85 250.25 39.05
Fuente: Investigación directa con datos hipotéticos.
Teniendo los datos agrupados en clases y frecuencias, se procede a obtener la media aritmética de
ellos.
∑ 𝑃𝑀𝑖 𝐹𝑖
𝑥̅ =
∑ 𝐹𝑖
91
250.25
𝑥̅ =
85
𝑥̅ = 2.94
Con su valor enseguida se procede a desviar el punto medio con respecto a la media: (𝑃𝑀𝑖 − 𝑥̅ ).
∑(𝑃𝑀𝑖 − 𝑥̅ )2 𝑓𝑖 39.38
𝑠=√ =√
∑ 𝐹𝑖 − 1 84
∑(𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝑛−1
Para una serie de frecuencias
∑ 𝐹𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝐹𝑖 − 1
∑ 𝐹𝑖 (𝑃𝑀𝑖 − 𝑥̅ )2
𝑠2 =
∑ 𝐹𝑖 − 1
Cuando sólo se analiza la variabilidad de los datos con respecto a la media aritmética de la variable,
el coeficiente de variación resulta muy útil para indicar la representatividad de la media con
respecto a otras medidas de dispersión (por ejemplo la mediana, la moda, la media armónica, etc.).
Así, generalmente si el coeficiente de variación es mayor a 10% se sugiere cambiar a otra medida
de tendencia central para medir la variabilidad de los datos de una variable; si es menor, entonces se
dice que su media aritmética es representativa de la concentración de los datos en el centro de la
distribución analizada.
Se define como la razón porcentual entre la desviación estándar y la media aritmética, es decir.
𝑠
𝐶𝑉 = ∗ 100
𝑥̅
92
La razón es conveniente multiplicarla por 100 para expresarla en términos porcentuales.
II.5.3 Ejercicios que relacionan las medidas de tendencia central con las de dispersión, con sus
respuestas correspondientes.
Tabla II.54
Distribución de los datos de un fenómeno en estudio
15 11 10 18 17 14 14 15 16 13
12 12 9 11 14 16 15 14 13 10
13 12 10 12 14 16 15 17 13 10
14 11 11 13 14 16 15 17 13 10
15 11 14 14 14 16 15 17 13 10
Fuente: Investigación directa con datos hipotéticos.
Obtenga:
Respuestas
Respuesta 1
𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛 = 18 − 9 = 9
𝑂𝑠𝑐𝑖𝑙𝑎𝑐𝑖ó𝑛 18 − 9 9
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = = = = 1.36
1 + 3.322 log 𝑛 1 + 3.322(1.6990) 1 + 5.64
Redondeado a 1.4.
Tabla II.55
Serie de intervalos de clases y frecuencias
Clases 𝐹𝑖 𝑃𝑀𝑖 𝐹𝑖 𝑃𝑀𝑖 𝑙𝑜𝑔 𝑃𝑀𝑖 𝑙𝑜𝑔 𝑃𝑀𝑖 𝐹𝑖
De 9 a 10.4 7 9.7 67.9 0.9542 6.6794
De más de 10.4 a 11.8 5 11.1 55.5 1.0453 5.2265
De más de 11.8 a 13.2 11 12.5 137.5 1.0969 12.0659
De más de 13.2 a 14.6 10 13.9 139 1.143 11.43
De más de 14.6 a 16.0 12 15.3 183.6 1.1847 14.2164
De más de 16.0 a 17.4 4 16.7 66.8 1.2227 4.8908
De más de 17.4 a 18.8 1 18.1 18.1 1.2577 1.2577
Total 50 668.4 55.7667
93
Fuente: Investigación directa con datos hipotéticos
Respuesta 2
∑ 𝐹𝑖 (𝑃𝑀𝑖 ) 668.4
𝑋̅ = = = 13.368
∑ 𝐹𝑖 50
Redondeado a 13.36
𝐹𝑖 55.7667
log 𝑀𝑔 = = = 1.115334
∑ 𝐹𝑖 50
Su antilogaritmo = 13.04
Luego 𝑀𝑔 = 13.14
𝑑1 12 − 10
𝑀𝑜𝑑𝑎 = 𝐿𝑖 + [ ] (𝑖) = 14.6 + [ ] (1.4)
𝑑1 + 𝑑2 2 + (12 − 4)
2 2.8
= 14.6 + [ ] (1.4) == 14.6 + = 14.88
2+8 10
Luego entonces la relación que existe entre la media aritmética y la media geométrica se cumple al
ser un promedio mayor la primera que la segunda. Por lo que respecta a la media aritmética con la
moda, indica una relación de asimetría negativa al ser mayor la moda respecto que la media
aritmética.
Respuesta 3
Tabla II.56
Serie de clases y frecuencias
(𝑃𝑀𝑖 − 𝑥̅ ) (𝑃𝑀𝑖 − 𝑋̅)𝐹𝑖 (𝑃𝑀𝑖 − 𝑋̅)2 (𝑃𝑀𝑖 − 𝑋̅)2 𝐹𝑖
9.7 − 13.36 = −3.66 (−3.66)7 = −25.62 13.3956 93.7692
11.1 − 13.36 = −2.26 (−2.26)5 = −11.30 5.1076 25.538
12.5 − 13.36 = −0.86 (−0.86)11 = −9.46 0.7396 8.1323
13.9 − 13.36 = 0.54 (0.54)10 = 5.40 0.2916 2.916
15.3 − 13.36 = 1.94 (1.94)12 = 23.28 3.7636 45.1632
16.7 − 13.36 = 3.34 (3.34)4 = 13.36 11.1556 44.6224
18.1 − 13.36 = 4.74 (4.74)1 = 4.74 22.4676 22.4676
Total 0 242.6087
Fuente: Investigación directa con datos hipotéticos.
94
∑(𝑃𝑀𝑖 − 𝑥̅ )2 𝐹𝑖 242.6087
𝑠2 = = = 4.917
∑ 𝐹𝑖 − 1 49
𝑠 = √4.917 = 2.21
Respuesta 5
Para estos ejercicios se utilizará el tipo de cambio interbancario a la venta desde el primer trimestre
del 2013 hasta el segundo trimestre de 2015 de acuerdo con el Banco de México (2015). Estos datos
se encuentran en la base de datos del libro.
Tabla II.57
Tipo de cambio interbancario.
Periodo Tipo de cambio interbancario (Pesos mexicanos por dólar)
2013/01 12.33
2013/02 12.98
2013/03 13.15
2013/04 13.08
2014/01 13.06
2014/02 12.99
2014/03 13.42
2014/04 14.75
2015/01 15.26
2015/02 15.70
Fuente: Investigación directa del Banco de México (2015).
Rango
Pasos:
1. Abrir el programa Excel6 y colocar en la hoja de cálculo desde la celda A1 hasta la celda
A10 los datos con los que se van a trabajar, en este caso es el tipo de cambio interbancario.
6
Para saber cómo iniciar el programa Excel, véase la pág. (26)
95
2. Se sitúa el cursor en la celda C1/clic y se escribe la siguiente fórmula: =A10-A1, es decir,
se digita el signo de igual a (=) y con ayuda del cursor se da clic primero en el valor más
grande, que en este caso es 15.70 (celda A10); se escribe el signo menos (-) y finalmente
con el cursor se le da clic a la celda A1 que contiene el valor más pequeño: 12.33, tal como
se muestra en el cuadro II.26.
Cuadro II.26
Selección de datos del tipo de cambio interbancario para obtener el rango.
3. Para finalizar se presiona la tecla Enter y el resultado es 3.36. Es decir que el rango del tipo
de cambio en los 10 trimestres es de $3.36.
Desviación media
Pasos
96
Cuadro II.27
Selección de datos para la fórmula DESVPROM
3. Finalmente el resultado marca que la desviación promedio del tipo de cambio interbancario
es de $0.94.
Desviación estándar
Pasos
Cuadro II.28
Selección de datos para la fórmula DEVEST.P
97
3. Se concluye la desviación estándar del tipo de cambio interbancario es de $1.08 con
respecto de la media durante los 10 trimestres del año estudiados.
Varianza
Pasos
Cuadro II.29
Selección de datos para la fórmula VAR.P
Coeficiente de variación
Pasos:
1. Debido a que Excel no posee una fórmula en específico para obtener esta medida de
dispersión, es necesario obtener la media y la desviación estándar para obtener el
coeficiente de variabilidad. Esto tal como se ve en el siguiente cuadro para el mismo
ejercicio que se ha venido siguiendo con el tipo de cambio interbancario en el que ya se
cuenta con la media y la desviación estándar para proceder.
98
Cuadro II.30
Rango, desviación promedio, desviación estándar, varianza y media del tipo de cambio
interbancario
Cuadro II.31
Fórmula en Excel para la generación del coeficiente de variabilidad del tipo de cambio
interbancario
3. Para terminar se presiona enter y el resultado aparece en la celda C5. En este caso, el
coeficiente de variabilidad del tipo de cambio interbancario es de 7.87%.
99
II.5.5 Medidas de posición partitivas
Importancia: dividen en partes iguales a la serie estadística de una distribución de frecuencias. Las
más usuales son: a).- los cuartiles, la dividen en cuatro segmentos; b).- los deciles, la dividen en
diez partes y c).- los percentiles, que la dividen en cien partes iguales. También existen los térciles,
quintiles y la mediana. Como se indicó antes, estas medidas tienen la propiedad de dividir la serie
estadística en dos, tres, cuatro, cinco, diez y para generalizar, en cien partes, respectivamente.
De lo anterior se establece a la mediana y por consiguiente su fórmula, como base para determinar
dichos valores partitivos. Por ejemplo, el caso de los cuartiles que son necesarios para determinar la
desviación cuartílica y el coeficiente intercuartilar de asimetría de Pearson.
Los cuartiles son medidas estadísticas de posición que tienen la propiedad de dividir la serie
estadística en cuatro grupos de números iguales de términos.
De manera similar los deciles dividen a la serie en diez partes iguales y los percentiles dividen a los
términos de la serie en cien grupos iguales.
Así como la mediana divide la serie o distribución en dos partes iguales, existen tres cuartiles,
nueve deciles y noventa y nueve percentiles que dividen en cuatro, diez y cien partes iguales a la
distribución, respectivamente.
De estas tres últimas medidas de posición los cuartiles y deciles se usan con mucha frecuencia. Se
emplean generalmente en la determinación de estratos o grupos correspondientes a fenómenos
socio-económicos, monetarios o teóricos. (García, 1964).
Q1 = Primer cuartíl
Q2 = Segundo cuartíl
Q3 = Tercer cuartíl
Los deciles por D1, D2, D3,......, D9 y los percentiles con P1, P2, P3,.....,P99.
En cualquiera de los tres casos, la medida de posición seleccionada toma el valor de uno de los
términos cuando la serie es impar, o del punto medio entre dos términos, cuando la serie es par.
Para el cálculo de estas tres medidas de posición es necesario arreglar los términos en forma
creciente o decreciente. Así, en el caso de un ordenamiento simple, el siguiente paso es determinar
el "número de orden" de los cuartiles, deciles o percentiles, el cual indicará el lugar que ocupen en
la distribución.
100
En lo que se refiere a los cuartiles, el número de orden del primer cuartil es igual al número de
términos de la distribución más uno, sobre cuatro. Para el segundo cuartil el número de orden se
calculará sumando uno al total de términos y dividiéndolo entre dos.
Así mismo el número de orden del tercer cuartil ser igual a tres cuartos del número de términos de
la distribución más uno.
Serie Simple
𝑁+1 7+1
𝑁𝑜𝑄1 = 1 4
= 4
= 2 , el cual indica que el valor del segundo término (4) es el valor de Q1,
luego Q1 = 4.
𝑁+1 7+1
𝑁𝑜𝑄2 = 2 4
=2 2
= 4, el cual indica que el valor del cuarto término (7) es el valor de Q 2 , y
Q2 = 7
𝑁+1 7+1
𝑁𝑜𝑄3 = 3 =3 = 6, que indica que el valor del sexto término (10) es el valor de Q3 , y Q3 =
4 4
10.
Cuando el número de términos es par como la distribución constituida por las ventas promedio
diario de ocho tortillerías en miles de pesos: 3, 4, 5, 7, 9, 10, 11, 14.
𝑁+1 8+1
𝑁𝑜𝑄1 = 1 = = 2.25 ∴ 𝑄1 = 4.25
4 4
𝑁+1 8+1
𝑁𝑜𝑄2 = 2 =2 = 4.5 ∴ 𝑄2 = 8.0
4 2
3(𝑁 + 1) 27
𝑁𝑜𝑄3 = = = 6.75 ∴ 𝑄3 = 10.75
4 4
Cabe señalar que cuando no sea exacto el lugar o posición del valor partitivo porque se halla entre
dos lugares sucesivos, se toma la distancia entre los dos valores y se saca la proporción
correspondiente, que se le suma al valor del primer término, por ejemplo, en el cuartil 3 que se
localiza entre los lugares 6 y 7, al valor que se encuentra en el lugar 6, se le suma el 75% de la
distancia del número de lugar 6 al lugar 7, que en este caso es una unidad; se le suma al 10 el valor
0.75 que es el porcentaje de la diferencia entre el 10 y el 11.
Como puede observarse el procedimiento empleado en el cálculo del segundo cuartil es el mismo
que se utilizó para calcular la mediana en una serie o distribución simple, por lo que el valor del
101
segundo cuartil siempre es igual al de la mediana. Por otra parte, como lo hace notar el Ing. A.
García Pérez (1964), una vez obtenido el número de orden del primer cuartil, se puede calcular
inmediatamente los del segundo y tercer cuartil sin recurrir al procedimiento arriba sugerido,
multiplicándolo por dos y tres respectivamente.
b) Cuando los datos están agrupados en una serie simple de frecuencias como la siguiente:
Tabla II.58
Serie de frecuencias
Edades Número de Personas (𝐹𝑖 ) Frecuencia Acumulada
(Años) (Millones) (𝐹𝑖𝑎
1 6 6
4 15 21
8 14 35
14 4 39
TOTAL 39
Fuente: Investigación directa con datos hipotéticos.
(39 + 1)
𝑁𝑜𝑄1 = 1 = 10 ∴ 𝑄1 = 4
4
(39 + 1)
𝑁𝑜𝑄2 = 2 = 20 ∴ 𝑄2 = 4
4
(39 + 1)
𝑁𝑜𝑄3 = 3 = 30 ∴ 𝑄3 = 8
4
En este ejemplo se observa que el valor de Q1 y Q2 coinciden. Lo cual se debe a que ambas toman el
valor del término (edad) que les señalan sus respectivos números de orden, que es cuatro para los
términos número diez y veinte.
Por otra parte se verifica que los tres cuartiles dividen a la distribución en cuatro grupos iguales, en
virtud de que a la izquierda del primer cuartil existe el 25% de términos de la distribución; de la
misma forma a la izquierda del segundo cuartil existe el 50% de la distribución y el tercer cuartil
revela que a su izquierda se localiza el 75% de los términos.
c) Por último si los datos se agrupan en intervalos de clases y frecuencias los cuartiles se
obtienen a través del siguiente procedimiento:
102
Tabla II.59
Serie de clases y frecuencias
Frecuencia Acumulada
Tiempos en minutos Frecuencia (𝐹𝑖 )
(𝐹𝑖𝑎 )
De más de 10 a 20 6 6
De más de 20 a 30 25 31
De más de 30 a 40 32 63
De más de 40 a 50 23 86
De más de 50 a 60 7 93
De más de 60 a 70 4 97
De más de 70 a 80 3 100
TOTAL 100
Fuente: Investigación directa con datos hipotéticos.
Gráficamente se tendrá:
Gráfica II.16
Histograma
35 32
30 25
23
Frecuencias
25
20
15
10 6 7
4 3
5
0
De más De más De más De más De más De más De más
de 10 a de 20 a de 30 a de 40 a de 50 a de 60 a de 70 a
20 30 40 50 60 70 80
Tiempo (minutos)
100
𝑁𝑜𝑄1 = 1 4
= 25, significa que el 25 % de las observaciones se hallan a la izquierda de Q1.
(30−20)
Luego 𝑄1 = 20 + 25
∗ 19 = 27.6 𝑚𝑖𝑛𝑢𝑡𝑜𝑠.
Similarmente:
103
Donde 19 = 50 - 31 = número de observaciones en la tercer clase pero a la izquierda del segundo
cuartil.
Igualmente:
3(100)
𝑁𝑜𝑄3 = = 75
4
Significa que el 75 % de las observaciones se hallan a la izquierda de Q3.
(50 − 40)
𝑄3 = 40 + ∗ 12 = 45.21 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
23
Donde 12 = 75 - 63 = número de observaciones en la cuarta clase pero a la izquierda del tercer
cuartil.
Conocidos los cuartiles se puede calcular la desviación cuartil, la cual mide la amplitud o rango
existente entre los 50 términos centrales de la distribución. Es una medida de variación o dispersión
como el rango referida al 50% de las observaciones contra las demás series, que se centra en el
50% de los términos centrales.
La desviación cuartilica es igual a la mitad del rango comprendido entre el 50% de los términos
centrales de la distribución. Numéricamente es la mitad de la distancia entre el primer y tercer
cuartil, que eso también se conoce como rango semi-cuartil.
𝑄3 − 𝑄1
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑐𝑢𝑎𝑟𝑡í𝑙 =
2
Utilizando los datos del último ejemplo:
45.16 − 27.60 17.56
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 = = = 8.78 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
2 2
En opinión del profesor Lind et al (2005) cuando los datos son numerosos y ordenados en
forma creciente, su fórmula es:
(𝑛)𝐷𝑖
𝑁𝐷𝑖 =
10
Por ejemplo para el número de datos es 80 (n) ordenados en una serie simple, para conocer el decil
3, se hace lo siguiente:
Paso 1
104
(𝑛)𝐷𝑖
𝑁𝐷𝑖 =
10
Donde:
𝑁𝐷𝑖 = Número de orden del decil i-ésimo
𝑛 = Número de datos de la serie estadística
𝐷𝑖 = Decil-iésimo.
Sustituyendo:
(80)3
𝑁𝐷3 = = 80(0.3) = 24
10
Que es el término o lugar donde se localiza o contiene al decil 3.
Partiendo del ejemplo anterior, si por ejemplo se desea calcular el percentil 23 se tiene que buscar el
término que contiene su valor de la siguiente manera:
(𝑛)𝑃𝑖
𝑁𝑃𝑖 =
100
Donde:
Sustituyendo:
(80)23
𝑁𝑃23 = = 18.6
100
Que es el término o lugar en que se localiza o que contiene al percentil 23.
105
II.5.5.3.3 Práctica IV
Problema 1
Problema 2
Los siguiente valores son los rendimientos por hectárea de un determinado producto
agrícola (en toneladas) en 8 ejidos colectivos de diferentes regiones del país: 1, 2, 3, 4,
5, 11, 11, 30.
Problema 3
106
Calificaciones
Calificaciones No. de Estudiantes
20 – 29 3
30-39 6
40-49 5
50-59 7
60-69 10
70-79 29
80-89 12
90-99 8
TOTAL 80
Fuente: Investigación directa con datos hipotéticos.
107
II.5.6 Ejercicios con Excel
CUARTILES
PASOS
1. Abrir el programa Excel7. Para estos ejercicios se utilizará el tipo de cambio interbancario a
la venta desde el primer trimestre del 2013 hasta el segundo trimestre de 2015 de acuerdo
con el Banco de México (2015). Estos datos se encuentran en la base de datos del libro.
Tabla II.60
Tipo de cambio interbancario.
Periodo Tipo de cambio interbancario (Pesos mexicanos por dólar)
2013/01 12.33
2013/02 12.98
2013/03 13.15
2013/04 13.08
2014/01 13.06
2014/02 12.99
2014/03 13.42
2014/04 14.75
2015/01 15.26
2015/02 15.70
Fuente: Investigación directa del Banco de México (2015).
1. Para obtener el primer cuartil, se posiciona el cursor celda D1/clic y se coloca en 𝑓𝑥/clic.
En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará O seleccionar
una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de abajo se
busca la función CUARTIL.EXC/clic y se le da Aceptar/clic.
7
Para saber cómo iniciar el programa Excel, véase la pág. (26)
108
Cuadro II.32
Argumentos de función de CUARTIL.EXC.
3. Ahora bien, para obtener el segundo cuartil se realiza nuevamente el paso 2 y el paso 3,
solamente cambiando de celda para dar paso al resultado y el argumento Cuartil en el cual
se escribirá 2, refiriéndose al segundo cuartil. Igualmente en caso del tercer cuartil se
seguirán los pasos 2 y 3 cambiando de celda para dar paso al resultado y el argumento
Cuartil digitando el número 3 haciendo referencia al tercer cuartil. En el siguiente cuadro se
observan todos los resultados de los cuartiles del tipo de cambio interbancario.
Cuadro II.33
Resultados de la función CUARTIL.EXC con el tipo de cambio interbancario
Desviación cuartílica
Pasos:
Para elaborar este ejercicio es necesario obtener de manera previa los cuartiles de los datos a
estudiar. En este caso se hará uso de los cuartiles obtenidos del tipo de cambio interbancario en el
ejemplo anterior, tal como se muestran en el cuadro previo.
109
Igualmente se puede digitar el signo igual (=) y abriendo paréntesis y con ayuda del cursor
dar clic en las celdas del tercer y primer cuartil y finalmente digitar la división entre dos
(/2).
Cuadro II.34
Fórmula en Excel para generar la desviación cuartílica del tipo de cambio interbancario
2. Finalmente basta con dar un clic en la tecla Enter, para dar terminada la operación. El
resultado es este caso es $0.95 centavos.
Cuadro II.35
Resultado de la desviación cuartílica del tipo de cambio interbancario
Deciles
Pasos
Tabla II.61
Calificaciones de 30 alumnos de estadística
8 7 10 10 8
9 6 8 10 9
10 10 9 9 10
10 9 5 7 10
6 5 7 9 7
8 9 7 10 8
Fuente: Investigación directa con datos hipotéticos.
2. En una nueva hoja de Excel se escriben las calificaciones en una sola columna, en este caso
en la columna A. Antes que nada es necesario acomodar las calificaciones de menor a
mayor, lo cual fácilmente se puede hacer seleccionando todos los datos con el cursor para
110
después buscar en la barra de INICIO de Excel el botón Ordenar y Filtrar/clic, en el cual se
selecciona Ordenar de menor a mayor/clic.
Cuadro II.36
Función Ordenar y filtrar/ Ordenar de menor a mayor
3. Una vez ordenados los datos, para obtener el primer decil, se ubica el cursor en la celda D1
y de siguiendo la fórmula de los deciles, en esta celda se digita =(30*1)/10. El número 30
indica el tamaño de la muestra analizada, el cual es multiplicado por 1 el cual indica que es
el primer decil, lo cual será dividido por 10. Tal como se muestra en el siguiente cuadro.
Cuadro II.37
Fórmula en Excel para generar deciles de las calificaciones de estadística
4. Para finalizar se le da clic con la tecla Enter y el resultado que arroja es 3, indicando que en
el tercer dato de la serie acomodada de menor a mayor se encuentra el primer decil, el cual
para este ejercicio corresponde a la primer calificación con 6 la cual se ubica en la celda A3
y se observa en el siguiente cuadro.
Cuadro II.38
Resultados de la posición del 1° decil de las calificaciones de 30 alumnos
5. Para elaborar el resto de los cuartiles basta con realizar los pasos 4 y 5 sólo cambiando el
criterio del número de decil que se desea obtener el cual está denotado en el segundo valor
dentro del denominador de la fórmula y ubicando la posición del decil dentro de la serie de
111
datos. En el siguiente cuadro se muestran los todos deciles que de las calificaciones de los
alumnos de la materia de Estadística.
Cuadro II.39
Resultados de la posición de todos los deciles de las calificaciones de 30 alumnos
Percentiles
Pasos:
Para este ejercicio se hará uso de la serie de datos de las calificaciones de los 30 alumnos de la
materia de estadística ya acomodados de menor a mayor.
1. Para obtener el percentil 40°, es necesario ubicar el cursor en la celda D1/clic y se coloca en
𝑓𝑥/clic. En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará O
seleccionar una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo de
abajo se busca la función PERCENTIL.EXC/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Matriz/clic y
con ayuda del mismo cursor se seleccionan todas las celdas que contienen el tipo de cambio
interbancario de los diez trimestres; en el argumento K/clic se digita el número del decil que
se desea obtener, a lo cual se digita 0.4, lo anterior porque el K valor de los deciles va de 0 a
1. tal como se muestra en el siguiente cuadro. Para finalizar se busca Aceptar/clic.
112
Cuadro II.40
Argumentos de función de PERCENTIL.EXC
113
Tabla II.62
Percentiles de las exportaciones de bienes y servicios
Exportaciones
Exportaciones de bienes Exportaciones de
Percentil de bienes y Percentil Percentil
y servicios bienes y servicios
servicios
0.01 6,129.14 0.4 16,844.44 0.79 69,991.02
0.02 6,578.22 0.41 17,995.23 0.8 70,776.58
0.03 6,989.21 0.42 18,745.55 0.81 74,203.20
0.04 7,020.67 0.43 19,440.03 0.82 75,966.36
0.05 7,246.95 0.44 21,363.63 0.83 76,390.69
0.06 7,518.51 0.45 23,329.03 0.84 77,231.59
0.07 7,608.34 0.46 24,284.62 0.85 78,362.97
0.08 7,799.23 0.47 25,520.01 0.86 80,995.18
0.09 8,038.46 0.48 27,199.18 0.87 83,278.37
0.1 8,072.38 0.49 28,870.55 0.88 86,428.20
0.11 8,127.85 0.5 30,415.28 0.89 88,068.72
0.12 8,160.38 0.51 31,675.48 0.9 89,999.69
0.13 8,233.46 0.52 33,118.12 0.91 91,862.73
0.14 8,352.90 0.53 33,713.64 0.92 92,793.58
0.15 8,747.94 0.54 34,459.92 0.93 97,664.86
0.16 9,046.30 0.55 35,269.99 0.94 101,745.37
0.17 9,121.21 0.56 35,527.06 0.95 102,377.17
0.18 9,248.36 0.57 37,714.74 0.96 103,135.50
0.19 9,279.11 0.58 40,386.12 0.97 104,706.28
0.2 9,379.65 0.59 43,366.75 0.98 107,070.85
0.21 9,508.57 0.6 43,768.51 0.99 107,891.75
0.22 9,619.80 0.61 45,290.98 1 112,046.21
0.23 9,755.95 0.62 45,865.03
Fuente: Investigación directa con
0.24 10,339.81 0.63 46,830.56
datos del INEGI.
0.25 10,503.62 0.64 47,337.75
0.26 10,735.73 0.65 47,835.57
0.27 11,698.89 0.66 48,171.94
0.28 12,040.33 0.67 48,273.89
0.29 12,350.78 0.68 48,562.40
0.3 12,599.36 0.69 49,643.25
0.31 13,266.99 0.7 51,243.52
0.32 14,106.24 0.71 51,972.57
0.33 14,492.30 0.72 54,422.93
0.34 14,718.90 0.73 57,473.34
0.35 15,235.46 0.74 57,981.29
0.36 15,471.40 0.75 60,412.84
0.37 15,567.81 0.76 64,484.81
0.38 16,206.86 0.77 65,086.63
0.39 16,382.26 0.78 67,034.30
114
II.5.7 Medidas de asimetría y curtosis
Se dice que la asimetría expresa la dirección que toma la distribución de los datos de una serie
estadística y que la curtosis indica la forma que toma la curva que expresa dicha distribución de
datos gráficamente.
1) Las basadas en la relación entre medidas de tendencia central y dispersión, como la media
aritmética con moda y la mediana, o también
2) Las basadas en el sistema de momentos (A3 y A4).
Cuando en una distribución de datos la moda y la mediana no son iguales con la media aritmética,
ello indica que esta diferencia expresa una asimetría o sesgo respecto de la media aritmética. Con
datos nuestrales, en base a esto Karl Pearson define sus dos medidas de asimetría donde el primer
coeficiente de asimetría él lo estable ce en relación a la moda de la siguiente manera:
𝑋̅ − 𝑀0
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 =
𝑠
Cuando la distribución es bimodal o se desconoce la moda Pearson hace uso de la mediana al
observar él que existe una relación de diferencia en distribuciones ligeramente sesgadas de un tercio
de diferencia entre la media aritmética y la moda respecto de la mediana, cuya fórmula es la
siguiente:
3(𝑋̅ − 𝑀𝑑)
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 =
𝑠
En lo que se refiere a éstas, como se informó, estas medidas indican no sólo el grado de asimetría
de la curva sino también la dirección de la misma. Si su valor es negativo, la asimetría (sesgo de los
datos) es hacia la izquierda y si es positiva la asimetría (sesgo de los datos) será hacia la derecha.
De (1) se usará el Coeficiente de Pearson.
115
Los momentos pueden ser calculados con respecto a su origen o bien con respecto a la media
aritmética. De acuerdo con esta última y considerando datos agrupados se empiezan a determinar
los 4 momentos que se necesitan para calcular A3 y A4. Así se empieza con:
M1 primer momento
∑ 𝑓𝑥
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 = =0
∑𝑓
Dónde:
𝑥 = 𝑋𝑖 − 𝑋̅
Es decir x expresa la diferencia entre los términos de la serie y su media aritmética
correspondiente.
M2 segundo momento
∑ 𝑓𝑥 2
𝑀2 = = 𝑠2
∑𝑓
M3 tercer momento
∑ 𝑓𝑥 3
𝑀3 = = 𝑠3
∑𝑓
Cuando la distribución de datos es simétrica, en tanto que M3 es diferente de cero cuando no es
simétrica.
Para medir la asimetría se usa el tercer momento. En el caso de en una distribución simétrica con
datos muestrales, este es igual a cero.
EJEMPLO:
Tabla II.63
Distribuciones de datos de series estadísticas
Simétrica Asimétrica
Xi x1 x2 x3 Xi x1 x2 x3 x4
2 -3 9 -27 4 -1 1 -1 1
4 -1 1 -1 4 -1 1 -1 1
5 0 0 0 4 -1 1 -1 1
5 0 0 0 4 -1 1 -1 1
6 1 1 1 5 0 0 0 0
8 3 9 27 9 4 16 64 256
30 0 20 0 30 0 20 60 260
Fuente: Investigación directa con datos hipotéticos.
116
Dónde para ambas series:
30
𝑋̅ = =5
6
Sin embargo:
20
𝑠2 = = 3.33
6
Luego
𝑠 = √3.33 = 1.82
Mo Mo
117
II.5.7.3 Curtosis
𝑀4 43.33
𝐴4 = = = 3.94
𝑠 4 10.97
Así, derivado de lo anterior (Mills, 1963), también se pueden establecer las siguientes relaciones:
Gráfica II.19
Curva normal o mesocúrtica
µ
Fuente: Investigación directa con datos hipotéticos.
Interpretación: Los datos de la variable están distribuidos normalmente con un grado de dispersión
normal.
118
b) Una curva es platicúrtica cuando A4 - 3 < 0
Gráfica II.20
Curva platicúrtica
µ
Fuente: Investigación directa con datos hipotéticos
Interpretación: Existe un mayor grado de dispersión alrededor de la media, no obstante que hay simetría.
Gráfica II.21
Curva leptocúrtica
µ
Fuente: Investigación directa con datos hipotéticos.
Interpretación: Los valores de datos están altamente concentrados alrededor del valor de la media
aritmética.
Por consiguiente en el ejemplo hipotético aquí manejado se tiene que A4 = 3.94 luego, 3.94 - 3 =
0.94, que es el grado de apicamiento.
Interpretación: Puesto que el resultado es mayor que cero se dice que la curva tiene una forma
alargada o espigada, es decir, leptocúrtica.
4+1+0+1+4 10
𝑆=√ = √ = √2 = 1.41
5 5
Se sustituye y se obtiene:
3(3 − 3)
𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 = =0
1.41
Gráficamente:
Gráfica II.22
Curva simétrica
Significa que los ingresos se distribuyen normalmente, es decir, la mayor parte de los ingresos se
concentran alrededor de la media aritmética y que un número infinitamente pequeño tienen ingresos
muy altos y otro grupo infinitamente pequeño también tiene con ingresos muy bajos.
120
Luego se puede instrumentar una política fiscal diferenciada por niveles de ingreso de los
contribuyentes: tasas bajas para quienes están a la izquierda de 3 y altas para los que estén a su
derecha.
Si hubiera resultado sesgada de la serie a la izquierda o a la derecha, ello significaría, que habría
más contribuyentes, a la izquierda (con bajos ingresos) ó a la derecha (con altos ingresos),
respectivamente. Esta situación permite deducir que también se puede implementar una política
fiscal diferencial, pero con bases y tasas impositivas diferentes a las que aplicarían cuando la curva
es normal
Para ejemplificar el tema, se utilizan los datos de la variable Salario Mínimo General de México; en
específico el salario real, ya que toma en cuenta la inflación y por consiguiente el verdadero poder
adquisitivo de la población. Dichos datos se obtuvieron de la Cámara de Diputados, el periodo en el
cual se realizará el estudio abarca de 1998.1 al 2013.4. Los datos se muestran a continuación.
Tabla II.64
Salario Real Mínimo General de México de 1998 al 2013
(Periodicidad: trimestral)
PERIODO Salarios PERIODO Salarios PERIODO Salarios PERIODO Salarios
1998.1 41.99 2002.1 40.4 2006.1 58.24 2010.1 57.39
1998.2 40.67 2002.2 39.93 2006.2 58.23 2010.2 57.44
1998.3 39.39 2002.3 39.48 2006.3 57.74 2010.3 57.24
1998.4 39.16 2002.4 38.84 2006.4 56.7 2010.4 56.25
1999.1 40.36 2003.1 58.06 2007.1 58.12 2011.1 57.75
1999.2 39.33 2003.2 57.77 2007.2 58.19 2011.2 57.89
1999.3 38.55 2003.3 57.49 2007.3 57.68 2011.3 57.65
1999.4 37.65 2003.4 56.6 2007.4 56.74 2011.4 56.58
2000.1 40.18 2004.1 58.02 2008.1 58.19 2012.1 57.93
2000.2 39.51 2004.2 57.75 2008.2 57.68 2012.2 58.08
2000.3 38.92 2004.3 57.2 2008.3 56.88 2012.3 57.44
2000.4 38.04 2004.4 56.02 2008.4 55.58 2012.4 56.7
2001.1 40 2005.1 58.07 2009.1 57.34 2013.1 58.29
2001.2 39.55 2005.2 57.74 2009.2 56.95 2013.2 58.01
2001.3 39.28 2005.3 57.48 2009.3 56.6 2013.3 57.93
2001.4 38.68 2005.4 56.78 2009.4 55.93 2013.4 57
Fuente: Investigación directa con datos de la Cámara de Diputados.
1. El primer paso es tener la base de datos en Excel de manera vertical, ya que de esta manera
es más sencillo trabajarlos, además, solo se utilizan los datos con el nombre Salarios, para
realizar el análisis estadístico, ya que la columna de nombre PERÍODO, solo sirve de
referencia al tiempo analizado.
121
Cuadro II.41
Salario Real Mínimo General de México de 1998 al 2013
(Periodicidad: trimestral)
2. Una vez que los datos están bien organizados, el segundo paso es situar el cursor en la
barra de menú en DATOS/clic, y seleccionar Análisis de datos/clic.
Cuadro II.42
Menú Datos: Análisis de datos
3. Aparece una ventana como la siguiente, en donde se debe seleccionar la opción Estadística
Descriptiva/clic y Aceptar/clic.
Cuadro II.43
Análisis de datos
Cuadro II.44
Estadística descriptiva
Cuadro II.45
Estadística descriptiva del salario real en México
Examen 1.
Referencias: Las calificaciones de los 45 alumnos del curso pasado de estadística fueron las
siguientes:
Tabla II.65
Calificaciones
4 6 8
4 6 8
4 6 8
4 7 8
5 7 8
5 7 8
5 7 9
5 7 9
5 7 9
6 7 9
6 7 9
6 7 9
6 7 10
6 8 10
6 8 10
Fuente: Investigación directa con datos hipotéticos.
Estas calificaciones servirán de base para elaborar nuevas estrategias didácticas en la materia de
estadística, motivo por el cual es necesario caracterizar estadísticamente su distribución. Con ese fin
obtenga:
Respuesta 1 y 2:
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 = 10 − 4 = 6
124
6
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = = 1.5, luego
4
Tabla II.66
Calificaciones
Intervalos o Clases Frecuencia absoluta Frecuencia relativa PMi
De 4 a 5.5 9 20% 4.75
De más de 5.5 a 7.0 19 42% 6.25
De más de 7.0 a 8.5 8 18% 7.75
De más de 8.5 a 10 9 20% 9.25
TOTAL 45 100.00%
Fuente: Investigación directa con datos hipotéticos.
Gráfica II.23
Histograma
20 19 50%
18
42%
Frecuencia absoluta
Frecuencia relativa
16 40%
14
12 30%
10 9 9
8
8 20% 20% 20%
6 18%
4 6.25 10%
4.75 7.75 9.25
2
0 0 0 0%
[Menos de De 4 a 5.5 De más de De más de De más de [Más de
4] 5.5 a 7.0 7.0 a 8.5 8.5 a 10 10]
Frecuencia absoluta Frecuencia relativa
Respuesta 4:
𝑀3 −0.0772
𝐴3 = = = −0.0169
𝜎 3 (1.659)3
𝑀4 16.8425
𝐴4 = 4 = = 2.2213
𝜎 (1.659)4
Respuesta 5:
125
1) La suma algebraica de las desviaciones de un conjunto de términos con respecto a su
media aritmética es igual a cero. Primero se obtiene 𝑥̅ , luego se desvía cada uno de los
términos con respecto a su valor. Así, enseguida se trabajan con éstas últimas:
En este contexto se tiene que cuando el valor de A es mayor o menor que la media aritmética la
suma de las desviaciones elevadas al cuadrado es mayor que 123.91.
En otras palabras, cuando A tiene un valor de 5 la suma de las desviaciones es 296, en tanto, cuando
el valor de las misma es 8 la suma es 173.
126
Examen 2.
Referencias: Las calificaciones de los 45 alumnos del curso pasado de econometría fueron las
siguientes:
Tabla II.67
Calificaciones
6 7 8
6 8 9
6 8 9
6 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 9
7 8 10
7 8 10
7 8 10
Fuente: Investigación directa con datos hipotéticos.
Estas calificaciones servirán de base para elaborar nuevas estrategias didácticas en la materia de
econometría, motivo por el cual es necesario caracterizar estadísticamente su distribución. Con ese
fin obtenga:
Éste pudiera parecer un ejercicio más sobre los métodos de agrupamiento de los datos, en este caso,
usando el método de clases (intervalos) y frecuencias, aplicando el método empírico en donde la
única restricción es que los datos se agrupen en cuatro clases o intervalos; sin embargo, resultó ser
interesante no sólo en términos de agrupamiento de los datos con base en el número de veces que se
repiten (frecuencias), sino también en términos de resultados dado que estos cambian si cambian los
límites de cada intervalo. Ejemplo: se calculó la amplitud o rango: 10 – 6 = 4, número que se
dividió entre las cuatro clases solicitadas dando 1, denominado amplitud de la clase, es decir, es la
diferencia entre el límite inferior y superior de cada intervalo de clase. Así,
127
Una forma de agrupar las calificaciones de los alumnos sería:
Tabla II.68
Serie de clases y frecuencias
Punto Medio o Marca de
Clases o Intervalos Frecuencia Absoluta
Clase
6 inclusive a 6.9 4 (6+6.9)/2= 6.45
7 inclusive a 7.9 12 (7+7.9)/2= 7.45
8 inclusive a 8.9 15 (8+8.9)/2= 8.45
9 inclusive a 10.0 14 (9+10)/2= 9.50
Fuente: Investigación directa con datos hipotéticos.
Comentarios:
Ahora bien, si se agrupan los ingresos mensuales en miles de pesos de las siguientes personas en
intervalos de clases y frecuencias se tiene:
Tabla II.69
Ingresos mensuales en miles de personas
Intervalos de Número de personas: Punto Medio o Frecuencia
clase Frecuencia Absoluta Marca de Clase Acumulada
6a7 16 6.5 16
De más de 7 a 8 15 7.5 31
De más de 8 a 9 11 8.5 42
De más de 9 a 10 3 9.5 45
TOTAL 45
Fuente: Investigación directa con datos hipotéticos.
Comentarios:
1. La amplitud de la primera clase es de 1.1; en tanto que la de las tres siguientes clases es de
1; en otras palabras, cambió radicalmente la distribución de frecuencias, dado que en el
caso anterior se concentraban en las últimas clases;
2. El valor de los puntos medios en este caso es una unidad cinco centésimas mayor en las tres
primeras clases que en el caso anterior, casi nada; sin embargo, se observa que todos
difieren en una unidad, es decir, en una diferencia constante, lo cual no sucedió en el caso
anterior (el punto medio de la última clase es de 9.50);
128
3. Derivado de lo anterior, ahora la moda se localiza entre 6 y 7; la mediana ahora está entre
más de 7 y 8; la media aritmética, por la relación numérica que existe entre estas tres
medidas de tendencia central, es menor a 8.
4. Como se observa la caracterización estadística expresada a través de los valores de la
media, la mediana y la moda, cambio drásticamente dado que ahora son otros sus valores;
no obstante, en lo que se refiere a la dirección de la curva, se mantiene la misma asimetría
pequeña (0.02249) a la derecha de la curva.
En definitiva, ¿Qué agrupamiento y por consiguiente qué medidas de tendencia central representan
mejor las calificaciones de los alumnos?
Al respecto, antes de contestar la pregunta debe señalarse que el número de observaciones (45) es
pequeño y que cualquier variación en ellos es notoria significativamente; derivado de lo anterior y
con base, por ejemplo en las definiciones de Arthur Bowley: “la estadística es la ciencia de los
grandes números” (1901) y de W. F. Willcox: “la estadística es el estudio numérico de grupos o
masas a través del estudio de las unidades que las componen” (1934), en este caso no se recomienda
agrupar los datos en clases y frecuencias sino en una serie simple o de frecuencias; agréguese a lo
anterior que agrupar los datos en clases y frecuencias tiene la limitante de que al usar los puntos
medios de las clases como representantes de los valores contenidos en las clases, el cálculo de las
medidas estadísticas es menos preciso que con la serie simple y la de frecuencias antes
mencionadas.
Recomendaciones:
1. Usar la serie de clases y frecuencias sólo cuando se maneje un gran número de datos y haya
gran variabilidad entre ellos;
2. Sí para el agrupamiento de datos en clases y frecuencias se utiliza el criterio subjetivo,
entonces no debe establecerse la restricción del número de clases (4) sino dejar al libre
albedrío del investigador;
3. En este sentido se recomienda que el investigador primero observe la distribución de datos,
su número y amplitud que existe entre los valores de la serie, con objeto de que
posteriormente decida realmente cuantas clases usar y sí tendrán amplitudes constantes o
diferentes. En otras palabras, el investigador debe ser libre de decidir cómo agrupar los
datos con base en los objetivos del estudio, la estadística sólo le proporciona el método para
que haya consistencia en el agrupamiento de los datos.
4. Cuando el número de datos sea pequeño y si se duda de la representatividad que tenga la
media como medida de su tendencia hacia el centro, se recomienda calcular el coeficiente
de variación y si el valor relativo de este último es mayor que 10%, entonces ello significa
que no es representativa y que se debe optar por usar otra medida de tendencia central como
representativa de los datos.
129
CÁPITULO III. NÚMEROS ÍNDICE
Un índice, representado con I, es un número relativo que se usa para medir la variación de los
valores de los datos de un fenómeno a través del tiempo (Wooldridge, 2009:884). En Economía se
usan mucho y en particular para medir las variaciones de los precios, Ip, de las cantidades, Iq, y del
valor, Iv, de los bienes y servicios que existen en el mercado de uno a otro periodo. Para ello se usa
una muestra constituida por un grupo heterogéneo de bienes y servicios: automóviles, frijoles,
camisas, televisores, corbatas, cepillos de dientes, etc., la cual es revisada periódicamente para
asegurar la vigencia de la representatividad del universo estadístico del cual proviene. Así, un
índice expresa la variación conjunta de los valores de los datos de un grupo de bienes y servicios
económicos.
Origen
En opinión de Mason et al (2001: 620), al italiano G.R. Carli se le atribuye la paternidad de estos
indicadores, ya que los elaboró e integró a un informe que hizo en el año de 1764 sobre las
oscilaciones de los precios de Europa de 1500 a 1750.
¿Por qué se acostumbra convertir los datos originales en índices? Porque sólo así se pueden manejar
y comparar los precios y cantidades de grupos de bienes y servicios de diversa índole (zapatos,
mantequilla, medicinas, automóviles, etc).
El índice es una medición hecha sobre variaciones en el tiempo de los precios, cantidades o valor de
uno o varios bienes y servicios existentes en el mercado. Por convención se toma una base para
medir esa variación tomando como referencia 100%; de tal manera que cuando el índice por
ejemplo es 83%, ello significa que hubo una disminución del 17%; de igual manera cuando es por
ejemplo, 325%, ello indica que hubo un aumento de 225%.
Los índices tienen una gran aplicación, en la actualidad constituyen la columna vertebral para la
toma de decisiones en el combate a la inflación, para medir la productividad de los factores de la
producción y para medir la rentabilidad de las inversiones, entre otras aplicaciones.
Los índices son de diferente naturaleza; su cálculo se basa en el muestreo estadístico debido a la
amplia gama de bienes y servicios existentes en el universo económico, por lo que se opta para
calcularlos utilizando un reducido número de ellos, es decir, una muestra proveniente del vasto
universo compuesto por los bienes y servicios existentes en el mercado en un momento dado.
130
III.2 Tipos de índices
Los hay relativos/simples y compuestos o ponderados. En este capítulo se calcularán unos y otros
para los precios, las cantidades y de valor.
Los números índice relativos son los porcentajes que expresan variaciones de precio o cantidad de
un producto X (en relación con su precio o cantidad de un año base).También estas variaciones se
pueden calcular para varios productos y/o servicios.
Para calcular números índices de precios se requiere: seleccionar los artículos, selección del período
base, los precios de los artículos y/o selección de la fórmula.
Puesto que una variación se mide en el tiempo, se llamara Po y Qo a los precios y cantidades, del
año, (día o mes) base o de referencia, y P1, Q1 a los precios y cantidades del año (día o mes) de
comparación. Así, una variación en términos relativos será:
𝑃1 𝑄1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
𝑃0 𝑄0
Un índice relativo se puede calcular para una mercancía ( Holguín, 1983) o servicio, como el caso
anterior o para varios, como sucede en la realidad.
Su fórmula es:
∑ 𝑃1 ∑ 𝑄1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
∑ 𝑃0 ∑ 𝑄0
Igualmente, los índices simples o relativos como promedios que pretenden ser representativos, de
las variaciones de los fenómenos suelen calcularse con las siguientes fórmulas, según la naturaleza
y características de los fenómenos.
Media aritmética:
𝑃1 𝑄1
∑ ∑
𝑃0 𝑄0
𝐼𝑝 = ∗ 100 ; 𝐼𝑞 = ∗ 100
𝑛 𝑛
𝑃1
∑ log
𝑃0
𝐼𝑝 = + log 100 − log 𝑛
𝑛
131
Media geométrica log:
𝑄1
∑ log
𝑄0
𝐼𝑞 = + log 100 − log 𝑛
𝑛
Media armónica:
𝑛
𝐼𝑝 = ∗ 100
𝑃
∑ 0
𝑃1
𝑛
𝐼𝑞 = ∗ 100
𝑄
∑ 0
𝑄1
Estadísticamente estas fórmulas expresan promedios, en este caso de las variaciones. Por
consiguiente las limitaciones que tiene la media aritmética de que es afectada por los valores
extremos inciden en estos índices (relativos) que por consiguiente no miden objetivamente las
variaciones, por lo que su uso es limitado (cuando los datos son homogéneos). Para superar este
limitante se usan factores de ponderación en la forma que se demuestra a continuación.
∑ 𝑃1 𝑄 ∑ 𝑄1 𝑃
Luego: 𝐼𝑝 = ∑ ; 𝐼𝑞 = ∑
𝑃0 𝑄 𝑄0 𝑃
Al respecto, el factor de ponderación puede ser el del año base o el del año de comparación. Cuando
es el año base, la fórmula es:
∑ 𝑃1 𝑄0 ∑ 𝑄1 𝑃0
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
∑ 𝑃0 𝑄0 ∑ 𝑄0 𝑃0
que elaboró Laspeyres. Cuando es el año de comparación se usan las fórmulas elaboradas por
Paasche:
∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃1
En este sentido Fisher formula una ponderación de las dos anteriores y la llamo: “Fórmula ideal de
Fisher”, la cual viene dada por:
∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1
𝐼𝑝 = √ ∗ ∗ 100
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1
132
∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1
𝐼𝑞 = √ ∗ ∗ 100
∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1
Derivado de los desarrollos anteriores se puede decir que el índice del valor se calcula con la
siguiente formula:
∑ 𝑃1 𝑄1
𝐼𝑣 = ∗ 100
∑ 𝑃0 𝑄0
Puesto que hay diferentes métodos para calcular índices (Marshall, Keynes, Ellsworth, etc.) Irving
Fisher ideó una serie de criterios matemáticos para que con base en ellos el investigador pudiera
seleccionar el más adecuado para medir las variaciones en el tiempo: de precios, cantidades o de
valor. Así, a continuación se muestran algunos criterios matemáticos utilizados para seleccionar el
índice más apropiado (Croxton y Crowden, 1964)
Reversión cronológica
Reversión de factores.
De tal suerte que el índice que pasa "esas pruebas matemáticas” es el que debe usarse en opinión de
Fisher. Como se verá más adelante con un ejemplo numérico, sólo el índice de Fisher pasa estas
pruebas, por eso lo llamó “ideal”.
Es algo que fácilmente y de manera rutinaria el investigador suele hacer, en particular cuando la
serie es ya demasiado larga.
Ello significa que el cambio de base se hace por comodidad, ergo; por ello expresa las variaciones
en función de un año reciente, pero de ninguna manera mejora la serie o valores del fenómeno bajo
estudio.
III.5. Deflactación
133
económico (salario, ingreso, ventas) para que este quede expresado en forma real o constante y la
medición de sus variaciones sea objetiva y no distorsionada por los precios corrientes de los bienes
y servicios.
Para deflactar los datos de un fenómeno económico, lo que se hace primero es seleccionar el
deflactor o índice correspondiente a la naturaleza de ese fenómeno. Al respecto es conveniente
señalar que en México se calculan diversos índices de precios de los cuales destacan: el índice
Nacional de precios al Consumidor, al Productor, la Vivienda, PIB, Índice de precios al mayoreo,
etc.
Una vez seleccionado el índice correspondiente como deflactor, para transformar valores
nominales (o precios de mercado) en valores reales (a precios constantes de un año base
seleccionado previamente) se procede de la siguiente forma:
Así se hace para todos los datos del fenómeno bajo estudio durante un período de tiempo
determinado. El cociente resultante es el valor real, en cada año, del fenómeno de interés.
III.5.1. Inflactación
Por analogía, conservando el espíritu de eliminar el efecto de los precios de mercado o nominales,
estos también se pueden inflactar a precios reales los valores de los fenómenos de interés.
134
IV.6.1 Tabla III.1 Deflactación
1 2 3 4 5 6 7
Inflación
Base Base Base
INPC INPC INPC Base
1968=100 1978=100 1994=100
2002=100
1968 100 30.2 30.20 0.08 0.08
1969 103.5 31.3 31.30 0.08 0.08 3.5
1970 108.7 32.9 32.30 0.09 0.09 3.2
1971 114.6 34.6 34.00 0.09 0.09 5.3
1972 120.3 36.4 35.70 0.10 0.10 5.0
1973 134.8 40.7 40.00 0.11 0.11 12.0
1974 166.8 50.4 49.50 0.13 0.13 23.8
1975 191.8 58.0 57.00 0.15 0.15 15.2
1976 222.1 67.1 66.00 0.18 0.18 15.8
1977 286.7 86.7 85.10 0.23 0.23 28.9
1978 330.8 100.0 100.00 0.27 0.27 17.5
1979 117.8 35.6 118.20 0.32 0.32 18.2
1980 149 45.0 149.30 0.40 0.40 26.3
1981 191.9 58.0 191.10 0.51 0.51 28.0
1982 302.4 91.4 303.60 0.81 0.81 58.9
1983 612.90 1.64 1.64 101.9
1984 1014.10 2.71 2.71 65.5
1985 1599.70 4.28 4.27 57.7
1986 2979.20 7.97 7.95 86.2
1987 6906.60 18.47 18.43 131.8
1988 14791.20 39.55 39.47 114.2
1989 17705.60 47.35 47.25 19.7
1990 22481.50 60.12 60.00 27.0
1991 27576.30 73.75 73.59 22.7
1992 31852.80 85.18 85.01 15.5
1993 34959.00 93.49 93.29 9.8
1994 37394.10 100.00 99.79 7.0
1995 50478.30 134.99 134.71 35.0
1996 67836.64 181.41 181.04 34.4
1997 81828.39 218.83 218.37 20.6
1998 94890.15 253.76 253.23 16.0
1999 110595.67 295.76 295.15 16.6
2000 121092.62 323.83 323.16 9.5
2001 128187.35 342.80 342.09 5.9
2002 100.21 100.21 5.7
Fuente: Investigación directa con datos de INEGI.
Se parte inicialmente de los datos que se obtienen de la fuente de información que es la columna
número 2, base 1968=100, para pasar de la base 1968 a 1978=100 es necesario realizar una
100
simple operación aritmética que es la división de 330.8 ∗ 100 = 30.2, el dato de 330.8 se usa por
103.5
ser el año al que se va a “arrastrar la información”, para el siguiente año la operación es 330.8
∗
100 = 31.3 y así sucesivamente hasta donde se desea hacer el cambio de base.
135
En la columna 4 es solamente el INPC con base 1978, para cambiar la base a 1994 los resultados
30.2
aparecen en la columna 5; los cálculos son los siguientes para el año 1968 37,394.10
∗ 100 =
0.0807, para el año 1975.
Tabla III.2
Ventas
Precio Promedio No. De Unidades
Año Ingresos en Miles $
por unidad $ vendidas
(A) (B) (C) B*C
1996 3000 60 180
1997 3300 63 207.9
1998 3900 60 234
1999 4500 66 297
2000 4500 72 324
2001 4800 75 360
2002 4950 66 326.7
Fuente: Investigación directa con datos hipotéticos
𝑃1 𝑄1
𝐼𝑝 = ∗ 100; 𝐼𝑞 = ∗ 100
𝑃0 𝑄0
Tabla III.3
Construcción de Índices
Año Precio (P) Cantidad (Q) Ingresos
$ Índice Unidades Índice $ Índice
1996 3,000 100 60 100 180 100
1997 3,300 110 63 105 207.9 116
1998 3,900 130 60 100 234 130
1999 4,500 150 66 110 297 165
2000 4,500 150 72 120 324 180
2001 4,800 160 75 125 360 200
2002 4,950 165 66 110 326 181.11
Fuente: Investigación directa con datos hipotéticos
Si ahora se cambia de base, ergo, al año 2000=100, haciendo los cálculos con dos procedimientos
para los precios se tendrá:
136
Tabla III.4
Cálculo de Índices base 2000
Año Índice base Cálculo con Números Índice base
Año 1996=100 Originales Año 2000=100
1996 100 100(3000 ÷ 4500) = 67 67
1997 110 100(3300 ÷ 4500) = 73 73
1998 130 100(3900 ÷ 4500) = 87 87
1999 150 100(4500 ÷ 4500) = 100 100
2000 150 100(4500 ÷ 4500) = 100 100
2001 160 100(4800 ÷ 4500) = 107 107
2002 165 100(4950 ÷ 4500) = 110 110
Fuente: Investigación directa con datos hipotético de la Tabla III.3
La deflactación se hace lo mismo para una serie cronológica como para el análisis comparativo en
dos años de un fenómeno en términos reales.
Así por ejemplo, si se desea conocer el ingreso real de una persona de 2010 a 2011, tomando en
cuenta que el primer año su ingreso nominal fue de $10 millones y en el segundo fue de $12.6
millones. El procedimiento es el siguiente.
Tabla.III.5
Deflactación
Año Ingreso Nominal (millones) Ip Ingreso Real (millones)
2010 $10 100 Ingreso Nominal ÷ Ip = 10 ÷ 1.0 = 10.00
2011 $12.60 110 Ingreso Nominal ÷ Ip = 12.6 ÷ 1.1 = 11.45
Fuente: Investigación directa con datos hipotéticos.
En ocasiones es necesario inflactar los valores de un fenómeno económico, como las ventas anuales
de una empresa.
Por ejemplo, en 2011 se deseaba inflactar las ventas hechas por las empresas durante 2008, 2009,
2010 y 2011. Para ello se cuenta con el índice de precios al consumidor para esos años el cual,
hacer la inflactación correspondiente tomando como base 2011=100.
137
Tabla III.6
Aplicaciones para deflactar e inflactar
Nuevo Índice
Año Índice
Para Dividir Para Multiplicar
2011 153.63 153.63 ÷ 153.63 = 100 153.63 ÷ 153.63 = 100
2010 118.18 118.18 ÷ 153.63 = 0.77 153.63 ÷ 118.18 = 1.3
2009 99.95 99.95 ÷ 153.63 = 0.65 153.63 ÷ 99.95 = 1.54
2008 85.1 85.10 ÷ 153.63 = 0.55 153.63 ÷ 85.10 = 1.82
Fuente: Investigación directa con datos hipotéticos
Ejemplo: $100 millones de ventas de 2008, 2009 y 2010 equivalen a precios de 2011 a:
Tabla III.7
Aplicaciones para inflactar
Año Ventas (Millones de pesos de cada empresa)
2008 $100 ÷ 0.55 = $182 = $100 * 1.82
2009 $100 ÷ 0.65 = $154 = $100 * 1.54
2010 $100 ÷ 0.77 = $130 = $100 * 1.3
Fuente: Investigación directa con datos hipotéticos
Ahora bien para deflactar, si se fija 2008=100 como año base, es decir, se lleva el valor de las
ventas a precios de 2008, en este caso se hace lo contrario, es decir, se hace un cambio de base al
revés.
Tabla III.8
Aplicaciones para deflactar
Año Índice Anterior Nuevo Índice
Dividir Multiplicar Para Dividir Para Multiplicar
2008 0.55 1.82 0.55 ÷ 0.55 = 1.0 1.82 ÷ 1.82 = 1.00
2009 0.65 1.54 0.65 ÷ 0.55 = 1.18 1.54 ÷ 1.82 = 0.85
2010 0.77 1.30 0.77 ÷ 0.55 = 1.4 1.3 ÷ 1.82 = 0.71
2011 1.00 1.00 1.00 ÷ 0.55 = 1.81 1.0 ÷ 1.82 = 0.55
Fuente: Investigación directa con datos hipotéticos
Así $100 millones de 2008, 2009, 2010, y 2011 equivalen a precios de 2008 a:
Tabla III.9
Aplicaciones para deflactar
Año Millones de $ en ventas de cada empresa
2008 $100 ÷ 1.00 = 100 = 100 * 1.00
2009 $100 ÷ 1.18 = 85 = 100 * 0.85
2010 $100 ÷ 1.4 = 71 = 100 * 0.71
2011 $100 ÷ 1.81 = 55 = 100 * 0.55
Fuente: Investigación directa con datos hipotéticos
De los cálculos anteriores se puede deducir un indicador muy útil y por consiguiente muy usado en
economía, el cual es el siguiente:
Poder adquisitivo =1 ÷ Ip
138
III.8 Caso real: Cálculo de la inflación mensual acumulada en México
A continuación, se muestran los cálculos que hacia el Banco de México para determinar el índice
inflacionario mensualmente. Aun cuando el ejemplo se refiere al año de 1990, la metodología está
vigente. Cálculo de la tasa de inflación acumulada a partir de las tasas mensuales de inflación. Para
ello se toma como referencia el Índice Nacional de Precios al Consumidor, (I.N.P.C.), con 1978 =
100 así para 1990:
Tabla III.10
Cálculo de la inflación mensual acumulada en México en 1990
I II III IV
Índice
Base Inicial para
Nacional de
Variación aplicar la Importe de la Inflación
Mes Precios al
Mensual Del inflación del mes Inflación del Acumulada
Consumidor
INPC (100+col. IV del mes % %
1978=100
renglón anterior)
A Enero 20,260.70 4.8 100 4.8 4.8
B Febrero 20,719.50 2.3 104.8 2.4104 7.2104
C Marzo 21,084.80 1.8 107.2104 1.92978 9.14018
D Abril 21,405.70 1.5 109.141187 1.63712 10.7773
E Mayo 21,779.20 1.7 110.778305 1.88323 12.66053
F Junio 22,258.90 2.2 112.661536 2.47855 15.13908
G Julio 22,664.80 1.8 115.14009 2.072522 17.211602
H Agosto 23,051.00 1.7 117.212612 1.992614 19.204216
I Septiembre 23,379.60 1.4 119.205226 1.668873 20.873089
J Octubre 23,715.70 1.4 120.874099 1.692237 22.565326
20.6 22.565326
Fuente: Investigación directa con datos de INEGI/Banxico
Para obtener la tasa mensual acumulada, no se debe sumar las tasas de inflación de cada mes, se
debe multiplicar y después sumar; para así acumular correctamente las tasas de inflación de cada
mes.
Así al empezar el mes de enero de 1990, se parte de la base 100 (columna I renglón A). La tasa de
inflación del mes de enero fue de 4.8% luego la tasa de inflación acumulada al final del mes fue del
4.8 (columna IV renglón A)
La tasa de inflación del mes de febrero fue de 2.3%. Sin embargo la tasa de inflación acumulada
durante estos dos meses de 1990 no fue la simple suma de 4.8+2.3=7.1. El cálculo de la inflación
acumulada al 29 de febrero fue: 104.8 x 0.023 = 2.4104 + 4.8 = 7.21 % (columna IV renglón B).
139
Tabla III.11
Cálculo de la inflación mensual acumulada en México.
Marzo 107.2104 * 0.018 = 1.92978 + 7.2101 = 9.14018
Abril 109.141187 * 0.015 = 1.63712 + 9.14016 = 10.7773
Mayo 110.778305 * 0.017 = 1.88323 + 10.7783 = 12.66053
Junio 112.661536 * 0.022 = 2.47855 + 12.66165 = 15.13908
Julio 115.14009 * 0.018 = 2.072522 + 15.14009 = 17.211602
Agosto 117.212612 * 0.017 = 1.992614 + 17.212612 = 19.204216
Septiembre 119.205226 * 0.014 = 1.668873 + 19.205226 = 20.873089
Octubre 120.874099 * 0.014 = 1.692237 + 20.874099 = 22.565326
Fuente: Investigación directa con datos del Banco de México/INEGI
Así, puede observarse en la tabla III.11 que al finalizar el mes de octubre de 1990, la tasa de
inflación fue del 22.565326 (columna III y columna IV) y no del 20.6 (columna I) como lo indicaría
simplemente la suma de las tasa de inflación mensual.
Tabla III.12
Para números índices compuestos o ponderados
2001 2002
Producto Unidad P1Q0 P0Q0 P1Q1 P0Q1
P0 Q0 P1 Q1
Maíz Kgs. 2 3 3 1 9 6 3 2
Arroz Kgs. 4 3 6 2 18 12 12 8
Papa Kgs. 6 4 9 3 36 24 27 18
Trigo Kgs. 8 5 12 4 60 40 48 32
Sal Kgs. 10 6 15 5 90 60 75 50
30 21 45 15 213 142 165 110
Fuente: Investigación directa con datos hipotéticos
Laspeyres
∑ 𝑃1 𝑄0 213
𝐼𝑝 = ∗ 100 = ∗ 100 = 1.5 ∗ 100 = 150%
∑ 𝑃0 𝑄0 142
Paasche
∑ 𝑃1 𝑄1 165
𝐼𝑝 = ∗ 100 = ∗ 100 = 1.5 ∗ 100 = 150%
∑ 𝑃0 𝑄1 110
Marshall
140
Fórmula ideal de Fisher
∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1 213 165
𝐼𝑝 = √ ∗ ∗ 100 = √ ∗ ∗ 100 = √1.5 ∗ 1.5 ∗ 100 = √2.25 ∗ 100
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1 142 110
∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1
𝐼𝑞 = √ ∗ ∗ 100 = √0.79 ∗ 0.79 ∗ 100 = √0.6241 ∗ 100
∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1
∑ 𝑃1 𝑄1 165
𝑎). − 𝐼𝑣 = ∗ 100 = ∗ 100 = 1.16 ∗ 100 = 116%
∑ 𝑃0 𝑄0 142
Su antilogaritmo = 150.0 %
141
Ejemplos numéricos adicionales
Tabla III.13
Para números índice compuestos o ponderados
2001=100 Log de
Recíproco
Del precio Relativos Q0 + Q1 P1(Q0 + Q1) P0(Q0 + Q1)
P0/P1
P1/P0 P1/P0
1.5 0.1761 0.67 4 12 8
1.5 0.1761 0.67 5 30 20
1.5 0.1761 0.67 7 63 42
1.5 0.1761 0.67 9 108 72
1.5 0.1761 0.67 11 165 110
7.5 0.8805 3.35 36 378 252
Fuente: Investigación directa con datos hipotéticos
Marshall
∑ 𝑃1 (𝑄0 + 𝑄1 ) 378
𝐼𝑝 = ∗ 100 = ∗ 100 = 150%
∑ 𝑃0 (𝑄0 + 𝑄1 ) 252
También existe el índice Flores-Panse. Fue calculado por Ana María Flores y V.G. Panse en 1963.
Contiene una elaboración matemática rigurosa en el cálculo de los Qs, lo que hace posible que el
indicador (índice) resulte más apegado a la realidad económica y tenga aplicación en Paasche,
Laspeyres y Fisher.
En la exposición teórica realizada al principio del capítulo se indicó que existen varias fórmulas
para calcular números índices , motivo por el cual ahora procede preguntarse cuáles son los
mejores; al respecto, autores como Taro Yamane ( 1974:181) comentan que sólo algunas de esas
fórmulas pasan las pruebas matemáticas que se describen a continuación, dentro de las cuales
destaca la de Fisher, motivo por el cual se le conoce como la fórmula ideal:
142
O sea que se aplican para identificar qué índice es el mejor de los muchos que existen para expresar
variaciones. Fisher propuso entre otros, las dos que aparecen en los siguientes dos incisos (Croxton
y Crowden, 1964). Para ello supóngase que los datos son los siguientes:
Tabla III.14
Pruebas matemáticas
2013 2014
Artículo Unidad
P0 Q0 P1 Q1
Maíz Kilos 2,343.00 2,679.00 0.66 3,071.00
Algodón Kilos 5,356.00 5,705.00 0.14 6,715.00
Heno Kilos 20,150.00 76.59 17.78 76.16
Trigo Kilos 2.13 52.10 1.43 843.30
Avena Kilos 0.70 1,107.00 0.46 1,444.00
Papa Kilos 1.58 297.30 1.13 368.90
Azúcar Kilos 0.10 4,371.00 0.05 4,817.00
Cabada Kilos 1.22 131.10 0.72 171.00
Tabaco Kilos 0.39 1,444.00 0.21 1,509.00
Linaza Litros 4.38 6.77 1.77 10.90
Centeno Kilos 1.33 78.70 1.26 61.90
Arroz Kilos 2.67 42.69 1.19 51.56
Fuente: Investigación directa con datos hipotéticos
Tabla III.15
Pruebas matemáticas
P0Q0 P1Q0 P0Q1 P1Q1
3,597.90 1757.424 4,124.35 2,014.58
2,030.98 792.995 2,390.54 933.385
1,543.29 1361.7702 1,534.62 1,354.12
2,018.93 1364.3593 1,797.07 1,208.45
777.114 504.792 1,013.69 658.464
469.734 335.3544 582.862 416.1192
445.842 231.663 491.334 255.301
159.2865 93.8676 207.765 122.436
563.16 306.128 588.51 319.908
29.67291 11.9829 47.7747 19.293
104.7497 98.8472 82.3889 77.7464
113.81154 50.84379 137.6989 61.51515
11,854.46 6,910.03 12,998.61 7,441.32
Fuente: Investigación directa con datos hipotéticos
143
III.9.4 Prueba de reversión de factores
Verificación:
∑ 𝑃1 𝑄0 ∑ 𝑄1 𝑃0
Si se toma la fórmula de Laspeyres: ∑ se transforma ∑ 𝑄0 𝑃0
𝑃0 𝑄0
∑ 𝑃1 𝑄0 ∑𝑄 𝑃 ∑𝑄 𝑃
Esto es en un índice de cantidad, pero ∑ 𝑃0 𝑄0
∗ ∑ 𝑄1 𝑃0 es diferente de ∑ 𝑄1 𝑃1
0 0 0 0
∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃1 ∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃1 ∑ 𝑄1 𝑃1
∑ 𝑃0 𝑄1
se transforma en ∑ ; pero ∑ ∗∑ es diferente de ∑
𝑄0 𝑃1 𝑃0 𝑄1 𝑄0 𝑃1 𝑄0 𝑃0
∑𝑃 𝑄 ∑𝑃 𝑄 ∑𝑄 𝑃 ∑𝑄 𝑃
√∑ 𝑃1 𝑄0 ∗ ∑ 𝑃1 𝑄1 al transformarse en√∑ 𝑄1 𝑃0 ∗ ∑ 𝑄1 𝑃1 y multiplicarse por la anterior
0 0 0 1 0 0 0 1
∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑃1 𝑄1
√ ∗ ∗√ ∗ =
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1 ∑ 𝑃0 𝑄0
Demostración numérica
∑ 𝑃1 𝑄0 ∑ 𝑃0 𝑄1 12,968,610.8
Laspeyres: = 0.5824; =
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄0 11,864,461.25
Con Paasche:
∑ 𝑃1 𝑄1 7,441,317.45
= = 0.5725 y
∑ 𝑃0 𝑄1 12,998,610.8
144
∑ 𝑄1 𝑃1 7,441,317.45
= = 1.0769 ≅ 1.078868
∑ 𝑄0 𝑃1 6,910,027.39
∑ 𝑃1 𝑄0 ∑ 𝑃1 𝑄1 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑃1 𝑄1
√ ∗ ∗√ ∗ =
∑ 𝑃0 𝑄0 ∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃0 ∑ 𝑄0 𝑃1 ∑ 𝑃0 𝑄0
En conclusión, éste debería ser el índice a utilizar para medir variaciones en el tiempo.
∑𝑃 𝑄 ∑𝑃 𝑄 ∑𝑃 𝑄
Si se toma la fórmula de Laspeyres: ∑ 𝑃1 𝑄0 pero ∑ 𝑃1 𝑄0 se transforma en ∑ 𝑃0 𝑄1
0 0 0 0 1 1
Por lo tanto
∑ 𝑃1 𝑄0 ∑ 𝑃0 𝑄1
∗ ≠ 1.0
∑ 𝑃0 𝑄0 ∑ 𝑃1 𝑄1
∑ 𝑃1 𝑄1 ∑𝑃 𝑄
∑ 𝑃0 𝑄1
se transforma ∑ 𝑃0 𝑄0.
1 0
∑ 𝑃1 𝑄1 ∑ 𝑄0 𝑃0
Pero ∑ ∗∑ ≠ 1.0
𝑃0 𝑄1 𝑄0 𝑃1
∑𝑄 𝑃 ∑𝑄 𝑃 ∑𝑄 𝑃 ∑𝑄 𝑃
√∑ 𝑄0 𝑃1 ∗ ∑ 𝑄1 𝑃1 se cambia √∑ 𝑄1 𝑃0 ∗ ∑ 𝑄0 𝑃0 tal que
0 0 1 0 1 1 0 1
∑ 𝑄0 𝑃1 ∑ 𝑄1 𝑃1 ∑ 𝑄1 𝑃0 ∑ 𝑄0 𝑃0
√ ∗ ∗√ ∗ = 1.0
∑ 𝑄0 𝑃0 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑄0 𝑃1
145
Demostración numérica
Lo anterior ahora sustituyendo los valores de la Tabla III.15 en las fórmulas anteriores, permite
obtener en el caso de Laspeyres:
∑ 𝑃1 𝑄0 ∑𝑃 𝑄
∑ 𝑃0 𝑄0
se transforma en ∑ 𝑃0 𝑄1
1 1
Recordando que:
∑ 𝑃0 𝑄1 12,998,610.8
= = 1.7468157
∑ 𝑃1 𝑄1 7,441,317.45
∑ 𝑃1 𝑄1 ∑ 𝑄0 𝑃0
Con Paasche: se transforma en
∑ 𝑃0 𝑄1 ∑ 𝑄0 𝑃1
∑ 𝑄0 𝑃0 11,864,461.25
Donde
∑ 𝑄0 𝑃1
= = 1.7169919
6,910,023.9
∑ 𝑄0 𝑃1 ∑ 𝑄1 𝑃1 ∑ 𝑄1 𝑃0 ∑ 𝑄0 𝑃0
√ ∗ ∗√ ∗ = 1.0
∑ 𝑄0 𝑃0 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1 ∑ 𝑄0 𝑃1
(0.5774)(1.7318) = 1.0 o sea que 0.99999413 = 1.0 por lo tanto 1.0 = 1.0
Conclusión: Puesto que sólo las fórmulas propuestas por Fisher pasan estas dos pruebas
matemáticas, él las llamó “Fórmula Ideal de Fisher”. Cabe señalar que en México no se usa para
medir variaciones ya sea de precios o de cantidades pero se incluyó este tema para que el lector vea
los esfuerzos que hacen los investigadores por mejorar la metodología de variaciones de una
variable.
El proceso de eslabonamiento se caracteriza por el cambio constante del año base. Por ejemplo el
índice de 2000 usa como base 1999 y el de 2002 toma como base 2001. Visto numéricamente:
146
Tabla III.16
Índices eslabonados y en cadena
Año Ventas en Eslabón Relativo Índice en Cadena
Millones de $ en porcentajes
1998 1.5 - 136.3
1999 1.3 86.7 118.2
2000 1.1 84.6 100
2001 1.7 154.5 154.5
2002 1.9 121.1 187.09
Fuente: Provienen de los datos de Kazmier (1967).
Las limitaciones de este índice es que no se puede hacer comparaciones sobre un número
determinado de años, para ello es necesario unir o encadenar los eslabones en términos de un sólo
año base-fija, que puede ser el año inicial o digamos el año 2000.
Para el año escogido como base el valor del índice es automáticamente fijado en 100, en este
ejemplo el año de 2000 es igual a 100, cuarta columna. Los índices para los años siguientes a 2000
fueron determinados multiplicando el eslabón relativo de cada año por el índice en cadena del año
precedente. Así, si N se refiere a un año determinado en la serie:
𝐿𝑢 ∗ 𝐶𝑢−1
𝐶𝑢 =
100
Dónde:
(121.1)∗(1545)
𝐶𝑢 2002 = 100
, 𝐶𝑢 2002 = 187.09
Para ir hacia atrás en el tiempo a partir de un año base la ecuación se resuelve para C u-1 en lugar de
Cu. Así, el índice en cadena para 1998 será:
𝐶𝑢 118.2
𝐶𝑢−1 = ∗ 100; 𝐶𝑢 1998 = ∗ 100
𝐿𝑢 86.7
Por tanto Cu 1998 = 136.3
100
Para 1999 se obtiene: 𝐶𝑢 1999 = 84.6 ∗ 100 = 118.2
147
Reafirmación de los conocimientos: cálculos de los números índice usados para “inflactar” la
información de 1997 a 2000.
PASOS:
1. Se obtuvo el índice mensual para los años de 1998 y 1999, por ser los años a que
corresponden la mayoría de las empresas, que se dividió entre 12 meses, arribándose a:
1,418.20 1,199.40
𝐼1999 = = 118.18%; 𝐼1998 = = 99.95%
12 12
2. Al año de 1999 o sea 118.8 se le incorporó el 30% de la inflación estimada para 2000, a fin
de hacer este último igual a 100% o año base:
Tabla III.17
Índices eslabonados y en cadena.
Índice
Año Cálculo
Para dividir Para multiplicar
2000 153.63 ÷ 153.63 = 1 1
1999 118.18 ÷ 153.63 = 0.77 1.3
1998 99.95 ÷ 153.63 = 0.65 1.54
1997 85.1 ÷ 153.63 = 0.55 1.82
Fuente: Investigación directa con datos hipotéticos
148
III.11 Diferentes tipos de índices usados en México
Tabla III.18
Diferentes tipos de índices usados en México
INPC INPP
Es un indicador (estimador porque viene de una Es un indicador de la evolución de los
muestra) del comportamiento de los precios de los precios de los bienes y servicios que forman
bienes y servicios que consumen las familias en un la producción de la economía en un lapso
lapso dado. dado.
Incluye únicamente los bienes y servicios que Incluye: además del consumo familiar, a los
adquieren las familias para su consumo en un lapso bienes y servicios intermedios, de consumo
dado. del gobierno, de inversión y de exportación.
Las ponderaciones están basadas en los reportes que el Las ponderaciones se estiman con base en el
INEGI levanta en los hogares, los cuales, al agregarse, Sistema de Cuentas Nacionales de México,
constituyen la Encuesta Nacional de Ingreso Gasto de SCNM.
los Hogares, ENIGH.
Incluye las importaciones como una fracción de los No incluye a las importaciones.
bienes que consumen las familias.
Los precios son recabados en los establecimientos o Los precios se obtienen directamente de las
fuentes de información donde las familias acuden a empresas productoras de bienes o
realizar las compras de los bienes y servicios que suministradoras de servicios.
consumen.
Periodicidad quincenal: Los resultados se publican los Periodicidad mensual. Se publica a más
días 10 y 25 de cada mes en el Diario Oficial de la tardar el día 9 de cada mes en un boletín de
Federación, en un boletín de prensa ( que se emite prensa y en la hoja electrónica del Banco de
el día anterior a su publicación en el Diario Oficial ) y México.
en la hoja electrónica del Banco de México
Se elabora con base en precios al consumidor final que Los precios que se cotizan son
incluyen impuestos al consumo, costos de transporte y principalmente Libre a Bordo (LAB) planta
márgenes de comercialización. Las cotizaciones son de producción. Por tanto, no incluyen
proporcionadas de manera voluntaria y se publican impuestos al consumo, costos de transporte
cada mes en el Diario Oficial de la Federación, ni márgenes de comercialización; se
manteniendo la confidencialidad respecto a las fuentes proporcionan de manera voluntaria y son
de información. confidenciales.
Se calcula para 46 ciudades y a nivel nacional. Presenta resultados a nivel nacional.
Fuente: Investigación directa con datos de Banxico
149
III.12 Ejercicios sobre la construcción de índices con variables de la economía de México
Tabla III.19
Producción de Maíz en México
Tomando 1990 como 100 se dice que 14, 635,439 toneladas será =100 y con esta referencia se
obtendrá el índice para cada año.
Ejemplo: Para 1993 = 18, 125,263 Toneladas considerando el año 1990 = 100
18,125,263
1993 = ( ) 100 = 123.845
14,635,439
150
Ejercicio 15:
Tabla III.20
Índices relativos para precio, cantidad y valor de la Producción de maíz
Valor Producción (Miles de
Producción (Ton) PMR ($/Ton)
Año Pesos)
Unidades Índice Precio Índice Valor Índice
1990 14,635,439.00 100 609.47 100 8,919,861.01 100
1991 14,251,500.00 97.38 707.31 116.053292 10,080,228.47 113.008807
1992 16,929,342.00 115.67 761.23 124.900323 12,887,123.01 144.476724
1993 18,125,263.00 123.85 767.73 125.966824 13,915,308.16 156.003643
1994 18,235,826.00 124.6 656.22 107.670599 11,966,713.74 134.158074
1995 18,352,856.00 125.4 1,091.57 179.101514 20,033,427.02 224.593489
1996 18,025,952.45 123.17 1,434.61 235.386483 25,860,211.64 289.917204
1997 17,656,258.00 120.64 1,353.75 222.119218 23,902,159.28 267.965602
1998 18,454,710.38 126.1 1,446.18 237.284854 26,688,833.06 299.206827
1999 17,706,375.63 120.98 1,454.48 238.646693 25,753,569.23 288.721643
2000 17,556,905.24 119.96 1,507.78 247.391996 26,471,950.58 296.775371
2001 20,134,312.10 137.57 1,451.07 238.087191 29,216,296.26 327.542057
2002 19,297,754.79 131.86 1,500.56 246.20736 28,957,438.93 324.640024
2003 20,701,420.03 141.45 1,618.01 265.478202 33,495,104.62 375.511508
2004 21,685,833.34 148.17 1,678.59 275.417986 36,401,622.99 408.096303
2005 19,338,712.89 132.14 1,577.93 258.901997 30,515,135.23 342.103259
2006 21,893,209.25 149.59 2,010.55 329.884982 44,017,391.86 493.476208
2007 23,512,751.85 160.66 2,441.99 400.674356 57,417,904.89 643.708516
2008 24,410,278.53 166.79 2,817.04 462.21143 68,764,731.03 770.917069
2009 20,142,815.76 137.63 2,802.05 459.751916 56,441,176.90 632.75848
2010 23,301,878.98 159.22 2,816.48 462.119546 65,629,276.11 735.765681
Fuente: Investigación directa con datos de SAGARPA.
Si ahora se cambia de base, ergo, 2000=100, haciendo los cálculos para los precios se obtiene:
100
1990 = ( ) 100 = 83.36
119.96
Siendo 100 la base anterior ya que se consideró a 1990 como 100; ahora éste se divide entre el valor
de la nueva base que será 2000=119.96 en índice de acuerdo a las toneladas y a la base anterior y se
obtiene el nuevo índice.
151
Tabla III.21
Cambio de base en la producción de Maíz
Producción (Ton) Producción (Ton)
Índice Índice Índice
Año Índice base Año
Unidades base Unidades base base
1990
2000 1990 2000
1990 14,635,439.00 100 83.36 2001 20,134,312.10 137.57 114.68
1991 14,251,500.00 97.38 81.17 2002 19,297,754.79 131.86 109.92
1992 16,929,342.00 115.67 96.43 2003 20,701,420.03 141.45 117.91
1993 18,125,263.00 123.85 103.24 2004 21,685,833.34 148.17 123.52
1994 18,235,826.00 124.6 103.87 2005 19,338,712.89 132.14 110.15
1995 18,352,856.00 125.4 104.53 2006 21,893,209.25 149.59 124.7
1996 18,025,952.45 123.17 102.67 2007 23,512,751.85 160.66 133.92
1997 17,656,258.00 120.64 100.57 2008 24,410,278.53 166.79 139.04
1998 18,454,710.38 126.1 105.12 2009 20,142,815.76 137.63 114.73
1999 17,706,375.63 120.98 100.85 2010 23,301,878.98 159.22 132.72
2000 17,556,905.24 119.96 100
Fuente: Investigación directa con datos de SAGARPA.
Lo mismo puede hacerse para los Precios y el Valor de la Producción como anteriormente se
elaboró para índices en general en la Tabla III.20
Como antes se indicó, la deflactación se hace lo mismo para una serie cronológica como para el
análisis comparativo en dos años de un fenómeno en términos reales.
Si se define la inflación como el aumento sustancial y sostenido del nivel general de precios, detrás
de este fenómeno están la cantidad total del dinero en la economía y la lucha de los distintos agentes
económicos por el reparto de la renta. Por ello para evaluar estos cambios se necesitan actualizar el
valor de los bienes e ingresos.
152
Tabla III.22
Deflactación
Periodo Salario INPC Salario
Nominal Real
2001 37.57 95.424 39.372
2002 39.74 100.224 39.651
2003 41.53 104.782 39.635
2004 43.29 109.694 39.464
2005 45.24 114.069 39.66
2006 47.05 118.209 39.802
2007 48.88 122.898 39.773
2008 50.84 129.197 39.351
2009 53.19 134.071 39.673
Fuente: Investigación directa, INEGI, con base en cifras de la Comisión Nacional de Salarios Mínimos.
En la Tabla III.22 se obtienen los salarios reales con ayuda del Índice Nacional de Precios al
Consumidor, teniendo estos datos la deflactación consiste en basarnos en el índice de precios para
así obtener el salario real como e muestra en el siguiente ejemplo:
Como el INPC es de 109.694, se sabe que es un índice por lo que su valor esta multiplicado por
100. Así que se toma el valor de variación que será 1.0969. De ese modo se tiene el siguiente
resultado:
43.29
2004 = = 39.46
1.0969
Inflactación:
Existen dos maneras de realizarla, la primera es dividiendo. Así se toman los valores de la Tabla
III.23, por ejemplo para el periodo 2010/01, los cálculos son:
El INPC de este periodo es 96.58 y si se toma como base 2012/02 cuyo índice es 104.5
96.58
2010/01 = = 0.92
104.5
Multiplicando:
104.5
2010/01 = = 1.082
96.58
Todos los resultados del periodo se pueden observar en la Tabla III.23 de inflactación.
153
Tabla III.23
Inflactación
Con esos índices se pueden hacer ejercicios como los siguientes: Ejemplo, $100 millones de ventas
de 2010/1, 2010/2 y 2010/3 equivalen a precios de 2012/02 a:
Tabla III.24
Ventas
Año Ventas (Millones de pesos de cada empresa)
2010/1 $100 ÷ 0.92 = $ 108 mil = $100 * 1.08
2010/2 $100 ÷ 0.93 = $ 107 mil = $100 * 1.07
2010/3 $100 ÷ 0.936 = $ 106 mil = $100 * 1.06
Fuente: Investigación directa con datos de INEGI
154
Cálculo de la inflación mensual acumulada
Tabla III.25
Inflación acumulada
(Base segunda quincena de diciembre 2010=100)
I II III IV
Índice
Base Inicial
Nacional de Variación Inflación Inflación
Mes para aplicar la
Precios al Porcentual mensual Acumulada
inflación del
Consumidor Del INPC en % %
mes
A Enero 100.228 3.782 100 3.782 3.782
B Febrero 100.604 3.572 103.782 3.707437 7.489437
C Marzo 100.797 3.04 107.489 3.267149 10.75659
D Abril 100.789 3.361 110.757 3.722161 14.47875
E Mayo 100.046 3.249 114.479 3.719745 18.19849
F Junio 100.041 3.276 118.198 3.872736 22.07123
G Julio 100.521 3.547 122.071 4.330065 26.40129
H Agosto 100.68 3.424 126.401 4.32759 30.72888
I Septiembre 100.927 3.137 130.729 4.10067 34.82955
J Octubre 101.608 3.2 134.83 4.314546 39.1441
K Noviembre 102.707 3.48 139.144 4.842215 43.98631
L Diciembre 103.551 3.82 143.986 5.500277 49.48659
M 40.888 49.48659
Fuente: Investigación directa con datos de INEGI
Para obtener la tasa mensual acumulada, no se deben sumar las tasas de inflación de cada mes, se
debe multiplicar y después sumar; para así acumular correctamente las tasas de inflación de cada
mes.
Así al empezar el mes de enero de 2011, se parte de la base 100 (columna I renglón A). La tasa de
inflación del mes de enero fue de 3.78%, luego la tasa de inflación acumulada al final del mes fue
del 3.78 (columna IV renglón A)
Como puede observarse los números índice sirven para hacer muchos análisis de las variaciones de
los valores de las variables económicas en el tiempo.
155
III.13 Ejercicios con Excel: Números índices
PASOS
1. Para ejemplificar el tema se utilizarán los datos de la siguiente tabla sobre la cantidad,
precio e ingresos totales del trigo.
Tabla III.26
Cantidad, precio e ingresos totales del trigo
Año TRIGO
Cantidad Precio Ingresos totales (Cantidad *
Precio)
Unidades Índice de $ Índice de $ Índice de ingresos
cantidad precios totales
2000 150 80.00 12,000.00
2001 140 70.00 9,800.00
2002 150 90.00 13,500.00
2003 130 80.00 10,400.00
2004 120 80.00 9,600.00
2005 140 70.00 9,800.00
2006 130 90.00 11,700.00
Fuente: Investigación directa con datos hipotéticos.
2. Se copian los datos tal como aparecen en la tabla desde la celda A1 en una nueva hoja de
Excel. De modo tal que la tabla quedará de la siguiente manera:
Cuadro III.1
Cantidad, precio e ingresos totales del trigo en Excel
3. Para este ejemplo se tomará como año base el año 2000. Siendo así, tal como se ve en el
cuadro anterior, se ubica el cursor en la celda C4/clic. En ella se escribe la siguiente
fórmula que corresponde al método para calcular cualquier índice para obtener el primer
valor del mismo, =(B4*100)/$B$4, tal como se ve en el siguiente cuadro. La fórmula
anterior consta de multiplicar el año actual, en este caso el año 2000 en la celda B4
multiplicado (*) por cien y dividir (/) lo anterior por el año base seleccionado, que es el año
156
2000. Los símbolos de dinero ($) se encuentran en la fórmula dado que se desea “fijar” la
celda, es decir, que si se copia y pega la fórmula, la celda fijada no variará al momento de
cambiar de posición dentro de la hoja de Excel. Para finalizar se le da clic en la tecla Enter
y el resultado será 100, ya que ese año es el año base.
Cuadro III.2
Fórmula para la generación del índice de cantidad del trigo
4. Para completar toda la columna del índice de cantidad, solamente bastará con copiar y
pegar la fórmula de la celda C4 desde la celda C5 hasta la C10 y automáticamente
aparecerán los resultados, tal como se ve en el siguiente cuadro.
Cuadro III.3
Índice de cantidad del trigo
5. Para elaborar el resto de los índices basta con seguir las instrucciones del paso 3 y 4
adaptando la fórmula a las celdas en las que se encuentre los datos y sin olvidar fijar la
celda del año base para poder elaborar todos los datos del índice. Finalmente y siguiendo
dichas instrucciones, los resultados de todos los índices son los que parecen en el siguiente
cuadro.
157
Cuadro III.4
Índice de cantidad, índice de precios e índice de ingresos totales del trigo
PASOS
1. En una nueva hoja de Excel y se descarga el INPC con periodicidad mensual desde
septiembre de 2014 hasta septiembre de 2015 en la celda A1. Quedando tal como se puede
ver en el siguiente cuadro.
Cuadro III.5
INPC 2° quincena de diciembre 2010 = 100 de septiembre de 2014 a septiembre de 2015
2. Antes que nada se debe establecer al INPC de septiembre de 2014 como el nuevo año base.
Para ello se debe dividir el valor del índice anterior entre el valor seleccionado como nueva
base y multiplicar el resultado por 100. Esto se lo hace en la celda B3 y la fórmula queda de
la siguiente manera: =(B3/$B$3)*100. Se puede ver en el siguiente cuadro, que se ha fijado
el denominador de la fórmula (Los símbolos de $) para poder pegar la fórmula sin que los
valores del denominador cambien, lo cual se hace colocando el cursor en B3 dentro de la
fórmula y dando clic en el botón de F4. Así aunque se mueva la fórmula los valores de la
celda B3 permanecerán constantes. Para terminar se da clic en la tecla Enter.
158
Cuadro III.6
Fórmula para la generación de la nueva base del INPC a septiembre de 2014 = 100
3. Para obtener el resto de los valores faltantes se “arrastra” la fórmula hasta la celda C15.
Para ello se coloca el cursor en la equina inferior derecha de la celda C3, allí el cursor
tomará forma de una pequeña cruz, se da un clic y sin soltar se jala hasta la celda C15 como
se ve en el siguiente cuadro.
Cuadro III.7
Nueva base del INPC a septiembre de 2014 = 100
4. Ahora que ya se tiene el nuevo índice, es necesario obtener la variación del INPC. Para ello
debe situarse en la celda D4 y realizar una sencilla resta del valor de octubre del 2014
(Celda C4) del nuevo índice menos el valor del septiembre de 2013 (Celda C3), quedando
la fórmula =C4-C3, tal como se puede ver en el siguiente cuadro. Para finalizar se da clic en
la tecla Enter.
Cuadro III.8
Fórmula para la generación de la variación porcentual mensual del INPC
159
5. Para obtener el resto de los valores faltantes de la variación porcentual mensual del INPC se
sitúa el cursor en la esquina inferior derecha de la celda D4 hasta que el cursor toma la
forma de una pequeña cruz. Se le da doble clic y automáticamente Excel generará el resto
de los valores faltantes. (Cuadro III.9)
Cuadro III.9
Variación porcentual mensual del INPC
6. Ahora bien, es necesario generar el importe de la variación mensual. Para ello se sitúa el
cursor en la celda E3 y se multiplica el índice del nuevo año base de la columna C con la
variación porcentual mensual (Columna D) correspondiente a su mismo periodo y se divide
el resultado entre 100. En el siguiente cuadro se aprecia cómo quedó la fórmula de lo
anterior =(C4*D5)/100 . Finalmente se da clic a la tecla Enter y se obtiene el resultado.
Cuadro III.10
Fórmula para la generación del importe de la inflación del mes
7. Para obtener el resto de los valores situarse en la esquina inferior derecha de la celda E4
hasta que el cursor toma la forma de una pequeña cruz. Se da doble clic y automáticamente
Excel generará el resto de los valores faltantes.
160
Cuadro III.11
Importe de la inflación del mes
8. Con el importe de la variación del INPC es muy fácil obtener la inflación mensual
acumulada. Para ello debe situarse en la celda F4 y solamente copiar el importe del mes de
septiembre de 2014 de la celda E4 y pegar (Como valores) en la celda F4, ya que esa es la
inflación acumulada de ese mes. Después debe situarse en la celda F5 y sumar el importe
del mes de octubre del 2015 de la celda E5 y la inflación acumulada del mes de septiembre
de la celda F4. Su fórmula al respecto es: =E5+F4 y debe ser tal como se muestra en el
siguiente cuadro:
Cuadro III.12
Fórmula para la generación de la inflación mensual acumulada
9. Para obtener el resto de los datos faltantes de la inflación mensual acumulada, es necesario
situarse en la esquina inferior derecha de la celda F5 hasta que el cursor toma la forma de
una pequeña cruz. Se da doble clic y automáticamente Excel generará el resto de los valores
faltantes. (Cuadro III.13) finalmente se obtiene la inflación acumulada por medio de Excel.
161
Cuadro III.13
Inflación mensual acumulada
10. Para comprobar que se ha calculado de manera correcta la inflación mensual acumulada, la
suma total del importe de la inflación del mes tiene que coincidir con el último dato que se
obtuvo de la inflación mensual acumulada. En el Cuadro III.14 se puede observar que el
cálculo es correcto, ya que ambos resultados coinciden.
Cuadro III.14
Comprobación de la adecuada generación de la inflación mensual acumulada
162
III.15 Números índices compuestos y ponderados
1. Para elaborar los índices compuestos y ponderados de Fisher, Marshall y Laspeyres inicie
Excel e introduzca los siguientes datos en un libro nuevo, tal como se muestra en el Cuadro
III.15.
Cuadro III.15
Datos para elaborar índices compuestos y ponderados
2. Debido a que Excel no cuenta con una función o herramienta para calcular directamente los
índices compuestos y ponderados primero hay que elaborar las multiplicaciones que se
piden en las columnas F, G, H e I. Para ello, haga clic en la celda F3 y escriba: = enseguida
da clic a la celda D3 después escriba:* y da clic a C3. Esto indica la multiplicación del
precio en el año uno con la cantidad del año cero del amaranto. Tal como se observa en el
Cuadro III.16.
Cuadro III 16
Fórmula en Excel para obtener P1Q0
3. Dar Enter y arroja el número 90. Para elaborar los valores P1Q0 de los demás productos
sitúa el cursor en la esquina inferior derecha de la celda F3 hasta que el cursor tome la
forma de una pequeña cruz. Dar clic y sin soltar, jalar hasta la celda F6. (Cuadro III.17)
163
Cuadro III.17
Valores del P1Q0 de todos los productos
4. Para calcular el Total de P1Q0 da clic en la celda F7. Dirígete a la pestaña INICIO y, en el
grupo Modificar, haz clic en el botón Autosuma. (Cuadro III.18) finalmente da Enter
Cuadro III.18
Autosuma de los valores de P1Q0
5. Realizar los pasos 2 a 4 para las columnas G, H e I. De modo que la tabla quede de la
siguiente manera (Cuadro III.19)
Cuadro III.19
Resultados
6. Para elaborar los índices agrega una tabla como la que se muestra en el Cuadro III.20
164
Cuadro III.20
Tabla de datos originales y tabla de índices
7. Para calcular el índice de Laspeyres hay que dividir la suma total del P1Q0 entre P0Q0 y
multiplicar el resultado por 100. Para esto, da clic en la celda B11. Escribe: =(F7/H7)*100
y, presiona Enter.
Cuadro III.21
Índice de Laspeyres
8. Para elaborar el índice de Paasche, divide el total de P1Q1 entre la suma total del P0Q1 y
multiplica por 100/Enter (Cuadro III.22).
Cuadro III.22
Fórmula en Excel para obtener el índice de Paasche
9. Calcula la suma de P0, P1, Q0 y Q1. Enseguida en la celda B13 divide: la suma de P1
multiplicado por la suma del total de Q0 y Q1; entre la suma de P0 multiplicado por la suma
del total Q0 y Q1. Todo lo anterior se multiplica por 100. Tal como se muestra en el cuadro
III.23.
165
Cuadro III.23
Fórmula en Excel para obtener el índice de Marshall
10. Finalmente para obtener el índice de Fisher derivado de la Fórmula ideal de Fisher es
necesario obtener la raíz del resultado de dividir P1Q0 entre P0Q0, multiplicado por el
resultado de la división de P1Q1 entre P0Q1. Multiplicar el resultado de la raíz por 100.
(véase Cuadro III.24).
Cuadro III.24
Fórmula en Excel para obtener el índice de la fórmula ideal de Fisher
Cuadro III.25
Índices Compuestos y ponderados
166
III.16 Pruebas de reversión de factores y de reversión cronológica
Tabla III.27
Productos para la higiene personal
Agosto 2000 Agosto 2005
Artículos P Q P Q
Pasta de dientes 15.3 69 17.8 78
Champú 35.6 48 47.5 36
Jabón de tocador 8.5 78 12.4 81
Talco 17.8 8 22.5 12
Enjuague bucal 27.3 13 38.7 11
Hilo dental 16.9 28 22.5 33
Jabón para manos 11.2 61 16.2 55
Cepillo de dientes 8.9 56 10.6 64
Rastrillo 7.2 45 11.4 40
Crema para afeitar 18.9 56 28.9 57
Fuente: Facultad de Economía, Digesto del Diplomado en estadística aplicada.
PASOS:
1. En una hoja de Excel se transcriben los datos de la tabla III.27 con el fin de realizar una
tabla que contenga el producto de los precios y cantidades de cada producto. Para ello, se
coloca el cursor en la celda G3 y se escribe la fórmula =PRODUCTO(B3,C3), este paso se
repite para todas las columnas con sus respectivos precios y cantidades. Finalmente con la
fórmula =SUMA(G3;G12) se obtienen los totales de cada columna8.
Cuadro III.26
Productos de los precios y las cantidades
Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada
8
Este procedimiento se realiza con el objetivo de hacer más sencillo el cálculo de los índices de Laspeyres,
Paasche y Fischer que requiere el ejercicio.
167
Cuadro III.27
Productos de limpieza, precios y cantidades
Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada
∑ 𝑃1 𝑄𝑂 ∑ 𝑄1 𝑃0 ∑ 𝑄1 𝑃1
En el caso del índice de Laspeyres, la prueba de reversión se expresa así: ∑ 𝑃0 𝑄0
∗∑ ≠∑ ;
𝑄0 𝑃0 𝑄0 𝑃0
∑𝑃 𝑄 ∑𝑄 𝑃
por lo que en Excel para calcular ∑ 𝑃1 𝑄0 ∗ ∑ 𝑄1 𝑃0 hay que ubicarse en la celda M2 donde se realiza la
0 0 0 0
∑𝑄 𝑃
operación correspondiente (véase Cuadro III.28) Posteriormente, se obtiene el índice de valor, ∑ 𝑄1 𝑃1
0 0
(véase celda M5).
Cuadro III.28
Prueba de reversión para el índice de Laspeyres
Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada
168
Cuadro III.29
Cálculo del Índice de Valor
Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada
Cuadro III.30
Resultados
Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada
Por tanto, en la prueba de reversión de factores para el Índice de Laspeyres se demuestra que
1.3309 ≠ 1.3234, es decir, que no pasa esta prueba.
En el caso del Índice de Paasche, con la prueba de reversión de factores también se muestra
∑𝑃 𝑄 ∑𝑄 𝑃 ∑𝑄 𝑃
que ∑ 𝑃1 𝑄1 ∗ ∑ 𝑄1 𝑃1 ≠ ∑ 𝑄1 𝑃1; por lo tanto para probarlo, se obtiene el primer componente
0 1 0 1 0 0
∑ 𝑃1 𝑄1 ∑𝑄 𝑃
representado por ∑ 𝑃0 𝑄1
∗ ∑ 𝑄1 𝑃1 para ello colocar el cursor en la celda M3 y se escribe la
0 1
fórmula correspondiente, finalmente se compara con el índice de valor calculado previamente.
Este procedimiento se repite para el Índice de Fisher donde la prueba de reversión de factores
∑𝑃 𝑄 ∑𝑃 𝑄 ∑𝑄 𝑃 ∑𝑄 𝑃 ∑𝑃 𝑄
se define como √∑ 𝑃1 𝑄0 ∗ ∑ 𝑃1 𝑄1 ∗ √∑ 𝑄1 𝑃0 ∗ ∑ 𝑃1𝑄1 = ∑ 𝑃1 𝑄1
0 0 0 1 0 0 0 1 0 0
169
Cuadro III.31
Resultados para los índices de Paasche y Fischer
Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada
Como se observa en el Cuadro III.31 el índice de Paasche (como el de Laspeyres) no pasa en tanto
que el de Fisher si cumple la prueba de reversión de factores, ya que para el índice de Paasche
1.3165 es diferente de 1.3234, mientras que para el índice de Fischer se cumple que 1.3234 es igual
a 1.3234.
PASOS:
Cuadro III.32
Resultados de la prueba de reversión cronológica
Fuente: Investigación directa con datos obtenidos del Digesto del Diplomado en estadística aplicada
Como se puede observar en el Cuadro III.32 la prueba de reversión cronológica no se cumple para
todos los índices, sólo se cemple en el caso del índice Fisher donde 1 se iguala a la unidad.
170
Tabla III.28
Exportaciones
Exportaciones totales
Año
(Millones de dólares)
2000 166 120.7
2001 158 779.7
2002 161 046.0
2003 164 766.4
2004 187 998.5
2005 214 233.0
2006 249 925.1
2007 271 875.3
2008 291 342.6
2009 229 783.0
2010 298 473 .1
2011 349 375.0
Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011
PASOS:
1. Para construir una tabla con los índices eslabonados y en cadena se transcriben a una hoja
de Excel los datos de la Tabla III.28 Exportaciones y se le anexan los encabezados de
“Eslabón relativo” e “índice en cadena” como se muestra en el siguiente cuadro.
Cuadro III.33
Tabla de exportaciones para los índices de eslabón relativo y en cadena.
Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011
2. Una vez realizada la tabla se construye el eslabón relativo, el cual resulta de la división
entre el valor del periodo actual y el valor del periodo pasado. Por tanto, para calcular el
eslabón relativo nos colocamos en la celda C3 y se realiza la operación =(B3/B2)*100, lo
anterior se repite para el resto del periodo.
171
Cuadro III.34
Cálculo del eslabón relativo
Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011
3. Finalmente, para calcular el índice en cadena se deben considerar las fórmulas expuestas
𝐿𝑢∗𝐶𝑢−1 𝐶𝑢
anteriormente 𝐶𝑢 = 100
y 𝐶𝑢−1 = 𝐿𝑢 ∗ 100 , así como el año base que en este caso es
2005. En este sentido para el año base seleccionado el valor del índice es automáticamente
fijado en 100. Como se muestra en la siguiente imagen el índice en cadena para cada año
depende de su posición respecto al año base
Cuadro III.35
Cálculo del índice en cadena
Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011
172
Cuadro III.36
Cálculo del índice en cadena
Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011
Cuadro III.37
Resultados del índice en cadena
Fuente: Investigación directa con datos de INEGI, Estadísticas de Comercio exterior en México, Información
preliminar (2012); UNAM, Economía Informa, núm. 369, julio–agosto, 2011
173
III.17 Práctica V
ALUMNO__________________________________________GRUPO_________
Problema 1.
Un número índice es un valor relativo con una base igual al 100% y se usa como indicador para
medir el cambio relativo (porcentajes) en el valor de una cosa o de un grupo de cosas en el tiempo,
independientemente de que sean simples o compuestos, los números índices más importantes en el
análisis económico pueden clasificarse en tres tipos 1)____________________
2)______________________ 3)___________________.
Problema 2. Los precios por unidad y las cantidades vendidas de un artículo para los años de 2014 y
2015, están dados en la siguiente tabla. Calcule usted los índices de:
a) Precios
b) Cantidades
c) Valores para 2014 con 2015 como base.
Tabla III.29
Precios por unidad y las cantidades vendidas
Año Precio por Unidad Unidades Vendidas
2014 $1.10 150
2015 $1.32 120
Fuente: Investigación directa con datos hipotéticos.
Problema 3.
174
Tabla III.30
Datos de la producción de ajonjolí
Producción de ajonjolí: Relativos de base Relativos en Relativos en
Año
miles de toneladas fija eslabón cadenas
2011 50
2012 75
2013 100
2014 120
2015 140
Fuente: Investigación directa con datos hipotéticos.
Problema 4
Suponga que los precios y las cantidades de 4 artículos vendidos durante los años de 2014 y 2015
en una ciudad son como sigue:
Tabla III.31
Precios y cantidades vendidas de 4 artículos
Precio por Unidad Cantidad
Artículo (Pesos) (En 1,000 unidades)
2014 2015 2014 2015
A 0.6 lb. 0.65 lb. 45 138
B 1.45 lb. 0.48 lb. 180 120
C 80 ton. 85 ton. 14 10
D 1.5 ton. 1.42 ton. 20 15
Fuente: Investigación directa con datos hipotéticos.
Utilice los métodos de agregados ponderados para construir los números índices de:
a) Precios
b) Cantidades
c) Valor para 2015 con 2014 como base.
Problema 5.
Utilice la información del problema No. 4. Emplee los métodos de promedios relativos para
construir los números índices compuestos de:
a) Precios no ponderados
b) Cantidades no ponderadas
c) Precios ponderados
d) Cantidades ponderadas.
Problema 6.
176
CAPÍTULO IV. PROBABILIDAD
Contexto e importancia
Porque con su cálculo se pueden predecir los datos emanados de la casualidad con que pueden
aparecer en un experimento insertos en la incertidumbre: lo desconocido (Richmond, 1964: 101)
por ejemplo: la cuantificación de su ocurrencia con cierto grado de confianza, es decir de esos
resultados posibles en un experimento que establezca el investigador; también, la probabilidad se
debe de estudiar porque coadyuva en la sustentación de la toma de decisiones inteligentes cuando se
conocen varias opciones en la economía y en los negocios, sobre todo cuando existen el riesgo y la
incertidumbre (Salvatore, 1991). Así, por su importancia, para entender mejor la relación entre
probabilidad, incertidumbre y riesgo a continuación se ofrecen varias definiciones de estos
conceptos..
Como puede observarse estos términos están asociados con el cálculo de la probabilidad porque con
su valor se predice lo desconocido, es decir, determina la presunta ocurrencia a priori del suceso.
En este sentido, ahora conviene asociar la probabilidad con la inferencia estadística porque ésta se
refiere a la estimación con una muestra de los valores desconocidos de los parámetros de un
universo estadístico. Para demostrar lo anterior con propiedad posteriormente, a continuación se
expone la vinculación de estos temas en la siguiente forma:
Como referencia conviene traer a colación la definición que hace Cristófoli (2005:21) de estadística
quien indica que “es un instrumento del método científico cuyo campo de acción es el de la
incertidumbre medible” y “que el objetivo del análisis estadístico no es el de obtener un resultado
preciso sino el de hallar el resultado más probable, o entre qué resultados, puede estar la respuesta a
un problema”.
177
En este contexto menciona que la estadística obtiene conclusiones a partir de los datos extraídos de
una muestra. Este procedimiento es lo que se conoce como estadística inductiva o inferencia
estadística porque por su analogía con el método inductivo de la lógica: a partir del análisis de lo
particular (muestra) se sacan conclusiones generales (se infieren las características: parámetros de
la población o universo estadístico). De lo antes expuesto aquí se detecta que en este proceso la
probabilidad desempeña un papel muy importante; en particular también su usa mucho en el
análisis de predicción de algunas variables de interés para el investigador..
Ahora bien, si con el nuevo enfoque se define la probabilidad como el índice que cuantifica la
ocurrencia de un evento (también llamado suceso o resultado posible) que tiene incertidumbre,
entonces se dice que un evento que es incierto es un evento aleatorio que está contenido en un
espacio muestral: conjunto de todos los resultados posibles en un experimento. Dicho en otras
palabras, el evento tiene incertidumbre cuando es estocástico o aleatorio, cuando se gesta en un
experimento que produce eventos o resultados que son aleatorios porque son “unos de tantos
resultados posibles”, cuyo total de resultados constituye el “espacio muestral”. Estos resultados del
experimento son diferentes pero cada uno de ellos tiene la misma probabilidad de ocurrir en el
experimento. Luego entonces su probabilidad de ocurrencia constituye la medición de la
incertidumbre del evento, es decir, cuantifica la probabilidad de que ocurra. Como señala Cristófili
(2005: 23) “la probabilidad mide la expectativa de que se presente cada uno de los posibles
resultados contenidos en el espacio muestral”.
Derivado de lo anterior, cabe decir que un espacio muestral está constituido por todos los resultados
de un experimento aleatorio; por ejemplo si el experimento consiste en lanzar un dado que tiene seis
caras y en registrar el número de la cara que aparece, entonces hay seis eventos o resultados
posibles: 1, 2, 3, 4, 5, 6, ellos constituyen el marco muestral, son diferentes pero tienen la misma
1
probabilidad de ocurrir en el lanzamiento: 6.
Al respecto, se dice que la probabilidad de cada evento toma valores entre 0 y 1 inclusive, siempre
positivos. Luego entonces cuando su probabilidad es 0 ello significa que no ocurrirá y si es 1 indica
178
que hay una certeza (probabilidad) de 1 de que ocurrirá (por ejemplo, de que aparecerá en el primer
lanzamiento del dado).
A manera de resumen se puede decir que la probabilidad expresa la expectativa de que aparezca
cada uno de los eventos contenidos en el espacio muestral.
Variable aleatoria
De la exposición anterior se puede derivar el concepto de variable aleatoria diciendo que emerge del
marco o espacio muestral aleatorio. Igualmente, se dice que una variable aleatoria toma un conjunto
de valores numerables (Cristófoli, 2005:25). En el ejemplo anterior toma los valores 1, 2, 3, 4, 5, 6.
En este sentido se considera necesario indicar que una variable aleatoria puede ser discreta cuando
los valores no son divisibles, que se pueden contar y que, por consiguiente, generalmente son
enteros y positivos como el caso anterior; puede ser aleatoria continua cuando los valores son
divisibles en un rango determinado por el interés del investigador.
Cabe señalar que los determinísticos son por naturaleza conocidos, no hay incertidumbre sobre sus
valores (Ejemplo: una distribución de frecuencia relativas), en tanto que de los sucesos de carácter
aleatorio no se conoce si ocurrirán o no (Ejemplo: los resultados del lanzamiento de un dado, no se
sabe cuál ocurrirá de antemano, para saberlo se tiene que llevar a cabo el experimento: lanzar el
dado; sin embargo, como señala Ritchmond (ibid) pueden predecirse con la fórmula de la
probabilidad arriba explicada (cuyo método se conoce como clásico o de Laplace). Por otra parte la
probabilidad de los eventos determinísticos se puede calcular con el método de las frecuencias
relativas y, por consiguiente, con este enfoque se dice que la probabilidad es un mecanismo por
medio del cual se puede determinar la factibilidad de la ocurrencia de los eventos.
Derivado de lo anterior se dice que la probabilidad se calcula con los métodos objetivo (Clásico o
apriori y/o el de frecuencias relativas o a posteriori) y subjetivo: posibilidad de que ocurra un
evento en particular, la cual asigna una persona con la información actual disponible a su alcance.
Así, si bien es cierto que no se puede evitar dicho riesgo, también es cierto que se puede controlar y
cuantificar por medio de la teoría probabilística.
En lugar de garantizar que la muestra sea representativa, lo mejor que puede hacer el procedimiento
de selección es dar certeza vía la probabilidad de que no son introducidas fuentes distorsionadoras
durante la selección de la muestra, que en este caso se llamará muestra probabilística, que, debe
quedar claro, no por eso sea necesariamente representativa de la población.
Al respecto, es conveniente decir que uno de los requisitos de una muestra probabilística es que
cada elemento de la población estadística tenga una oportunidad conocida, es decir, por ejemplo la
misma probabilidad de ser incluido en la muestra.
Dicha oportunidad se llama pues probabilidad, la cual se puede definir como la posibilidad
expresada con un número positivo, de que ocurra un evento o resultado de interés para el
investigador. De lo anterior se observa que una expresión probabilística siempre será la
cuantificación de que una estimación muestral represente un valor poblacional desconocido que
corresponderá a un evento que todavía no ocurre.
Así como antes se indicó: Existen dos procedimientos para el cálculo de la probabilidad: el primero
se refiere al enfoque objetivo y el segundo se refiere al enfoque subjetivo.
Un ejemplo de éste sería la fuerte creencia, de 0.95, de que se firmará un contrato de la STUNAM y
la UNAM. El 31 de octubre del 2015.
Este evento es único, no puede ser repetido muchas veces, sencillamente el 0.95 refleja la
confianza que hay sobre la firma del contrato-laboral. De manera general se dice que cuando existe
un evento con un sólo resultado posible, el concepto de probabilidad subjetiva es aplicable.
Por otra parte, en lo que respecta a la probabilidad objetiva, su cálculo por cualquiera de los dos
métodos antes mencionados no difiere sustancialmente; su diferencia radica en el tiempo en que se
calcula determinado valor probabilístico. Esto es, el procedimiento clásico se caracteriza por la
determinación apriorística de los valores antes de haber observado los eventos; en otras palabras, no
es necesario hacer el experimento para observar y registrar su resultado, es decir, la probabilidad se
calcula teóricamente.
Ejemplo:
1
Cuando se dice que un medio (2) es la probabilidad de obtener águila en el lanzamiento de una
moneda, esto se dice sin haber lanzado la moneda al aire (el experimento es el lanzamiento de la
moneda). Por eso se dice que la probabilidad así calculada es un valor esperado con el método
clásico o teórico, el cual supone en el ejemplo que se utilizó de la moneda, una simetría básica en
los posibles resultados de un evento, por ello la moneda o el dado que se utilizará, no debe estar
deformada o en el caso del dado, no debe estar “cargado”, para poder calcular la probabilidad
apriori.
También se debe decir que el cálculo anterior se basa en el supuesto de que los resultados posibles
son mutuamente excluyentes e igualmente probables de ocurrir. Al respecto, es conveniente decir
que en el mundo de la economía y los negocios los resultados posibles generalmente no son
igualmente probables y no se conoce de antemano su probabilidad de ocurrencia, situación que
limita el uso del método clásico para calcular las probabilidades. La mayor crítica es que el
término “igualmente probable” presupone el conocimiento previo de la teoría de la probabilidad,
situación que no siempre es cierta, además de que en el mundo real no siempre se puede suponer
que los resultados serán “igualmente probables”, de ahí que sea interesante, muchas veces, recurrir
al método de las frecuencias relativas.
181
Es importante señalar que con este método para calcular la probabilidad, que a medida que aumenta
el número de observaciones de los eventos, aumenta la exactitud en el cálculo de la probabilidad,
inclusive tiende a estabilizarse en cierto valor, por ejemplo, si se realiza el experimento de lanzar al
aire 500 veces una moneda y se registra el número de veces que cae “águila”, la frecuencia relativa,
es decir la probabilidad, tiende a estabilizarse alrededor del valor 0.5. Derivado de lo anterior, se
dice que la probabilidad así calculada es un valor esperado, cuya exactitud será mayor a medida
que se aumente el experimento.
Una vez establecida la diferencia entre uno y otro de los dos métodos del enfoque objetivo, a
continuación se puede profundizar señalando lo siguiente:
Laplace definió la probabilidad como una razón matemática entre un grupo de eventos con
características especiales y la totalidad de eventos posibles. Explícitamente se dice: "si un
experimento da lugar a (𝑛) eventos mutuamente excluyentes, todos igualmente probables y (𝑟) se
𝑟
consideran favorables, entonces la probabilidad de un evento favorable es .
𝑛
Un evento será una muestra cuyos puntos o elementos son resultados posibles de un experimento.
Lo anterior, en el caso de una baraja americana, se verá así:
Cuadro IV.1
Representación gráfica de un evento en una baraja americana
)))))))))) ))))))))))
♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣
♠♠♠♠♠♠♠ ♠♠♠♠♠♠♠ ♠♠♠♠♠♠♠ ♠♠♠♠♠♠♠
●●●●●●● ●●●●●●● ●●●●●●● ●●●●●●●
○○○○○○○○○○○ ○○○○○○○○○○○ ○○○○○○○○○○○ ○○○○○○○○○○○
Fuente: Investigación directa.
Ahora bien, como se observa en el siguiente Cuadro IV.1, un evento puede estar representado por
un punto o un agregado de puntos.
182
Gráfica IV.1
Representación gráfica de un evento
Serán eventos o resultados verificables A, B, C, D; donde D está formado por un punto como D y
A, B, C por un agregado de puntos.
Al respecto el espacio muestral puede definirse como la suma de todos los puntos de una muestra, o
de resultados posibles que produce un experimento. En opinión de Yu Lun Chou (1987) realmente
debería llamarse “espacio de resultados”, porque eso son.
Ejemplo:
El evento "caras iguales", está compuesto de dos puntos (AA y SS). Si se quiere saber cuál es la
probabilidad de que caigan caras iguales (águilas o soles) en un lanzamiento de dos monedas, con el
método clásico, ésta será:
183
Cuadro IV.2
Principales aplicaciones de la probabilidad
1. Inferencia estadística: Muestreo estadístico, estimación de parámetros y
prueba de hipótesis;
La probabilidad fue 2. Econometría: análisis de estructura, de predicción y evaluación de
desarrollada por Pascal políticas públicas y privadas;
3. Teoría de las decisiones: Teorema de Bayes.
Fuente: Investigación directa con datos hipotéticos.
Tabla IV.1
Marco muestral constituido por 36 resultados posibles
DADO #1
1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
DADO #2
En el caso de una baraja española el marco muestral está constituido por 40 cartas o resultados
posibles.
En el caso de una baraja americana está constituida por 52 cartas o resultados posibles. Estos
resultados se clasifican en 4 grandes grupos: Diamantes, Corazones, Tréboles, Picas, que a su vez se
agrupan en dos colores, negro (26 resultados) y rojo (26 resultados).
184
Tabla IV.2
Representación gráfica de una baraja americana
1 2 3 4 5 6 7 8 9 10 J Q K
1 2 3 4 5 6 7 8 9 10 J Q K
1 2 3 4 5 6 7 8 9 10 J Q K
1 2 3 4 5 6 7 8 9 10 J Q K
Fuente: Investigación directa con datos hipotéticos.
Una vez que se conoce el marco de referencia se puede decir qué es posible calcular la probabilidad
de ocurrencia de cualquiera de los resultados comprendidos en el marco de referencia. En otras
palabras la probabilidad representa la cuantificación de éxito o fracaso de un resultado posible.
Pueden ser:
A y B lo son cuando en un experimento sólo ocurre uno de ellos. La probabilidad de que ocurra uno
o el otro es igual a la suma de sus probabilidades de ocurrencia. Al resultado formado por la suma
de ambas probabilidades de ambos eventos tiene el nombre de unión.
El siguiente diagrama se llama diagrama de Venn comprende todos los resultados posibles
excluyentes de un experimento, con uno o más resultados identificados específicamente, cuyo
conjunto se llama espacio muestral (𝑆); cualquier resultado se identifica como un punto en ese
espacio y el área relativa asignada a ese punto no necesita ser indicativa de su probabilidad.
Gráfica IV.2
Diagrama de Venn
Cuando hay intersección entre ellos es decir, que tienen puntos en común, se dice que no son
eventos mutuamente excluyentes. Gráficamente se ven así
185
Gráfica IV.3
Diagrama de Venn con la inserción de dos eventos
En el siguiente diagrama se representa la 𝑃(𝐴) y 𝑃(𝑛𝑜 𝐴), ésta última indica la probabilidad de que
no ocurra 𝐴, tal que 𝑃(𝐴) + 𝑃(𝑛𝑜 𝐴) = 1, ello indica que ocupan todo el espacio muestral.
Gráfica IV.4
Diagrama de Venn con las probabilidades de ocurrencia de los resultados posibles un evento en un
espacio muestral
Se sabe que la probabilidad de que los estudiantes de posgrado obtengan 10 de calificación es 0.12;
𝑃(9) = 0.13; 𝑃(8) = 0.12; 𝑃(7) = 0.18; 𝑃(6) = 0.20; 𝑃(5) = 0.25, cuya suma es 1.0. Se dice
que la suma de todos los resultados mutuamente excluyentes es igual a 1.0, lo cual cumple con uno
de los axiomas de la probabilidad. Se pueden hacer cálculos como los siguientes:
186
IV.2.2 Eventos independientes
Aquí también es conveniente advertir que a diferencia de los resultados posibles que pueden surgir
en los juegos de azar, en el mundo de los negocios los eventos o sus resultados raras veces son
independientes, sin embargo, aun con ese señalamiento, no deja de ser útil para la toma de
decisiones en Economía.
Ejemplo: Suponga que un cargamento de diez motores contiene uno defectuoso, 𝐷, y nueve no
defectuosos, 𝑁𝐷. Al inspeccionarlos, obtenga la probabilidad de uno defectuoso, 𝐷, y los otros
nueve no defectuosos, 𝑁𝐷. Así, al revisar uno de dos motores
se sabe que para el primero:
9 1
𝑃(𝑁𝐷) = 10 y que 𝑃(𝐷) = 10
La revisión de un segundo motor, dado que ya se revisó uno antes puede generar los siguientes
resultados posibles:
8 9 72 4
𝑃(𝑁𝐷|𝑁𝐷) = ∗ = = = 0.8
9 10 90 5
1 9 9 1
𝑃(𝐷|𝑁𝐷) = ∗ = = = 0.1
9 10 90 10
9 1 9 1
𝑃(𝑁𝐷|𝐷) = ∗ = = = 0.1
9 10 90 10
𝑃(𝐷|𝐷) = 0
Con estas referencias, enseguida se explican algunos conceptos que también se necesitan para dar
continuidad al análisis de la relación que tiene la probabilidad con la inferencia estadística.
9
/ 187
1
0
IV.2.4 Función
Es una relación de dependencia unívoca de una variable dependiente “𝑦” de otra independiente “𝑥”.
Si 𝑦 = 𝑓(𝑥), se dice que los valores de 𝑦, variable dependiente, están en función de los valores que
tome 𝑥, variable independiente.
Es aquella literal (𝑥, 𝑦, 𝑧, 𝑒𝑡𝑐. ) que toma los valores dados en un espacio muestral dado.
Ahora relacionando lo que se conoce hasta el momento, se define, se calcula y véase el alcance de
la:
Ejemplo 16:
Se sabe que:
Tabla IV.3
Datos de una variable aleatoria: Cálculo de su media y su varianza
𝑋𝑖 𝑃(𝑋𝑖 ) 𝑋𝑖 − 𝜇𝑥𝑖 (𝑋𝑖 − 𝜇𝑥𝑖 )2 𝑃(𝑋𝑖 ) ∗ (𝑋𝑖 − 𝜇𝑥𝑖 )2
1 1 -2.5 6.25 1.041
6
2 1 -1.5 2.25 0.375
6
3 1 -0.5 0.25 0.041
6
4 1 0.5 0.25 0.041
6
5 1 1.5 2.25 0.375
6
6 1 2.5 6.25 1.041
6
Suma: 1 0 17.5 2.914
Fuente: Investigación directa con datos hipotéticos.
Efectivamente
1 1 1 1 1 1 21
𝜇𝑥 = [1 ( ) + 2 ( ) + 3 ( ) + 4 ( ) + 5 ( ) + 6 ( )] = = 3.5 = 𝐸(𝑋𝑖 )
6 6 6 6 6 6 6
188
Donde 𝐸(𝑋𝑖 ) es la esperanza matemática ( Richmond, 1964: 119) de las Xi, concepto que se
utilizará con frecuencia en el resto del libro.
2.914
𝜎 2 = 𝑉𝑎𝑟(𝑋𝑖 ) = 𝐸(𝑋𝑖 − 𝜇)2 = = 0.486
6
Ejemplo 17:
Ahora bien, si el experimento se repite varias veces, el valor esperado promedio no es necesario que
sea un valor posible de la variable aleatoria, como lo muestra el ejemplo anterior de 𝐸(𝑋𝑖 ) = 3.5.
Como concepto, como medida de tendencia central, es un concepto básico que se usa mucho en la
economía y los negocios, cuya aplicación en estos campos se ilustra de la manera siguiente:
La probabilidad de que se incendie una casa en la colonia Juárez del Distrito Federal en cualquier
día del año 2015, es 0.005. La Compañía de Seguros Monterrey le ofrece al dueño de la casa un
seguro contra incendios con una póliza por $ 20,000. 00 durante un año; cuyo costo es $150.00. En
este caso ¿Cuál es la utilidad esperada de Seguros Monterrey?
La utilidad definida por, 𝑈𝑖, es una variable aleatoria que puede tomar los valores de $150.00 si no
se incendia la casa y, de $ 19,850.00 si es que se incendia durante el año 2015, periodo que cubre la
póliza contratada. Así, la función de probabilidad de 𝑈𝑖 es:
Tabla IV.4
Utilidad esperada de Seguros Monterrey
Valor de 𝑈𝑖 $150.00 -$19,850.00
Probabilidad: 𝑃𝑖 0.995 0.005
Fuente: Investigación directa con datos hipotéticos.
La esperanza matemática o utilidad esperada por la póliza vendida siempre debe ser positiva, como
es el caso, para permitir a Seguros Monterrey el pago de gastos de administración y acumular
reservas para pagar los siniestros a los beneficiarios y tenedores de pólizas.
Ejemplo 18:
Lo anterior, desde el punto de vista del comprador, el seguro como cualquier juego de azar que se
hace para obtener una utilidad, tiene un valor esperado negativo.
Tabla IV.5
Utilidad esperada del comprador en Seguros Monterrey
Valor de 𝑈𝑖 -$150.00 $19,850.00
Probabilidad: 𝑃𝑖 0.995 0.005
Fuente: Investigación directa con datos hipotéticos.
189
La cantidad de menos $50.00 es lo que no espera ganar en promedio, en caso de que se incendie la
casa y cobre el seguro por $ 20,000.00.
Ahora se van a utilizar los conceptos anteriores en el contexto del análisis combinatorio, que a su
vez permitirán profundizar en la demostración de la relación que tiene la probabilidad con la
inferencia estadística, ahora, en el contexto de analizar de cuantas maneras diferentes se pueden
clasificar o arreglar dichos resultados posibles que, dicho en otras palabras, se podrá saber cuántas
muestras se pueden obtener y de cuantas maneras distintas se pueden constituir u ordenar con las
unidades de muestreo que las componen.
En general se puede decir que sirve para generar distribuciones probabilísticas y para introducir al
lector al muestreo estadístico, en particular al muestreo con reemplazo (permutaciones) y al
muestreo sin reemplazo (combinaciones). Su exposición se hace a continuación.
IV.3.1 Permutaciones
Así, se empieza diciendo que una permutación es un arreglo de todos o parte de los objetos dentro
de un conjunto de objetos en un orden definido (Shao, 1975:255). El número total de
permutaciones de un conjunto de objetos depende del número de objetos tomados a la vez para cada
permutación. El número de objetos tomados a la vez para cada permutación puede ser:
190
a) Todos los objetos; o
b) Parte de los objetos.
Encontrar el número total de permutaciones del conjunto de letras (a, b, c) tomadas todas a la vez.
Uso del diagrama de árbol: el diagrama de árbol es una gráfica que se usa para mostrar los
resultados posibles (permutaciones) cuando éstos se organizan u ordenan por etapas.
Cuadro IV.3
Diagrama de árbol: Caso 1
El número de las seis permutaciones anteriores también se puede obtener con el siguiente
razonamiento: suponga que se tienen tres cajones donde se pueden poner las letras anteriores, en el
primero puede ir cualquiera de las tres letras, en el segundo dos de las que quedaban y en el tercero
𝐴 𝐵 𝐶
la última letra. Así, cálculo numérico: 3 ∗ 2 ∗ 1 = 6 permutaciones.
Hay 6 permutaciones. Nótese que el arreglo A, B, C, es diferente de B, A, C aun cuando cada uno
de los 2 arreglos consiste de las mismas letras, luego en este caso se dice que el orden en que
aparece cada letra es muy importante. El número de permutaciones también se puede obtener con la
fórmula:
Solamente parte de dos objetos si se define 𝑟 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠, tomado a la vez para cada
permutación, entonces la fórmula es 𝑛𝑃𝑟.
a) Tres a la vez; 𝑛 = 4 ; 𝑟 = 3;
191
₄𝑃₃ = 4 ∗ 3 ∗ 2 = 24
b) Dos a la vez; 𝑛 = 4 ; 𝑟 = 2;
𝑛𝑃𝑟 = ₄𝑃₂ = 4 ∗ 3 = 12
𝑛! 4∗3∗2∗1 24
También se puede obtener con: (𝑛−𝑟)!
= 2∗1
= 2
= 12
IV.3.2 Combinaciones
Ejemplo 21: Encontrar el número total de combinaciones tomando dos a la vez del conjunto
(𝒂, 𝒃, 𝒄).
₃𝐶₂ 3 ∗ 2 6
= = = 3 𝑐𝑜𝑚𝑏𝑖𝑛𝑎𝑐𝑖𝑜𝑛𝑒𝑠
2! 2∗1 2
Cuadro IV.5
Diagrama de árbol con las permutaciones y combinaciones posibles
Para afianzar el conocimiento, ahora se dirá que se utilizan las fórmulas anteriores para obtener
numéricamente el número de arreglos diferentes que se pueden obtener cuando ya no es visible el
espacio muestral. Suponga que se tienen (𝑛) objetos diferentes y se quiere conocer el número de
maneras de ordenar estos objetos. Se puede pensar que hay (𝑛) espacios o lugares donde se puede
colocar los (𝑛) objetos a fin de dar forma a cada uno de los ordenamientos.
Así habrá (𝑛) posibilidades para el primer objeto, 𝑛 − 1 para el segundo, 𝑛 − 2 para el tercero y
así sucesivamente hasta llenar el último lugar con el último objeto.
Este desarrollo no es otra cosa que el producto de 𝑛𝑃𝑛. Donde 𝑛𝑃𝑟 = 𝑛 (𝑛 − 1)(𝑛 − 2) … 1 = 𝑛!
que sería la fórmula para obtener el número total de ordenaciones que también se llaman
permutaciones para (𝑛) objetos.
En un esfuerzo adicional por consolidar la familiaridad con el manejo de los conceptos que integran
el conocimiento del análisis combinatorio, dada la importancia que tiene para la inferencia
estadística, se decidió complementar la exposición con la del Profesor S. Shao (1975), quien como
antes se indicó, dice:“Una permutación es un arreglo de todos o parte de los elementos dentro de un
conjunto de objetos en un orden definido. El número total de permutaciones de un conjunto de
objetos depende del número de los mismos, tomados a la vez para cada permutación, pueden ser:
Encontrar el número total de permutaciones del conjunto de letras {a, b, c,} tomadas todas a la vez.
Cuadro IV.6
Diagrama de árbol: Caso1
Hay seis permutaciones. Nótese que el arreglo a, b, c, es diferente de a, c, b, aunque cada uno de
los dos arreglos consista de las mismas letras.
Otro ejemplo: encontrar el número total de permutaciones del conjunto de dígitos (1, 3, 5, 7, )
tomados todos a la vez.
Aquí 𝑛 = 4 luego ₄𝑃₄ = 4! = 24 permutaciones, que usando el diagrama de árbol se observa que
están ordenadas o integradas de la siguiente forma:
Cuadro IV.7
Diagrama de árbol
También se puede obtener por medio del diagrama de árbol o con las siguientes fórmulas. El
diagrama de árbol es similar a los dos casos anteriores excepto que el número de columnas en este
caso es igual al número de objetos tomados para cada permutación. En general sea:
Entonces:
Para 𝑟 factores. Nótese que el último factor(𝑛 − 𝑟 + 1)) es simplificado de[𝑛 − 𝑟(−1)], También
cuando 𝑟 = 𝑛, el último factor se vuelve (𝑛 − 𝑛 + 1) = 1. Luego cuando 𝑟 = 𝑛, está última
fórmula es idéntica a la del número 1.
Esta fórmula es conveniente para cálculos cuando se tiene disponibles tablas de 𝑛! y (𝑛 − 𝑟)!.
Ejemplo 23:
Encontrar el número total de permutaciones del conjunto de letras (𝐴, 𝐵, 𝐶, 𝐷) tomadas: a) tres a la
vez y b) dos a la vez.
𝑛! 4∗3∗2∗1
𝑛𝑃𝑟 = = = 24 𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑐𝑖𝑜𝑛𝑒𝑠
(𝑛 − 𝑟)! 1
b) Ahora bien para , 𝑛 = 4; 𝑟 = 2
𝑛! 4∗3∗2∗1
𝑛𝑃𝑟 = = = 12 𝑝𝑒𝑟𝑚𝑢𝑡𝑎𝑐𝑖𝑜𝑛𝑒𝑠
(𝑛 − 𝑟)! 2∗1
Cuadro IV.8
Diagrama de árbol inciso b) 12 permutaciones
195
Cuadro IV.9
Diagrama de árbol inciso a) 24 permutaciones
Por ejemplo:
Los arreglos posibles del conjunto de letras (𝑎, 𝑏) son ab y ba. Puesto que el orden del arreglo no es
considerado, el arreglo ab es el mismo que ba. Por lo tanto hay solamente una combinación
(𝑎 𝑦 𝑏) posible para el conjunto. Gráficamente:
Cuadro IV.10
Diagrama de árbol con dos permutaciones y una combinación
Por otra parte, conviene decir que el número total de combinaciones posibles de un conjunto de
objetos diferentes tomados parte a la vez puede ser obtenido encontrando primero el número total
de permutaciones contando después las permutaciones con los mismos objetos como una
combinación.
Se ha dicho que dos o más eventos son mutuamente excluyentes si no puede ocurrir en un cierto
experimento más de uno de ellos. La probabilidad de que ocurra uno o el otro dentro de un conjunto
de eventos mutuamente excluyentes, es igual a la suma de sus probabilidades de ocurrencia.
196
Si 𝐴 = 𝐴𝑆 ; 𝐵 = 𝑅𝐸𝑌
4 1 4 1
𝑃(𝐵) = = ; 𝑡𝑎𝑚𝑏𝑖é𝑛 𝑃(𝐴) = =
52 13 52 13
1 1 2
𝑃(𝐴 𝑜 𝐵) = + =
13 13 13
Recuérdese que un diagrama que comprende todos los resultados posibles de un evento con uno o
más resultados específicamente identificados se llama Diagrama de Venn.
El conjunto de todos los resultados posibles se llama espacio muestral y cada resultado se identifica
como un punto en el espacio.
Gráfica IV.5
Probabilidad de A en un espacio muestral
1
En el lanzamiento de un dado la 𝑃(𝐴𝑆) es 6.
Esto es:
1
𝐴: 𝑃(𝐴𝑆) =
6
5
𝐵: 𝑃(~𝐴𝑆) =
6
Luego la 𝑃(𝐴) + 𝑃(𝐵) = 1
197
Esto es, la suma de las probabilidades de todos los resultados posibles de eventos mutuamente
1 5
excluyentes es: 6 + 6 = 1
Gráfica IV.6
Diagrama de Venn ilustrando dos eventos mutuamente excluyentes
El cálculo de los eventos mutuamente excluyentes puede generalizarse para situaciones en los
cuales se manejen 2 o más eventos mutuamente excluyentes.
Ejemplo 25:
Tabla IV.6
Número de hijos por familia
N° de hijos por familia 0 1 2 3 4 5 o más
Proporción 0.1 0.1 0.2 0.25 0.2 0.15
Fuente: Investigación directa con datos hipotéticos.
¿Cuál es la probabilidad de que una familia escogida aleatoriamente dentro de un grupo tenga 5 o
más hijos?
Gráfica IV.7
Diagrama de Venn para dos eventos que no son mutuamente excluyentes
Ejemplo: Cuando dos o más eventos ocurren en forma secuenciada o separados en el tiempo o
espacio, tales como el lanzamiento de 2 monedas 2 veces, se habla de eventos independientes.
Ejemplo 26:
¿Cuál es la probabilidad de obtener dos ases en dos dados en una sola tirada? , por ejemplo que:
1
A: 𝑃(𝑑𝑒 𝐴𝑠 𝑒𝑛 𝑒𝑙 𝑝𝑟𝑖𝑚𝑒𝑟 𝑑𝑎𝑑𝑜) = y que;
6
1
B: sea la 𝑃(𝑑𝑒 𝐴𝑠 𝑒𝑛 𝑒𝑙 𝑠𝑒𝑔𝑢𝑛𝑑𝑜 𝑑𝑎𝑑𝑜) = 6
1 1 1
Luego, 𝑃(𝐴 𝑦 𝐵) = 6 ∗ 6 = 36 independientes porque un resultado no afecta la ocurrencia del otro.
Ejemplo 27:
Dos lanzamientos de una moneda dónde A: Águila y B: Sol son eventos independientes, luego la
1
probabilidad de dos águilas en dos lanzamientos sucesivos de una moneda es 4
; porque la
1 1 1
probabilidad 𝑃(𝐴 𝑦 𝐵) = ∗ = ; ya que como se recordará 𝑃(𝐴 𝑦 𝐵) = 𝑃(𝐴) ∗ 𝑃(𝐵).
2 2 4
199
Por otra parte, es interesante recordar que así como el diagrama de Venn sirve para ilustrar los
eventos posibles de un experimento, los diagramas de árbol sirven para ilustrar los resultados
posibles de eventos sucesivos o múltiples.
En el caso del lanzamiento de una moneda dos veces el diagrama de árbol será:
Cuadro IV.12
Diagrama de árbol con eventos sucesivos
𝐴 = Á𝑔𝑢𝑖𝑙𝑎 𝑆 = 𝑆𝑜𝑙
En la vida real la mayoría de los eventos no son independientes, sino que existen interacciones entre
ellos. Si son dependientes, el concepto de probabilidad condicionada se usa para determinar la
probabilidad de una secuencia particular de eventos, el símbolo 𝑃(𝐵|𝐴) significa la probabilidad de
𝐵 dado que 𝐴 ocurrió previamente, esto es:
Ejemplo 28:
3 2
Una caja tiene 3 bolas rojas (𝑅) y 2 negras (𝑁) luego la probabilidad de 𝑃(𝑅) = 5 ; 𝑃(𝑁) = 5
porque son cinco bolas en total.
200
Cuadro IV.13
Diagrama de árbol con eventos dependientes
𝑅 = 𝐵𝑜𝑙𝑎 𝑟𝑜𝑗𝑎 𝑁 = 𝐵𝑜𝑙𝑎 𝑛𝑒𝑔𝑟𝑎
Si en la primera selección se obtiene una bola roja. Obtenga la probabilidad de que en una segunda
selección la bola sea negra, sin reemplazo.
2
𝑃(𝑁|R) =
4
3 2 6
𝑃(𝑅 𝑦 𝑁) = 𝑃(𝑅) ∗ 𝑃(𝑁|R) = ∗ =
5 4 20
Por lo tanto
6 3
𝑃(𝑅 𝑦 𝑁) = =
20 10
Ejemplo 29:
4 1
𝐴: 𝑃(𝑎𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛) = =
52 13
3
𝐵: 𝑃(𝑎𝑠 𝑒𝑛 𝑙𝑎 𝑠𝑒𝑔𝑢𝑛𝑑𝑎 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛) =
51
4 3 12
𝑃(𝐴 𝑦 𝐵) = ∗ = = 0.0045
52 51 51
201
Así, suponga que la probabilidad de que nuestro principal competidor decida diversificar su
producto es 0.60, y si lo hace hay una probabilidad de 0.80 que construirá una nueva planta. Así
mismo si decide no diversificarse (0.40), hay la probabilidad de 0.40 de que construirá una nueva
planta.
Si 𝐷 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑖𝑣𝑒𝑟𝑠𝑖𝑓𝑖𝑐𝑎𝑟𝑠𝑒
Si ∼ 𝐷 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑛𝑜 𝑑𝑖𝑣𝑒𝑟𝑠𝑖𝑓𝑖𝑐𝑎𝑟𝑠𝑒
Si 𝐵 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑖𝑟 𝑢𝑛𝑎 𝑛𝑢𝑒𝑣𝑎 𝑝𝑙𝑎𝑛𝑡𝑎
Si ∼ 𝐵 = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑛𝑜 𝑐𝑜𝑛𝑠𝑡𝑟𝑢𝑖𝑟 𝑢𝑛𝑎 𝑛𝑢𝑒𝑣𝑎 𝑝𝑙𝑎𝑛𝑡𝑎.
Cuadro IV.14
Diagrama de árbol con eventos dependientes
Ahora bien, si ve que está construyendo una nueva planta, ¿Esto indica que ha decidido
diversificarse? No, porque la decisión de construir también pudo haberse tomado con la decisión de
no diversificarse.
Luego si se desea determinar la probabilidad de que nuestro competidor se diversifique dado que
está construyendo una nueva planta, se usa el teorema de Bayes, que representa el análisis de la
probabilidad condicional cuando se hace una inferencia hacia atrás, es decir se usa en eventos
dependientes y de probabilidad condicional, para calcular la probabilidad condicional que permiten
hacer inferencias hacia atrás.
202
De acuerdo con los símbolos usados, para obtener 𝐷, se parte de 𝐵, llamada probabilidad posterior
que sirve para obtener la probabilidad anterior de 𝐷, expresada así:
𝑃(𝐷)𝑃(𝐵|D)
𝑃(𝐷|B) =
𝑃(𝐵)
Luego
𝑃(𝐷)𝑃(𝐵|D) (0.6)(0.8) 0.48
𝑃(𝐷|B) = = = = 0.75
𝑃(𝐷)𝑃(𝐵|D) + P(∼ 𝐷)P(B| ∼ 𝐷) (0.64) 0.64
La probabilidad posterior puede ser mayor o menor que la apriori. V.gr., si el competidor decidió
no construir la nueva planta, la nueva probabilidad posterior de diversificarse sería menor que 0.60.
Demostración:
203
4. ¿La probabilidad es el cálculo de que un evento o suceso ocurra en el futuro?
5. ¿Puede decirse que la probabilidad mide la expectativa de que se presente uno o más de los
resultados posibles (suceso o evento) contenidos en el espacio muestral? Explique.
6. ¿Qué es la probabilidad, cómo la define Laplace y cómo se define en general?
7. ¿Qué es un experimento?
8. ¿Qué es un suceso, evento o resultado posible?
9. ¿Cuántos procedimientos existen para calcular la probabilidad? ¿El subjetivo es uno de
ellos?
10. Dentro del procedimiento objetivo ¿Cuántos métodos existen pata calcular la probabilidad
y cuáles son?
11. ¿Qué es una variable aleatoria (estocástica), qué es el espacio muestral y qué relación existe
entre ellos?
12. ¿El espacio muestral ilustra gráficamente un proceso estocástico?
13. ¿Qué es la esperanza matemática y qué relación tiene con la variable aleatoria o
estocástica?
14. ¿Cuáles son los principales axiomas de la probabilidad?
15. ¿Cuál es la relación de la probabilidad con la inferencia estadística?
16. ¿Qué es una población y qué es una muestra en sentido estadístico?
17. ¿Cuál es la diferencia entre una muestra seleccionada probabilísticamente y otra
empíricamente?
18. ¿De qué naturaleza pueden ser los resultados de un experimento?
19. ¿Cuáles son las fórmulas con que se calcula la probabilidad de ocurrencia de cada uno de
ellos?
20. ¿Para qué sirven las técnicas de permutar y combinar objetos (también llamados eventos,
sucesos o resultados posibles de un experimento?
21. ¿Los resultados de un experimento pueden ilustrarse gráficamente con un diagrama de
árbol y el diagrama de Venn? ¿En qué se asemejan y en que difieren?
22. ¿Con cuál de los dos diagramas anteriores puede demostrarse fácilmente que los resultados
de un experimento pueden ser mutuamente excluyentes e independientes a la vez?
23. ¿Cuáles son las fórmulas de las permutaciones y de las combinaciones?
24. ¿Por qué las permutaciones y las combinaciones sirven para indicar cómo se selecciona una
muestra con y sin reemplazo, respectivamente?
𝑛𝐴
𝑃(𝐴) =
𝑁
Donde:
204
𝑃(𝐴) = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑎 𝐴
𝑛𝐴 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑒𝑛 𝑞𝑢𝑒 𝐴 𝑝𝑢𝑒𝑑𝑒 𝑜𝑐𝑢𝑟𝑟𝑖𝑟
𝑁 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑖𝑔𝑢𝑎𝑙𝑚𝑒𝑛𝑡𝑒 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
Gráfica IV.8
Diagrama de Venn ilustrando el evento A
El círculo representa el evento 𝐴 y el área total del rectángulo representa todos los casos posibles.
Cuando 𝑃(𝐴) = 0 el evento 𝐴 no puede ocurrir. Si 𝑃(𝐴) = 1 el evento 𝐴 ocurre con certeza.
2. Si con el lanzamiento de una moneda sin deformaciones se generan dos resultados posibles: (𝐴)
águila y (𝑆) sol, entonces:
𝑛𝐴 1
𝑃(𝐴) = =
𝑁 2
𝑛𝑆 1
𝑃(𝑆) = =
𝑁 2
3. Si el experimento consiste en obtener la probabilidad de los resultados posibles al lanzar una vez
un dado, se dice que el dado tiene 6 caras y por ende 6 resultados igualmente posibles, ellos son:
1, 2, 3, 4, 5 𝑦 6, tal que:
1 1 1 1 1 1
𝑃(1) = ; 𝑃(2) = ; 𝑃(3) = ; 𝑃(4) = ; 𝑃(5) = ; 𝑃(6) = .
6 6 6 6 6 6
205
Luego 𝑃(1) = 𝑃(2) = 𝑃(3) = 𝑃(4) = 𝑃(5) = 𝑃(6)
1 5
Así, por ejemplo, la probabilidad de no obtener 3 es 𝑃(~3) = 1 − 𝑃(3) = 1 − 6 = 6, tal que
1 5
𝑃(3) + 𝑃(~3) = 6 + 6 = 1.
5. De los dos últimos ejemplos se deduce que el enfoque clásico para calcular probabilidades
parte del supuesto de simetría en la ocurrencia de resultados posibles de un experimento
(Kazmier, 1967: 83)
1. Si el experimento consiste en lanzar 100 veces al aire una moneda no deformada y si se registra
los resultados posibles: Águila (𝐴) 68 veces y Sol (𝑆) 32 veces, se dice que la frecuencia relativa de
68
águila (𝐴) es 100
ó 0.68, que es la probabilidad de ocurrencia de águila (𝐴), que es distinta de la
probabilidad a priori o clásica: 𝑃(𝐴) = 0.5
Cuadro IV.15
Diagrama de Venn para dos eventos que no son mutuamente excluyentes
Así como el diagrama de Venn, ilustra la ocurrencia de un evento, el diagrama de árbol ilustra la
ocurrencia de varios eventos o eventos sucesivos.
Con base en la definición previa, se dice que la probabilidad del conjunto 𝑃(𝐴 𝑦 (𝐵) = 𝑃(𝐴) ∗
𝑃(𝐵).
D. Eventos dependientes
Se dice que la probabilidad de que ocurran 𝐴 y 𝐵 es igual a la probabilidad del evento 𝐴 por la
probabilidad del evento 𝐵 dado que el evento 𝐴 ya ha ocurrido, dado que
𝑃(𝐵|𝐴) = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝐵 𝑑𝑎𝑑𝑜 𝐴.
Ejemplos:
1
𝑃(1) = 𝑃(2) = 𝑃(3) = 𝑃(4) = 𝑃(5) = 𝑃(6) =
6
1 1 2 1
Luego 𝑃(2 𝑜 5) = 𝑃(2) + 𝑃(5) = 6 + 6 = 6 = 3.
Generalizando
1 1 1 3 1
𝑃(1 𝑜 3 𝑜 6) = 𝑃(1) + 𝑃(3) + 𝑃(6) = + + = =
6 6 6 6 2
1 1 1 1 4 2
𝑃(1 𝑜 2 𝑜 4 𝑜 6) = 𝑃(1) + 𝑃(2) + 𝑃(4) + 𝑃(6) = + + + = =
6 6 6 6 6 3
1 1 1 1 1 1
𝑃(1 𝑜 2 𝑜 3 𝑜 4 𝑜 5 𝑜 6) = 𝑃(1) + 𝑃(2) + 𝑃(3) + 𝑃(4) + 𝑃(5) + 𝑃(6) = + + + + +
6 6 6 6 6 6
6
= =1
6
La probabilidad de obtener un as o una espada al sacar una carta de una baraja americana, sin
4 13 4 13
reemplazo, y sabiendo que 𝑃(𝑎𝑠) = 52 y que 𝑃(𝑒𝑠𝑝𝑎𝑑𝑎) = 52, será 𝑃(𝑎𝑠 𝑜 𝑒𝑠𝑝𝑎𝑑𝑎) = 52 + 52 −
1 16 4
52
= 52 = 13.
207
2. ¿Cuáles son las ventajas y desventajas de calcular la probabilidad con: a) el método clásico
o apriorístico; b) las frecuencias relativas o probabilidad empírica; c) subjetivamente?
Ventajas:
Desventajas:
a) Del método clásico: aun cuando es adecuado en los juegos de azar, en la vida real no es posible,
sobre todo en la economía y en los negocios, es decir, es difícil fijar probabilidades apriori de
ocurrencia de los eventos de interés y, mucho menos decir que tienen la misma probabilidad de
ocurrencia los eventos de interés;
c) Subjetivo o personalista: diversas personas pueden observar la misma realidad con información
diferente y por ello, calcular o manejar probabilidades de ocurrencia diferentes para el mismo
evento.
Tabla IV.7
Número de ingenieros solicitados en ICAMEX
Número de ingenieros Hasta 100 101 a 199 200 a 299 300 a 399 400 a 499 ≥500
Probabilidad 0.3 0.14 0.2 0.3 0.1 0.05
Fuente: Investigación directa con datos hipotéticos.
a) ¿Cuál es la probabilidad de que ICAMEX llegase a necesitar 400 o más ingenieros adecuados en
los próximos 2 años?
Luego 𝑃(400 𝑎 499) 𝑜 (≥ 500) = 𝑃(400 𝑎 499) + 𝑃(≥ 500) = 0.10 + 0.05 = 0.15
b) ¿Cuál es la probabilidad de que ICAMEX llegue a necesitar al menos 200 pero no más que 399
ingenieros adicionales?
208
𝑃(200 𝑎 299) 𝑜 (300 𝑎 399) = 𝑃(200 𝑎 299) + 𝑃(300 𝑎 399) = 0.20 + 0.30 = 0.50
Cuadro IV.16
Diagrama de Venn para un solicitante de empleo con T o E en ICA
8. Durante el año 2015 dos terceras partes de las acciones preferentes aumentaron sus precios
o los mantuvieron estables, en tanto que una tercera parte disminuyó su precio; suponga que
se analiza la evolución en el mercado de los precios de tres acciones preferentes,
seleccionadas al azar:
a) Usando 𝐴 para significar que aumentó o se mantuvo constante el precio de las acciones y 𝐵
para denotar que su precio disminuyó, construya un diagrama de árbol ilustrando las
probabilidades del aumento o disminución en el precio de las tres acciones seleccionadas al
azar (tip, debe de ser un árbol de 3 etapas de izquierda a derecha).
209
Cuadro IV.17
Diagrama de árbol con eventos sucesivos
b) Con los datos del diagrama de árbol anterior, ¿Cuál es la probabilidad de que hayan
disminuido los precios de las 3 acciones?
1 1 1 1
𝑃(𝐵 𝐵 𝐵) = ∗ ∗ =
3 3 3 27
c) ¿Cuál es la probabilidad de que al menos una de las tres acciones haya disminuido en su
precio (tip, sólo una rama en el diagrama de árbol no satisface esta condición, y por ende la
probabilidad de que los 3 productos secuenciados en este árbol pueda sustraerse de 1.0):
2 2 2 8 27 − 8 19
𝑃(𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝐵) = 1 − 𝑃(𝐴 𝐴 𝐴) = 1 − ( ∗ ∗ ) = 1 − = = 𝑙
3 3 3 27 27 27
a) Construya el diagrama de árbol ilustrando todos los posibles productos con su probabilidad
de ocurrencia asociada usando 𝐴 y 𝑁𝐴 para denotar aumento y no aumento en la demanda
de pan Bimbo, y 𝑉 y 𝑁𝑉 para expresar el incremento y el no incremento en sus ventas,
respectivamente.
210
Cuadro IV.18
Diagrama de árbol del Pan Bimbo
9. Los empleados de la empresa Coca Cola Drink van a ser incluidos en el SAR
inscribiéndolos en una AFORE. Para esto se toma una muestra de ellos para ser
encuestados o entrevistados, mismos que se observa se clasifican de la manera siguiente:
Tabla IV.8
Empleados entrevistados de la empresa Coca Cola Drink
Clasificación Evento NO. de empleados
Supervisores A 120
Mantenimiento B 50
Producción C 1460
Administración D 302
Secretarías E 68
TOTAL 2000
Fuente: Investigación directa con datos hipotéticos.
Se puede ver que son mutuamente excluyentes (ocurre uno u otro) y colectivamente exhaustivos
(por lo menos uno de los eventos puede ocurrir al realizar el experimento). Con estas referencias:
50 68 118
𝑃(𝑚𝑎𝑛𝑡𝑒𝑛𝑖𝑚𝑖𝑒𝑛𝑡𝑜 𝑜 𝑠𝑒𝑐𝑟𝑒𝑡𝑎𝑟𝑖𝑎) = + = = 0.059
2000 2000 2000
211
b) Construya un diagrama de Venn que ilustre la respuesta en a).
Cuadro IV.19
Diagrama de Venn: Inciso a.1)
422
𝑃(𝑥) = 1 − = 1 − 0.211 = 0.789
2000
Cuadro IV.21
Diagrama de Venn para un empleo que necesita A o B
11. Por su experiencia la fábrica de llantas “Sagitario”, sabe que la probabilidad de que su
marca “Duracero” dure 50,000 km. es 0.70. Si para verificarlo toma una muestra de 5 llantas al
azar, ¿Cuál es la probabilidad de que las 5 llantas duren 50,000 km?
a) ¿Cuál es la probabilidad de que los 4 miembros del comité de búsqueda sean mujeres?
4 3 2 1 24
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = ( )( )( )( ) = = 0.002
12 11 10 9 11880
8 7 6 5 1680
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = ( ) ( ) ( ) ( ) = = 0.1414
12 11 10 9 11880
13. Sobre el uso de una tabla de contingencia. Sabiendo que es una tabla que se utiliza para
clasificar las observaciones de las muestras de acuerdo en dos o más características que se pueden
identificar, como la vigente tomada de ejercicios de años anteriores con los alumnos; que es una
tabulación realizada que resume al mismo tiempo dos variables de interés y su relación.
Lealtad de los ejecutivos y tiempo de servicio en la empresa “ Jugos Naturales del Sureste”,
denotada con 𝐴1 .
Tabla IV.9
Tabla de contingencia representando la lealtad de los ejecutivos y tiempo de servicio en la empresa
Jugos Naturales del Sureste
Tiempo de servicio en años
Menos de 1 De 1 a 5 De 6 a 10 Más de 10
Lealtad TOTAL
B1 B2 B3 B4
Permanencia en A1 10 30 5 75 120
No permanencia en A1: ~A 25 15 10 30 80
TOTAL 35 45 15 105 200
Fuente: Investigación directa con datos hipotéticos.
105
𝑃(𝐵4 ) = = 0.525
200
213
30
𝑃(𝐴2 |𝐵4 ) = = 0.286
105
c) ¿Cuál es la probabilidad de seleccionar un empleado con más de 10 años de servicio o a uno que
no permanezca en la empresa A1 ?
80 105 30 155
𝑃(𝐴2 𝑜 𝐵4 ) = + − = = 0.775
200 200 200 200
120
𝑃(𝐴1 ) = = 0.60
200
35
𝑃(𝐵1 ) = = 0.175
200
Una probabilidad conjunta ( Salvatore, 1999) es la probabilidad de que dos o más eventos (𝐴 𝑦 𝐵)
ocurran al mismo tiempo. Los eventos 𝐴 y 𝐵 no son mutuamente excluyentes. De la tabla de
contingencia anterior se puede decir que un empleado puede estar dispuesto a permanecer en la
empresa y tener menos de un año de experiencia. Esta probabilidad se conoce como probabilidad
conjunta y se escribe 𝑃(𝐴1 𝑦 𝐵). En la tabla mencionada se puede ver que hay 10 empleados que se
10
quedarán en la empresa y tienen menos de un año de servicio; por lo que 𝑃(𝐴1 𝑦 𝐵) = 200 = 0.05 e
indica que hay intersección entre ellos por lo que en el cálculo de sus probabilidades como eventos
mutuamente excluyentes se debe restar este valor así: 𝑃(𝐴 𝑜 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 𝑦 𝐵) =
(0.60) + (0.17) − (0.05) = 0.725
15. El método para calcular la probabilidad como una razón matemática, también conocido
como clásico o a priori, se aplica cuando hay 𝑛 resultados igualmente posibles en un experimento.
El método de las frecuencias relativas, llamado también a posteriori o empírico, se aplica cuando se
realiza el experimento y se registran los eventos o resultados que éste produce.
214
16. Teorema o Regla de Bayes. Es un método para revisar una probabilidad (a priori)
cuando se obtuvo información adicional (a posteriori). Para su exposición antes se dice que un
teorema es una suposición científica que debe demostrarse. (Larousse, 2005:973 y 126), y que un
axioma es una proposición primera evidencia no susceptible de demostración, que es lógica y se
interpreta como un principio enunciado hipotéticamente como base de una teoría deductiva.
Con estas definiciones se dice que este teorema fue desarrollado en el siglo XVIII por el Presbítero
Thomas Bayes, quien se preguntó ¿En verdad existe Dios? Y para contestar esta pregunta elaboró
una fórmula para llegar a la probabilidad de que Dios existe (Lind et al, 2005: 160), a partir de las
evidencias o información a su alcance en la tierra. Luego Laplace detalló la investigación de Bayes
y él fue quien la denominó “Teorema de Bayes”. Así, para dos eventos mutuamente excluyentes y
colectivamente exhaustivos, dicha fórmula es:
𝑃(𝐴1 )𝑃(𝐵|𝐴1 )
𝑃(𝐴1 |B) =
𝑃(𝐴1 )𝑃(𝐵|𝐴1 ) + 𝑃(𝐴2 )𝑃(𝐵|𝐴2 )
Para ilustrar su aplicación se tomó de los ejercicios con los alumnos, el sigui(ente: Suponga que
los eventos 𝐴1 y 𝐴2 son mutuamente excluyentes y colectivamente exhaustivos por lo menos uno de
los eventos debe ocurrir al realizar el experimento); además, que 𝐴𝑖 se refiere al evento 𝐴1 o 𝐴2 .
Por otra parte suponga que 5% de la población de Sonora tiene una enfermedad que es peculiar en
esa entidad federativa. También suponga que 𝐴1 indica el evento “tiene la enfermedad” y que 𝐴2 se
refiere al evento “no tiene la enfermedad”. Luego entonces si se selecciona al azar una persona de
Sonora, la probabilidad de que esa persona tenga la enfermedad es 0.05 o 𝑃(𝐴1 ) = 0.05. Se conoce
como probabilidad a priori (Lind et al, 2005:161). Así le llaman porque se origina antes de obtener
cualquier dato empírico (Idem), ya que esta probabilidad inicial se basa en la información actual
disponible.
En este sentido apriorístico la probabilidad de que una persona de Sonora no padezca la enfermedad
es 𝑃(𝐴2 ) = 1 − 0.05 = 0.95.
Ahora bien, se sabe que existe una técnica de diagnóstico para detectar la enfermedad (la cual no es
del todo precisa). Así suponga que 𝐵 se refiere al evento “las pruebas demuestran que la
enfermedad está presente”. Suponga también que las evidencias históricas revelan que si una
persona tiene la enfermedad, la probabilidad de que la prueba indique su presencia es de 0.90. Así,
si se utilizan las definiciones de la probabilidad condicional expuestas previamente, esta afirmación
se expresa como: 𝑃(𝐵|𝐴1 ) = 0.90.
Ahora suponga que 0.15 es la probabilidad de que una persona que en realidad no tiene la
enfermedad la prueba indicará la presencia de ésta. 𝑃(𝐵|𝐴2 ) = 0.15.
Con estas referencias ahora suponga que se selecciona al azar a una persona de Sonora, se realiza la
prueba y ésta indica que la enfermedad está presente. Por consiguiente, ¿Qué probabilidad hay de
que la persona realmente padezca la enfermedad? En forma simbólica, se quiere saber
215
𝑃(𝐴1 𝑑𝑎𝑑𝑜 𝐵) que se lee: 𝑃 (tiene la enfermedad dados los resultados de la prueba son positivos).
La probabilidad 𝑃(𝐴1 𝑑𝑎𝑑𝑜 𝐵) se conoce como probabilidad a posteriori (probabilidad revisada con
base en datos adicionales).
𝑃(A1 )P(B|𝐴1 )
𝑃(A1 |B) =
𝑃(𝐴1 )𝑃(𝐵|𝐴1 ) + 𝑃(𝐴2 )𝑃(𝐵|𝐴2 )
(0.05)(0.90)
𝑃(A1 |B) = = 0.24
(0.05)(0.90) + (0.95)(0.15)
Interpretación: 0.24 es la probabilidad de que una persona tenga la enfermedad debido a que la
prueba dio positivo. Entonces, si se selecciona una persona de Sonora al azar, la probabilidad de
que padezca la enfermedad es 0.05. Si esa persona se somete a la prueba y el resultado es positivo,
se dice que la probabilidad de que realmente esté enferma aumenta de 0.05 a 0.24, es decir, aumenta
casi cinco veces. Con estos cambios los cálculos se resumen en:
Tabla IV.10
Teorema de Bayes para la población enferma en Sonora
Probabilidad Probabilidad Probabilidad Probabilidad
Evento anterior condicional conjunta posterior
𝑃(𝐴) 𝑃(𝐴|𝐵) 𝑃(𝐴𝑖 𝑦 𝐵) 𝑃(𝐴𝑖 |𝐵)
0.0450
Enfermedad (𝐴1 ) 0.05 0.90 0.045 = 0.24
0.1875
0.1425
Sin enfermedad (𝐴2 ) 0.95 0.15 0.1425 = 0.76
0.1875
TOTAL 100 100 𝑃(𝐵) = 0.1875 1
Fuente: Investigación directa con datos hipotéticos.
216
IV.3.4 Examen: Introducción a la probabilidad
1. ¿Qué es la probabilidad?______________________________________________
:
2. ¿Cuántos y cuáles son los enfoques para calcular la probabilidad?_____________
_____________________________________________________________________
3. Según Laplace, ¿Cómo se define la probabilidad?__________________________
_____________________________________________________________________
4. ¿Cuándo se aplica el enfoque subjetivo para calcular la probabilidad?___________
_____________________________________________________________________
5. ¿En que difiere el método de las frecuencias relativas del método teórico? ______
_____________________________________________________________________
6. ¿Para qué sirven las técnicas del análisis combinatorio?______________________
_____________________________________________________________________
7. ¿Un evento sólo puede estar constituido por un punto? SI_____; NO______
8. ¿Por qué las permutaciones sirven de referencia para el muestreo con reemplazo?_
_____________________________________________________________________
9. ¿Por qué las combinaciones sirven de referencia para el muestreo sin reemplazo?_
_____________________________________________________________________
10. Las permutaciones, ¿Son más o menos que las combinaciones, por qué? ________
_____________________________________________________________________
PROBLEMA 1.
Si una muestra de empleados de TELMEX participa en una encuesta sobre un nuevo plan de
pensiones y sí estos empleados se clasifican como se indica en el siguiente cuadro:
Tabla IV.11
217
Trabajadores encuestados de TELMEX
Clasificación Evento Número de empleados
Supervisores A 120
Mantenimiento B 50
Producción C 1460
Administración D 302
Secretarias E 68
Fuente: Investigación directa con datos hipotéticos.
PROBLEMA 3.
Si usted sabe que cada año a los empleados de la Facultad de Economía les es practicado un
examen físico para conocer su estado de salud y que el año pasado se detectó que 8% de ellos
necesitaban zapatos ortopédicos, que 15% requieren de un tratamiento dental y que 3% de ellos
requieren tanto de zapatos ortopédicos como de servicio dental, así:
Observaciones: el problema uno cuenta 2 puntos; el dos, 1.5 puntos y el tres, 1.5 puntos.
IV.3.5 Práctica VI
NOMBRE__________________________________________ GRUPO_____
1. Opinen a favor de X.
2. Opinen en contra de X.
3. No tiene opinión respecto a X.
PROBLEMA 4. En una Facultad de Ciudad Universitaria asisten 2,500 estudiantes con las
siguientes características:
219
1. Determinar el conjunto de eventos elementales o marco muestral.
2. Cuál es la probabilidad de elegir un estudiante varón.
3. Cuál es la probabilidad de elegir un estudiante que pese menos de 58 kilos.
Cuál es la probabilidad de que habiendo elegido a un estudiante varón, este mida sobre 1.65
metros.
220
CAPÍTULO V. DISTRIBUCIONES PROBABILÍSTICAS
Este tipo de distribuciones son muy importantes porque una vez conocidas sus características, sus
propiedades estadísticas y el alcance de cada una de ellas, se amplía la capacidad de análisis, ya que
a partir del conocimiento de sus supuestos teóricos, de su conformación, de su distribución y de la
destreza que se desarrollen para saber aplicarlas o adaptarlas a fenómenos económicos específicos,
es posible hacer estimaciones de riesgo o incertidumbre, de parámetros, de verificación de hipótesis
de trabajo, calcular y utilizar tamaños de muestras para inferir las características de la población de
dónde se obtienen, etc. Todo ello a partir de muestras sin tener que estudiar toda la población, como
sería a través de un censo.
Para saber cómo se generan, se comenzará haciendo el símil con una distribución o arreglo de datos
en lo que se ha dado en llamar una distribución de frecuencias, que es una lista de todos los
resultados posibles con la asociación de una frecuencia observada por cada resultado.
Similarmente, una distribución probabilística también es una lista de todos los resultados posibles,
pero en lugar de la frecuencia observada, se indica la probabilidad asociada con cada uno de los
resultados ( Richmond , 1964) . Así, para generarse puede decirse que si tres monedas se lanzan al
aire una vez y se registran los resultados, el número posible por ejemplo de águilas en un
lanzamiento puede ser: 0, 1, 2, 3.
Aun cuando hay cuatro resultados posibles sólo uno ocurre en el lanzamiento al aire de tres
monedas a la vez. Suponiendo que se realiza o se repite el experimento de lanzar diez veces las tres
monedas y se registra el número de veces que cae 0, 1, 2, 3 águilas, la tabla que resulta es una
distribución de frecuencias.
Tabla V.1
Frecuencias observadas del lanzamiento de tres monedas
No. De águilas Frecuencia observada
0 2
1 4
2 4
3 0
Fuente: Investigación directa con datos hipotéticos.
Si el experimento se repite, una y otra vez, en cada ocasión se obtienen resultados diferentes. Para
evitar lo anterior y no conducirse casuísticamente, es decir, estar tabulando las frecuencias de
ocurrencia de cada resultado posible, en forma aislada para luego llegar a conclusiones
circunstanciales o coyunturales en el estudio de un fenómeno económico, es preferible tratar de
generalizar aplicando procedimientos estándar de aceptación general en el análisis de los mismos,
cuyos resultados sean creíbles puesto que se maneja una metodología aceptada por la mayoría. Para
1 1
ello qué mejor referencia que el enfoque clásico o teórico donde 𝑝 = 2 y 𝑞 = 2; con el que es
posible determinar e indicar la probabilidad de cada producto: 0.1.2.3, ya que en este caso se
determina o indica la probabilidad de ocurrencia de cada suceso, con este procedimiento se evita
221
que cambie la distribución, es decir, en el caso del experimento de lanzar tres monedas al aire y al
1 3
registrar sus resultados, teóricamente éstos serán siempre: 8 para cero águilas o tres soles; 8 para un
3 1
águila y dos soles; para dos águilas y un sol y para tres águilas y ningún sol (Richmond; 1964).
8 8
Reiterando, mientras que una distribución de frecuencias lista todos los resultados posibles con su
frecuencia asociada indicando el número de veces que ocurre cada resultado, la distribución
probabilística también lista todos los resultados posibles con su probabilidad asociada de
1
ocurrencia, así: partiendo de la definición clásica la cual establece que 𝑝 = 2 = 𝑞; donde 𝑝 =
Probabilidad de que caiga "águila" y 𝑞 = Probabilidad de que no sea águila; si se lanzan tres
monedas a la vez y se registra el número de águilas, se genera una distribución probabilística con
ocho resultados posibles, que agrupados dan:
Tabla V.2
Distribución probabilística del lanzamiento de tres monedas
No. De águilas Probabilidad
0 1 ÷ 8
1 3 ÷ 8
2 3 ÷ 8
3 1 ÷ 8
Fuente: Investigación directa con datos hipotéticos.
Uno de los primeros beneficios de estos cálculos es que dada una distribución probabilística, se
puede desarrollar una distribución de frecuencias esperadas multiplicando el valor de cada una de
las probabilidades por el número total de veces que se repita el experimento. Si esto se hace 3
veces:
Tabla V.3
Distribución de frecuencias del lanzamiento de tres monedas
No. De águilas Frecuencia esperada en el lanzamiento de 3 monedas 24 veces
0 24 * 1 ÷ 8 = 3
1 24 * 3 ÷ 8 = 9
2 24 * 3 ÷ 8 = 9
3 24 * 1 ÷ 8 = 3
Fuente: Investigación directa con datos hipotéticos.
Raras veces la distribución de frecuencias observadas coinciden con la de las esperadas, que se
convierten en la mejor estimación de las primeras si el experimento se realiza muchas veces. Luego
una distribución de frecuencias esperadas es una distribución probabilística.
Pueden ser discretas y continuas. Al respecto, de acuerdo con Canavos (1988; 53), se dice que la
variable aleatoria 𝑋 es discreta si el número de valores que puede tomar es contable (ya sea finito o
infinito), y si estos pueden arreglarse en una secuencia que corresponde con los enteros positivos.
En general, una variable aleatoria discreta 𝑋 representa los resultados de un espacio muestral en
222
forma tal que por 𝑃(𝑋 = 𝑥) se entenderá la probabilidad de que 𝑋 tome el valor de 𝑥. De esta
forma, al considerar los valores de una variable aleatoria es posible desarrollar una función
matemática que asigne una probabilidad a cada realización 𝑥 de la variable aleatoria 𝑋. Esta
función recibe el nombre de función de probabilidad de la variable aleatoria 𝑋.(Canavos; 1988; 53-
54).
Como es el caso del lanzamiento de una moneda o un dado donde los valores que se obtienen al
realizar el experimento son enteros positivos.
Por otra parte, se dice que una variable aleatoria 𝑋 es continua si es divisible o fraccionable, es
decir, si sus valores están en uno o más intervalos de la recta de los números reales. Este tipo de
distribuciones están caracterizadas por una función 𝑓(𝑥) que recibe el nombre de función de
densidad de probabilidad. Esta función 𝑓(𝑥) no es la misma función de probabilidad que para el
caso discreto. Como existe la probabilidad de que 𝑋 tome el valor específico de 𝑥 es cero, la
función de densidad de probabilidad no representa la probabilidad de que 𝑋 = 𝑥. Más bien ésta
proporciona un medio para determinar la probabilidad de un intervalo 𝑎 ≤ 𝑋 ≤ 𝑏. (Canavos; 1988;
57). Por ejemplo, si se miden intervalos de tiempo de cualquier evento hasta una décima de
segundo o más y se desea obtener la probabilidad de los mismos, es más sencillo determinar la
probabilidad de cada intervalo de tiempo que de un punto en el espacio muestral disponible.
En la primera parte de este capítulo se tratarán las principales distribuciones discretas. Aun cuando
existen diferentes maneras de generar una distribución de frecuencias esperadas discreta, son dos
los métodos más extensamente usados en la inferencia estadística partiendo de la definición clásica
de probabilidad: El diagrama de árbol y la expansión del binomio, como se ilustra a continuación.
Dentro de la segunda parte del capítulo se tratarán las principales distribuciones continuas, como es
la distribución normal, la distribución F de Fisher y la t de Student y la chi-cuadrada (𝜒 2 ).
Esta distribución pertenece a la familia de distribuciones Bernoulli, la cual depende del tamaño de
la muestra n y de su probabilidad objetivo 𝑝. Su fórmula es :
𝑛!
𝑃(𝑋) = 𝑝 𝑥 𝑞𝑛−𝑥
(𝑛
𝑥! − 𝑥)!
Es una de las distribuciones de probabilidad más útiles. Sus áreas de aplicación incluyen la
inspección de calidad, ventas, mercadotecnia, medicina, investigación de opiniones y otras muchas.
Una de sus principales características es que maneja datos discretos y no continuos. Se llama
binomial porque se genera de la expansión binomial de 𝑞 + 𝑝, por ejemplo: Supóngase un
223
experimento, dónde el resultado de este es la ocurrencia o no ocurrencia de un evento, es decir el
“éxito” de que ocurra el evento o el “fracaso” o su no ocurrencia. Sea 𝑝 la probabilidad de éxito y
(1 − 𝑝) = 𝑞 la probabilidad de fracaso. Por motivos didácticos puede decirse que se obtiene por
medio de:
a) Diagrama de árbol.
b) La expansión binomial 𝑞 + 𝑝.
Partiendo del diagrama de árbol, en el caso del experimento consistente en el lanzamiento una vez
de tres monedas al aire, estableciendo que 𝑝 es A (Águila) y 𝑞 es S (sol) la distribución binomial
gráficamente se generará así:
Cuadro V.1
Diagrama de árbol del lanzamiento de tres monedas
Tabla V.4
Distribución probabilística del lanzamiento de 3 monedas
No. De águilas Probabilidad
0 1/8
1 3/8
2 3/8
3 1/8
Fuente: Investigación directa con datos hipotéticos.
Para construir el diagrama de árbol se supone que los eventos son mutuamente excluyentes e
independientes.
224
Ahora bien, para ilustrar la creación de la distribución binomial mediante la expansión del binomio
(𝑞 + 𝑝)𝑛 . Ahora supóngase que una moneda se lanza al aire dos veces e interesa obtener la
probabilidad de que caigan "águilas". Los resultados posibles son 0, 1, 2 "águilas"; así mismo en el
caso de una moneda no deforme, en cada lanzamiento la probabilidad de obtener águila (p) es
0.5 y la de sol (q)j es también 0.5 = q; tal que:
𝑞 + 𝑝 = 0.5 + 0.5 = 1
Tabla V.5
Distribución binomial del lanzamiento de una moneda dos veces al aire
𝑋 𝑃(𝑋)
0 0.25
1 0.5
2 0.25
1
Fuente: Investigación directa con datos hipotéticos.
𝑃(0) = 0.25
𝑃(1) = 0.50
𝑃(2) = 0.25
Lo anterior representa cada uno de los resultados en el desarrollo de una distribución binomial, lo
que significa que la fórmula binomial representa cada uno de los términos en el desarrollo del
binomio con exponente n.. Es probabilística porque muestra cada resultado posible con su
probabilidad de ocurrencia asociada. Gráficamente se ve así:
Gráfica V.1
Distribución binomial del lanzamiento de una moneda dos veces al aire
225
Cuantificación con el diagrama de árbol de las probabilidades de (𝑥):
Cuadro V.2
Distribución de probabilidades del lanzamiento de una moneda dos veces al aire
Así, un proceso estocástico puede ser el lanzamiento de una moneda, el proceso de fabricación de
ladrillos o la selección al azar de personas y el registro de su peso, estatura, ingreso o sexo, etc. Lo
que se observa (cara de la moneda, el peso de los ladrillos, el ingreso de las personas, etc.) es
llamado variable estocástica, aleatoria o al azar.
De esta manera una distribución de probabilidad es una lista de todos los eventos (o valores de la
variable aleatoria) que resulta de un proceso estocástico, y la probabilidad asociada de
ocurrencia de cada uno de ellos.
Observaciones:
1
Sustituyendo los valores de 𝑞 y 𝑝, donde 𝑞 = 2 = 𝑝; se tiene:
1 3 1 1 2 1 2 1 1 3 1 3 3 1
(𝑞 + 𝑝)3 = ( ) + 3 ( ) ( ) + 3 ( ) ( ) + ( ) = + + +
2 2 2 2 2 2 8 8 8 8
226
Estos resultados son iguales a los obtenidos con el diagrama de árbol y corresponden a la
probabilidad de obtener 0, 1, 2 o 3 águilas en el lanzamiento de 3 monedas.
2. Por otro lado los coeficientes de cada término indican el número de formas en que se
pueden obtener los resultados, (ibíd.).
Se calculan con el procedimiento usual, solo que se usan probabilidades en lugar de frecuencias. En
el caso de la media, su fórmula es:
∑ 𝑋𝑝(𝑋)
𝜇=
∑ 𝑝(𝑋)
Para la desviación estándar:
∑(𝑥 − 𝜇)2 𝑝(𝑥)
𝜎=√
∑ 𝑝(𝑥)
Como la suma de las probabilidades es igual a 1 los denominadores de las fórmulas se eliminan y
queda:
𝜇 = ∑ 𝑥𝑝(𝑥)
Gráficamente:
227
Gráfica V.2
Distribución binomial simétrica y asimétrica
El experimento se puede realizar n veces, y cada uno de ellos son independientes. Finalmente sea 𝑋
la variable aleatoria que representa el número de éxitos en los 𝑛 ensayos (Canavos; 1988; 90).
Gráfica V.3
Gráficas de la función de probabilidad Binomial
Si el 50% de los hombres empleados en la empresa “La Lechera” son casados y se toma una
muestra aleatoria de dos hombres, ¿Cuál es la probabilidad de que la muestra contenga 2, 1 o 0
hombres casados?
1
𝑝=2=𝑞
𝑝 = Probabilidad de que los hombres sean casados.
𝑞 = Probabilidad de que no lo sean.
𝐶 = Casado.
𝑆 = Soltero.
228
Cuadro V.3
Diagrama de árbol de la probabilidad de que un empleado esté casado o no
Tabla V.6
Tabla de probabilidades de los empleados casados
𝑋 𝑃(𝑋)
0 0.25
1 0.50
2 0.25
1
Fuente: Investigación directa con datos hipotéticos.
(𝑞 + 𝑝)2
(𝑞 + 𝑝)2 = 𝑞 2 + 2𝑝𝑞 + 𝑝2
2
1 2 1 1 1 2 1 1 1 2
(𝑞 + 𝑝) = ( ) + 2 ( ) ( ) + ( ) = ( ) + 2 ( ) + ( ) = 0.25 + 0.50 + 0.25 = 1
2 2 2 2 4 4 4
Tabla V.7
Cálculo de la media aritmética y desviación estándar
𝑋 𝑃(𝑋) 𝑋𝑃(𝑋) (𝑥 − 𝜇) (𝑥 − 𝜇)2 (𝑥 − 𝜇)2 𝑃(𝑋)
0 0.25 0 -1 1 0.25
1 0.5 0.5 0 0 0
2 0.25 0.5 1 1 0.25
1 1 0 0.5
Fuente: Investigación directa con datos hipotéticos.
Se calcula con
229
𝜇 = ∑ 𝑋 𝑃(𝑋)
Así sustituyendo
∑(𝑥 − 𝜇2 )𝑃(𝑋)
𝜎=√ = √0.5 = 0.71
∑ 𝑃(𝑋)
Estos resultados de 𝜇 y 𝜎 se obtienen más fácilmente con las fórmulas ( Richmond, 1964: 126)
aplicadas específicamente a la distribución binomial:
𝜇 = 𝑛𝑝; y 𝜎 = √𝑛𝑝𝑞
Tabla V.8
Principales propiedades de la distribución binomial y estadísticos básicos
Función de probabilidad Parámetros
𝑛! 𝑥 (1 𝑛−𝑥 𝑛, entero positivo
𝑝(𝑥; 𝑛, 𝑝) = (𝑛−𝑥)!𝑥! 𝑝 − 𝑝)
𝑝, 0 ≤ 𝑝 ≤ 1
Media Varianza Coeficiente de sesgo
𝑛𝑝 𝑛𝑝(1 − 𝑝) 1−2𝑝
[𝑛𝑝(1−𝑝)]1⁄2
Fuente:Canavos (1988: 98).
Se ha visto que la distribución binomial es discreta porque la naturaleza de sus son discretos, es
decir, porque son categorías o conceptos indivisibles. El polígono de frecuencias ilustra su
simetría o asimetría, es decir, no se pueden interpolar sus puntos al no ser fraccionables sus valores,
por lo que no se puede hacer análisis de los puntos intermedios entre los números enteros de la
serie (Richmond, 1964: 130).
230
Sin embargo, como se recordará, cuando 𝑛 crece se puede hacer una aproximación utilizando la
fórmula de la distribución normal, para lo cual se adapta al valor de Z estandarizado de la siguiente
forma:
(𝑥 − 𝜇)
𝑍=
𝜎
Que es igual a
(𝑥 − 𝑛𝑝)
𝑍=
√𝑛𝑝𝑞
Y con 𝑛 creciendo sin límite.
Tabla V.9
Transformación de la distribución binomial a una distribución normal
𝑋 𝑃(𝑋) (𝑥 − 𝜇) 𝑍 = (𝑥−𝜇) Área bajo la curva (𝑦)𝑂𝑟𝑑𝑒𝑛𝑎𝑑𝑎
𝜎
0 0.25 -1 -1.4 -0.41924 0.14973
1 0.5 0 0 0.00000 0.39894
2 0.25 1 1.4 0.41924 0.14973
Fuente: Investigación directa con datos hipotéticos y del Apéndice A.
𝜇 = 𝑛𝑝 = 1𝜎 = 0.71
La normal es simétrica aun cuando p es diferente de q. En el caso de una binomial, aunque p sea
diferente de q, su distribución tiende a ser normal o simétrica a medida que aumenta n.
Gráfica V.4
Transformación de la distribución binomial a una distribución normal
En la siguiente gráfica se puede observar claramente este hecho. Supóngase el ejemplo del
lanzamiento al aire de una moneda una vez y la probabilidad de que caiga águila, es claro que la
probabilidad de éxito o de fracaso es de 0.5. A medida que se realicen más y más lanzamientos de la
231
moneda, la distribución de la misma tenderá a la de una normal. En la gráfica se puede apreciar que
al lanzar la moneda 5 veces, su distribución se nota leptocúrtica, sin embargo llegado a los 50
lanzamientos o en su caso, ensayos, la distribución se muestra como la de una normal, ya que es una
curva mesocúrtica.
Gráfica V.5
La distribución binomial tiende a ser normal
a medida que aumenta el número de ensayos
0.40
0.30
0.20
0.10
0.00
6
0
1
2
3
4
5
7
8
9
17
10
11
12
13
14
15
16
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
n=5, p=0.5 n=20, p=0.5 n=50, p=0.5
PASOS:
1. Se posiciona el cursor celda A1/clic y se coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo
Insertar una función, en el cual se buscará O seleccionar una categoría/clic, se selecciona
Estadísticas/Clic/. En el cuadro de diálogo de abajo se busca la función
DISTR.BINOM.N/clic y se le da Aceptar/clic.
232
Cuadro V.4.
Argumentos de función de DISTR.BINOM.N con acumulado FALSO
Esta distribución se usa cuando cambia el espacio muestral o la probabilidad objetivo ( p). En otras
palabras, cuando la población es pequeña y finita, el alterar por el proceso de selección sin
reemplazamiento ocasiona que la probabilidad objetivo cambie, por lo que la distribución
hipergéometrica permite dicha variación, a diferencia de la distribución binomial cuya probabilidad
objetivo no puede variar. Lind et al ( 2005) recomienda que cuando el tamaño de una muestra, 𝑛,
sea mayor a 5% de la población, 𝑁, cuando se usa un muestreo sin reemplazo, en ese caso se
aconseja utilizar la distribución hipergeométrica en lugar de la binomial para calcular la
probabilidad de un número específico de éxitos (𝑥).
Indudablemente que si la población fuera grande y la selección de la muestra fuera con reemplazo
se podría asignar la misma probabilidad a cada uno de los elementos para ser incluidos en la
muestra. Para su cálculo se parte de las fórmulas de la binomial obtenida con la fórmula de las
combinaciones:
𝑛 𝑛!
( )= = 𝑛𝐶𝑟
𝑟 𝑟! (𝑛 − 𝑟)!
En este caso se tiene que:
𝑁−𝑛
𝜎 = √𝑛𝑝𝑞 ∗ √
𝑁−1
𝑁−𝑛
Conociéndose √ 𝑁−1 con el nombre del multiplicador o corrector finito, el cual es útil porque
ayuda a mejorar el valor de . Finalmente, es posible definir la función de probabilidad
233
hipergeométrica de la siguiente manera: Si N es el número total de objetos en una población finita,
de manera tal que 𝑛1 de éstos es de un tipo y 𝑛2 de otro tipo. Si se selecciona una muestra aleatoria
sin reemplazo de la población constituida por 𝑟 objetos de la probabilidad de que 𝑥 sea de un tipo
exactamente y 𝑟 − 𝑥 sea del otro, se dice que está dada por la función de probabilidad
hipergeométrica:
(𝑛𝑥1 )(𝑟−𝑥
𝑛2
)
𝑝(𝑥) =
(𝑁𝑟)
Gráfica V.6
Gráficas de la función hipergeométrica de probabilidad
𝑛
¿Cuál es la probabilidad de que 𝑥 = 8 sean americanos? Recordando que habrá [ 1 ] maneras
𝑟
diferentes de obtener 8 automóviles americanos, entonces 𝑟 − 𝑥: será el número de automóviles
𝑛
europeos tal que hay [ 2 ] maneras diferentes de obtener 12 automóviles europeos.
𝑟−𝑥
Luego la probabilidad de obtener 8 automóviles americanos y 12 europeos será:
𝑛 𝑛 120 80
( 1) ( 2 ) ( )( )
𝑥 𝑟−𝑥 = 8 12
𝑁 200
( ) ( )
𝑟 20
234
Tabla V.10
Probabilidad de obtener 8 y hasta 20 autos americanos
Número de autos Americanos (𝑋) Combinaciones 𝑃(𝑋)
0 120 80 0.000000002
( )( )
𝑃(𝑥 = 0) = 0 12
200
( )
20
1 . 0.000000086
2 . 0.000001572
3 . 0.000017664
. . .
. . .
. . .
8 120 80
( ) ( ) 0.03137292
𝑃(𝑥 = 8) = 8 12
200
( )
20
. . .
. . .
. . .
. .
20 120 80
( ) ( ) 0.00001826
𝑃(𝑥 = 20) = 20 0
200
( )
20
Suma 1.00
Fuente: Investigación directa con datos hipotéticos.
235
Ejemplo 2:
𝑁 = 10 personas
𝑛1 = 6 hombres
𝑛2 = 4 mujeres
𝑟= 5
Tabla V.11
Probabilidad de obtener X número de hombres en una muestra de 5
Número de hombres (X) Combinaciones P(x)
6 4
( )( )
0 0 4 = 0 0.0000
10 252
( )
5
6 4
( ) ( ) 6(1) 6
1 1 4 = = 0.0238
10 252 252
( )
5
6 4
( ) ( ) 15(4) 60
2 2 3 = = 0.2380
10 252 252
( )
5
6 4
( ) ( ) 20(6) 120
3 3 2 = = 0.4761
10 252 252
( )
5
6 4
( ) ( ) 15(4) 60
4 4 1 = = 0.2380
10 252 252
( )
5
6 4
( ) ( ) 6(1) 6
5 5 0 = = 0.0238
10 252 252
( )
5
SUMA 0.9757 ≅ 1.000
Fuente: Investigación directa con datos hipotéticos.
𝑁−𝑛
𝜎 = √𝑛𝑝𝑞 ∗ √ = √∑(𝑥 − 𝜇)2 𝑝(𝑥)
𝑁−1
236
Tabla V.12
Obtención de la media aritmética y la desviación estándar de una distribución hipergeométrica
𝑋 𝑃(𝑋) 𝑋𝑃(𝑋) 𝑥−𝜇 (𝑥 − 𝜇)2 (𝑥 − 𝜇)2 𝑃(𝑋)
0 0.0000 0.0000 -3 9 0.0000
1 0.0238 0.0238 -2 4 0.0960
2 0.2380 0.4760 -1 1 0.2380
3 0.4761 1.4280 0 0 0.0000
4 0.2380 0.9520 1 1 0.2380
5 0.0238 0.1200 2 4 0.0960
0.9937≈1.0000 3 0.6680
Fuente: Investigación directa con datos hipotéticos.
Así:
𝜇 = ∑ 𝑋 𝑃(𝑋) = 3
𝜇=3
𝜇 = 𝑛𝑝
𝜇 = 5(0.6) = 3
𝑁−𝑛
𝜎 = √𝑛𝑝𝑞 ∗ √
𝑁−1
10 − 5
𝜎 = √5(0.6)(0.4) ∗ √ = √1.20 ∗ √0.55 = 0.81
10 − 1
El profesor Lind (2005: 197) comenta que esta distribución debe usarse cuando: a) La probabilidad
de ocurrencia de cada evento (1/𝑛) ya no sea la misma, como sucede en poblaciones pequeñas
finitas de las que se extrae la muestra (𝑛) usando el muestreo sin reemplazo, dado que al no ser
reemplazado el resultado posible que apareció en la primera selección de la muestra, en la segunda
selección se dispone de menos resultados en el espacio muestral para ser incluidos en la muestra, y
por ende la probabilidad de ser incluido cada resultado posible en la muestra ahora es 1⁄𝑛 − 1; en
una tercera selección, al quedar menos datos para ser incluidos en la muestra, la probabilidad de
237
cada uno de ellos de ser incluidos en la muestra ahora es 1⁄𝑛 − 2, etc; b) Cuando 𝑛 sea mayor al
5% de 𝑁 (Población estadística). También recomienda usar esta distribución en economía cuando:
Para contestar usa la fórmula de las combinaciones arriba descrita estableciendo que 𝑋 representa a
los trabajadores sindicalizados y desarrolla las probabilidades de que ocurra cada una de las 𝑋, es
decir 𝑃(𝑋), arribando a la siguiente tabla que representa la distribución hipergeométrica:
Tabla V.13
Distribución hipergeométrica de probabilidades de trabajadores sindicalizados
𝑋 𝑃(𝑋)
0 0.000
1 0.004
2 0.044
3 0.220
4 0.431
5 0.311
Total 1.000
Fuente: Investigación directa con datos hipotéticos.
PASOS:
1. Haciendo uso del primer ejercicio de esta sección, donde se deseaba saber cuál era la
probabilidad de obtener 8 autos americanos, Se posiciona el cursor celda A1/clic y se
coloca en 𝑓𝑥/clic. En el nuevo cuadro de diálogo Insertar una función, en el cual se buscará
O seleccionar una categoría/clic, se selecciona Estadísticas/Clic/. En el cuadro de diálogo
de abajo se busca la función DISTR.HIPERGEOM.N/clic y se le da Aceptar/clic.
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en Muestra
éxito/clic y se escribe 8, ya que se desea obtener 8 autos americanos; en Número de
238
muestra/clic y se digita 20 del tamaño de la muestra a tomar; en el argumento
Pobalción_éxito/clic se digita la población que corresponde a los autos americanos, la cual
en este caso es 120; Núm_de_población/clic se digita 200 del total de la población de autos.
En cuanto al argumento Acumulado/clic se escribe FALSO (Para obtener la función de
densidad de la probabilidad) finalmente Aceptar/clic y aparece que la probabilidad de
obtener 8 autos americanos de una muestra de 20 sabiendo que se tienen 120 autos
americanos en una población de 200 automóviles es de 0.031372919.
Cuadro V.5
Argumentos de función de DISTR.HIPERGEOM.N con argumento FALSO
La descripción de la manera como se obtiene la distribución de Poisson al igual que del cálculo de
sus características estadísticas ( media y desviación estándar) se basa en mucho en la obra del
Canavos ( 1988), quien señala que esta distribución también es discreta y forma parte de la
familia Bernoull ; comenta que es llamada así en honor a Simeón Denis Poisson, probabilista
francés del siglo XIX. Al respecto, él como Kazmier ( 1967) mencionan que cuando p es pequeña
la aproximación de la binomial a la normal no es satisfactoria, por lo que la distribución de
Poisson deberá usarse como una mejor aproximación.
Este autor comenta que la distribución de Poisson es una distribución discreta de probabilidad muy
útil cuando la variable aleatoria representa el número de eventos independientes que ocurren a una
velocidad constante en el tiempo o en el espacio, y que algunos ejemplos clásicos son el número de
personas que llegan a una tienda de autoservicio en un tiempo determinado; el número de bacterias
en un cultivo; el número de solicitudes de seguro procesadas por una compañía de seguros en un
periodo, etc. (Canavos: 1988; 100) En este caso la probabilidad de 𝑥 eventos en 𝑛 pruebas, cuando
𝑝 es la probabilidad de que suceda dicho evento en una prueba simple viene dada por:
239
(𝑛𝑝)𝑥
𝑃(𝑋) = 𝑒 −𝑛𝑝 ∗
𝑥!
Si 𝜆 = 𝑛𝑝 = 𝑚 = μ entonces
(𝑚)𝑥
𝑃(𝑋) = 𝑒 −𝑚 ∗
𝑥!
Gráfica V.7
Gráficas de la función de probabilidad de Poisson
𝝀=𝟏 𝝀=𝟐 𝝀=𝟒
Ejemplo:
240
el resultado de 0.3232 de que no pueda armar el aparato, porque tiene más de 2 tuercas
defectuosas. Por otra parte, ¿ Cuál es la probabilidad de que si pueda armar el aparato? Es 0.6767.
𝑝 = 0.01
𝑚 = 𝑛𝑝 = 200(0.01) = 2 = µ
𝑛 = número total de tuercas = 200
(𝑚)𝑥
𝑃(𝑋) = 𝑒 −𝑚 ∗
𝑋!
1
𝑒 −2 = = 0.13534
(2.71828)2
Por lo tanto 𝑒 −𝑚 = 0.13534
Tabla V.14
Algoritmo para determinar la probabilidad de que el comprador tenga suficientes tuercas para
armar el aparato
𝑋 𝑃(𝑋)
0 (2)0 0.1353
𝑃(0) = 0.13534 ∗ = 0.1353
0!
1 (2)1 0.2707
𝑃(1) = 0.13534 ∗ = 0.2707
1!
2 (2)2 0.2767
𝑃(2) = 0.13534 ∗ = 0.2767
2!
0.6767
Fuente: Investigación directa con datos hipotéticos.
Luego si 𝑃(𝑥 > 2) = 1.000 − 0.6767. Entonces 𝑃(𝑥 > 2) = 0.3232; este resultado se obtiene
rápidamente usando el Apéndice L de las Tablas Estadísticas.
Tabla V.15
Principales propiedades de la distribución poisson y estadísticos básicos
Función de probabilidad Parámetro
−𝜆 𝑥
𝑒 𝜆
𝑝(𝑥; 𝜆) = 𝜆>0
𝑥!
𝑥 = 0,1,2, …
Media Varianza Coeficiente de sesgo Curtosis relativa
1 1
𝜆 𝜆 3+
√𝜆 √𝜆
Fuente: Canavos (1988: 107).
241
V.1.3.1 Generación de la distribución de Poisson con Excel (Ciro Martínez: 2005:93)
PASOS:
Cuadro V.6
Argumentos de función de POISSON.DIST CON acumulado FALSO
242
V.2 Distribuciones continuas
“La distribución normal o también llamada Gaussiana9, es una variable continua y de acuerdo con
Canavos es indudablemente la más importante y la de mayor uso de todas las distribuciones
continuas de probabilidad. Es la piedra angular en la aplicación de la inferencia estadística en el
análisis de datos, puesto que las distribuciones de muchas estadísticas muestrales tienden hacia la
distribución normal conforme crece el tamaño de la muestra.” (Canavos; 1988:130)
Un gran número de estudios indica que la distribución normal proporciona una adecuada
representación, por lo menos en una primera aproximación, de las distribuciones de una gran
cantidad de variables físicas. Sin embargo debe tenerse cuidado al suponer para una situación dada
un modelo de probabilidad normal sin previa comprobación, ya que suponer de manera errónea una
distribución normal puede llevar a errores muy serios. Es posible que una distribución normal
proporcione de manera razonable una buena aproximación alrededor de una media de una variable
aleatoria; sin embargo, puede resultar no muy conveniente para valores extremos que se encuentren
en cualquier dirección. (Canavos; 1988:131)
Tabla V.16
Propiedades básicas de la distribución normal
Función de densidad de probabilidad Parámetros
1 1 𝑥−𝜇 2
𝑓(𝑥; 𝜇, 𝜎) = 𝑒𝑥𝑝 [− ( ) ], 𝜇, −∞<𝜇 <∞
√2𝜋 𝜎 2 𝜎
𝜎, 𝜎>0
−∞ < 𝑥 < ∞
Desviación Recorrido Recorrido Coeficiente Curtosis
Media Varianza
media intercuartil interdecil de asimetría relativa
µ 𝜎2 0.7979𝜎 1.35𝜎 2.56𝜎 0 3
Fuente: Canavos (1988: 139).
1. En forma descriptiva se dice, como se observa en la Gráfica V.8 ( Shao, 1967: 308) esta
distribución es continua, tomando la forma de una campana; es simétrica respecto a su
media y es asíntota al eje de las 𝑥: toca al eje de las X´s en ± infinito, o sea que nunca
atraviesa el eje de las 𝑥.
2. El área bajo la curva normal representa al espacio muestral. Su función de densidad está
dada por:
9
También se le conoce como distribución Gaussiana porque Gauss la citó en un artículo que publicó en 1809.
Durante el siglo XIX se empleó de manera extensa por científicos que habían notado que los errores, al llevar
a cabo mediciones físicas, frecuentemente seguían un patrón que sugería la distribución normal. (Canavos;
1988:130)
243
3. En la vida real hay distribuciones de datos con medias iguales y desviaciones estándar
diferentes o con medias diferentes y desviaciones estándar iguales.
4. Para uniformarlas o reducirlas a un patrón único (Hayashi et al, 1974), se hace un cambio
𝑥−𝜇
de variable, que se designa con 𝑍 = 𝜎
y se le llama variable normal estándar, misma que
al ser una desviación de los términos 𝑥 con respecto a su media en forma estandarizada
otros autores la llaman desviación normal estandarizada, la cual tiene una media igual a
cero (𝜇 = 0) y una desviación estándar de uno (𝜎 = 1).
Su promedio es:
𝑥−𝜇
∑
𝑍̅ = 𝜎
𝑁
Como 𝜎 es una constante es posible sacarla de la sumatoria
𝜎 ∑(𝑥 − 𝜇)
𝑍̅ =
𝑁
Puesto que, la suma de la diferencia 𝑥 − 𝜇 = 0, luego
1[0]
𝑍= 𝜎
̅
𝑁
Así se obtiene:
0
𝑍̅ = =0
𝑁
Lo que queda demostrado.
𝑥−𝜇 2 𝑥−𝜇 2
̅
√∑ ( 𝜎 − 𝑍) √∑ ( 𝜎 − 0)
𝜎𝑍 = =
𝑁 𝑁
𝑥−𝜇 2 (𝑥−𝜇)2 1
∑( ) ∑ ∑ 2(𝑥−𝜇)2
𝜎𝑍 = √ 𝜎
=√ 𝜎2
=√ 𝜎
𝑁 𝑁 𝑁
Al contar con la variable 𝑍, que expresas los valores originales expresados en términos de su
desviación estándar, ahora es posible utilizar los valores de 𝑍 que están en el Apéndice A para
analizar e interpretar cualquier fenómeno económico en términos de sus valores estandarizados.
Esta situación aumenta la capacidad de estudio o caracterización de los fenómenos económicos al
poder ahora el investigador calcular valores esperados, determinar límites de confianza dentro de
los cuales pueda ocurrir un cierto valor, hacer estimaciones e inclusive probar ciertas hipótesis de
interés para el investigador, como se muestra a continuación sabiendo que la normal es una
distribución teórica como la binomial, Poisson e hipergeométrica, pero con datos continuos ayuda a
hacer más análisis económico. Su figura o forma ( Shao, 1975) como se puede observar en la
gráfica V.8 la media aritmética divide a la distribución en dos partes iguales, por consiguiente todo
valor menor o igual que la media tendrá una probabilibad de 0.5 y a la vez, todo valor superior o
igual a la media tendrá el mismo valor de 0.5. También se puede observar que si se suma y resta una
desviación estándar respecto de la media aritmética, el área representa aproximadamente el 68 %%
del total de la curva. Si se toman dos desviaciones estándar a la izquierda y a la derecha respecto de
la media, el área de la curva será de aproximadamente 95% y por último si se toman tres
desviaciones estándar más menos respecto de la media aritmética, el áreas será aproximadamente
de un 99 %.. Estos valores fáciles de memorizar son muy útiles para la economía y los negocios ya
que sin necesidad de utilizar el cálculo integral ni las tablas de áreas de la curva normal, es posible
obtener diversos cálculos complementarios que se desprenden de los indicadores citados; por
ejemplo si se desea conocer cuál es el área que existe a una distancia de una desviación estándar
respecto de la media, mentalmente se puede señalar por dicha simetría que es del 34% tanto aa la
izquierda como a la derecha de la media aritmética; los mismos cálculos se pueden hacer con los
indicadores anteriores dividiendo por dos.
Gráfica V.8
Distribución del área de la normal.
245
Lo antes dicho con mayor precisión en las abscisas indica áreas bajo la curva; cuyos segmentos de
mayor uso en economía son:
1. El 68.27% de todos los valores se encuentran dentro de una desviación estándar (𝜎) de 𝜇,
simétricamente.
2. El 95.45% de todos los valores se encuentran dentro de dos desviación estándar (2𝜎) de 𝜇,
simétricamente.
3. El 99.73% de todos los valores se encuentran dentro de tres desviación estándar (3𝜎) de 𝜇,
simétricamente.
Para la construcción de la curva normal se requiere contar con el tamaño de la población, la media
aritmética y la desviación estándar, así como hacer la transformación de los datos originales a
valores estandarizados (Z), donde la media aritmética es igual a cero y la desviación estándar igual
a 1.
𝑋−𝜇
𝑍=
𝜎
Y utilizar la siguiente fórmula para la obtención de los valores de la ordenada Yx con la siguiente
fórmula
𝑁
𝑌𝑥 = ∗ 𝑓(𝑍)
𝜎
La cual proporciona para cada valor de X su correspondiente valor de Y.f(Z) Esta fórmula sirve
para construir la distribución normal para una población finita. Se puede ver que en el caso teórico
N=1 y la desviación estándar estandarizada también igual a la unidad, con lo cual la f(Z)
proporciona la distribución normal teórica. Esto se observará en el siguiente ejemplo
Por lo regular se pueden utilizar las tablas de valores de que presentan las ordenadas de la curva
normal.
¿Pero cómo se obtiene la curva normal? ¿Cómo se gráfica? ¿De dónde provienen los valores
estandarizados de Z?
¿Cómo se construye la curva normal? Shao (1975) da la respuesta clara, para ello: Supóngase que
una empresa que tiene 15000 trabajadores su salario promedio diario es de $900.00 pesos con una
desviación estándar de $150.00 pesos. Así, si sigue una distribución normal con esos datos
enseguida se construye la distribución normal con las fórmulas siguientes:
𝑋−𝜇
𝑍= 𝜎
y
246
𝑁
𝑌𝑥 = ∗ 𝑓(𝑍)
𝜎
1
Sustituyendo los valores originales con 𝜎 hasta ± 3𝜎, los valores de X por encima de la media
2
aritmética se presentan en la primera columna de la Tabla V.17 con las correspondientes
transformaciones a valores Z, columna 3, y sus correspondientes ordenadas para cada valor de f(Z)
en la columna 4 y con esos valores de las ordenadas para una población finita, columna 5. Los
valores menores que la media que son 825, 750, ……450 se calculan estos valores por simetría
igual que en la columna 3. Dichos valores se ven reflejados en la Gráfica V.9, tanto los teóricos
como los ajustados al ejemplo.
Tabla V.17
Obtención de los valores de 𝑍 a partir de los valores de 𝑋
Inicio de la Ordenadas para
Valores Obtención Determinación de las
conversión a cada valor de Z en
originales de ordenadas para esta
unidades Z 𝑋−𝜇 una población
(𝑋) población finita (𝑌𝑥)
(𝑋 − 𝜇) 𝑍= infinita 𝑓(𝑍)
𝜎
900 0 0.00 0.3989 39.890
975 75 0.50 0.3521 35.200
1050 150 1.00 0.2420 24.190
1125 225 1.50 0.1295 12.950
1200 300 2.00 0.0540 5.400
1275 375 2.50 0.1750 1.750
1350 450 3.00 0.0044 0.440
Fuente: Investigación directa con datos hipotéticos para una población finita .
Tabulaciones:
𝑁
𝑌𝑥 =∗ 𝑓(𝑍)
𝜎
15000
𝑌𝑥 = ∗ 𝑓(𝑍)
150
𝑌𝑥 = 100 ∗ 𝑓(𝑍)
𝑋−𝜇
𝑍=
𝜎
Que ya está en la columna tres de arriba.
247
Por ejemplo si 𝑍 = 0 , se busca en la primera columna del apéndice A, una vez encontrado se pasa a
buscar 𝑓(𝑍), que estará en la columna tres de las tablas estadísticas del apéndice A y la columna
cuatro de arriba. Así, la gráfica correspondiente es:
Gráfica V.9
Curva normal de los salarios de 15,000 obreros
Un caso puede ser determinar cuántas familias gastan entre 820 y 780 pesos semanalmente. Se
recomienda seguir los pasos siguientes:
1. Ubicar en la gráfica de la normal los valores de 780 y 820. En este caso se observa que
la media de la distribución se halla entre los límites superior e inferior del intervalo,
esto requiere realizar dos cálculos, uno para cada límite, debido a que las tablas del
Apéndice A solo presenta las áreas de la curva normal hacia la derecha de la media.
2. Calcular cada uno de los valores de Z, por ejemplo el valor de Z2 = 0.5, este valor en
las tablas indica un área de 0.1915; el valor de Z1 es 0.5, es el mismo valor pero signo
negativo, que no se localiza en el Apéndice A pero que por la asimetría correspondiente
se determina que su área es igual indicando el signo negativo sólo que se halla a la
izquierda de la media aritmética. La suma de dichas áreas, por consiguiente,
248
corresponde al área del intervalo correspondiente, que es 0.3830, que al multiplicarlo
por el tamaño del total de familias ( 5000) proporciona el número de ellas que gastan
entre 780 y 820 pesos a la semana, es decir, 1915 familias.
Tabla V.18
Obtención de los valores de 𝑍 a partir de los de 𝑋
Inicio de la Obtención
Valores Ordenadas para cada Determinación de las
conversión a de
originales 𝑋−𝜇 valor de Z en una ordenadas para esta
unidades Z
(𝑋) 𝑍= población infinita 𝑓(𝑍) población finita (𝑌𝑥)
(𝑋 − 𝜇) 𝜎
800 0 0.00 0.3989 49.860
820 20 0.50 0.3521 44.000
840 40 1.00 0.2420 30.240
860 60 1.50 0.1295 16.190
880 80 2.00 0.0540 6.740
900 100 2.50 0.0175 2.190
920 120 3.00 0.0044 0.550
Fuente: Investigación directa con datos hipotéticos.
𝑁 5000
𝑌𝑥 = ∗ 𝑓(𝑍) = ∗ 𝑓(𝑍) = 125 ∗ 𝑓(𝑍)
𝜎 40
Gráficamente se ve así:
Gráfica V.10
Curva normal de 5,000 pilas para tomar fotografías
a) Determinación de 𝑍1 y 𝑍2 con
𝑋−𝜇
𝑍=
𝜎
780−800
𝑍1 = 40
= −0.5 Unidades de desviación estándar, cuya área es 0.1915.
249
820−800
𝑍2 = 40
= 0.5 Unidades de desviación estándar, cuya área es 0.1915.
Luego entonces,
Gráfica V.11
Área bajo la curva de 𝑍1 y 𝑍2
Ahora bien si se desea determinar la probabilidad de que una familia gaste 750 pesos o más a la
semana, se sigue el mismo procedimiento anterior sumando el área que corresponde a la media
aritmética y su extremo derecho que representa el 50% de la distribución y se le suma el cálculo
correspondiente a la probabilidad de 750 pesos a la media aritmética, que es igual a una
probabilidad de 0.39435, que en términos porcentuales es 39.435%. Estos cálculos se muestran a
continuación;
𝑋−𝜇 750−800
𝑍= 𝜎
= 40
= −1.25 Unidades de desviación estándar.
250
Gráfica V.12
Probabilidad de seleccionar una familia que gaste más de 750 pesos a la semana.
Problema I
En una ciudad se ha determinado que el número de robos que se realizan sigue una distribución
normal. Si se reportaron 200 robos, ¿Cuál es la probabilidad de que no se recuperen los bienes
robados en más de 150 de los delitos?
Gráficamente se ve así:
Gráfica V.13
Probabilidad de que no se recuperen los bienes robados de más de 150 de los delitos
251
Problema II
Suponga que 𝑥 tiene una distribución probabilística binomial, con 𝑛 = 50 y 𝑝 = 0.25 calcule:
Gráfica V.14
Probabilidad de seleccionar 10 ≥ 𝑥 ≥ 17
La SHCP en 2013 al hacer la devolución de impuestos federales, detectó que se cometió un error en
el 10% de las devoluciones. Suponga que en 2014 se mantiene en ese porcentaje y se elaboraron 60
devoluciones de impuestos, Cuál es la probabilidad de que cometa más de 7 errores (𝑥 > 7)?
Si
𝜇 = 𝑛𝑝 = 60(0.10) = 6
𝜎 2 = 𝑛𝑝𝑞 = 60(0.9)(0.1) = 5.4
𝜎 = √5.4 = 2.32
7−6 1
Luego 𝑍 = = = 0.43 cuya área es 0.1664, por consiguiente:
2.32 2.32
Gráficamente:
252
Gráfica V.15
Probabilidad de que SHCP cometa más de 7 errores.
Pasos:
253
Cuadro V.7
Argumentos de función NORMALIZACION
Gráfica V.16
Resultado gráfico del ejercicio a)
B. Si el objetivo de dicho cálculo es obtener el área bajo la curva normal con una media
de cero y una desviación estándar de uno con los siguientes criterios se realiza lo
siguiente:
Pasos
Gráfica V.17
Resultado gráfico del ejercicio b)
255
Cuadro V.9
Argumentos de la función DIST.NORM.ESTAND.N con acumulado VERDADERO
Gráfica V.18
Resultado gráfico del ejercicio c)
Cuadro V.11
Argumentos de función de DISTR.NORM.N con acumulado VERDADERO
Pasos:
257
2. En el nuevo cuadro de diálogo: Argumentos de función, se coloca el cursor en
Probabilidad/clic y se digita el valor de 0.851268. En el argumento Media/clic se escribe
62.3 y en el argumento Desv_estándar/clic se digita 2.4. En la parte inferior de cuadro
Argumentos de función el resultado de la fórmula arroja un valor de 𝑋 = 64.8, obteniendo
el valor de 𝑋 con el cual se realizó el ejercicio pasado. Para finalizar se busca Aceptar/clic y
el resultado queda plasmado en la celda A4.
Cuadro V.12
Argumentos de la función INV.NORM
Pasos
258
Cuadro V.13
Argumentos de la función de INV.NORM.ESTAND
Así, de acuerdo con Ya-Lun Chou (1977; 276), el concepto de grados de libertad es un concepto
matemático dado al número de observaciones linealmente independientes que ocurren en una suma
de cuadrados.
Para entender mejor lo anterior, piénsese que cuando se calcula la varianza de la muestra en
términos de desviaciones medidas partiendo de la media de la muestra , 𝑥̅ , se obtiene la suma de 𝑛
desviaciones al cuadrado ∑𝑖(𝑥𝑖 − 𝑥̅ )2 , que debe obedecer la relación secundaria o restricción
∑𝑖 𝑥𝑖 = 𝑛𝑥̅ . Esto implica que si se tiene la base 𝑥̅ , y cualesquiera desviaciones 𝑛 − 1 de ella, la
desviación n-enésima es determinada automáticamente. Es linealmente dependiente de otras y, por
lo tanto, no es “libre” para variar. Si las desviaciones hubieran tomado una 𝜇 conocida la n-ésima
desviación seguirá siendo linealmente independiente de las otras 𝑛 − 1 observaciones. En
consecuencia, una muestra de 𝑛 desviaciones al cuadrado tomada alrededor de 𝑥̅ proporciona menos
información útil que el mismo número de desviaciones a partir de 𝜇. (Chou; 1977; 276). Comenta
Richmond (1964; 185) que se usan en muestreo para mejorar la estimación de un parámetro
desconocido (𝜎 2 ) con un valor muestral (𝑆 2 ), decreciendo su denominador en lugar de 𝑛; la
estadística resultante 𝑆̂ 2 es un estimador insesgado de 𝜎 2 .
El número de grados de libertad, el cual es representado con la letra griega 𝛿, puede considerarse
como uno los elementos que pueden escogerse libremente; o como el número de variables que
pueden variar libremente. Aquí la independencia es funcional, no estadística. Dado el tamaño de la
muestra, el número de grados de libertad es 𝛿 = 𝑛 − 𝑘, donde 𝑘 es el número de restricciones para
los cálculos de una estadística 𝜃 que abarca la suma de cuadrados, y las restricciones pueden ser,
por ejemplo el número de estimadores requeridos para calcular la 𝜃 en cuestión. (Chou; 1977; 276).
259
V.2.1.2. Distribución 𝒕 de Student
𝑋0
𝑡𝛿 =
√1 (𝑋12 + 𝑋22 + ⋯ 𝑋𝛿2 )
𝛿
Se dice que tiene una distribución 𝑡 de Student, o simplemente 𝑡, con 𝛿 grados de libertad.
Adviértase que la variable 𝑡 es una razón de la variable normal estándar a la raíz cuadrada de una
variable Ji-cuadrada dividida por su número de grados de libertad. Es decir, que la ecuación anterior
(donde su numerador y denominador son independientes) es equivalente a:
𝑧
𝑡𝛿 =
2
√𝑥
𝛿
Hay una distribución 𝑡 correspondiente a cada entero positivo. La función de densidad para 𝑡𝛿 es:
𝛿+1 −
𝛿+1
1 Γ( ) 𝑡2 2
𝑓(𝑡) = ( )[ 2 ] (1 + ) , −∞ ≤ 𝑡 ≤ ∞
√𝛿𝜋 𝛿 𝛿
Γ (2)
3. Una distribución 𝑡 es similar a la distribución de una normal estándar porque ambas varían
en valor de −∞ a ∞, ambas son simétricas y ambas tienden a media cero; sin embargo,
una distribución 𝑡 tiene mayor dispersión que la distribución normal estándar.
𝛿
4. Esta propiedad puede verse fácilmente en la desviación estándar de 𝑡𝛿 , que es √(𝛿) − 2.
Esta cantidad es siempre 𝛿. En la práctica, se puede tratar a 𝑡𝛿 como 𝑛 (0,1) cuando
260
𝛿 > 30. A medida que se aumentan los grados de libertad de 𝑡 (Tal como se muestra en las
siguientes gráficas), la curva de densidad de 𝑡(𝛿) se parece más a la curva de densidad de
una normal estandarizada 𝑁(0,1). Este es así porque, a medida que aumenta el tamaño de la
muestra, la estimación de 𝜎 a partir de 𝑠 se va haciendo más preciso. Por tanto, la 𝑠 en lugar
de 𝜎 causa poca variación adicional cuando la muestra es grande. Para formular inferencias
con respecto a 𝜇 cuando el muestreo se lleva a cabo sobre una distribución normal con
𝑆
media y varianza desconocidas, se necesita determinar la distribución de (𝑋̅ − 𝜇)/( ).
√𝑛
𝜎
Cuando se muestrea una distribución 𝑁(𝜇, 𝜎) se sabe que la distribución de (𝑋̅ − 𝜇)/( 𝑛)
√
es 𝑁(0,1). Para la misma condición, se sabe que, la distribución de (𝑛 − 1)𝑆 2 /𝜎 2 es una
Ji-cuadrada con 𝑛 − 1 grados de libertad. K
Gráfica V.19
Distribución 𝑡 de student (azul) transpuesta con una distribución normal (rojo)
La distribución de probabilidad (𝝌𝟐 )2 conocida también como Ji cuadrada fue descrita por Karl
Pearson a principios del siglo XX. Es una variable aleatoria y estadístico de contraste que tiene
principalmente tres aplicaciones: pruebas de bondad de ajuste, pruebas de tablas de contingencia y
pruebas de varianza. Se puede considerar como dice Chao ( 1975: 235) de amplia utilidad como la
distribución normal. Es una distribución continua, es asimétrica positiva y tiende a la simetría a
medida que aumentan sus grados de libertad como se aprecia en la siguiente gráfica
Es una distribución continua, es asimétrica positiva y tiende a la simetría a medida que aumentan
sus grados de libertad como se aprecia en la siguiente gráfica
261
Gráfica V.20
Distribuciones ji cuadrada con 1, 5 y 10 grados de libertad
𝑣
( )−1 −𝑥 2 /2
𝑓(𝑥 2 ) = 𝑘(𝑥 2 )2 𝑒 para 𝑥 2 > 0
Donde e = 2.71828
v = el número de grados de libertad
k = constante que solo depende de v
𝐸(𝜒𝛿2 ) = 𝜇 = 𝛿
𝑉(𝜒𝛿2 ) = 𝜎 2 = 2𝛿
262
Gráfica V.21
Distribución gráfica de Ji-cuadrada
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Grados de Libertad
gl=2 gl=4 gl=8 gl=16 gl=32
V.2.1.4. Distribución 𝑭
Características de la distribución 𝐹:
𝛿22 (𝛿1 + 𝛿2 − 2)
𝑉𝐴𝑅(𝐹) = , 𝑝𝑎𝑟𝑎 𝛿2 > 4;
𝛿1 (𝛿2 − 2)2 (𝛿2 − 4)
Estas ecuaciones implican que una variable 𝐹 no tiene media cuando 𝛿2 ≤ 2 y que no posee
varianza cuando 𝛿2 ≤ 4.
4. Como la distribución Ji-cuadrada, una distribución 𝐹 es positivamente asimétrica, Su
asimetría se reduce con los aumentos de 𝛿1 y 𝛿2 . (Chou; 1977; 279).
5. Para el mismo valor de probabilidad, tal como 5%, el valor critico de 𝐹 para el área más
baja es el reciproco de 𝐹 para el área superior con 𝛿1 y 𝛿2 intercambiados.
263
Gráfica V.22
Distribuciones de 𝐹 para diferentes grados de libertad
Ejercicio Nº 1.
Nombre _______________________________________________________
No de Cta.______________________ Grupo____________
Problema 1
264
Problema 2
La calificación de 200 estudiantes del curso de Estadística está normalmente distribuida con media
igual a 7 y desviación estándar de 0.2, en una escala de 0 a 10. Con esos datos.
Tabla V.19.
Obtención de la media y la desviación estándar del Problema 1
(𝑋 − 𝜇) ∗
𝑋 𝑃(𝑋) 𝑋𝑃(𝑋) 𝑋−𝜇 (𝑋 − 𝜇)2 (𝑋 − 𝜇)2 ∗ 𝑃(𝑋)
𝑃(𝑋)*
0 0.1296 0.0000 -1.6 2.56 0.3318 -0.2074
1 0.3456 0.3456 -0.6 0.36 0.1244 -0.2074
2 0.3456 0.6912 0.4 0.16 0.0553 0.1382
3 0.1536 0.4608 1.4 1.96 0.3011 0.2150
4 0.0256 0.1024 2.4 5.76 0.1475 0.0614
𝜇= 1.6000 0.96 0.0000
Fuente: Investigación directa con datos hipotéticos.
*Primera propiedad de 𝜇.
265
𝜇 = ∑ 𝑋𝑃(𝑋) = 1.5998 = 𝑛𝑝 = 4(0.4) = 1.6 = 𝐸(𝑋)
0.20
0.1536
0.15 0.1296
0.10
0.05 0.0256
0.00
0 1 2 3 4
X
Tabla V.20
Transformando a 𝑋 en 𝑍 del Problema 1
𝑋 𝑋−𝜇 𝑋𝑖 − 𝜇
𝑍=
𝜎
0 -1.6 -1.67
1 -0.6 -0.63
2 0.4 0.41
3 1.4 1.45
4 2.4 2.50
Fuente: Investigación directa con datos hipotéticos.
6) 𝑃(𝑥 = 0) = 0.1296
7) 𝑃(𝑥 ≥ 2) = 0.3456 + 0.1536 + 0.0256 = 0.5246
8) 𝑃(𝑥 = 4) = 0.0256
9) 𝑃(𝑥 = 1) = 0.3456
10) 𝐸(𝑋) = 𝜇 = 1.6
Problema 2 (Solución)
266
1) Construya la curva normal
Tabla V.21
Transformando a 𝑋 en 𝑍 del Problema 2
𝑋 𝑋−𝜇 𝑋𝑖 − 𝜇 Ordenada de 𝑓(𝑍) Ordenada población finita
𝑍= 𝑁
𝜎 Población infinita 𝑌𝑍 = 𝜎 𝑓(𝑍)
7 0 0 0.398 398
7.2 0.2 1 0.241 241
7.4 0.4 2 0.054 54
7.6 0.6 3 0.0004 4
Fuente: Investigación directa con datos hipotéticos de una población finita.
Gráfica V.24
Distribución de 𝑋 y 𝑍 junto con sus literales del Problema 2
6.5−7 −0.5
𝑍1 = 0.2
= 0.2
= −2.5; Su área es de 0.494.
7.5−7 0.5
𝑍2 = 0.2
= 0.2 = 2.5; Su área es de 0.494.
267
Gráfica V.25
Probabilidad de que los estudiantes obtengan entre 6.5 y 7.5 de calificación
Gráficamente:
Gráfica V.26
Probabilidad de que los estudiantes obtengan más de 7.5 de calificación
6.2−7 −0.8
𝑍1 = 0.2
= 0.2
= −4; Su área es de 0.4990.
6.4−7 −0.6
𝑍2 = 0.2
= 0.2
= −3; Su área es de 0.4887.
Gráficamente:
268
Gráfica V.27
Probabilidad de que los estudiantes obtengan entre 6.4 y 6.2 de calificación
7.8−7 0.8
𝑍2 = = = 4; Su área es de 0.4990.
0.2 0.2
Gráfica V.28
Probabilidad de que los estudiantes obtengan entre 6.2 y 7.8 de calificación
1. En una fábrica el 50% de los trabajadores son casados, con una muestra de tres empleados,
¿cuál es la probabilidad de que:
269
a) Los tres son casados
b) Uno de ellos sea casado
c) Ninguno sea casado
3. El 3% de los tornillos que produce una máquina son defectuosos, ¿cuál es la probabilidad
que de 100 tornillos escogidos al azar cuando mucho haya dos defectuosos?
4. Se ha comprobado que el 2% de una caja que contiene 200 pilas, son defectuosas ¿cuál es la
probabilidad que exactamente 3 de ellas sean defectuosas?
5. La media de los diámetros interiores de una muestra de 200 rondanas, producidas por una
máquina es de 0.502 pulgadas y su desviación estándar de 0.008 pulgadas, el propósito
para que se destinan estas rondanas permite una tolerancia máxima en el diámetro de 0.496
a 0.508 pulgadas. De otra manera las rondanas se consideran defectuosas.
a) Si los diámetros se distribuyen normalmente construye la gráfica representativa con
intervalos de 1/2 de desviación estándar hasta tres desviaciones estándar.
b) Determinar el tanto por ciento de rondanas defectuosas producidas por la máquina.
c) ¿Cuál es la probabilidad de que al seleccionar una rondana, su diámetro sea
mayor que 0.510 pulgadas?
6. El tiempo de duración de 5,000 pilas secas para focos fotográficos producidos por una
compañía esta normalmente distribuidos con media igual a 800 minutos y desviación
estándar igual a 40 minutos.
a) Construya gráficamente la curva normal correspondiente con intervalos de 1⁄2 de
desviación estándar hasta tres desviaciones estándar.
b) ¿Cuántas pilas duran entre 780 y 820 minutos?
c) ¿Cuál es la probabilidad de que al seleccionar una pila esta dure cuando menos 750
minutos?
270
CAPÍTULO VI. CONCEPTOS BASICOS DE MUESTREO Y DISTRIBUCIONES EN EL
MUESTREO
Importancia: Una vez que se define, se explica y se ilustra el concepto de probabilidad, el cual
constituye el eje rector para hacer análisis económico ampliado a partir de la estadística descriptiva
que es el sustento de la estadística inferencial, se dice que con ella se sientan las bases para
introducirse y profundizar usando ahora los métodos de la inferencia estadística (que se basa en el
análisis de una muestra para inferir las características de la población de la que proviene). Lo
anterior es muy valioso porque a partir de la naturaleza y número de resultados posibles que se
generan en un experimento, es posible constituir el marco muestral de los mismos, con el que se
puede calcular la probabilidad de ocurrencia de cada uno de ellos, al igual que la probabilidad de
ocurrencia de un número determinado de ellos. También al contar con el marco muestral es posible
decidir cómo agruparlos, (con las fórmulas de las permutaciones y de las combinaciones) sobre todo
cuando son muchos y ya no es fácilmente visible el marco muestral. Este agrupamiento constituye
la base para que el investigador diseñe el método de muestreo (selección de la muestra) que le
permita captar datos que cumplan con los objetivos de su estudio. En este contexto, es que también
al saber cómo se pueden relacionar o agrupar a partir del análisis combinatorio: con sus fórmulas, se
pueden crear distribuciones probabilísticas discretas y continuas, cuya tipificación estadística
fundamenta el rigor técnico con que se puede usar la inferencia estadística, así como para visualizar
en que variables económicas son susceptibles de aplicar cada una de las propiedades de ellas
(binomial, poisson, normal, etc). El entendimiento de los conceptos anteriores ahora permite
introducirse en el muestreo probabilístico, cuyas muestras se obtendrán de poblaciones finitas e
infinitas. Motivo por el cual es conveniente introducir de manera formal la definición de los
siguientes conceptos:
Por ejemplo: Si hay 600 personas e interesa conocer su peso en kgs., cada persona es una unidad
elemental y por lo tanto la población son las 600 personas.
El tamaño de una población se representa generalmente por 𝑁. Luego, una población en sentido
estadístico es un conjunto de elementos (generalmente definida) que puede conocerse por medio de
un análisis completo y exhaustivo.
271
El ejemplo de las 600 personas previamente descritas ilustra una población FINITA; una población
infinita puede ser por ejemplo el número de moscos que hay en el mundo entero. Cada una de sus
unidades elementales, tiene varias características identificables y numerables; es decir que cada
característica puede representarse por un número.
Su peso;
La dieta a que están sujetos;
Su producción (según su clase: vacas, gallinas, etc.).
Cuadro VI.1
Representación gráfica de una población
Muestra, se le define como una porción de la población estadística que es seleccionada para
estudiarla y de ella inducir (Inferir) las características que puede tener la población. Gráficamente
así se ve:
Cuadro VI.2
Representación de población y muestra
El tipo de muestra y representatividad de sus datos de los del universo que se obtiene con ella
depende de la forma en que haya sido extraída la muestra de la población. Así se habla de
procedimientos empíricos “dirigidos” (también conocidos como piloto) o de métodos de selección
probabilística como el muestreo simple aleatorio, de muestreo sistemático, de muestreo
estratificado, por conglomerados, etcétera.
272
Dentro de los primeros se habla de una muestra no aleatoria, que es la parte de la población que el
investigador selecciona a juicio para estudiar a partir de ella a la población.
Cuando se utilizan los segundos métodos se habla de una muestra aleatoria y se dice que tienen en
común el hecho de que se selecciona la muestra al azar, además de que cada elemento de la
población tiene la misma probabilidad de ser incluido en la muestra, que se conoce como muestra
probabilística y tiene características importantes que más adelante se describirán.
El método probabilístico -por el contrario- proporciona una medida de la magnitud del error y de la
confianza con que se pueden tomar los resultados. Generalmente suele ser más costoso y quizás
tome un poco más de tiempo el realizarlo, en especial cuando hay problemas de información sobre
el número de unidades que integran el universo y algunas otras características que no permiten el
cálculo rápido del tamaño de la muestra.
Es recomendable, idealmente, usar siempre el método probabilístico para dotar a los datos
muestrales de seguridad matemática, es decir, del conocimiento cuantitativo de la diferencia entre el
valor obtenido con su muestra (𝑥̅ ) y el valor real en el universo estadístico (𝜇), aun cuando se
tengan que hacer esfuerzos extraordinarios para conseguir los recursos monetarios necesarios.
En otras palabras, estos términos no son otra cosa más que sinónimos de una selección aleatoria de
la muestra y una selección arbitraria de la misma, respectivamente.
Así, un muestreo probabilístico es aquel cuyo error de muestreo es calculado, condición que existe
solo cuando se usa la selección aleatoria. Al respecto, el error de muestreo es la diferencia entre el
valor real de la variable en el universo, y su valor estimado obtenido con la muestra.
La palabra "aleatoria" se refiere al método de seleccionar una muestra, más bien que a la muestra
particular elegida. Cualquier muestra posible puede ser al azar o aleatoria, por muy poco
representativa que pueda ser de la población, con tal que haya sido obtenida siguiendo la regla de
dar una probabilidad igual a las unidades elementales del universo de ser incluidas en la muestra.
273
Por otra parte, una muestra empírica, arbitraria o a criterio, es aquella cuyo error de muestreo no es
determinado ni asignada ninguna probabilidad de selección a los elementos o unidades que la
componen.
Otra razón por la que se recomienda el uso del muestreo probabilístico, es que por lo regular el
investigador tiene a su disposición muchas muestras con composiciones diferentes, (recuerde las
combinaciones y permutaciones) de manera que según la muestra utilizada puede haber errores o
diferencias entre los valores de los parámetros y de sus estimadores correspondientes. Dichos
errores no se pueden evitar en una selección aleatoria pero si cuantificar a priori cuando se
determina matemáticamente el tamaño de la muestra, es decir, durante la planeación de la
investigación por muestreo se conoce el error de muestreo (que debe ser igual o menor al error
permitido), así como el nivel de confiabilidad de los “estadísticos” muestrales.
La exactitud o confiabilidad de los datos de una muestra, depende de dos tipos básicos de errores:
errores de muestreo, que se reflejan en estimaciones matemáticas de la precisión de los estimadores
provenientes de muestras particulares, y se manifiestan en diferentes formas clasificadas bajo la
notación de sesgos o distorsiones. (Aquí se les llama diferencias entre el valor del parámetro
poblacional y su estimador muestral).
Los errores de muestreo se miden a través de las llamadas fórmulas de error estándar. De acuerdo
con estas fórmulas, se hacen estimaciones de la precisión de estimadores muestrales particulares y
siguiendo el procedimiento apropiado estas mismas fórmulas sirven de base para determinar el
tamaño de la muestra requerida, de acuerdo con una precisión especificada (probabilidad)
previamente. Las fórmulas del error estándar han sido desarrolladas para una gran variedad de
diseños muestrales y en la actualidad es una cuestión rutinaria su aplicación a cada uno de los casos.
La probabilidad de que un parámetro esté contenido dentro de un cierto rango construido alrededor
de los diferentes estimadores muestrales, se obtiene por medio de la teoría de la probabilidad para
distintos diseños muestrales.
Así, con base en esta teoría, el margen de error -o error de muestreo- que se puede esperar con un
diseño de muestreo y tamaño de muestra determinados, se puede calcular a diferentes niveles de
precisión bajo el supuesto de una selección aleatoria, la cual requiere que cada miembro de la
población tenga la misma probabilidad de ser seleccionado para incluirse en la muestra. Luego, una
vez que se conocen el error estándar y la precisión buscada, se puede hacer la planeación de la
investigación o de la encuesta, así como de la determinación de su costo y tiempo que requiere para
hacerse.
274
Contrariamente, el tema de los errores de no muestreo es a la fecha un tema que requiere una vasta
experiencia y la cual es ajena a la disciplina matemática.
Incluidas en el concepto de errores no de muestreo, están las innumerables influencias que tienden
a distorsionar o sesgar los valores de los estimadores provenientes de la muestra: la selección
arbitraria de los miembros de la muestra, fraseo perjudicial en las preguntas, actitudes
preconcebidas por el entrevistador y muchos otros factores que pueden producir valores
muestrales que no representaran a los valores de los parámetros de la población, no importa que tan
grande sea la muestra.
Distintos a los errores de muestreo, éste tipo de sesgo es independiente del tamaño de la muestra.
La aplicación de los métodos de muestreo estadístico tiene por objeto seleccionar algunos
elementos del universo que se trata de estudiar, para poder hacer inferencias sobre sus
características. La selección de las unidades de muestreo se hace a partir de una lista, mapas,
croquis, directorios -o una combinación de estos elementos informativos-, los que deben contener
todas las unidades de interés y permitir determinar la probabilidad de su inclusión; así mismo, que
en el momento de levantar la encuesta, la identificación de cada unidad en la muestra sea hecha sin
ninguna ambigüedad.
De acuerdo a la forma de seleccionar (método de muestreo utilizado) estas unidades se pueden dar
las siguientes maneras de hacerla:
Reemplazo:
Las selecciones sucesivas de una muestra probabilística pueden hacerse con o sin reemplazo de las
unidades obtenidas en las selecciones previas; por ello al primer procedimiento se le llama muestreo
con reemplazo y al segundo sin reemplazo.
En el muestreo con reemplazo, si una unidad fue seleccionada para ser incluida en la muestra, puede
regresarse al universo estadístico y volver a ser seleccionada para ser incluida en la muestra. En el
muestreo sin reemplazo concursa una solo vez.
Etapas de selección:
Las unidades que tengan que investigarse a través del cuestionario, posiblemente convenga
agruparlas y estos grupos a su vez se vuelvan a agrupar y así sucesivamente. Dependiendo del
número de agrupamientos de las unidades de interés -o últimas unidades de muestreo-, es el nombre
que se le da. Si el marco muestral no presentó agrupamientos, el muestreo se llamará monoetápico -
selección directa de las unidades de interés-; Si el marco muestral presenta agrupamientos de un
sólo orden se llamará bietápico, o lo que es lo mismo se seleccionarán primero los grupos de
unidades -de primera etapa- y finalmente se seleccionarán los de interés o de segunda etapa, y así
sucesivamente se tendrá el muestreo trietápico, tetraetápico, etc.
275
Probabilidad:
Si las unidades de muestreo en cada etapa son seleccionadas con la misma probabilidad, el muestreo
se llamará equiprobable; en el caso contrario se dice que es de probabilidades variables de
selección en la o las etapas que correspondan.
Estratos:
Es evidente que mientras más grande sea la muestra, representará más fielmente a la población, tal
que se pueden mejorar las estimaciones aumentando el tamaño de la muestra. En cuanto al segundo
factor para aumentar la precisión, puede dividirse el marco muestral, -Si es que se dispone de los
medios necesarios- en clases homogéneas llamados estratos y seleccionar separadamente en cada
estrato una muestra, garantizando con esta forma cualquier representación deseada de todos los
estratos de la población. La denominación de un método de muestreo se forma indicando estos
conceptos: Etapa, probabilidad y con o sin reemplazo. Al constituir los estratos con elementos
cuyos valores son cercanos entre sí, se garantiza que la variabilidad entre ellos sea reducida y por
consiguiente, que el error de muestreo que se obtiene con este método sea el menor con respecto a
otros métodos de muestreo utilizados; Esto se demuestra en las siguientes secciones.
La selección de las unidades de muestreo debe hacerse basándose en las leyes del azar; esto es,
debe asignarse a cada unidad del marco muestral una probabilidad de inclusión en la muestra. Con
este método la muestra se obtiene en selecciones sucesivas de una unidad, cada una con una
probabilidad asignada de antemano, según sea el modelo de muestreo que se utilice, hasta
completar el número de unidades que deben incluirse en la muestra para cada etapa. Un
procedimiento práctico para seleccionar las unidades, es utilizando una tabla de números aleatorios
como la que aparece en el apéndice 𝑁 de la sección de tablas estadísticas.
Conviene destacar que estas tablas sirven para asegurar que todos los elementos del universo tengan
la misma probabilidad de ser seleccionados aleatoriamente como parte de la muestra que se extraiga
de la población.
Estas tablas están constituidas por arreglos de dígitos ordenados de manera tal que cada uno de
ellos represente a un elemento de la población e indica que dicho elemento tiene la misma
probabilidad que el resto de ser seleccionado aleatoriamente como integrantes de la muestra. Estas
tablas se construyen de diferentes maneras (Ferber et al, 1964):
276
Usando la computadora de manera similar al proceso de la ruleta.
Usando ciertas funciones matemáticas; o
Usando instrumentos mecánicos basados esencialmente en el principio de la ruleta.
El uso de las tablas de números aleatorios puede ilustrarse con el siguiente ejemplo, relativo a la
selección aleatoria de la muestra.
Supóngase que se van a seleccionar 3 escuelas de Medicina Veterinaria y Zootecnia para ser
consideradas como muestra de un estudio de las 18 escuelas de Medicina Veterinaria y Zootecnia
existentes en el país:
Si 𝑛 = 3 y 𝑁 = 18. Se dice que el universo está constituido por dos dígitos; si 𝑁 fuera 4327, se
diría que está constituido por cuatro dígitos; El número de dígitos del universo es el límite máximo
para trabajar dichas tablas. Así, en este ejemplo, se hace la relación o numeración de las escuelas
que integran universo: a cada uno de las 18 Escuelas se le asigna un número de dos dígitos:
01, 02, 03, . . . , 18.
Estos dígitos identifican la escuela en la población que será considerada como elemento de la
muestra.
Si el número par al azar excede el número de unidades posibles de muestreo (𝑁 = 18) como el
número 31, el número es ignorado y se selecciona el siguiente número, 16 -por ejemplo- y al
seguir seleccionando para completar el tamaño de la muestra y ésta vuelve a aparecer, en este caso
también se ignora y se continúa buscando un número distinto a 16 y no mayor que 18.
De esta manera se obtienen las tres escuelas que formarán la muestra. Ésta no es la única manera
para seleccionar pares de dígitos en la tabla de manera horizontal, diagonal, en zig-zag, etc. Lo
importante es que el procedimiento sea consistente.
El segundo medio de selección probabilística, el sistemático, es en esencia una simple variante del
procedimiento anterior. Implica la selección de las unidades de la muestra de manera sistemática
empezando con uno de los dígitos, dicho en otras palabras, la selección de cada uno de los
elementos de la muestra es a intervalos regulares, una vez que fue escogida la primera de 𝑛
unidades que constituirán la muestra.
𝑁
Esto es, si hay 𝑁 unidades muestrales en la población, y se desean 𝑛 para la muestra, cada 𝑛
unidad
es seleccionada, empezando con un número aleatorio. Así usando el ejemplo anterior cada sexta
𝑁 18
unidad será seleccionada: ( 𝑛 ) = 6
= 6 empezando con un número aleatorio entre 1 y 6 inclusive.
Este número aleatorio se puede obtener también de la tabla de números aleatorios.
277
Métodos de muestreo
Los métodos de muestreo tienen por objeto indicar la forma como se seleccionará el número de
unidades que deben incluirse en la muestra. Dependiendo de la forma en que estas se seleccionan,
de la confianza estadísticamente hablando que se requiera al hacer las inferencias de los resultados
muestrales como estimadores de los valores poblacionales y del error de muestreo que se determine
en relación al error permitido, es como se denomina el método de muestreo a utilizar en la
realización del estudio.
Recordando que por muestreo probabilista se entiende un método de muestreo en el que cada
miembro de la población tiene una probabilidad conocida de ser incluida en la muestra, se dice que
cuando todos los miembros de la población tienen la misma probabilidad de ser seleccionados se
denomina muestreo simple aleatorio.
Ejemplo: Si una caja contiene seis pedacitos de papel numerados del 1 al 6; si se desea elegir una
muestra de la caja de tamaño 3, sin reemplazo, el muestreo simple aleatorio indica que la
1
probabilidad de cada uno de los 6 papelitos es 6. Al extraer el segundo, la probabilidad de cada uno
1
es 5 y así sucesivamente. En este caso cada número dentro de la caja tiene la misma probabilidad de
ser seleccionado.
Por ejemplo: Si de entre 120 estudiantes se seleccionan 10 al azar y todos tienen la misma
10
probabilidad de ser elegidos, cada uno de los 120 estudiantes, tiene una probabilidad de de ser
120
incluido en la muestra.
Ahora ¿cuál es la probabilidad de seleccionar una muestra de tamaño 𝑛 a partir de una población de
tamaño 𝑁 en un muestreo sin remplazo?
Suponiendo de 𝑁 = 6 y 𝑛 = 3:
𝑁 6 6! 6!
( ) = ( ) = 3!(6−3)! = 3!∗3! = 20 Muestras posibles
𝑛 3
Respuesta: Cuando se adopta el muestreo aleatorio simple cada muestra tiene igual probabilidad de
1
ser seleccionada y es de 20.
278
En general, se dice que cuando se selecciona una muestra de tamaño 𝑛, a partir de una población de
tamaño 𝑁 por muestreo simple aleatorio la probabilidad de que se seleccione una cualquiera de las
𝑁 1
( ) muestras posibles será: 𝑁 .
𝑛 ( )
𝑛
Lo anterior se refiere a los casos en que el muestreo se realizó sin reemplazo. Lo mismo sucede
cuando se realiza con reemplazo, aunque en la práctica se utiliza generalmente el muestreo sin
reemplazo.
Por ejemplo: Investigando tiendas al menudeo en la ciudad de Cuernavaca, las tiendas en la ciudad
podrán clasificarse primero por tipo de tienda (Abarrotes, farmacias, etc.) y luego por tamaño de
tienda. Para cada estrato, tipo o tamaño de tienda, se puede estimar el número de tiendas y
calcularse cuántas de estas tiendas -unidades de muestreo- deben incluirse en la muestra. Es común
en tales casos, seleccionar la mayoría de las unidades de muestreo de los estratos conteniendo las
tiendas grandes y sólo una pequeña proporción de unidades de muestreo de los estratos que
contienen relativamente pocas tiendas.
Para que sea útil el muestreo estratificado (Ferbet et al, 1964) se deben reunir las siguientes tres
condiciones:
El error de muestreo de una muestra estratificada puede considerase menor que el de una muestra
simple aleatoria del mismo tamaño. Lo anterior se debe a que el diseño de estratificaciones hace
uso de información homogénea en el estrato, considerando la división de la población de acuerdo
con las características relevantes y sirve para reducir el margen de error de muestreo.
279
El problema con este método, es que aun cuando se conocen las características relevantes y en base
a ellas se estratifica, el tamaño relativo de los estratos en la población no siempre se conoce con
gran exactitud.
Debido a esta escasez de información, las ventajas obtenidas con la estratificación se pierden con
las variaciones introducidas por la información incorrecta referente al tamaño de los estratos en la
población, elemento que desafortunadamente se subestima frecuentemente.
Los diseños de estratificación antes explicados se pueden combinar con otras como por ejemplo:
Ejemplo de la situación anterior podría ser el siguiente: Digamos que México podría subdividirse en
estratos regionales, tales como:
Norte;
Sur;
Este: y
Oeste.
Con áreas seleccionadas dentro de cada uno de estos estratos o regiones y con miembros de la
muestra seleccionados al interior de cada una de estas áreas, en grupos o “racimos”. Similarmente,
la selección de los miembros de una muestra estratificada podría realizarse, ya sea usando
procedimientos aleatorios o arbitrarios.
Este método requiere la selección de las unidades de muestreo en diferentes etapas, existiendo
unidades de primera, segunda, etc. Etapa en un diseño muestral.
Por ejemplo: Si el interés es conocer la opinión de los médicos veterinarios zootecnistas sobre los
programas de estudio de las diferentes escuelas y facultades de Medicina Veterinaria y Zootecnia y
si para ello se decide realizar la investigación en la ciudad de México, entonces la clasificación de la
ciudad en distritos permite obtener la unidad de primera etapa; la clasificación en colonias es la
unidad de la segunda etapa; la selección de las manzanas a muestrear es la unidad de tercera etapa;
y la selección aleatoria de los médicos residentes en las manzanas previamente seleccionadas,
constituyen la unidad de cuarta etapa.
Cuando la población se distribuye sobre un área muy grande, la selección de los elementos de la
muestra de toda el área puede resultar un procedimiento ineficiente y costoso. Estos es
particularmente cierto, si a las personas que entrevistan se les paga por hora y la mayor parte del
280
tiempo se va en viajar. El muestreo por áreas fue diseñado (Ferber, et al, 1964) para resolver este
problema. Se basa en una subdivisión a priori de la población en áreas; la selección de algunas de
estas áreas con la ayuda de los métodos de muestreo aleatorio y la restricción a la selección de las
unidades que integrarán la muestra, solamente en esas áreas.
La restricción geográfica sirve para concentrar los esfuerzos de trabajo en ciertas regiones,
provocando reducciones sustanciales en el costo del trabajo de campo en comparación a una
muestra del mismo tamaño proveniente de un diseño distinto al de áreas.
Esta técnica de muestreo puede usarse para trabajar con muestras irrestrictas y estratificadas. De
hecho en investigaciones de gran escala la técnica de estratificar áreas es generalmente la regla,
porque asegura la representatividad de todos los segmentos relevantes de la población a costos
bajos.
En cada investigación el diseño de áreas se realiza en varias etapas; cada etapa sirve para restringir
el área geográfica de la cual se seleccionarán las unidades de la muestra.
Muestreo por conglomerados. Con este método se distribuyen los elementos de la población
estadística en varios grupos o conglomerados, de manera que cada uno de estos grupos tenga un
número de cuentas con diferentes valores; ello con objeto de que cada grupo sea una réplica del
universo o la población estadística. Una vez realizado el agrupamiento de datos, se procede a
enumerar los grupos o conglomerados constituidos y de ellos se selecciona uno al azar para que
constituya la muestra que servirá para realizar la investigación deseada.
VI.3 Aplicaciones
Sabiendo que una encuesta es una investigación que realiza el experto para obtener datos de interés
específico sobre un tema determinado, a continuación se expone cómo se realiza dicha
investigación ilustrando la manera cómo obtener los datos utilizando algunos métodos de muestreo,
como los siguientes:
Ejemplo 1:
Aun cuando este método es el más simple de los clasificados como probabilísticos, su sencillez no
deja de ser útil para ilustrar las ventajas que se derivan de la aplicación de esta metodología al
análisis de fenómenos económicos; al igual que los demás métodos de muestreo estadístico, se
caracteriza por proporcionar estimadores de los parámetros de la población.
281
En un muestreo sin reemplazo el número de muestras distintas de tamaño 𝑛, sacadas de las 𝑁
unidades de la población está dado por:
𝑁 𝑁!
( )=
𝑛 𝑁! (𝑁 − 𝑛)!
Los estimadores obtenidos con la muestra que se use serán insesgados cuando su esperanza
matemática sea igual al parámetro poblacional:
𝐸(𝑦̅) = 𝑌̅
1
Demostración: 𝑦̅ = 𝑛 ∑ 𝑦𝑖
Aplicaciones: Para ello se supone que se conoce el tamaño de la muestra requerida, el cual se
estudiará posteriormente en detalle.
Objetivo: Se desea estimar el total de familias en la localidad "" con una muestra simple aleatoria
cuyo tamaño está dado por cuatro manzanas.
Notación:
𝑛
𝐹 = 𝑁 = Fracción de muestreo
𝑁 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑎𝑛𝑧𝑎𝑛𝑎𝑠 𝑒𝑛 𝑙𝑎 𝑙𝑜𝑐𝑎𝑙𝑖𝑑𝑎𝑑.
𝑌̂ = 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑎
𝑦̅ = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑓𝑎𝑚𝑖𝑙𝑖𝑎𝑠 𝑝𝑜𝑟 𝑚𝑎𝑛𝑧𝑎𝑛𝑎 𝑒𝑛 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑚 = 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠 𝑝𝑜𝑟 𝑓𝑎𝑚𝑖𝑙𝑖𝑎.
282
Cuadro VI.3:
Mapa de localidad de la distribución de las manzanas
En seguida, se hace un listado de las manzanas seleccionadas registrando el número de familias que
existen en cada una de ellas. Los resultados son:
Cuadro VI.4:
Número de familias en las manzanas 16, 3, 9 y 11
La manzana 16 tiene 4 familias
La manzana 3 tiene 9 familias
La manzana 9 tiene 9 familias
La manzana 11 tiene 10 familias
1 1 32
𝑌̂ = 𝑁𝑦̅; si 𝑁 = 16 y 𝑦̅ = 𝑛 ∑ 𝑦𝑖 = − 4 (4 + 9 + 9 + 10) = 4 = 8
Se puede estimar que el cálculo del total de las familias en la localidad tenga un 95% de
probabilidad de haber caído en el intervalo de confianza con la siguiente fórmula:
𝑡𝑁𝑠 𝑡𝑁𝑠
𝑁𝑦̅ − ∗ √1 − 𝐹 ≤ 𝑌̂ ≤ 𝑁𝑦̅ + ∗ √1 − 𝐹
√𝑛 √𝑛
283
Como se recordará:
Con 𝛼 = 5% y un número infinito de grados de libertad se halla en tablas 𝑡𝛼 = 1.96; se sabe que:
2
∑(𝑦𝑖 − 𝑦̅)2 ∑ 𝑦𝑖2 278
𝑆 = = − (𝑦̅)2 = − 8 = 5.5
𝑛 𝑛 4
16(32) (1.96)(16)(2.3) 4
𝐿í𝑚𝑖𝑡𝑒𝑠 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 = ∓ ∗ √1 − = 125 𝑎 131
4 √4 16
El total estimado de familias (128) se halla entre 125 y 131 con una seguridad o confianza del 95%.
El número total de habitantes se puede saber multiplicando el total estimado(𝑌̂) por el promedio de
personas por familia (m).
Si 𝑚 = 5.4; 𝑌̂ = 128.
Por ejemplo: Considérese el siguiente diseño muestral hecho para captar las características del gasto
familiar en consumo en 2013 y 2014.
Se diseñó una muestra probabilística multietápica del país que fue dividido en áreas. En un
muestreo multietápico, cada persona (y familia) en el universo bajo estudio, tiene una probabilidad
de ser incluida en la muestra, la cual está asociada con las probabilidades de selección de la unidad
de muestreo en la cual se localiza la persona, en cada una de las etapas.
Lo primero que se hizo fue seleccionar con números aleatorios a las unidades de muestreo de la
primera etapa que eran de dos tipos; áreas urbanas y áreas rurales. En la segunda etapa, con
números aleatorios se seleccionaron áreas más pequeñas o manzanas dentro de las unidades de la
primera etapa, seleccionadas previamente. La tercera etapa consistió en la división de las manzanas
en áreas más pequeñas llamadas segmentos; con números aleatorios se seleccionaron los segmentos
donde el entrevistador debía tener la información de cada una de las familias que lo integraban.
Finalmente dentro de cada familia todos los adultos más uno de cada tres adolescentes
seleccionados aleatoriamente, contestaron el cuestionario.
En este caso particular el modelo muestral comprendió tres etapas. La estratificación en el muestreo
por áreas se hace generalmente en la primera etapa (es decir, las áreas se integran en estratos), ya
que a partir de ella la población debe dividirse en forma tal, que se asegure la representatividad de
los estratos. En el ejemplo que se ilustra, todas las unidades de muestreo de la primera etapa, áreas
284
urbanas y rurales, fueron agrupadas en estratos de acuerdo con ciertos criterios para minimizar la
variabilidad dentro de los estratos. Los criterios usados fueron flexibles ya que el propósito
principal era obtener hasta donde fuera posible homogeneidad en las unidades de muestreo en la
primera etapa de cada una de los estratos, así como la integración de estos últimos con un número
aproximadamente igual de familias. Se seleccionaron automáticamente 14 áreas urbanas, porque
contenían un número de familias mayor que el establecido por estrato.
Del resto de las áreas urbanas, se seleccionó una de cada estrato, con probabilidad proporcional a su
tamaño. Similarmente en los estratos rurales, un pueblo o área fue seleccionado con probabilidad
proporcional a su tamaño.
En total, se seleccionaron 103 unidades de la primera etapa, conteniendo 191 poblaciones. De las
103 unidades de la primera etapa; 49 eran urbanas y 54 rurales.
Una vez que se han diseñado las áreas y agrupado en estratos, en cada estrato se seleccionan ciertas
áreas usando algún criterio, generalmente se aplica el llamado “probabilidad proporcional al
tamaño", con el cual cada área tiene una probabilidad (Proporcional) de ser seleccionada de acuerdo
a su tamaño o significación dentro del estrato. Por ejemplo: Suponga que se desea seleccionar con
probabilidad proporcional a su tamaño una de las siguientes cinco ciudades que integran un estrato:
Tabla VI.1
Probabilidad proporcional en las 5 ciudades
Población acumulación Dígitos
Ciudad Población Probabilidad
(en miles) (aleatorios)
10
A 100,000 100 01 - 10
35
4
B 40,000 140 11 - 14
35
6
C 60,000 200 15 - 20
35
7
D 70,000 270 21 - 27
35
8
E 80,000 350 28 - 35
35
Total 35
350,000
estratos 35
Fuente: Investigación directa con datos de Ferber et al, 1964.
Un procedimiento es la selección de un número aleatorio formado por dos dígitos de cualquier tabla
de números aleatorios, y luego seleccionar la ciudad cuyo rango de dígitos incluye los números
aleatorio. Si el número aleatorio es mayor que 35, nuevamente se seleccionan otros números hasta
obtener uno que sea igual a 35 o menos.
Por ejemplo: Si el número aleatorio es el número 22 se selecciona la ciudad D como la muestra del
estrato, porque de acuerdo con la penúltima columna del cuadro anterior, el 22 es uno de los siete
dígitos que representan la ciudad D: Si fuera 06, la muestra contendría la ciudad A.
285
En esencia, se sigue el mismo procedimiento para seleccionar las manzanas de la segunda y las
familias de la tercera etapa del muestreo por áreas, ya que por lo general no se requieren
estratificaciones adicionales. Así, si la ciudad A es seleccionada en la muestra podría dividirse en
manzanas y seleccionarse con probabilidad proporcional unas cuantas de estas con la ayuda de la
tabla de los números aleatorios.
Una vez seleccionadas las manzanas, las familias se listarán en cada manzana y el número requerido
de ellas se obtendría usando una vez más la tabla de números aleatorios.
Obsérvese que en poblaciones grandes y dispersas este procedimiento resulta ventajoso no sólo en
la fase de la entrevista, sino también en la fase de preparación del marco muestral, ya que las
definiciones y listados de las familias solo se hacen para las unidades de la primera etapa que caen
en la muestra y los listados de familias se requieren solamente de aquéllas manzanas consideradas
en la muestra.
Este método, que es en esencia una extensión del muestreo por áreas, consiste en la aplicación
uso de las últimas unidades del muestreo en localidades adyacentes en lugar de permitir su
dispersión en todas las áreas que comprenden la muestra (Ferber et al, 1964).
Por ejemplo: Una muestra de 300 familias podría obtenerse seleccionando 60 grupos de 5
manzanas en lugar de seleccionar individualmente a 300 familias.
Esta pérdida se deriva de la tendencia que tienen por vivir como vecinos las personas con iguales
características, actitudes o aún hábitos de consumo. Así, una persona de altos ingresos es más
probable que este al lado de otra de igual nivel; y no de una de bajos ingresos, lo que ocasiona que
las unidades de muestreo en lugar de ser independientes estén correlacionadas. Mientras más alta
sea la correlación positiva, menor será la eficiencia de la muestra obtenida con el método por
racimos en la representación de las características del universo; en consecuencia, la ineficiencia
resulta de la reducción en la precisión de los estimadores muestrales, dado que representarán sólo a
una parte del universo.
Hasta el momento, se han ilustrado métodos que requieren la selección de una sola muestra de la
población. Un procedimiento alternativo es dividir la muestra en un número igual de sub-muestras y
seleccionar cada una de las sub-muestras de la población como si cada una de ellas fuera la única
muestra a seleccionar.
286
La muestra total, consiste en un número de sub-muestras replicadas, cada una de ellas tratando de
proporcionar en su área de influencia una imagen completa del universo. Si se desean entrevistar
10 000
400 personas en un área de 10,000 personas, cada: 25 ( 400
= 25) sería entrevistado comenzando
con un número aleatorio entre 01 y 25.
Si se decide seleccionar 5 en lugar de una muestra cuyo tamaño total sea de 400 personas, cada una
de las cinco sub-muestras deberá contener 80 unidades de muestreo. Para ello se puede dividir a la
10 000
población en 125, ( 80
= 125). Son así iguales cada una conteniendo 80 unidades de muestreo;
luego se seleccionan 5 números aleatorios entre 01 y 125 que se consideran, cada uno como punto
de arranque o primer unidad de muestreo que faltan en cada sub-muestra, se seleccionan
progresivamente cada 125 familias. El resultado, son 5 sub-muestras replicadas o interpenetrantes
con 80 unidades cada una, que agregadas suman una muestra con 400 unidades de muestreo.
Error de muestreo:
Error de muestreo = |𝜇 − 𝑥̅ | que debe ser menor o igual al máximo error de variación permitido
𝜀|𝜇|; es decir 𝜀|𝜇| ≥ |𝜇 − 𝑥̅ |.
287
𝜎
𝜎𝑥̅ = = 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑝𝑎𝑟𝑎 𝑢𝑛𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑎;
√𝑛
𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎;
𝜎 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛.
Por analogía, la distribución de muestreo que se deriva del universo, con determinado tamaño de
𝜎2
muestra 𝑛 y 𝜎𝑥̅ , tendrá 𝜇𝑥̅ = 𝐸(𝑥̅ ) y una varianza (𝑥̅ ) = para una población infinita y varianza
𝑛
𝜎2𝑁−𝑛
(𝑥̅ ) =
𝑛 𝑁−1
para una población finita donde 𝜎 2 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑙 𝑢𝑛𝑖𝑣𝑒𝑟𝑜. La varianza de 𝑥̅ se
representa con 𝜎𝑥̅2 , cuya raíz cuadrada 𝜎𝑥̅ se denomina error estándar de estimación para distinguirla
de 𝜎 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒𝑙 𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑜 o raíz cuadrada de 𝜎 2 . Luego en una distribución de
𝜎
muestreo 𝜇𝑥̅ = 𝐸(𝑥̅ ) y 𝜎𝑥̅ = 𝑛.
√
∑ 𝑥𝑖 1+2+3
Su 𝜇 = 𝑁
= 3
=2
∑(𝑥𝑖 −𝜇)2 (1−2)2 +(2−2)2 +(3−2)2 2
Su 𝜎 = √ =√ = √ = 0.81
𝑁 3 3
Cuyos valores son fijos
𝑁 𝑁!
Si se toman muestras de tamaño 2, esto es 𝑛 = 2 de 𝑁 = 3 sin reemplazo, habrá ( ) = (𝑁−𝑛)!𝑛! =
𝑛
3∗2∗1 3∗2∗1 6
(3−2)!2!
= 1!(2∗1) = 2 = 3
Tabla VI.2
Estandarización de la variable aleatoria 𝑋̅
𝑍𝑖
No. de Composición de la 𝑋̅𝑖 − 𝜇 Área bajo la
𝑋̅𝑖 𝑋̅𝑖 − 𝜇 Ordenada 𝑌𝑖
muestra muestra = curva
𝜎𝑥̅
1 1, 2 1.5 -0.5 -1.25 0.18265 0.394
2 1, 3 2 0 0 0.39894 0
3 2,3 2.5 0.5 1.25 0.18265 0.394
Fuente: Investigación directa con datos hipotéticos.
𝜎 𝑁 − 𝑛 0.81 3 − 2 0.81 1
𝜎𝑥̅ = √ = √ = √
√𝑛 𝑁 − 1 √2 3 − 1 1.41 2
288
𝜎𝑥̅ = (0.57)(0.70) = 0.40
Que sirve para graficar los valores estandarizados de las tres 𝑋̅: 1.5, 2.0 𝑦 2.5, obteniendo:
Gráfica VI.1
Valores estandarizados de 𝑋̅
1.25 1.25
Observe que aun cuando 𝑁 = 3, es demasiado pequeña, esta distribución tiende a la normal por el
teorema del límite central. Donde:
Luego usando la distribución de muestreo se ve que hay tres medias muéstrales (1.5, 2.0 y 2.5)
llamadas "ESTADÍSTICAS", que cada una de ellas puede estimar el valor verdadero del parámetro
𝜇𝑥 que generalmente se desconoce su valor en la vida real, el cual puede diferir de 𝑋̅𝑖 en el rango
|𝜇𝑥 − 𝑋̅| = 𝐸𝑟𝑟𝑜𝑟 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜, con cierto grado de confianza o probabilidad.
El error de muestreo ( Ferber et al, 1964) o precisión en la estimación se mide y se calcula con las
fórmulas del error estándar (en términos de probabilidad) de la media o de la proporción según sea
el caso, de estadística de variables o de atributos.
Ejemplo: Suponga que desea estimar el valor de 𝜇𝑥 , para ello se selecciona aleatoriamente la
muestra A, que está compuesta por las unidades de muestreo 1 y 2 y por consiguiente tiene una
media aritmética (𝑥̅ ) = 1.5 y una desviación estándar de (𝑠) = 0.5.
289
Tabla VI.3
Calculo del error de muestreo o precisión en la estimación
Media de la
Muestra Composición Deviación estándar de la muestra (𝑠)
muestra (𝑥̅ )
(1 − 1.5)2 + (2 − 1.5)2 0.5
√ =√
A 1, 2 1.5 2 2
= 0.5
(1 − 2)2 + (3 − 2)2 2
B 1, 3 2 √ =√ =1
2 2
Con estos datos se calcula el error estándar ( error de muestreo), en la muestra A. Lo mismo se
puede hacer en las muestras B y C, según la que se haya elegido.
Como se observa, la media (𝑥̅ ) y desviación estándar (𝑠) de las muestras difieren según la muestra
elegida, pero:
6 ∑ 𝑋̅𝑖
𝐸(𝑋̅𝑖 ) = = 2 = 𝜇𝑥 = 𝜇𝑥̅ =
3 𝑁
Generalizando : Se pueden crear distintas distribuciones a partir del cálculo de la muestra sin o con
reemplazo. Como ya se ilustró la primera anteriormente, ahora se presenta, cuando la selección es
con reemplazo ( Hayashi et al, 1974).
Tabla VI.4
Selección de la muestra con reemplazo
Muestra Composición Media de la muestra 𝑥̅𝑖 𝑃(𝑥̅𝑖 )
A 1,1 1 1/9
B 1,2 1.5 1/9
C 1,3 2 1/9
D 2,1 1.5 1/9
E 2,2 2 1/9
F 2,3 2.5 1/9
G 3,1 2 1/9
H 3,2 2.5 1/9
I 3,3 3 1/9
TOTAL 18 9/9
Fuente: Investigación directa con datos hipotéticos.
290
∑ 𝑥̅𝑖 18
𝜇𝑥 = = = 2 = 𝐸(𝑥̅ )
𝑁 9
1 1.5 2.5 3 18
𝜇𝑥̅ = + + ⋯+ + = =2
9 9 9 9 9
a) De medias y de proporciones; ambas se obtienen con: Teorema de Límite Central y la Ley de los
Grandes Números.
Por otra parte es recomendable para ejemplificar en términos prácticos utilizar una población
pequeña, con lo cual se reducirá el número del tamaño de las diferentes muestras. Con este objeto se
ejemplificaría con el teorema del límite central para demostrar que la media de todas las muestras
es igual a la media de la media poblacional.
Con este objeto, se usa el Teorema del Límite Central para demostrar que se puede utilizar la media
de la muestra para representar la media de la población.
El teorema del Límite Central establece que si una población es normal, con media y desviación
estándar, 𝜇𝑥 y 𝜎𝑥 , entonces si se toman muestras de tamaño 𝑛 y a éstas se les calculan sus medias
aritméticas, la nueva distribución constituida por las medias de las muestras, es una distribución
muestral, normal con:
𝜎𝑥
μ = 𝜇𝑥̅ = 𝐸(𝑥̅ ) y 𝜎𝑥̅ = para una población infinita.
√𝑛
La ley de los Grandes Números establece que si una población tiene 𝜇𝑥 y 𝜎𝑥 independientemente de
que sea o no normal; si el tamaño de la muestra, 𝑛, crece, entonces la distribución que resulta de las
medias muestrales se aproximan a la normal con 𝐸(𝑥̅ ), 𝜇𝑥̅ y 𝜎𝑥̅ .
291
Tabla VI.5
Medias muestrales y su probabilidad
(𝑥̅ ) 1.5 2 2.5
𝑃(𝑥̅ ) 1/3 1/3 1/3
Fuente: Investigación directa con datos hipotéticos.
1.5 2 2.5 6
𝐸(𝑥̅ ) = + + = = 2 = 𝜇𝑥̅ = 𝜇𝑥
3 3 3 3
𝜎𝑥
También 𝜎𝑥̅ se obtiene con 𝜎𝑥̅ = cuando 𝑛 es muy grande
√𝑛
𝜎𝑥 𝑁 − 𝑛 0.81 3 − 2 0.81 1
𝜎𝑥̅ = √ = √ = √
√𝑛 𝑁 − 1 √2 3 − 1 1.41 2
Si se grafican estas tres medias muestrales sin estandarizarse se obtiene la figura de la siguiente
Gráfica VI.2, que no es una curva normal, pero como antes se vio, al hacerlo se obtiene una curva
normal: Gráfica VI.1.
Gráfica VI.2
Distribución de muestreo con valores originales, sin estandarización de 𝑥̅𝑖
0.66
P(x ̅)
0.33
0.00 𝑥 ̅i
1.5 2 2.5
Por otra parte, si se desea calcular el intervalo de confianza dentro del cual se halle el valor de 𝜇𝑥 ,
para calcularlo el investigador determina el nivel de confianza (𝛽). El nivel de confianza, en otras
palabras, lo determina el error estándar en términos de probabilidad, que a su vez determina el
error de muestreo.
Así, para la primera muestra se sabe que 𝑛 = 2; 𝑥̅ = 1.5; 𝑠 = 0.5 con 𝛽 = 95% de probabilidad
(área bajo la curva) de que 𝜇𝑥 se halle en el intervalo 𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ ; donde
𝛼 = 5% = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑞𝑢𝑒 𝑛𝑜 𝑠𝑒𝑎 𝑎𝑠í, se denomina nivel de significación.
292
Derivado de lo anterior se dice que a un 𝛽 = 95% le corresponden 1.96 errores estándar=
1.96 𝜎𝑥̅ = 𝑍𝛼 𝜎𝑥̅ .
𝑠 0.5 0.5
Así 𝑋̅ ± 𝑍𝛼 𝜎𝑥̅ y como 𝜎𝑥̅ = = = 1.41 = 0.35. Por lo tanto 1.5 ± 1.96(0.35) = 1.5 ± 0.70
√𝑛 √2
Luego el límite inferior del intervalo es 0.80 = 1.50 − 0.70 y el límite superior del intervalo es
2.20 = 1.50 + 0.70.
Interpretación: Hay una probabilidad del 95% que el valor 𝜇𝑥 se halle en el intervalo de 0.80 a 2.20.
Tabla VI.6
Intervalos para las muestras B y C
B C
𝑥̅ = 2; 𝑠 = 1; 𝑛 = 2 𝑥̅ = 2.5; 𝑠 = 0.5; 𝑛 = 2
𝑠 1 𝑠 0.5
𝜎𝑥̅ = = = 0.70 𝜎𝑥̅ = = = 0.35
√𝑛 √2 √𝑛 √2
𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ 𝑥̅ ± 𝑍𝛼 𝜎𝑥̅
2 ± 1.96(0.70) 2.5 ± 1.96(0.35)
2 ± 1.37 2.5 ± 0.69
Intervalo: de 0.63 a 3.37 Intervalo: de 1.81 a 3.19
Fuente: Investigación directa con datos hipotéticos.
Conclusión: En los tres casos el valor de 𝜇𝑥 = 2se halla contenido con una confianza del 95% y
con un riesgo de = 5% de que no sea así, en los intervalos antes calculados.
Gráficamente:
Gráfica VI.3
Intervalos de confianza para las muestras A, B y C
293
Si se conectan estos resultados con la definición básica de que el error de muestreo |𝜇𝑥 − 𝑥̅ | se
determina con el error estándar de la media, en términos de probabilidad, 𝜎𝑥̅ , y con la situación
ideal de que siempre se espera que el error de muestreo sea igual o menor al error permitido
(𝜀|𝜇𝑥 |), observe que:
En los tres casos es satisfactorio ver que el error de muestreo es inferior al error permitido.
Tabla VI.7
Resumen de la muestra A, B y C con 𝛽 = 50%; 𝑍𝛼 = 0.68 y 𝛼 = 50%
Error permitido Limites Contiene a
Muestra 𝑥̅ 𝑠 𝜎𝑥̅ 𝑍𝛼
𝑍𝛼 𝜎𝑥̅ Inferior Superior 𝜇𝑥
A 1.5 0.5 0.35 0.68 0.238 1.262 1.738 No
B 2 1 0.7 0.68 0.476 1.524 2.476 Si
C 2.5 0.5 0.35 0.68 0.238 2.262 2.738 No
Fuente: Investigación directa con datos hipotéticos
Con la muestra 1: 𝜀 = 0.238 ≤ |1.5 − 2|, por eso el intervalo de confianza no contiene a la media
poblacional.
Con la muestra 2: 𝜀 = 0.476 ≥ |2 − 2|, por eso contiene a la media poblacional y con la muestra 3:
𝜀 = 0.238 < |2.5 − 2|, por eso no contiene a la media poblacional.
𝑥̅ −𝜇𝑥̅ 𝜎𝑥 𝑥̅ −𝜇𝑥̅
Así, como: 𝜀 = 𝑍𝛼 𝜎𝑥̅ = 𝜎𝑥̅
∗ = 𝜎𝑥̅ = |𝑥̅ − 𝜇𝑥 |
√𝑛 𝜎𝑥̅
294
Idealmente siempre se quiere que 𝜀|𝜇𝑥 | ≥ |𝑥̅ − 𝜇𝑥 |. Observe que ambos requieren del error
estándar (𝜎𝑥̅ ) para su cálculo.
Por otra parte mostrando los valores de mayor uso de 𝑍𝛼 , 𝛽 y 𝛼, de la ecuación (1) se tiene:
Tabla VI.8
Valores de mayor uso de 𝑍𝛼 , 𝛽 y 𝛼 de la ecuación (1)
𝒁𝜶 1 1.96 2 3
𝜷 0.68 0.95 0.955 0.997
𝜶 0.32 0.05 0.045 0.003
Fuente: Investigación directa.
Ejemplo 1: Se desea conocer el ingreso medio de los trabajadores de una empresa refresquera con
el fin de estudiar las condiciones de trabajo y en su caso pedir mejorías en la revisión del Contrato
Colectivo de Trabajo. Para ello se selecciona una muestra aleatoria de 49 trabajadores cuyo ingreso
medio mensual es de $5500.
Estudios previos realizados revelan que la 𝜎 del universo es de $700 cada mes. Con 𝛼 = 5%,
determinar el intervalo de confianza dentro del cual se halla el ingreso medio de los trabajadores,
con una prueba de dos colas o extremos.
𝑛 = 49
𝜎 = 700/𝑚𝑒𝑠
𝑥̅ = 5500/𝑚𝑒𝑠
𝑍𝛼 = ±1.96
𝛼 = 5%
𝑥̅ ± 𝑍𝛼 𝜎𝑥̅
5500 ± 1.96(100)
5500 ± 196
𝜎𝑥 700
𝑑𝑜𝑛𝑑𝑒: 𝜎𝑥̅ = = = 100
√𝑛 √49
Interpretación: El ingreso medio 𝜇𝑥 de los trabajadores de la empresa refresquera se halla entre los
$5304 y $ 5696 con un nivel de confianza de 95%.
295
Gráfica V1.4
Intervalo de confianza del ingreso medio de los trabajadores
En este caso se estima 𝜇𝑥 con la variable aleatoria asociada mediante 𝑥̅ proveniente de 𝑛 = 49 con
𝛼 = 5%y un 𝛽 = 95% que les corresponde una 𝑍𝛼 = 1.96 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛𝑒𝑠 y
𝜎𝑥̅ = 100, tal que:
Ello significa que el error en la estimación del valor de 𝜇𝑥 en valores absolutos es:
Gráfica VI.5
Error en la estimación del valor de 𝜇𝑥
𝜎 𝜎 𝑁−𝑛
Donde 𝜎𝑥̅ = para una población infinita; y 𝜎𝑥̅ = √ para una población finita.
√𝑛 √𝑛 𝑁−1
296
VI.5 Determinación probabilística del tamaño de la muestra (𝒏)
Para que sus resultados sean representativos estadísticamente y se conozca a priori el “error de
muestreo” es necesario determinar a juicio o con conocimiento de causa: 1) el error permitido (𝜀)
cuyo valor es la diferencia máxima que el investigador acepta que exista entre el estimador
muestral (la media aritmética de la muestra y el parámetro poblacional correspondiente, la media
de la población: 𝜇 y 2) el nivel de confianza (𝛽) o probabilidad con que se asegura lo anterior, tal
que 𝛽 = 1 − 𝛼, donde 𝛼 es la probabilidad de que no se cumpla lo esperado (diferencia máxima
entre el valor muestral y el poblacional); por ejemplo si se conocen los valores de las siguientes
literales, el tamaño de la muestra (𝑛) se puede determinar así:
𝜎2
𝑛=
𝛼 ∗ 𝜀2
𝑁
1. Hay ocasiones en que se conoce 𝑁, en ese caso 𝑛 =
𝑁𝜀 2 +1
603 603
𝑛= 2
= = 240.47
(603)(0.05) + 1 2.5075
1
2. Cuando no se conoce nada 𝑛 = . Si 𝜀 = 5% , entonces:
𝜀2
1 1
𝑛= = = 400
(0.05)2 0.0025
3. Trabajando con proporciones o atributos se dirá que en el muestreo simple aleatorio: cada
elemento tiene la misma probabilidad de ser seleccionado y, por ejemplo con 𝑛 = 300,
𝛼 = 5%, 𝛽 = 95% y 𝑍𝛼 = 1.96, el error permitido (𝜀) o margen de error permitido para
𝑝 = 0.5 = 𝑞, será igual a:
𝑝𝑞 (0.5)(0.5)
𝜀=√ ∗ 𝑍𝛼 = √ ∗ 1.96
𝑛 300
297
𝜀 = 𝜎𝑝 ∗ 𝑍𝛼 = 5%
𝑍2 𝜎 2
Shao ( 1975) señala que partiendo de 𝑙𝑎 𝑓ó𝑟𝑚𝑢𝑙𝑎 𝑛 = 𝜀2
donde 𝜀: es el error máximo permitido,
que lo determina el investigador,comenta por ejemplo que él puede especificar que si la media
obtenida de la muestra es $6 mayor o menor que la media verdadera (poblacional), considerará que
el estimador 𝑥̅ obtenido mediante la muestra es satisfactorio. Por lo tanto 𝜀 = $6, y el intervalo de
confianza es 𝑥̅ ± $6.
𝑍𝛼 se establece mediante el nivel de confianza del intervalo; por ejemplo si el investigador desea
que el resultado de la estimación sea 𝛽 = 99.73% prácticamente seguro, 𝛽 = 99.73%, de que la
media estimada de la población con base en la muestra esté dentro del recorrido de la verdadera
media de la población ±$6ó 𝜇𝑥 ± $6, el valor de 𝑍𝛼 es 3.
Así, una vez que se tiene el tamaño de la muestra, el resultado de la muestra debe ser evaluado. Esto
puede ser hecho encontrando el Error estándar de estimación de la media (𝑠𝑥̅ ,) de acuerdo con la
desviación estándar de la muestra 𝑠̂ .
Shao comenta que si el producto de 𝑍𝛼 y 𝑠𝑥̅ es menor que el error máximo permitido, la estimación
de la muestra es considerada satisfactoria. Si el producto es mayor, el tamaño de la muestra
deberá ser revisado e incrementado.
Ejemplo: El Gerente de una estación de servicio desea conocer el promedio de ventas, para ello
muestrea las notas de venta a fin de encontrar la cantidad promedio por venta durante un período
dado.
Para ello indica que: 1) el máximo error muestral (permitido) no deberá ser mayor que $0.20 por
arriba o por abajo de la verdadera media; 2) el nivel de confianza deberá ser 𝛽 = 99.73%; y 3) la
desviación estándar de la población basada en su experiencia, es estimada en 80%. Encontrar el
tamaño de la muestra adecuada con estas especificaciones.
Solución
Ahora suponga que trabajando con esa muestra seleccionada aleatoriamente se aplica y se encuentra
lo siguiente:
𝑥̅ = $2.70
𝑠̂ = $0.72
298
𝑠̂ 0.72
Luego 𝑠𝑥̅ = = = $0.06
√𝑛 √144
Puesto que 𝑍𝛼 𝑠𝑥̅ = 0.18 = error de muestro es menor que el error permitido 𝜀 = 0.20, se acepta
el tamaño de la muestra.
𝑠̂ 0.84
𝑠𝑥̅ = = = 0.07
√𝑛 √144
Luego:
Como el error de muestreo calculado (0.21) es mayor que el error permitido 𝜀 = 0.20, el tamaño de
la muestra se revisa como sigue, partiendo de una población infinita:
2
𝑍𝛼 𝜎𝑥 2 (3)(0.84)
𝑛=[ ] =[ ] = 158.76 = 159
𝜀 0.20
2
𝑍𝛼 𝜎𝑥 2 (2)(0.80)
𝑛=[ ] =[ ] = 64
𝜀 0.20
Se observa que al ser menor la variación ( 0.80) se requiere una muestra menor . De este ejemplo
numérico se deduce que el tamaño de la muestra depende significativamente de los valores que
tome 𝜀, 𝑍𝛼 y 𝜎𝑥 . En poblaciones finitas, 𝑁, es determinante.
Aun cuando la exposición y composición de estos temas no es fácil, se espera que el esfuerzo
didáctico que adopte le permita al lector su fácil entendimiento y manejo continuo en la solución de
problemas de su empresa, principalmente, en las áreas de ventas, compras, producción,
organización y finanzas.
299
VI.6 Precisión alcanzada en la estimación lograda con diferentes métodos de muestreo
Como se indicó, la confiabilidad en las estimaciones se mide por medio de los errores de muestreo,
es decir, sirven para determinar la precisión que se logra usando un determinado método de
muestreo para estimar con sus valores los parámetros de la población. Los errores de muestreo se
determinan con las fórmulas de los errores estándar, en términos de probabilidad, es decir: 𝑍𝛼 𝜎𝑥 .
Con ese propósito a continuación se ilustra el uso de las fórmulas del error estándar de los
principales diseños muestrales para determinar la precisión que se alcanza en la estimación de los
parámetros poblacionales usando los estadísticos muestrales. (Ferber et al, 1964). Las fórmulas de
algunas de ellos, son:
𝜎 𝑁−𝑛 𝑁−𝑛
𝜎𝑥̅ = √ ; Con proporciones: 𝜎𝑝 = √𝑝 ∗ 𝑞 𝑁∗𝑛
√𝑛 𝑁∗𝑛
Muestreo estratificado
𝑁 −𝑛 𝑁 −𝑛
𝜎𝑥̅ = √∑𝑘𝑖=1 𝑤𝑖2 𝑠𝑖2 𝑁𝑖 ∗𝑛 𝑖 ; Con proporciones: 𝜎𝑝 = √∑𝑘𝑖=1 𝑤𝑖2 𝑝𝑞 𝑁𝑖 ∗𝑛 𝑖
𝑖 𝑖 𝑖 𝑖
𝑠𝑖2 = 𝑝𝑞
Donde:
𝑖 = 𝐸𝑠𝑡𝑟𝑎𝑡𝑜𝑠: 1, 2, 3, 4, 5, … , 𝑘
𝑁𝑖
𝑤𝑖 = 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 𝑖 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 =
∑ 𝑁𝑖
𝑛𝑖
𝑃𝑖 =
𝑛
𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑛𝑖 = 𝑀𝑢𝑒𝑠𝑡𝑟𝑎 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 𝑖 − é𝑠𝑖𝑚𝑜
𝑁𝑖 = 𝐸𝑠𝑡𝑟𝑎𝑡𝑜 𝑖 − é𝑠𝑖𝑚𝑜
Muestreo replicado
Donde:
Se selecciona una muestra aleatoria y se encuentra que 280 de los 400 televisores están encendidos
una o más veces en el tiempo señalado, luego el porcentaje muestral es igual a:
𝑛𝑖 280
= 70% =
𝑛 400
Por motivos prácticos se dice que en una muestra grande, dos errores estándar proporcionan el
intervalo de confianza del 95 %, para la proporción verdadera de T.V encendidas entre las 19:00 y
22:00 horas; la estimación del intervalo será:
Tabla VI.9
Muestreo estratificado
Número de T.V encendidas
Número de 𝑛𝑖
entre las 19:00 y 22:00
Estrato 𝑁𝑖 entrevistas (𝑛) 𝑃𝑖 =
horas (𝑛𝑖 ) 𝑛
160
1 7,000 200 160 = 80%
200
40
2 1,000 100 40 = 40%
100
60
3 2,000 100 60 = 60%
100
260
Total 10,000 400 260 = 65%
400
Fuente: Investigación directa con datos de Ferber et al, 1964.
301
𝜎𝑝
VI.6.3 Replicado:
Aquí suponga que se usaron los 5 diseños replicado: 5 muestras de 80 personas fueron
seleccionadas de la población; de cada una de las 125 zonas registradas.
Tabla VI.10
Datos para el muestreo replicado
Replica Número de entrevistas T.V encendidas P
1 80 59 74%
2 80 57 71%
3 80 61 76%
4 80 53 66%
5 80 62 78%
Total 400 292 73% (promedio)
Fuente: Investigación directa con datos de Ferber et al, 1964.
Se ve que el menor error estándar se obtiene en el muestreo estratificado, razón por la que
siempre se recomienda usarlo. (Ibíd.)
Por su importancia derivada de los ejemplos anteriores, véase de nuevo como se obtiene el tamaño
de la muestra (𝑛) a partir de las fórmulas del error estándar, en este caso de una proporción, que
corresponde a la estadística de atributos.
Se toma una muestra para estimar entre otras cosas, la proporción de familias viendo T.V. en la
tarde entre semana. (Ferber, et al, 1964)
Se desea que ese estimador esté entre el 5% del porcentaje actual con 95% de seguridad.
302
𝑁 = 10 000
𝑠 2 = para un porcentaje = 𝑝 ∗ 𝑞
𝑝 = 0.5 por seguridad, es decir, trabajando con varianza máxima.
𝜎𝑝 debe ser tal que 2𝜎𝑝 incluyan el 95% 𝑑e los estimadores de 𝑝, luego 2𝜎𝑝 = 0.05 de aquí
𝜎𝑝 = 0.025.
𝑁−𝑛 𝑝𝑞𝑁−𝑝𝑞𝑛
De 𝜎𝑝 = √𝑝 ∗ 𝑞 ; 𝜎𝑝2 = se tiene 𝑛(𝑁𝜎𝑝2 + 𝑝𝑞) = 𝑁𝑝𝑞
𝑁∗𝑛 𝑁𝑛
Vea que el tamaño apropiado sería de 385 familias y no 400 para hacer la investigación.
De manera similar, se puede obtener los tamaños de muestra para cada uno de los modelos
muestrales bajo estudio.
A continuación se exponen ejemplos que el Maestro Jacobo López Barojas (2015) desarrolla en sus
cursos de licenciatura de cómo asignar el tamaño de muestra mediante el muestreo estratificado por
asignación proporcional, asignación óptima y asignación óptima económica. y un ejemplo de
muestreo aleatorio simple considerando costos fijos y costos variables.
En unos sectores empresariales se encontró que de los 7500 clientes que en total se inscribieron para
que les enviaran catálogos de ventas, al sector I pertenecían 1700, al sector II 2500, al sector III
2000 y al sector IV 1300.
Se desea asignar de manera proporcional una muestra de 50 unidades entre los 4 estratos.
Con la expresión:
𝑁𝑖
𝑤𝑖 =
∑ 𝑁𝑖
Entonces
1700
𝑤1 = = 0.226662
7500
2500
𝑤2 = = 0.333333
7500
2000
𝑤3 = = 0.266666
7500
303
1300
𝑤4 = = 0.173333
7500
4
𝑛1 = 0.226662 ∗ 50 = 11.333333 ≈ 11
𝑛2 = 0.333333 ∗ 50 = 16.666666 ≈ 17
𝑛3 = 0.266666 ∗ 50 = 13.333333 ≈ 13
𝑛4 = 0.173333 ∗ 50 = 8.666666 ≈ 9
𝑘
∑ 𝑛𝑖 = 11 + 17 + 13 + 9 = 50
𝑖=1
Por asignación óptima
Ahora se desea asignar de manera óptima una muestra de 50 unidades entre los 4 estratos,
conociendo que las desviaciones estándar estimadas del monto de las ventas por estratos son de:
𝑠1 = 273500
𝑠2 = 5870
𝑠3 = 28700
𝑠4 = 154000
La justificación para usar la asignación óptima consiste en la diferencia entre las desviaciones
estándar estimadas para cada estrato.
∑ 𝑁𝑖 = 𝑁𝑖 𝑠𝑖
Tabla VI.11
∑
Obtención de 𝑁𝑖 por asignación óptima
𝑵𝒊 𝒔𝒊 𝑵𝒊 𝒔𝒊
1700 273500 464950000
2500 5870 14675000
2000 28700 57400000
1300 154000 200200000
∑ 𝑁𝑖 = 737225000
Fuente: Investigación directa.
304
464950000
𝑤1 = = 0.630675845
737225000
14675000
𝑤2 = = 0.019905727
737225000
57400000
𝑤3 = = 0.07785954
737225000
200200000
𝑤4 = = 0.271558886
737225000
𝑛1 = 0.630675845 ∗ 50 = 31.53379215 ≈ 31
𝑛2 = 0.019905727 ∗ 50 = 0.99528632 ≈ 1
𝑛3 = 0.07785954 ∗ 50 = 3.892977 ≈ 4
𝑛4 = 0.271558886 ∗ 50 = 13.5779443 ≈ 14
𝑘
∑ 𝑛𝑖 = 31 + 1 + 4 + 14 = 50
𝑖=1
7500 clientes de diversos sectores empresariales se inscribieron para que les enviaran catálogos de
ventas, sabiendo que de ellos, 1700 pertenecen al sector I, 2500 al sector II, 2000 al sector III y
1300 al sector IV, se desea asignar de manera óptima económica una muestra de 50 unidades,
conociendo que las desviaciones estándar estimadas del monto de las ventas por estratos son de:
𝑠1 = 273500, 𝑠2 = 5870, 𝑠3 = 28700, 𝑠4 = 154000 y los costos de muestreo son de 𝐶1 =
$2500, 𝐶2 = $900, 𝐶3 = $1100, 𝐶4 = 1200 (la justificación para utilizar el tipo de asignación
óptima económica, radica en la amplia diferencia entre los diferentes costos de muestreo por
utilidad para cada estrato).
Tabla VI.12
∑
Obtención de 𝑁𝑖 por asignación óptima económica
𝑁𝑖 𝑠𝑖
𝑁𝑖 𝑠𝑖 𝑁𝑖 𝑠𝑖 𝐶𝑖 √𝐶𝑖
√𝐶𝑖
1700 273500 464950000 2500 50 9299000
2500 5870 14675000 900 30 489166.667
2000 28700 57400000 1100 33.17 1730479.349
305
1300 154000 200200000 1200 34.64 5779445.727
∑ 𝑁𝑖 = 17298091.743
Fuente: Investigación directa
9299000
𝑤𝐶𝑡1 = = 0.53757 ≈ 0.54
17298091.743
489166.667
𝑤𝐶𝑡2 = = 0.02827 ≈ 0.03
17298091.743
1730479.349
𝑤𝐶𝑡3 = = 0.1000 = 0.10
17298091.743
5779445.727
𝑤𝐶𝑡4 = = 0.3341 ≈ 0.33
17298091.743
4
𝑛1 = 0.54 ∗ 50 = 27
𝑛2 = 0.03 ∗ 50 = 1.5 ≈ 2
𝑛3 = 0.10 ∗ 50 = 5
𝑛4 = 0.33 ∗ 50 = 16.5 ≈ 16
∑ 𝑛𝑖 = 27 + 2 + 5 + 16 = 50
𝑖=1
Determinación del tamaño de la muestra considerando los costos fijos y los costos variables
El costo total es igual al costo fijo más el costo variable, la fórmula es:
𝐶𝑡 = 𝐶𝑓 + 𝐶𝑉
El costo variable depende del número de unidades que forman el tamaño de la muestra se tiene la
siguiente expresión matemática:
𝐶𝑡 = 𝐶𝑓 + 𝑛𝐶𝑉
𝐶𝑡 − 𝐶𝑓
𝑛= (1)
𝐶𝑉
306
En el muestreo simple aleatorio el tamaño de la muestra se calcula por medio de:
𝑧 2𝑠2
𝑛= (2)
𝑑2
Donde:
𝐶𝑡 − 𝐶𝑓 𝑧 2 𝑠 2
= 2 (3)
𝐶𝑉 𝑑
𝐶𝑉
𝑑 = 𝑧𝑠√
𝐶𝑡 − 𝐶𝑓
Ejemplo:
Se tiene un presupuesto de $5,000.00 para un estudio de mercado, donde los costos fijos son de
$2000 y, el costo medio variable es de $15. La desviación estándar es de $350, con un semiancho
de 9 con un nivel de confianza del 90%. Determinar el tamaño de la muestra.
Solución:
𝐶𝑡 − 𝐶𝑓
𝑛=
𝐶𝑉
Sustituyendo los valores respectivos:
5000 − 2000
𝑛= = 200
15
𝑧 2𝑠2
𝑛= 2
𝑑
(1.64)2 (350)2
𝑛= = 4067.6049
(9)2
307
𝐶𝑉
𝑑 = 𝑧𝑠√
𝐶𝑡 − 𝐶𝑓
15
𝑑 = (1.64)(350)√ = 40.58
5000 − 2000
𝐶𝑉 𝑧 2 𝑠 2
𝐶𝑡 = + 𝐶𝑓
𝑑2
(15)(1.64)2 (350)2
𝐶𝑡 = + 2000
(9)2
𝐶𝑡 = 63014.07407
𝐶𝑡 − 𝐶𝑓
𝑛=
𝐶𝑉
Para obtener el tamaño de la muestra
63014.07407 − 2000
𝑛= = 4067.6049
15
El tamaño de la muestra (4067.6049) multiplicado por el costo de cada unidad (15) da un total de
$61014.07407 y sumándole los costos fijos de $2000 da la cantidad de $63014.07407 (ibíd.)
En otras palabras, lo que también indudablemente determina su diseño es el tipo de datos que se
desean obtener; el método usado para obtenerlos y en última instancia el uso de los resultados.
Adicionalmente, podría señalarse que el diseño depende fuertemente de los antecedentes y
experiencias del investigador, el tipo de entrevistadores disponibles, costo y tiempo.
Así, basándose en los formatos de la tabulación del guión de información, los rangos probables de
variación tomados de las experiencias anteriores - si las hay - y las posibles respuestas, el
cuestionario debe diseñarse en forma simple, fácil de seguir y si es posible atractiva.
Lo último es particularmente importante en el caso de los cuestionarios que se envían por correo,
donde la decisión de los miembros de la muestra, sobre llenarlo o no, depende de la impresión que
tengan sobre la apariencia del cuestionario. Al respecto, se aconseja recabar la información a través
de entrevistas directas, ya que el enumerador puede inmediatamente captar los datos en forma
precisa o corregirlos cuando el caso lo amerite.
Es conveniente mencionar que existen diversos métodos para la recolección de datos, de los
cuales los principales son:
309
d) Entrevistas personales: dentro de las formas directas de obtener los datos, este método es sin
lugar a dudas el más popular, por referirse a una conversación directa "frente a frente" entre un
miembro de la muestra y el entrevistador. Como resultado, se puede obtener una gran variedad
de información con este método, el cual es flexible en varios sentidos. Por ejemplo, los datos
pueden ser registrados en grabadora o en cuestionarios.
La construcción de los cuestionarios es un arte en sí; requiere numerosas precauciones para evitar
respuestas sesgadas.
Desde el punto de vista de la obtención de los datos, puede decirse que existen dos formas de
entrevistar: En un extremo se haya la entrevista altamente estructurada, en la cual se prepara un
cuestionario formal y las preguntas se hacen bajo instrucciones precisas y el entrevistador mantiene
un orden estricto para su contestación.
Esta forma, se usa generalmente para obtener una variedad de información diferente acerca de una
materia, siguiendo algún orden particular. Esta forma en cierto modo, evita que la información
recabada refleje sesgos debidos a juicios personales de los enumeradores.
Dentro de estos extremos, existen varias combinaciones. El enumerador puede usar un cuestionario
estructurado, pero se le permite hacer las preguntas como él quiera.
Parece que los mejores enumeradores son personas entre los 25 y 50 años, que tienen una evidente
disposición, son inteligentes, poseen cierta cultura, son flexibles y precisos en sus hábitos de
trabajo.
Por lo que se refiere a la organización y control del trabajo de campo, como las demás etapas
requiere una programación de tiempos y actividades para asignar al personal correspondiente.
Dentro de los aspectos básicos esta la fijación de las rutas de trabajo, el plan de trabajo o forma de
entrevistar y la supervisión -sobre todo- cuando el grupo de trabajo es numeroso o la captación de
los datos presenta dificultades.
310
III) CRITICA DE CUESTIONARIOS
Tal que en esta etapa la información debe quedar depurada y ordenada hasta donde sea posible para
su posterior transformación y vaciada en formatos previamente diseñados. En algunos casos se
acostumbra usar la computadora -filtrado electrónico- para realizar esta etapa.
Una vez que los datos han sido obtenidos y revisados, deben ser procesados para hacer posible un
análisis del fenómeno estudiado. Es generalmente aceptado que esta actividad es un tanto tediosa,
pero también que es crítica para asegurar exactitud en los resultados.
Una tabulación hecha sin cuidado puede viciar una buena planeación y el método de obtención de
los datos. Así mismo, los peligros de los sesgos a un se presentan en los procesos de preparación,
clasificación y tabulación.
Esta etapa está fuertemente ligada a la anterior, ya que, por ejemplo, la preparación consiste en la
inspección de cuestionarios o cualquier otra forma usada para captar los datos, su exactitud, si están
completos o no, la inspección de trabajo de campo, arreglos o eliminación de respuestas por su
inconsistencia o desconfianza la clasificación o estandarización de los datos en base comunes y
sobre todo su preparación para ser tabulados.
V) CLASIFICACIÓN.
Es el arreglo de los datos en clases o categorías para ser manipulados de acuerdo con la verificación
de la hipótesis de trabajo.
311
VI) TABULACIÓN
El análisis de los datos recabados con la muestra, incluye indicaciones del valor hasta el cual
las estimaciones derivadas de la muestra pueden desviarse de los valores verdaderos de la
población. Esta evaluación debe comprender datos sobre la precisión de los estimadores, sobre
todo si la selección ha sido probabilística, así como consideraciones sobre algunos sesgos en la
operación de reconocimiento que tienda a distorsionar el valor de los estimadores.
Dentro de los sesgos puede considerarse las "no respuestas", cobertura, influencia de los
enumeradores sobre la unidad de muestre entrevistado y lo que anoten en el cuestionario, una
codificación de respuestas inadecuada, etc.
Por lo que se refiere a la precisión ésta es el error de muestreo de un estimador: mientras más
pequeño sea el error, mejor será la precisión. El error de muestreo se mide con la fórmula del
error estándar, la cual varía de acuerdo con el tipo de estimador - media, mediana, razón, etc. y con
el diseño muestral.
La exposición de las fórmulas de los errores estándar se presentan en la sección de los métodos de
muestreo, donde se deducen de las varianzas de los estimadores - media, total, etc.
Basándose en los formatos de tabulación, del guión de información, de los rangos probables de
variación, de las experiencias anteriores y de las posibles respuestas de las preguntas, hágase el
diseño de un cuestionario precodificado, procurando y verificando que no se omita ningún
concepto, que el llenado del cuestionario, sea lo más sencillo y rápido posible, que el
encadenamiento de las preguntas sea el más adecuado, que algunas preguntas sirvan para
comprobar las respuestas de otras, etc. Un cuestionario precodificado asigna en cada pregunta un
conjunto de claves numéricas, correspondiendo en forma biunívoca, en el conjunto de las posibles
respuestas, estas claves se anotan cifra por cifra, en las posiciones -en cuadrícula- que se hayan
designado para el caso.
312
X) INVESTIGACIÓN SOBRE FUENTES DE INFORMACIÓN
Para obtener un marco muestral puede recurrirse a ciertas instituciones y recopilar además, datos
para: calcular el tamaño de la muestra, confrontar y complementar los resultados de la encuesta,
determinar aproximadamente algunos rangos de variación, etc., si es que en los antecedentes -
archivos propios- no se tienen.
Con objeto de determinar cuáles ajustes deben hacerse al cuestionario para poder lograr los
objetivos en forma satisfactoria, es necesario realizar algunas entrevistas en el campo de estudio,
llenar los cuestionarios correspondientes y evaluar los resultados a este nivel.
Partiendo de un examen del problema, se recomienda hacer una relación de todas las variables,
cuyos valores puedan ser significativamente relevantes, en la resolución del problema.
Prepárese todo el material que sea necesario, como oficios debidamente dirigidos y firmados,
formas para captar información, etc. Los métodos de muestreo tienen por objeto indicar el número
de unidades que deben incluirse en la muestra, dependiendo de la forma como éstas se seleccionen,
del nivel de confianza que se requiera, del error de muestreo permisible y del fondo disponible para
la realización de la encuesta.
El trabajo de los enumeradores debe hacerse exactamente con las unidades de última etapa,
determinadas en la selección de la muestra y si ello no fuera posible por deficiencias en el marco
muestral, resuélvase el problema con apego a las instrucciones precisas que se hayan hecho para
estos pasos. Al hacerse las preguntas, téngase cuidado de que las respuestas sean correctas y
veraces, considerando los rangos aproximados para los valores que puedan tomar las variables
involucradas en el estudio.
313
XV) SUPERVISIÓN DEL LEVANTAMIENTO DE LA ENCUESTA
Es conveniente utilizar una forma de reporte, en la cual el supervisor anote cómo se desarrolla el
levantamiento de la encuesta, esto es, registrar el material recibido y entregado, folio de los
cuestionarios entregados a su grupo, casos de no respuesta y especificación de la resolución tomada,
folio de los cuestionarios que fue necesario aclarar, número diario de cuestionarios entregados y de
errores por enumerador, porcentaje del avance total del trabajo -llenado de cuestionarios-, día y hora
para cada reporte a oficinas centrales, números de cuestionarios efectivamente llenados al terminar
la encuesta y registro de los demás documentos recogidos, calificación final de los enumeradores,
etc.
Autorización de gastos y obtención de fondos junto con las directrices administrativas para
su uso;
Acuse de lo recibido a oficinas centrales;
Pago del trabajo de campo;
Observación del sistema de envíos;
Tiempos transcurridos entre envío y recepción;
Condición de llegada del material;
Retroalimentación de las experiencias de la fase inicial y ajuste en donde ello sea necesario;
Registro de aquéllos procedimientos -o personas- que no funcionaron para referencias
futuras y para obtener de ello una experiencia;
Terminación de obligaciones con el personal eventual; etc.
Esto es, hacer un filtrado de todos los errores que no hayan sido detectados por los supervisores, así
como también verificar y concentrar el número total de cuestionarios encomendados a cada
supervisor, para obtener el tamaño efectivo de la muestra.
315
VI.6.4 RED GENERAL DE ACTIVIDADES EN UNA ENCUESTA DE MUESTREO
316
OTROS MÉTODOS DE MUESTREO: (Sánchez et al, 1974)
317
𝐾
1
𝜇= ∑ 𝑁𝑡 𝜇𝑡 𝐾
𝑁𝑜 1
𝑡=1
𝐾 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = ∑ ( 𝐾
1 𝑛𝑡 𝑁𝑡 2 1 1 2
𝑆𝑡2 𝑡(∝,∞)
𝑁𝑡 𝜇̂̇ = ∑ 𝑁𝑡 𝑋̅̇𝑡 𝑡=1 𝑉(𝜇̂̇ ) = ∑ ( ) ( − ) 𝑆𝑡2
1 𝑁𝑜 1 𝑁𝑡 2 2 𝑁𝑜 𝑛𝑡 𝑁𝑡 𝑁 2 𝜖2 2
Muestreo monoetápico, 𝑡=1 𝑡=1 ( 𝑜) 𝜇
𝜇𝑡 = ∑ 𝑋𝑡𝑖 − ) ( ) 𝑠̇𝑡 𝑁𝑡 𝐾
equiprobable, sin reemplazo 𝑁𝑡 𝑁𝑡 𝑁𝑜 𝑛𝑡 = 2 2
𝑖=1 𝑛𝑡 𝑁𝑡 1 𝑆𝑡 𝑡(∝,∞)
y estratificado 1 1 1+
𝑁𝑡 𝑁𝑜 2 𝜖 2 2
𝐾 𝑋̅̇𝑡 = ∑ 𝑋𝑡𝑖̇ 𝑛𝑡 𝑆𝑡2 = ∑(𝑋𝑡𝑖 − 𝜇𝑡 )2 ( ) 𝜇
𝑛𝑡 1 2 𝑁𝑡 − 1 𝑁𝑡 𝐾
𝑁𝑜 = ∑ 𝑁𝑡
𝑖=1 𝑠̇𝑡2 = ∑(𝑋̇𝑡𝑖 − 𝑋̅̇𝑡 ) 𝑖=1
𝑛𝑡 − 1
𝑖=1
𝑡=1
𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) 𝐾
𝑀𝑜𝑡 2 1 1
𝐾 𝐾 𝑉(𝜇̂̇ ) = ∑ ( ) {( − ) 𝑆𝑡2 𝑛𝑡 = 𝑎𝑡 {𝑆𝑡2 + 𝑏𝑡 (∝𝑡 − 1)}
1 𝑀𝑜𝑡 2 1 1 𝑁𝑡 2 𝑀𝑜 𝑛𝑡 𝑁𝑡
1
𝐾
𝜇̂̇ = ∑ 𝑀𝑜𝑡 𝑋̅̇𝑡 = ∑( ) {( − ) ( ) 𝑠̇𝑡2 𝑡=1
𝜇= ∑ 𝑀𝑜𝑡 𝜇𝑡 𝑀𝑜 𝑀𝑜 𝑛𝑡 𝑁𝑡 𝑁𝑜 𝑁𝑡 2 2
𝑀𝑜 𝑡=1 𝑡=1
𝑛 1 𝑀𝑡𝑖2 1 𝐾𝑁𝑡 𝑀𝑜𝑡 𝑡(∝,∞)
𝑡=1 1 𝑀𝑡𝑖 1 2 + ∑ 2( 𝑎𝑡 = 2 2 2
𝑛𝑡 + ∑( ) ( 𝑁𝑡 𝑛𝑡 ̅𝑡 𝑚𝑡𝑖
𝑀 𝑁𝑡 𝑀𝑜 𝜖 2 𝜇 2 + 𝐾𝑀𝑜𝑡 𝑆𝑡 𝑡(∝,∞)
1 𝑁𝑡 𝑛𝑡 ̅
𝑀𝑡 𝑚 𝑡𝑖
𝑖=1
𝑋̅̇𝑡 = ∑ 𝑀𝑡𝑖 𝑋̅𝑡𝑖̇
𝑁𝑡 𝑖=𝑟
1 ̅̇𝑡 1 𝑁𝑡
𝜇𝑡 = ∑ 𝑀𝑡𝑖 𝜇𝑡𝑖 𝑛𝑡 𝑀 1 − ) 𝑆2 }
Muestreo bietápico,
𝑀𝑜𝑡 𝑖=1
− ) 𝑠̇ 2 } 𝑀𝑡𝑖 𝑡𝑖 1
𝑖=1 𝑀𝑡𝑖 𝑡𝑖 𝑏𝑡 = ∑ 𝑀𝑡𝑖 𝑆𝑡𝑖2
equiprobable, sin reemplazo ̅𝑡2
𝑁𝑡 𝑀
𝑚𝑡𝑖 𝑖=1
y estratificado 1
1
𝑀𝑡𝑖
𝑋̅𝑡𝑖̇ = ∑ 𝑋̇𝑡𝑖𝑗 𝑛𝑡 𝑀𝑡𝑖
𝑚𝑡𝑖 1 𝑀𝑡𝑖 2 2 1 1
𝜇𝑡𝑖 = ∑ 𝑋𝑡𝑖𝑗 𝑗=1 𝑠̇𝑡2 = ∑ ( ) (𝑋̅̇𝑡𝑖 − 𝜇̂̇ ) 𝑆𝑡𝑖2 = ∑(𝑋𝑡𝑖𝑗 − 𝜇𝑡𝑖 ) 𝑚𝑡𝑖 = 𝑀
𝑀𝑡𝑖 𝑛𝑡 − 1 ̅𝑡
𝑀 𝑀𝑡𝑖 − 1 ∝𝑡 𝑡𝑖
𝑗=1
𝑖=1 𝑗=1
𝑛𝑡
1
̅̇𝑡 = ∑ 𝑀𝑡𝑖
𝑀 ̇ 𝑚𝑡𝑖 𝑁𝑡 𝑁𝑡 𝑆𝑡2
𝑛𝑡 1 2 1 𝑀𝑡𝑖 2 1 ≤∝𝑡 ≤ +1−
𝑖=1 𝑠̇𝑡𝑖2 = ∑(𝑋̇𝑡𝑖𝑗 − 𝑋̅̇𝑡𝑖 ) 𝑆𝑡2 = ∑( 𝜇𝑡𝑖 − 𝜇𝑡 ) 𝑎𝑡 𝑏𝑡 𝑏𝑡
𝑚𝑡𝑖 − 1 𝑁𝑡 − 1 ̅𝑡
𝑀
𝑗=1 𝑖=1
Muestreo monoetápico, 𝑁 𝑛 1 2 2
1 1 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = 𝑠̇ 𝑁−1 2 (𝑁 − 1)𝑆 2 𝑡(∝,∞)
equiprobable y con 𝜇 = ∑ 𝑋𝑖 𝜇̂̇ = 𝑋̅̇ = ∑ 𝑋̇𝑖 𝑛 𝑉(𝜇̂̇ ) = 𝑆 𝑛=
𝑁 𝑛 𝑁𝑛 𝑁𝜖 2 𝜇 2
reemplazo (muestreo 𝑖=1 𝑖=1
318
𝑛
irrestricto aleatorio con 1 2
reemplazo) 𝑠̇ = 2
∑(𝑋̇𝑖 − 𝑋̅̇)
𝑛−1
𝑖=1
𝑁 𝑛 = 𝑎{(𝑁 − 1)𝑆 2 +∝ 𝑏}
1
𝜇= ∑ 𝑀𝑖 𝜇𝑖
𝑀𝑜 2
𝑖=1 𝑁 𝑡(∝,∞)
𝑠̇ 2 𝑁−1 2 1 𝑀𝑖 − 1 2 𝑎=
𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = 𝑉(𝜇̂̇ ) = 𝑆 + ∑ 𝑆 𝜖 2 𝜇 2 𝑁𝑀𝑜2
𝑀𝑗 𝑁
𝑛
𝑛𝑀𝑜2 2
𝑁𝑛𝑀𝑜 𝑁𝑛𝑀𝑜2 𝑀𝑖 𝑚𝑖 𝑡
∑ 𝑀𝑖 𝑋̅̇𝑖
𝑖=1
1 𝜇̂̇ =
𝜇𝑖 = ∑ 𝑋𝑖𝑗 𝑛𝑀𝑜 𝑁
Muestreo bietápico, 𝑀𝑖 𝑖=1 𝑛
𝑁 𝑀𝑖 − 1 2
𝑗=1 1 1 𝑏=∑ 𝑆𝑖
equiprobable y con 𝑠̇ 2 = ∑ {𝑁𝑀𝑖 𝑋̅̇𝑖 2
𝑆 = ∑(𝑁𝑀𝑖 𝜇𝑖 − 𝑀𝑜 𝜇)2 𝑀1
reemplazo.
𝑚𝑗 𝑛−1 𝑁−1 𝑖=1
𝑁 1 𝑗=1 𝑖=1
𝑋̅̇𝑖 = ∑ 𝑋̇𝑖𝑗 𝑛 2
𝑀𝑜 = ∑ 𝑀𝑖 𝑚1 𝑁 𝑀𝑖
𝑗=1 − ∑ 𝑀𝑖 𝑋̅̇} 𝑀𝑗 𝑚𝑖 =
𝑗=1 𝑛 1 2 ∝
𝑖=1
𝑆𝑖2 = ∑(𝑁𝑀𝑖 𝑋𝑖𝑗 − 𝑁𝑀𝑖 𝜇𝑖 )
𝑀𝑜 𝑀𝑖 − 1
̅=
𝑀
𝑗=1 𝑁 − 𝑎(𝑁 − 1)𝑆 2
𝑁 1 ≤∝≤
𝑎𝑏
𝐾
1
𝜇= ∑ 𝑁𝑡 𝜇𝑡
𝑁𝑜
𝑡=1 𝐾
𝐾 𝐾
1 𝑁𝑡 2 𝑠̇𝑡2 𝑁𝑡 2 1 1
𝜇̂̇ = ∑ 𝑁𝑡 𝑋̅𝑡 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = ∑ ( ) 𝑉(𝜇̂̇ ) = ∑ ( ) ( − ) 𝑆2
Muestreo monoetápico,
𝐾
𝑁𝑜 𝑁𝑜 𝑛𝑡 𝑁𝑜 𝑛𝑡 𝑁𝑡 𝑛𝑡 𝑡
𝑡=1 𝑡=1 𝑡=1 2
𝑁𝑜 = ∑ 𝑁𝑡 𝑁𝑡 2 𝐾(𝑁𝑡 − 1)𝑆𝑡2 𝑡(∝,∞)
equiprobable con 𝑛𝑡 = ( )
𝑡=1 𝑛𝑡 𝐾 𝑁𝑡 𝑁𝑜 𝑁𝑡 𝜖 2 𝜇 2
reemplazo y estratificado. 1 1 2 1
𝑁𝑡 𝑋̅̇𝑡 = ∑ 𝑋̇𝑡𝑖 𝑠̇𝑡2 = ∑(𝑋̇𝑡𝑖 − 𝑋̅̇𝑡 ) 𝑆𝑡2 = ∑(𝑋𝑡𝑖 − 𝜇𝑡 )2
1 𝑛𝑡 𝑛𝑡 − 1 𝑁−1
𝑖=1 𝑖=1
𝜇𝑡 = ∑ 𝑋̇𝑡𝑖 𝑖=1
𝑁𝑡
𝑖=1
319
𝐾
1
𝜇= ∑ 𝑀𝑜𝑡 𝜇𝑡
𝑀𝑜
𝑡=1
𝑛𝑡 = 𝑎𝑡 {(𝑁𝑡 − 1)𝑆𝑡2 + 𝑏𝑡 ∝𝑡 }
1
𝐾
𝑉(𝜇̂̇ )
𝑁𝑡
1 𝜇̂̇ = ∑ 𝑀𝑜𝑡 𝑋̅𝑖 𝐾 𝑁𝑡
𝜇𝑡 = ∑ 𝑀𝑡𝑖 𝜇𝑡𝑖 𝑀𝑜 𝑀𝑜𝑡 2 1 1 𝑀𝑡𝑖 2 𝑀𝑡𝑖 − 1 2 2
𝑡(∝,∞)
𝑡=1
𝑀𝑜𝑡 𝑘 = ∑( ) { ∑( ) 𝑆 𝑎𝑡 =
𝑖=1 𝑀𝑜𝑡 2 𝑠̇𝑡 𝑀𝑜 𝑛𝑡 𝑁𝑡 ̅𝑡 𝑀𝑡𝑖 𝑚𝑡𝑖 𝑡𝑖
𝑀 𝜖2
𝑛𝑡 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = ∑ ( ) 𝑡=1 𝑖=1 𝜇 2 𝑁𝑡
1 𝑀𝑜 𝑛𝑡 𝑀𝑜𝑡 2
𝐾( )
1
𝑀𝑡𝑖
𝑋̅̇𝑡 = ∑ 𝑋̇𝑡𝑖 𝑡=1 𝑁𝑡 − 1 2 𝑀𝑜
𝑛𝑀̅̇ + 𝑆𝑡𝑖 }
𝜇𝑡𝑖 = ∑ 𝑋𝑡𝑖𝑗 𝑡 𝑡 𝑖=1
𝑁𝑡
Muestreo bietápico, 𝑀𝑡𝑖 𝑛𝑡
𝑁𝑡
𝑗=1 1 1
equiprobable, con 𝑠̇𝑡2 = ∑ { (𝑀𝑡𝑖 𝑋̅̇𝑡𝑖 1
𝑏𝑡 = 2 ∑(𝑀𝑡𝑖 − 1)𝑆𝑡𝑖2
reemplazo y estratificado. 𝑚𝑡𝑖
𝑛𝑡 − 1 ̅̇𝑡
𝑀 𝑁𝑡 ̅
𝑀𝑡
𝐾 𝑖=1 2
1 2 1 𝑀𝑡𝑖 𝑖=1
𝑀𝑜 = ∑ 𝑀𝑜𝑡 𝑋̅̇𝑡𝑖 = ∑ 𝑋̇𝑡𝑖𝑗 ̅̇𝑡 𝑋̅̇𝑡 )}
𝑆𝑡2 = ∑{
̅𝑡
(𝜇𝑡𝑖 − 𝜇𝑡 )}
𝑚𝑡𝑖 −𝑀 𝑁𝑡 − 1 𝑀
𝑡=1 𝑗=1 𝑖=1 𝑀𝑡𝑖
𝑚𝑡𝑖 =
∝𝑡
̅𝑡
𝑀𝑜𝑡 = 𝑁𝑡 𝑀 𝑛𝑡 𝑀𝑡𝑖
1 1 2
̅̇𝑡 = ∑ 𝑀̇𝑡𝑖
𝑀 𝑆𝑡𝑖2 = ∑(𝑋𝑡𝑖𝑗 − 𝜇𝑡𝑖 ) 𝑁𝑡 𝑁𝑡 − 1 2
𝑁𝑡 𝑛𝑡 𝑀𝑡𝑖 − 1 1 ≤∝𝑡 ≤ − 𝑆𝑡
𝑖=1 𝑗=1
1 𝑎𝑡 𝑏𝑡 𝑏𝑡
̅𝑡 =
𝑀 ∑ 𝑀𝑡𝑖
𝑁𝑡
𝑖=1
𝑁
1 𝑠2
𝜇= ∑ 𝑋𝑖 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) = 1 2
𝑁 𝑛 𝑉(𝜇̂̇ ) = 𝜎
Muestreo monoetápico con 𝑖=1 𝑛 𝑛
1 𝑋̇𝑖 2
𝜎 2 𝑡(∝,∞)
probabilidades variables de 𝜇̂̇ = ∑ 𝑛 2 𝑛=
𝑁
𝑁𝑛 𝑃𝑖 1 𝑋̇𝑖 𝑁 2 𝜖 2 𝜇2
selección y con reemplazo 𝑖=1 𝑠̇ 2 = ∑( − 𝑁𝜇̂ ) 1 𝑋𝑖
∑ 𝑃𝑖 = 1 𝑁 2 (𝑛 − 1) 𝑃𝑖 2
𝜎 = 2 ∑ 𝑃𝑖 ( − 𝑁𝜇)
𝑖=1
𝑖=1 𝑁 𝑃𝑖
𝑖=1
320
𝑁𝑖
1 𝑛 = 𝑎(∝ 𝑏 + 𝜎 2 )
𝜇= ∑ 𝑀𝑖 𝜇𝑖
𝑀𝑜 𝑁
𝑖=1 2
1 𝑃𝑖 𝑡(∝,∞)
𝑉(𝜇̂̇ ) = 2
{∑ 𝜎𝑖2 + 𝜎 2 } 𝑎=
𝑀𝑡𝑖 𝑛 𝑀𝑜 𝑛 𝑚𝑖 𝑀𝑜2 𝜖 2 𝜇 2
𝑖=1
1 1 2
𝑠̇
𝜇𝑖 = ∑ 𝑋𝑖𝑗 𝜇̂̇ = ∑ 𝑋̅̇𝑖 𝐸𝑠𝑡. 𝑉(𝜇̂̇ ) =
Muestreo bietápico con 𝑀𝑡𝑖 𝑀𝑜 𝑛 𝑛 𝑁 𝑁
probabilidades variables de
𝑗=1 𝑖=1
𝑀𝑖 𝜇𝑖 2 𝑃𝑖 2
2
𝜎 = ∑ 𝑃𝑖 ( − 𝑀𝑜 𝜇) 𝑏=∑ 𝜎
selección en cada etapa con 𝑚𝑖 𝑛 𝑃𝑖 𝑀𝑖 𝑖
𝑁
𝑋̇𝑖𝑗 1 2 𝑖=1 𝑖=1
reemplazo 𝑋̅̇𝑖 =
1
∑ 𝑠̇ 2 = ∑(𝑋̅̇𝑖 − 𝑀𝑜 𝜇̂̇ )
𝑀𝑜 = ∑ 𝑀𝑖 𝑛−1
𝑚𝑖 𝑃𝑖𝑗 𝑖=1 𝑀𝑖 𝑀𝑖
𝑗=1 2
𝑖=1
𝑃𝑖𝑗 𝑋𝑖𝑗 𝑀𝑖 𝜇𝑖 𝑚𝑖 =
𝜎𝑖2 =∑ ( − ) ∝
𝑃𝑖 𝑃𝑖𝑗 𝑃𝑖
𝑀𝑜 𝑗=1
̅=
𝑀 𝑁 𝜎2
𝑁 1 ≤∝≤ −
𝑎𝑏 𝑏
Fuente: Sánchez et al. 1974.
321
VI.6.5 Práctica VIII
Planteamiento
Solución
a) Con 𝑥𝑖 = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
𝑁 𝑁! 10!
( ) = (𝑁−𝑛)!𝑛! = (10−2)!2! = 45 muestras de tamaño 2 y que constituyen la nueva distribución de
𝑛
muestreo, que son:
Tabla VI.13
Distribución de muestreo sin remplazo
Composición de la Media ∑(𝑥𝑖 − 𝑥̅ )2
Muestra
muestra
P(muestra)
Muestral 𝑠𝑖 = √
𝑛
1 0,1 1/45 0.5 0.5
2 0,2 1/45 1.0 1.0
3 0,3 1/45 1.5 1.5
4 0,4 1/45 2.0 2.0
5 0,5 1/45 2.5 2.5
6 0,6 1/45 3.0 3.0
7 0,7 1/45 3.5 3.5
8 0,8 1/45 4.0 4.0
9 0,9 1/45 4.5 4.5
322
10 1,2 1/45 1.5 0.5
11 1,3 1/45 2.0 1.0
12 1,4 1/45 2.5 1.5
13 1,5 1/45 3.0 2.0
14 1,6 1/45 3.5 2.5
15 1,7 1/45 4.0 3.0
Fuente: Investigación directa con datos hipotéticos.
Tabla VI.13
Distribución de muestreo sin remplazo(2)
∑(𝑥𝑖 − 𝑥̅ )2
Muestra
Composición de
P(muestra)
Media 𝑠𝑖 = √
la muestra Muestral 𝑛
16 1,8 1/45 4.5 3.5
17 1,9 1/45 5.0 4.0
18 2,3 1/45 2.5 0.5
19 2,4 1/45 3.0 1.0
20 2,5 1/45 3.5 1.5
21 2,6 1/45 4.0 2.0
22 2,7 1/45 2.5 2.5
23 2,8 1/45 5.0 .
24 2,9 1/45 5.5 .
25 3,4 1/45 3.5 .
26 3,5 1/45 4.0 .
27 3,6 1/45 4.5 .
28 3,7 1/45 5.0 .
29 3,8 1/45 5.5 .
30 3,9 1/45 6.0 .
31 4,5 1/45 4.5 .
32 4,6 1/45 5.0 .
33 4,7 1/45 5.5 .
34 4,8 1/45 6.0 .
35 4,9 1/45 6.5 .
36 5,6 1/45 5.5 .
37 5,7 1/45 6.0 .
38 5,8 1/45 6.5 .
39 5,9 1/45 7.0 .
40 6,7 1/45 6.5 .
41 6,8 1/45 7.0 .
42 6,9 1/45 7.5 .
43 7,8 1/45 7.5 .
44 7,9 1/45 8.0 .
45 8,9 1/45 8.5 .
1 202.5
Fuente: Investigación directa con datos hipotéticos.
323
Tabla VI.14
Distribución de muestras con reemplazo
𝒏𝒊 Composición 𝒏𝒊 Composición 𝒏𝒊 Composición 𝒏𝒊 Composición
1 0,0 26 2,5 51 5,0 76 7,5
2 0,1 27 2,6 52 5,1 77 7,6
3 0,2 28 2,7 53 5,2 78 7,7
4 0,3 29 2,8 54 5,3 79 7,8
5 0,4 30 2,9 55 5,4 80 7,9
6 0,5 31 3,0 56 5,5 81 8,0
7 0,6 32 3,1 57 5,6 82 8,1
8 0,7 33 3,2 58 5,7 83 8,2
9 0,8 34 3,3 59 5,8 84 8,3
10 0,9 35 3,4 60 5,9 85 8,4
11 1,0 36 3,5 61 6,0 86 8,5
12 1,1 37 3,6 62 6,1 87 8,6
13 1,2 38 3,7 63 6,2 88 8,7
Fuente: Investigación directa con datos hipotéticos
Tabla VI.14
Distribución de muestras con reemplazo(2)
𝒏𝒊 Composición 𝒏𝒊 Composición 𝒏𝒊 Composición 𝒏𝒊 Composición
14 1,3 39 3,8 64 6,3 89 8,8
15 1,4 40 3,9 65 6,4 90 8,9
16 1,5 41 4,0 66 6,5 91 9,0
17 1,6 42 4,1 67 6,6 92 9,1
18 1,7 43 4,2 68 6,7 93 9,2
19 1,8 44 4,3 69 6,8 94 9,3
20 1,9 45 4,4 70 6,9 95 9,4
21 2,0 46 4,5 71 7,0 96 9,5
22 2,1 47 4,6 72 7,1 97 9,6
23 2,2 48 4,7 73 7,2 98 9,7
24 2,3 49 4,8 74 7,3 99 9,8
25 2,4 50 4,9 75 7,4 100 9,9
Fuente: Investigación directa con datos hipotéticos
324
Tabla VI.15
Obtención de ∑(𝑥𝑖 − 𝜇)2 para el cálculo de la desviación estándar de la población.
𝑥𝑖 𝑥𝑖 − 𝜇 (𝑥𝑖 − 𝜇)2
0 -4.5 20.25
1 -3.5 12.25
2 -2.5 6.25
3 -1.5 2.25
4 -0.5 0.25
5 0.5 0.25
6 1.5 2.25
7 2.5 6.25
8 3.5 12.25
9 4.5 20.25
0 82.5
Fuente: Investigación directa con datos hipotéticos
Ahora, calculando
∑ 𝑥̅𝑖 202.5
𝜇𝑥̅ = 𝐸(𝑥̅𝑖 ) = = = 4.5
𝑛 45
𝑠𝑝 ≠ 𝜎𝑝
Solución:
𝑖 = 1, 2, … , 44, 45
Calculando como ilustración 𝑠1 y 𝑠45, porque el método de cálculo es el mismo para todas las 𝑠𝑖 , se
tiene:
325
∑(𝑥𝑖 − 𝑥̅ )2
𝑠𝑖 = √
𝑛
𝑠1 = √0.25 = 0.5
∑[(0 − 0.5)2 +(1 − 0.5)2 ]
𝑠1 = √
2 ∑[(8 − 8.5)2 +(9 − 8.5)2 ]
𝑠45 = √
2
∑[0.25 + 0.25]
𝑠1 = √
2 ∑[0.25 + 0.25]
𝑠45 = √
2
0.50
𝑠1 = √
2 0.50
𝑠45 = √
2
e) Al comparar los valores de 𝜇, 𝜎 con 𝑥̅𝑖 , 𝑠𝑖 , se ve que el valor de los parámetros es FIJO,
mientras que el de las "estadísticas" es variable puesto que esta en función de la
composición de cada muestra.
Tabla VI.16
Marco muestral obtenido en un muestreo sin reemplazo.
Número de muestra Composición de la muestra
1 0,1
2 0,2
3 0,3
4 0,4
5 0,5
6 0,6
7 0,7
8 0,8
. .
. .
. .
45 8,9
Fuente: Investigación directa con datos hipotéticos.
Así, a partir de la selección aleatoria que determinó la media muestral de los dígitos 8 y 0 se
determinan los límites de confianza con: 𝛼 = 0.05; 𝑍𝑥 = ±1.96
326
8+0
𝑥̅ = =4
2
∑[(8 − 4)2 + (0 − 42 )]
𝑠=√ = √16 = 4
2
𝜎 𝑁−𝑛
𝑥̅ ± 𝑍𝛼 𝜎𝑥 donde 𝜎𝑥̅ = √ = 1.92 del inciso c).
√𝑛 𝑁−1
Interpretación: hay una probabilidad del 95% de que el valor de se halle en el intervalo de 0.2368
a 7.7632, lo cual es cierto puesto que 𝜇𝑥̅ = 4.5 = 𝜇𝑥 .
10
𝑛= = 9.7 ≈ 10
1.025
Observaciones:
Con las dos fórmulas se obtiene el mismo resultado. Ello indica que el tamaño de la muestra debe
ser el del universo. Esto es así, no debe sorprender porque el universo es tan pequeño que la
muestra debe ser igual a 10 para que sea representativa.
327
Así, de 𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ se tiene que 𝜀 = 𝑍𝛼 𝜎𝑥̅ = (1.96)(1.91) = 3.7436; comparación: 𝜎𝑥̅ = 1.91 y
𝜀 = 3.7436, luego el error estándar, es menor que el error de muestreo o error permitido.
Pero si el error estándar (1.91) se usa en términos de probabilidad para cuantificar el error de
muestreo |𝑥̅ − 𝜇𝑥 |, entonces recuerde que idealmente éste último debe ser menor o igual que
𝜀 = 𝑒𝑟𝑟𝑜𝑟 𝑝𝑒𝑟𝑚𝑖𝑡𝑖𝑑𝑜 = 𝑍𝛼 𝜎𝑥̅ .
Del inciso b), se sabe que 𝜇𝑥 = 4.5 y del inciso f) se sabe que 𝑥̅ = 4 luego el error de muestreo
= |4 − 4.5| = |0.5| ≤ 3.7436 = 𝑒𝑟𝑟𝑜𝑟 𝑝𝑒𝑟𝑚𝑖𝑡𝑖𝑑𝑜. Es bueno el resultado.
328
VI.6.6 Práctica IX
Referencias:
Gráfica VI.6
Plano de la colonia del Valle del Distrito Federal
Obtenga:
𝑁 = 10 𝑚𝑎𝑛𝑧𝑎𝑛𝑎𝑠
2. La fracción del muestreo.
𝑛 2
𝐹𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜 = 𝐹 = = = 0.2
𝑁 10
3. Seleccione con la tabla de números aleatorios las dos manzanas que integren la muestra,
indique como son y como le hizo.
Suponga que fueron las manzanas 2 y 7, que cayeron en la muestra mediante el manejo ya
conocido de la tabla de números aleatorios.
Puesto que:
329
(40 − 38)2 + (36 − 38)2 (2)2 (−2)2 8
𝑠=√ =√ =√ =2
2 2 2
Se sabe que:
𝑡𝑁𝑠 𝑡𝑁𝑠
𝑁𝑥̅ − √1 − 𝐹 ≤ 𝑌̂ ≤ 𝑁𝑥̅ + √1 − 𝐹
√𝑛 √𝑛
Sustituyendo
(2)(10)(2) (2)(10)(2)
380 − √1 − 0.2 ≤ 𝑌̂ ≤ 380 +
√2 √2
40 40
380 − √0.8 ≤ 𝑌̂ ≤ 380 + √0.8
√2 √2
354.84 ≤ 𝑌̂ ≤ 405.16
Interpretación:
El total estimado de familias Y, se halla entre 355 y 405 familias con una probabilidad o seguridad
del 95.45%.
330
2. APLICACIÓN DEL MUESTREO ALEATORIO ESTRATIFICADO:
Referencias: El canal 22 de televisión ha sido puesto en venta y la empresa "Escorpión" que está
interesado en adquirirlo decidió hacer una encuesta para conocer el número de horas que el público
ve televisión y de ahí saber cuántos hogares (mediante entrevistas) ven el canal 22.
La empresa Escorpión puede producir estimaciones por separado es decir, puede estratificar para
estimar el número promedio de horas que se ve televisión en cada estrato, ya que, la información
disponible revela que hay tres estratos que componen el universo o población con:
Tabla VI.17
Población y muestra de los estratos de cada estrato.
Población Muestra Estrato
𝑵 𝑛 Hogares
𝑵𝟏 = 𝟏𝟖𝟎 𝒉𝒐𝒈𝒂𝒓𝒆𝒔 𝑛1 = 15 ℎ𝑜𝑔𝑎𝑟𝑒𝑠 1
𝑵𝟐 = 𝟕𝟎 𝒉𝒐𝒈𝒂𝒓𝒆𝒔 𝑛2 = 4 ℎ𝑜𝑔𝑎𝑟𝑒𝑠 2
𝑵𝟑 = 𝟏𝟎𝟎 𝒉𝒐𝒈𝒂𝒓𝒆𝒔 𝑛3 = 5 ℎ𝑜𝑔𝑎𝑟𝑒𝑠 3
𝑻𝒐𝒕𝒂𝒍 = 𝟑𝟓𝟎 𝑇𝑜𝑡𝑎𝑙 = 24
Fuente: Investigación directa con datos hipotéticos.
Tabla VI.18
Tiempo que se ve televisión en cada estrato.
(Horas por semana)
Estrato 1 Estrato 2 Estrato 3
30, 27, 40 4, 49 9, 20
45, 26, 35 25, 30 11, 34
33, 29, 37 24
34, 25, 41
43, 32, 31
Fuente: Investigación directa con datos hipotéticos.
a) 𝑥̅𝑖 , 𝑠𝑖 con 𝑖 = 1, 2, 3
Tabla VI.19
Resumen de 𝑥̅𝑖 𝑦 𝑠𝑖 para cada estrato.
Estrato 1 Estrato 2 Estrato 3
𝑵𝟏 = 𝟏𝟖𝟎 𝑁2 = 70 𝑁3 = 100
𝒏𝟏 = 𝟏𝟓 𝑛2 = 4 𝑛3 = 5
̅𝟏 = 𝟑𝟒
𝒙 𝑥̅2 = 27 𝑥̅3 = 20
𝒔𝟏 = 𝟔. 𝟎𝟑 𝑠2 = 16.01 𝑠3 = 9.1
Fuente: Investigación directa con datos hipotéticos.
331
30 + 27 + 40 + 45 + 26 + 35 + 33 + 29 + 37 + 34 + 25 + 41 + 43 + 32 + 31
𝑥̅1 =
15
508
𝑥̅1 = = 33.86 ≅ 34
15
∑(𝑥𝑖 − 𝑥̅ )2 546
𝑠1 = √ =√ = 6.03
𝑛 15
Tabla VI.20
Obteniendo ∑(𝑥𝑖 − 𝑥̅ )2 para 𝑠1
𝑥1 𝑥𝑖 − 𝑥̅ (𝑥𝑖 − 𝑥̅ )2
30 30 − 34 = −4 16
27 27 − 34 = −7 49
40 40 − 34 = 6 36
45 45 − 34 = 11 121
26 26 − 34 = −8 64
35 35 − 34 = 1 1
33 33 − 34 = −1 1
29 29 − 34 = −5 25
37 37 − 34 = 3 9
34 34 − 34 = 0 0
25 25 − 34 = −9 81
41 41 − 34 = 7 49
43 43 − 34 = 9 81
32 32 − 34 = −2 4
31 31 − 34 = −3 9
∑(𝑥𝑖 − 𝑥̅ )2 = 546
Fuente: Investigación directa con datos hipotéticos
4 + 49 + 25 + 30 108
𝑥̅2 = = = 27
4 4
∑(𝑥𝑖 − 𝑥̅ )2 1026
𝑠2 = √ =√ = 16.01
𝑛 4
Tabla VI.21
Obteniendo ∑(𝑥𝑖 − 𝑥̅ )2 para 𝑠2
𝑥1 𝑥𝑖 − 𝑥̅ (𝑥𝑖 − 𝑥̅ )2
4 4 − 27 = −23 529
49 49 − 27 = 22 484
25 25 − 27 = −2 4
332
30 30 − 27 = 3 9
∑(𝑥𝑖 − 𝑥̅ )2 = 1026
Fuente: Investigación directa con datos hipotéticos
9 + 20 + 11 + 34 + 24 98
𝑥̅3 = = = 19.6 ≅ 20
5 5
∑(𝑥𝑖 − 𝑥̅ )2 414
𝑠3 = √ =√ = 9.1
𝑛 5
Tabla VI.22
Obteniendo ∑(𝑥𝑖 − 𝑥̅ )2 para 𝑠3
𝑥1 𝑥𝑖 − 𝑥̅ (𝑥𝑖 − 𝑥̅ )2
9 9 − 20 = −11 121
20 20 − 20 = 0 0
11 11 − 20 = −9 81
34 34 − 20 = 14 196
24 24 − 20 = 4 16
∑(𝑥𝑖 − 𝑥̅ )2 = 414
Fuente: Investigación directa con datos hipotéticos
3
1 1
𝑋̿𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠 = ∑ 𝑁𝑖 𝑥̅𝑖 = [𝑁1 𝑥̅1 + 𝑁2 𝑥̅2 + 𝑁3 𝑥̅3 ]
𝑁 𝑁
𝑖=1
1
𝑋̿ = [(180)(34) + (70)(27) + (100)(20)]
350
1
𝑋̿ = [6120 + 1890 + 2000]
350
1
𝑋̿ = [10 010] = 28.6 ≅ 29 ℎ𝑜𝑟𝑎𝑠
350
333
1
𝑉(𝑋̿) = [399.96 + 4229.28 + 1 573.9]
122 500
1
𝑉(𝑋̿) = [6 202.63] = 0.0506
122 500
29 ± 2√0.0506
Interpretación:
Usando el muestreo aleatorio estratificado se ha estimado que el número promedio de horas por
semana que se ve televisión en todos los hogares es de 29 horas, el error de estimación permitido es
de 0.44 horas, con una probabilidad de 95.45% .
Calificación:
334
Examen sobre los conceptos básicos de muestreo
¿Con qué fórmula se obtiene el tamaño de la muestra probabilística cuando no se conoce o dispone
de ningún dato estadístico?
1
Respuesta: 𝑛 = 𝜀2 , donde 𝑒 es el error permitido al cuadrado.
Al trabajar con estadística de atributos, usando el método del muestreo simple aleatorio, se sabe que
la fórmula del error permitido para 𝑝 = 0.5 es
𝑝𝑞
Respuesta: 𝜀 = √ 𝑛 ∗ 𝑍𝛼 , 𝑑𝑖𝑐ℎ𝑜 𝑒𝑛 𝑜𝑡𝑟𝑎 𝑓𝑜𝑟𝑚𝑎 𝜀 = 𝜎𝑝 ∗ 𝑍𝛼
Respuesta:
Primero usted debe de observar que 𝑍𝛼 está dentro del radical de la raíz cuadrada, lo cual debe
causarle extrañeza porque no es congruente con la otra fórmula, por lo que debe hacerlo notar e
indicar que ante la duda sacará 𝑍𝛼 del radical. Así, los cálculos son:
(0.5)(0.5)
𝜀=√ ∗ 1.65
400
𝜀 = (0.025)(1.65) = 0.04125
𝑥̅ −𝜇𝑥 𝜎𝑥 𝑥̅ −𝜇𝑥
Respuesta: 𝜀 = 𝑍𝛼 𝜎𝑥̅ = 𝜎𝑥̅
∗ = 𝜎𝑥̅ = |𝑥̅ − 𝜇𝑥 |
√𝑛 𝜎𝑥̅
Derivado de la pregunta 3, determine e interprete el intervalo de confianza dentro del que se halla
𝜇𝑥 : consumo promedio de leche diario por familia en el Distrito Federal, sabiendo que INEGI con
una muestra simple aleatoria de 36 familias encontró que cada una de ellas consume 2 litros de
leche/día en promedio y que por estudios previos la 𝜎 = 0.2 𝑙𝑖𝑡𝑟𝑜𝑠 𝑝𝑜𝑟 𝑑í𝑎. Así, con 𝛼 = 0.045 y
𝜎𝑥 0.2
por ello 𝑍𝛼 = ±2, 𝜎𝑥̅ = = = 0.03 para una población infinita, si lo usa porque no se conoce
√𝑛 √36
𝑁:
Respuesta
Interpretación: El consumo promedio 𝜇𝑥 se halla entre 1.94 y 2.06 litros/día por familia, con una
seguridad o probabilidad del 0.955.
𝑘
𝑁𝑖 −𝑛𝑖
𝜎𝑝 = √∑ 𝑤𝑖2 𝑠𝑖2
𝑁𝑖 ∗ 𝑛𝑖
𝑙
Respuesta:
𝑘
𝑁𝑖 −𝑛𝑖 ∑ 𝑤𝑖2 𝑠𝑖2 𝑁𝑖 − 𝑛𝑖 ∑ 𝑤𝑖2 𝑠𝑖2
𝜎𝑝2 = √∑ 𝑤𝑖2 𝑠𝑖2 =
𝑁𝑖 ∗ 𝑛𝑖 𝑁𝑖 ∗ 𝑛𝑖
𝑙
𝑘 𝑘
𝑘 𝑘
Entonces:
𝑘 𝑘
𝑁𝑖 ∑𝑘𝑙 𝑤𝑖2 𝑝𝑞
𝑛𝑖 =
𝜎𝑝2 𝑁𝑖 + ∑𝑘𝑙 𝑤𝑖2 𝑝𝑞
De los métodos de muestreo vistos en el curso, ¿Cuál de ellos es el que produce valores más exactos
de los estimadores del valor de los parámetros del universo? ¿por qué y con qué indicador
estadístico cuantifica dicha exactitud?
336
Respuesta: el método del muestreo estratificado produce un error estándar más pequeño que el de
los otros métodos de muestreo.
Obtenga su 𝜇𝑥 y 𝜎𝑥
Respuesta:
1 + 2 + 3 + 4 10
𝜇𝑥 = = = 2.5
4 4
𝜎𝑥 = √1.25 = 1.11
Con los datos anteriores del universo y considerando un muestreo sin reemplazo, determine el
número de muestras posibles de tamaño 2 que se pueden obtener, la composición de cada una de
ellas, la 𝜇𝑥̅ y 𝜎𝑥̅ .
Respuesta:
𝑁 𝑁!
Con ( ) = 𝑛!(𝑁−𝑛)! = 6 muestras posibles de tamaño 2, ellas son:
𝑛
Tabla VI.23
Composición y 𝜇𝑥̅ de 6 muestras posibles de tamaño 2 sin reemplazo.
Muestra Composición Media muestral
1 1,2 1.5
2 1,3 2.0
3 1,4 2.5
4 2,3 2.5
5 2,4 3.0
6 3,4 3.5
Fuente: Investigación directa con datos hipotéticos.
15
𝜇𝑥̅ = 𝐸(𝑚𝑒𝑑𝑖𝑎𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠) = = 2.5 = 𝜇𝑥 = 𝜇
6
𝜎𝑥 1.11
𝜎𝑥̅ = = 1.41 = 0.7 para una población infinita; si se multiplica por el corrector finito de esta
√𝑛
población finita, entonces 𝜎𝑥̅ = 0.6478.
Analice, compare e interprete la relación diferencia que existe entre 𝜇𝑥 con 𝜇𝑥̅ y 𝜎𝑥 con 𝜎𝑥̅ .
Respuesta:
La media 𝜇𝑥 del universo 𝑁 es igual a la esperanza matemática que se define como la media de las
medias muestrales 𝜇𝑥̅ . El valor de la desviación estándar 𝜎𝑥 de 𝑁 difiere del valor de la desviación
337
de la nueva distribución de muestras, 𝜎𝑥̅ , llamada error estándar para indicar que proviene de
valores muestrales y no de los valores poblacionales.
Compare e interprete los valores de las medias muestrales con 𝜇𝑥 y los de 𝑠𝑖 (desviación estándar de
cada muestra) con 𝜎𝑥 .
Respuesta:
Los valores de los parámetros del universo 𝜇𝑥 y 𝜎𝑥 son fijos en tanto que los valores muestrales
son variables porque dependen de la composición de cada una de las muestras.
Establezca y explique la relación entre el error de muestreo |𝜇 − 𝑥̅ | con el error permitido 𝜀|𝜇| y el
error estándar 𝜎𝑥̅ .
Respuesta:
Error de muestreo= |𝜇 − 𝑥̅ | debe ser menor o igual al máximo error de variación permitido 𝜀|𝜇|;
es decir 𝜀|𝜇| ≥ |𝜇 − 𝑥̅ | . El error de muestreo se calcula con la fórmula del error estándar 𝜎𝑥̅ del
método de muestreo que se esté usando para seleccionar la muestra; 𝜎𝑥̅ en estadística de variables y
𝜎𝑝 en estadística de atributos.
SELECCIÓN ALEATORIA
De acuerdo a la base de datos, se cuenta con una población de 1,080 estudiantes (𝑁 = 1,080),
pero solo se desea trabajar con una muestra de 50 estudiantes (𝑛 = 50), cuya información permite
aplicar las diferentes fórmulas, correspondiente a medidas (Tendencia Central y de Dispersión), que
son necesarias en el análisis de la información recolectada.
Se verán los dos métodos de SELECCIÓN ALEATORIA que ofrece EXCEL 2013
PASOS
1. En una hoja nueva de Excel abre el cuadro de dialogo: insertar función, enseguida
despliega el menú de: o seleccionar una categoría y da clic en matemáticas y
trigonométricas. En el cuadro de dialogo inferior busca la función
ALEATORIO.ENTRE/clic. Finalmente da clic en el botón Aceptar.
338
Cuadro VI.1
Cuadro insertar función para generar números aleatorios
2. El cuadro Argumentos de función requiere de los datos inferior y superior, éste es el rango
de donde la función tomará un número al azar. Nuestra población es de 1,080 estudiantes,
numerados del 0001 (límite inferior) hasta 1,080 (límite superior); por lo que se debe digitar
estas cifras en las casillas del cuadro/clic en Aceptar.
Cuadro VI.2
Selección de datos para la generación de números aleatorios
3. La acción anterior arroja el número 1046 (este número cambiara cada vez que se repita la
operación anterior).
Cuadro VI.3
Números aleatorios con fx
Cuadro VI.4
Resultado de generar 50 números aleatorios (𝑛 = 50)
5. Para analizar la muestra compuesta de los números aleatorios anteriores se debe buscar en
la base de datos cada uno y formar una nueva tabulación, para ello Excel ofrece la función
Buscar y remplazar la cual busca coincidencias en las celdas en una hoja de cálculo o un
rango seleccionado.
Finalmente da clic en Buscar todos. Excel te dirige a la celda que coincide con lo
especificado.
Cuadro VI.5
Búsqueda de los números aleatorios en la base de datos
6. Repetir el paso 5 para buscar el registro de cada número aleatorio en la base de datos.
340
Con esta muestra de 50 datos perteneciente a los registros que se deben tomar para la muestra se
hace la siguiente tabla:
Cuadro VI.5
Tabulación de la muestra por registros
Promedio
No. No. #
calificación Actualmente Calificaciones Edad Estatura Peso
orden Facultad Sexo hermanos libros
matemáticas trabaja ICFES (años) (Cm) (Kg)
leídos
11 2 1 8 5 3.6 1 320 20 168 65
12 3 1 6 3 3.6 2 330 18 174 78
35 2 2 0 7 3.6 1 280 22 155 60
40 3 2 0 6 3.6 2 280 17 148 46
69 3 1 8 8 3.6 2 240 21 169 84
98 1 2 2 2 3.6 1 320 17 174 68
119 1 2 1 1 4.2 2 370 20 169 66
138 1 1 0 2 3.5 1 320 20 170 76
147 3 1 1 8 5.0 1 310 17 174 83
233 3 1 1 3 3.2 2 310 22 169 72
243 3 2 4 2 3.1 2 320 24 172 69
Fuente: Datos de (Martínez, 2005:28)
Cuadro VI.5
Tabulación de la muestra por registros
Promedio
#
No. No. calificació Pes
libro Edad
orde Faculta Sex herman n Actualmen Calificacion Estatur o
s (años
n d o os matemátic te trabaja es ICFES a (Cm) (Kg
leído )
as )
s
261 3 1 0 3 3.0 2 290 17 171 82
284 1 2 12 2 2.8 1 280 21 166 55
293 1 1 1 3 3.4 2 280 23 178 82
312 3 2 0 1 4.7 1 335 23 166 60
316 3 1 3 2 3.2 1 380 18 154 64
323 2 2 2 12 4.2 2 300 18 170 64
339 3 2 2 6 3.8 2 315 19 180 70
361 2 1 3 4 2.6 1 410 18 140 46
401 3 1 3 5 4.1 2 320 16 170 72
435 3 2 3 3 3.1 1 280 19 154 50
456 1 1 0 2 4.0 2 350 19 162 69
487 2 2 1 8 3.0 2 300 18 170 64
488 2 1 8 12 3.8 1 320 17 172 86
530 1 2 2 6 3.4 1 240 20 166 60
556 2 1 0 4 3.8 1 300 19 166 64
560 3 1 0 3 4.1 1 380 30 169 72
616 3 2 0 3 3.8 2 265 19 156 54
667 2 2 1 8 3.0 2 300 18 170 64
687 3 1 1 8 5.0 1 310 17 174 83
689 1 1 6 3 2.6 1 320 20 178 88
701 3 1 2 4 4.0 2 400 18 170 78
707 3 2 4 10 3.8 2 290 31 168 70
341
718 1 1 6 10 3.8 1 325 17 172 75
751 1 1 6 4 4.1 2 280 20 162 68
765 1 2 2 11 4.6 2 400 24 165 60
773 3 1 1 3 3.2 2 310 22 169 72
851 3 2 6 12 4.6 1 330 20 171 66
876 3 2 6 2 4.0 2 380 20 165 58
886 1 2 2 8 3.6 1 270 28 190 70
946 2 2 0 8 3.5 1 370 28 172 61
951 3 1 1 1 2.8 1 290 24 171 79
963 3 2 4 2 3.1 2 320 24 172 69
969 3 1 8 8 3.6 2 240 21 169 84
984 2 2 7 4 3.8 1 380 20 180 70
993 1 1 6 6 2.4 1 310 30 176 85
1003 3 2 10 4 2.1 2 260 20 164 60
1007 1 1 0 6 4.1 1 320 16 180 88
1046 1 2 2 2 4.6 2 315 18 166 60
1057 1 1 5 2 3.6 2 420 26 178 88
Fuente: Investigación directa con datos de (Martínez, 2005:28)
Pasos:
NOTA: si desea que los datos aparezcan en 10 columnas y 5 filas deberá colocar estos números
en los incisos a) y b) respectivamente.
c) Distribución: en esta celda hay varias opciones (uniforme, normal, Bernoulli, Binomial
Poisson, Frecuencia Relativa, Discreta). Selecciona la opción UNIFORME.
d) Aparece un espacio que indica Parámetros, en las casillas digita 0001 y 1080, que son los
correspondientes a la primera y última observación de la población a estudiar.
e) En la parte Iniciar con, se fija un número cualquiera con el cual se inicia la selección. Si
este mismo número de inicio se usa en otro equipo PC, para la misma población, se
generaran los mismos números aleatorios, ya que existe una regla de generación, para
todos los PC, de ahí que se recomienda cambiar el número de inicio en cada PC. Para este
ejemplo se pondrá 0486.
342
f) Finalmente elige la Opciones de salida que más te convenga. En este caso se selecciona
Rango de salida: $A$1/ clic en Aceptar.
Cuadro VI.
Generación de números aleatorios con Análisis de Datos
2. El resultado final se muestra en el siguiente cuadro. Si los números que arroja la función
están en decimal deberá seleccionar los datos y en la pestaña Inicio en el grupo Número
selecciona Disminuir decimales y da clic hasta que sean números enteros.
Cuadro VI.
Resultado de generar 50 números aleatorios con Análisis de Datos
3. Para buscar el registro de los números anteriores procede como lo indican los Pasos 5 y 6
del primer método.
343
CAPÍTULO VII. ESTIMACIÓN DE PARÁMETROS
VII.1 Definición
̅ 𝑆) cuyo valor
Estimación es el proceso mediante el cual se obtiene un "estadístico muestral" (𝑋,
estima el valor del parámetro desconocido (𝜇, 𝜎). Un parámetro se puede estimar de dos maneras:
1.- Estimación de un punto: Es la estimación que se hace del valor que puede tomar en el tiempo
o en el espacio una variable, asumiendo un valor único
Ejemplo:
Supóngase que se toma una muestra sobre el precio del litro de leche en un lugar determinado,
el cual varía de la siguiente forma: 28, 29 y 32 pesos. Con base en lo anterior se estima que el
valor del litro de leche es de $30.00.
Ejemplo : Partiendo de los datos del ejemplo anterior, el precio promedio de un litro de leche se
encuentra entre $29.00 y $31, en este caso a diferencia de la estimación de punto existe la ventaja
de que se establece un nivel de confianza deseado, por ejemplo, podría ser del 90%, 95%, etc.
Donde el límite inferior del intervalo es : ̅X − ZασX̅ por lo cual el límite superior es ̅X + ZασX̅ . El
nivel de confianza = 1- 𝛼
344
𝛼 = Márgen de error
𝑋̅ = Media muestral
𝜎𝑋̅ = Error estándar, cuya fórmula ( Shao, 1975: 285 y 344) en el muestreo simple aleatorio es:
Luego, para calcular el intervalo de confianza que contenga a µ, es necesario conocer 𝑋̅, 𝑛 𝑦 𝜎.
De (1) se tiene:
̅
X − Z∝ σX̅ Límite inferior del intervalo
̅
X + Z∝ σX̅ Límite superior del intervalo
Del Apéndice A se presentan a continuación los valores usados con mayor frecuencia:
Tabla VII.1
Valores usados con mayor frecuencia
𝑍∝ 1.0 1.96 2.0 3.0
𝛽 0.68 0.95 0.955 0.997
𝛼 0.32 0.05 0.045 0.003
Fuente: Investigación directa con datos hipotéticos
Se desea estimar el ingreso medio de los trabajadores de la compañía Sagitario , con el fin de
estudiar las condiciones de trabajo de los empleados y en su caso pedir la revisión del contrato. Para
ello, se selecciona una muestra aleatoria de 49 trabajadores cuyo ingreso medio resultó ser de
$5,500.00/mes.
Estudios previos realizados por la Facultad de Economía -UNAM-, en esta empresa señalan que la
σ del universo es de $700.00/mes.
𝑛 = 49
𝜎 = 700
𝑋̅ = $5,500.00
𝛼 = 0.05 𝑜 5%
𝑍𝛼 = ±1.96
345
𝛽 ( 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎) = 0.95 𝑜 95%
𝑋̅ ± 𝑍𝛼 𝜎𝑋̅
𝜎 700 700
𝜎𝑋̅ = = = = 100
√𝑛 √49 7
Sustituyendo:
Interpretación: El ingreso medio de los trabajadores de la Cía. Sagitario, se halla entre los
$5,304.00 y los $5,696.00 con una probabilidad del 95%.
Gráficamente:
Gráfica VII.1
Límites de confianza del ingreso medio de los Trabajadores de Sagitario
Se desea estimar el gasto medio mensual en libros, del universo de estudiantes de la Universidad de
Aguascalientes, con un nivel de significación del 5% y una muestra de 100 estudiantes
seleccionados al azar, cuyo gasto medio mensual es de $288.000. La experiencia señala que la
población tiene una desviación estándar de $20.
𝑋̅ = $288.00
346
n = 100 estudiantes
𝜎 = $20.00
𝛼 = 0.05 𝑜 5 %
𝛽 = 95%
Luego: 𝑍𝛼 = ±1.96
Y
𝜎 20 20
𝜎𝑋̅ = = = =2
√𝑛 √100 10
Por lo tanto límites de confianza = 𝑋̅ ± 𝑍𝛼 𝜎𝑋̅
= $288 ± (1.96)(2)
= $288 ± 3.92
Interpretación Se estima que el gasto medio mensual en libros del universo constituidos por
estudiantes, se halla entre $284.08 y los $291.92.
Gráficamente:
Gráfica VII.2
Límites de confianza del gasto medio en libros de los estudiantes
347
VII.2 Desigualdad de Tchebycheff
VII.2.1 Definición
Así, con el fin de evaluar su bondad estadística, a continuación se expone la normal para después
compararla con esta desigualdad. Así, como se ha visto, con el uso de la distribución normal, se
𝑥−µ
sabe que con 𝑍 = 𝜎
es posible conocer cierta porción o área de una distribución en el rango o
intervalo 𝑥 −µ.
μ = $15.00/𝐾𝑔.
𝑥 = $14.00 / 𝐾𝑔.
𝜎 = $1.00
𝑥−μ 14 − 15
𝑍= = = −1
𝜎 1
Gráficamente:
Gráfica VII.3.
Límites de confianza de los precios
348
Ahora bien cuando no se conoce la forma o características de la distribución, pero se conocen µ y σ,
se usa la desigualdad de TCHEBYCHEFF para determinar el área bajo la curva o masa de datos de
la distribución, cuya fórmula es:
1
𝑃(|𝑥 − 𝜇| ≥ 𝐾𝜎) ≤
𝐾2
Luego si se define 𝐾 como el número de desviaciones estándar, siempre que K sea mayor que 1,
entonces se puede calcular el área de la distribución de datos comprendida entre 𝜇 y 𝐾𝜎; la
interpretación es: la probabilidad de que un valor aleatorio (𝑥𝑖 ) de la distribución esté a una
1
distancia igual o mayor de 𝐾 desviaciones estándar de la media, cuando mucho es: 𝐾2
De acuerdo con lo anterior en todos los casos la probabilidad de datos de la distribución situada a
dos desviaciones estándar es 25%, independientemente de la forma de la distribución (Richmond,
1964).
Otra interpretación sería que el 75% es la porción mínima de la distribución que se halla a una
distancia comprendida dentro de 2𝜎 de la media. En este caso, la fórmula sería:
1
1− = 𝐾𝜎 𝑑𝑒 𝜇
𝐾2
Comparando lo anterior con la distribución normal, se recordará que en la distancia de 2𝜎 𝑑𝑒 𝜇, se
halla el 95.5% de la masa de distribución, que es mucho mayor que los limites mínimos dados por
la desigualdad de TCHEBYCHEFF, situación atribuible a que dispone de menos información que la
normal.
Tabla VII.2.
Porcentaje del área de la distribución dentro de 𝐾𝜎 𝑑𝑒 𝜇
Porcentaje mínimo
𝑥−𝜇 dentro de 𝐾𝜎
𝑍=𝐾= Distribución Normal 1
𝜎
1− 2
𝐾
1 68.27% 0%
2 95.45% 75 %
3 99.73% 88.89 %
4 99.99% 93.75 %
Fuente: Investigación directa con datos de Richmond.
349
Ejemplo -: Si se conoce la distribución del ingreso familiar en Pochutla, Oaxaca, tal que el ingreso
medio mensual por familia es de $10,000.00 con una desviación estándar de $3,000.00 y se desea
conocer el rango que incluya cuando mucho al 50% de los ingresos familiares. Con la desigualdad
de TCHEBYCHEFF se puede calcular el rango solicitado:
1
1− = 0.5
𝐾2
𝐾2 = 2
𝐾 = 1.41
Luego:
$10,000.00 ± 0.67σ
$10,000.00 ± 0.67(3,000)
$10,000.00 ± $2,010.00
𝑅𝑎𝑛𝑔𝑜 𝑑𝑒: $7,990.00 𝑎 $12,010.00
Gráficamente:
Gráfica VII.4.
Límites de Confianza del Ingreso Familiar
350
VII.3 Propiedades de los estimadores
Así, un estimador insesgado es un estadístico cuyo valor esperado es igual al valor del parámetro
que se está estimando. Cabe advertir que este término tiene un significado estadístico específico, y
que una estimación de una cantidad calculada a partir de un estimador insesgado puede carecer de
sesgo en el sentido estadístico, pero puede estar sesgado en el sentido más general de la palabra si la
muestra se ha visto afectada por un error sistemático desconocido. Por lo tanto, en sentido
estadístico, un estimador sesgado, puede entenderse como una deficiencia en la evaluación
estadística de los datos reunidos, y no en los datos propiamente dichos o en el método utilizado para
medirlos o recopilarlos. Por ejemplo, la media aritmética (promedio) 𝑋̅ es un estimador insesgado
del valor esperado (media). En resumen, son aquéllos cuya esperanza matemática es igual al
parámetro poblacional. Así, con una población constituida por 1, 2, 3, 3, 4, 5 (Shao: 1975) se dice
que:
Tabla VII.3
Salarios de los Trabajadores
Trabajador 𝑆𝑎𝑙𝑎𝑟𝑖𝑜
(𝑋) 𝑥 = 𝑋 − 𝜇 𝑥 = (𝑋 − 𝜇)2
ℎ𝑟𝑠
A 1 -2 4
B 2 -1 1
C 3 0 0
D 3 0 0
E 4 1 1
F 5 2 4
SUMA 18 0 10
Fuente: Investigación directa con datos hipotéticos
351
Así se empieza calculando los valores de los parámetros:
Ʃ𝑋𝑖 18
𝜇𝑥 = = = 3.
𝑁 6
Se aprovecha para calcular también
Probar si la varianza muestral (𝑆 2 ) es un estimador insesgado de 𝜎𝑥2 sabiendo que esta última tiene
un valor de 2; en un muestreo sin reemplazo y con 𝑥𝑖 = 𝑥 − 𝑥̅ se sabe que con 𝑛 = 4 𝑦 𝑁 = 6 se
obtienen 15 muestras para estimar los parámetros poblacionales, cuya composición, media
aritmética y varianza son las siguientes (Shao, 1975: 357):
Tabla VII. 4
Varianza Muestral
Media Varianza sesgada Varianza insesgada
Muestras 𝑋𝑖 ∑ 𝑥𝑖2 ∑ 𝑥2
muestral 𝑋̅𝑖 2
𝑆 = 𝑆̂ 2 = 𝑖
𝑛 𝑛−1
1, 2, 3, 3, 2.25 2.75 ÷ 4 2.75 ÷ 3
1, 2, 3, 4, 2.5 5 ÷ 4 5 ÷ 3
1, 2, 3, 5, 2.75 8.75 ÷ 4 8.75 ÷ 3
1, 2, 3, 4, 2.5 5 ÷ 4 5 ÷ 3
1, 2, 3, 5, 2.75 8.75 ÷ 4 8.75 ÷ 3
1, 2, 3, 5, 3 10 ÷ 4 10 ÷ 3
1, 2, 3, 4, 2.75 4.75 ÷ 4 4.75 ÷ 3
1, 2, 3, 5, 3 8 ÷ 4 8 ÷ 3
1, 2, 3, 5, 3.25 8.75 ÷ 4 8.75 ÷ 3
1, 2, 3, 5, 3.25 8.75 ÷ 4 8.75 ÷ 3
1, 2, 3, 4, 3 2 ÷ 4 2 ÷ 3
1, 2, 3, 5, 3.25 4.75 ÷ 4 4.75 ÷ 3
1, 2, 3, 5, 3.5 5 ÷ 4 5 ÷ 3
1, 2, 3, 5, 3.5 5 ÷ 4 5 ÷ 3
1, 2, 3, 5, 3.75 2.75 ÷ 4 2.75 ÷ 3
Total 15 45 90⁄4 = 22.5 90⁄3 = 30
Fuente: Datos de Shao (1975)
45 22.5 30
𝐸(𝑋̅ ) = = 3 ; 𝐸(𝑆 2 ) = = 1.5 ; 𝐸(𝑆̂ 2 ) = =2
15 15 15
10
Ya se sabe que: 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠: 𝜇𝑥 = 3 ; 𝜎𝑥2 = 1.67 ; 𝜎̂𝑥2 = 5
= 2, .
En la siguiente tabla se muestra el cálculo de las varianzas de cada una de las muestras, ilustrándolo
para la primera muestra:
352
Tabla VII.5.
Varianzas de cada una de las muestras
Xi (𝑋𝑖 − 𝑋̅) (𝑋𝑖 − 𝑋̅)2
1 -1.25 1.5625
2 -0.25 0.0625
3 0.75 0.5625
3 0.75 0.5625
Ʃ =9 Ʃ= 0 Ʃ = 2.75
Fuente: Investigación directa con datos hipotéticos
9
𝑥̅𝑖 = = 2.25
4
2.750
𝑆1 2 = = 0.6825
4
Así se calculan para las restantes 14 varianzas
1ª. Conclusión
𝐸(𝑋̅) = 𝜇𝑥 = 3
2ª Conclusión
𝑆 2 no es un estimador insesgado de 𝜎𝑥2 porque su esperanza matemática es diferente del valor del
parámetro poblacional.
𝐸(𝑆 2 ) ≠ 𝜎𝑥2
3a. Conclusión
Dónde:
∑(𝑥𝑖 − 𝑥̅ )2
𝐸(𝑆̂ 2 ) = =2
𝑛−1
∑(𝑥𝑖 − 𝜇)2
𝜎̂𝑥2 = =2
𝑁−1
Con:
𝑁 = 1,2,3 ; 𝜇𝑥 = 2; 𝜎𝑥 = 0.67
TablaVII.6.
Cálculo de Medias y Varianzas muestrales.
Composición de Media muestral Varianza muestral
las muestras Sesgada Insesgada
1, 2 1.50 0.50 ÷ 2 0.50 ÷ 1
1, 3 2.00 2.00 ÷ 2 2.00 ÷ 1
2, 3 2.50 0.50 ÷ 2 0.50 ÷ 1
Ʃ 6 3 3
2 1
Fuente: Investigación directa com datos hipotéticos
6 1.5 3
𝜇𝑥 = 𝐸( X ) = 2 ; 𝐸(𝑆 2 ) = = 0.50, 𝐸(𝑆̂ 2 ) = =1
3 3 3
En cambio, si
∑(𝑥𝑖 − 𝜇)2 2
𝜎̂𝑥2 = = =1
𝑁−1 2
Luego
En el capítulo de las distribuciones discretas de probabilidad se indicó que la diferencia entre las
variables discretas es que éstas no se pueden medir en tiempo, espacio o peso, siendo sus cualidades
o atributos las que lo determinan, que este tipo de variables también se les conozca como estadística
de atributos.
𝐸 (𝑝) = 𝜋
Ejemplo 9: Partiendo de una población binaria (Shao, 1975:339), donde se tienen 𝐴, 𝐵, 𝐶, personas
que fuman con valor 1 y 𝑋, 𝑌, 𝑍 personas que no fuman con valor cero. (Shao, 1975):
354
Tabla VII.7.
Personas que fuman y no fuman
Personas X
A 1
B 1
C 1
X 0
Y 0
Z 0
Fuente: Investigación directa con datos de Shao (1975).
Como en los ejemplos anteriores se empieza con el cálculo de los parámetros poblacionales:
3
𝜋 = = 0.5 = 50%.
6
Así, si por motivos de cálculo se hace:
𝜋 = 𝑃 = 0.5,
Entonces
𝜎 2 = 𝑃𝑄 = (0.5)(0.5) = 0.25
𝜎 = √𝑃𝑄 = 0.5
355
VII.3.2 Cálculo de las proporciones muestrales
𝑃𝑄 𝑁 − 𝑛 0.5(0.5) 6 − 4
𝜎𝑝 = √ =√ = √0.025 = 0.158
𝑛 𝑁−1 4 6−1
𝜎𝑝 = 0.158
Ahora bien:
356
3. Cuando 𝑁 → ∞ y no se conoce a 𝜎 2 , entonces 𝑆̂ 2 se hace un estimador insesgado de 𝜎 2
porque si:
∑(𝑥𝑖 − 𝑥̂)2
𝑆̂ 2 =
𝑛−1
Y:
(𝑥𝑖 −𝜇)2
𝜎̂ 2 = Cuando 𝑁 → ∞ se tiene:
𝑁−1
𝑆̂ 2 = 𝜎 2
Porque
𝑁
=1
𝑁−1
O sea, que 𝑆̂ 2 estima 𝜎 2 , cuando 𝑁 → ∞ y 𝑆̂𝑋̅ estima σX̅ ; es decir, cuando no se conozca 𝜎 se usará:
𝑆̂
𝑆̂𝑥̅ =
√𝑛
En lugar de
𝜎
σX̅ =
√𝑛
En
𝑥̅ ± 𝑍𝛼 𝜎𝑥̅ ;
𝑥̅ ± 𝑍𝛼 𝑆̂𝑥̅ .
𝑆
4. También se puede decir que cuando 𝑁 > 100, 𝑆̂ 2 = 𝑆 2 , tal que 𝑆𝑋̅ =
√𝑛
Estimador eficiente: Es aquel que tiene la variancia mínima; en otras palabras, un estimador es el
más eficiente, cuando tiene el error estándar más pequeño de todos los estimadores insesgados
posibles; ejemplo: Véase la práctica VII, que muestra diferentes valores para las varianzas
muestrales.
Estimador suficiente (𝑋̅): Conforme a Canavos (1988), se refiere a estadísticas suficientes para un
parámetro θ, es decir, es aquélla que utiliza toda la información contenida en la muestra aleatoria
con respecto a θ. Esto es, que utiliza toda la información que posee la muestra sobre el parámetro
que se estima; ejemplo: 𝑋̅ , porque para su cálculo se utiliza toda la información. Así, la mediana no
357
es un estimador suficiente porque para su cálculo sólo se utiliza un dato: el valor central de una
serie; la moda tampoco es porque para su cálculo se usa el valor de máxima frecuencia.
Estimador consistente (𝑋̅ ): De acuerdo con Canavos (1988), es razonable esperar que un buen
estimador de un parámetro θ sea cada vez mejor conforme crece el tamaño de la muestra. Esto es,
conforme la información en una muestra aleatoria se vuelve más completa, la distribución de
muestreo de un buen estimador se encuentra cada vez más concentrada alrededor del parámetro θ.
Así, se dice que se tendrá un mejor estimador de θ si se basa en 30 observaciones que si lo hace con
sólo cinco. Esta idea origina lo que se conoce como un estimador consistente. Con literales: es el
que se aproxima al parámetro (𝜇) que se va a estimar, al aumentar la muestra, 𝑋̅ → 𝜇 cuando
𝑛 → 𝑁.
Es decir, si un estimador es consistente, converge en probabilidad al valor del parámetro que está
intentando estimar conforme el tamaño de la muestra crece. Esto implica que la varianza de un
estimador consistente 𝑇𝑛 disminuye conforme n crece, y la media de 𝑇𝑛 tiende hacia donde n crece.
De esta forma, las condiciones que 𝑇𝑛 debe cumplir para ser un estimador insesgado de θ y para ver
que Var (𝑇𝑛 ) → 0 conforme n→α.
a) El intervalo de confianza
Así, se calcula:
𝜎𝑋̅ = 2.58 (10) = 25.8
𝑋̅ ± 𝑍𝛼𝜎𝑋̅
358
c) El coeficiente de confianza
𝛽 = 95.5%
INTERPRETACIÓN: 𝜇𝑥 se halla entre 74.2 y 125.8 con una probabilidad del 95%.
Problema 2: Con los datos del problema 1, suponga que 𝜇𝑥 es desconocida y 𝑋̅ = $105,
encontrar:
b) La estimación de intervalo
̅
X = 2.58 ∗ 10 ; luego
105 ± 25.8
Respuesta: Sí, la verdadera media poblacional se encuentra dentro de los límites de confianza
a) El intervalo de confianza
b) Los límites de confianza
c) El coeficiente de confianza
Problema 4: Con los datos del problema 3, suponga que 𝜋 es desconocida y 𝑝 = 48%, encontrar:
a) La estimación de punto
La estimación de punto es 0.48% = p
c) Interprete los resultados de las dos estimaciones. Si 𝛱 es conocida e igual a 45%, ¿Está la
verdadera proporción de la población dentro del intervalo de estimación?
a) Insesgados.
En una población de 500 puntuaciones cuya media es igual a 5.09, han hecho un muestreo aleatorio,
donde el número de muestras es de 10,000 y el tamaño de cada muestra es de 100. Se halla que la
media de las medias muestrales es igual a 5.09 (la media poblacional y la media de las medias
muestrales coinciden). En cambio, la mediana de la población es igual a 5 y la media de las
medianas es igual a 5.1, esto es, hay diferencia ya que la mediana es un estimador sesgado.
∑(𝑥𝑖 − 𝑥̅ )2
𝑆2 =
𝑛
En un muestreo de 1000 muestras (n=25) en que la varianza de la población es igual a 9.56 ha
resultado igual a 9.12, esto es, no coinciden. En cambio, al utilizar la cuasivarianza
∑(𝑥𝑖 − 𝑥̂)2
𝑆̂ 2 =
𝑛−1
La media de las varianzas muestrales es igual a 9.5, esto es, coincide con la varianza de la población
ya que la cuasivarianza es un estimador insesgado.
b) Eficientes
La varianza de la distribución muestral de la media en un muestreo aleatorio (número de muestras:
1000, n=25) ha resultado igual a 0.4. La varianza de la distribución de medianas ha resultado, en el
mismo muestreo, igual a 1.12. Este resultado muestra claramente que la media es un estimador más
eficiente que la mediana, porque su valor es menor.
c) Suficientes
Se tiene una muestra aleatoria (𝑋1 , 𝑋2 , … , 𝑋𝑛 ) de tamaño 30 tomada de una población exponencial
𝑓(𝑥, 1), donde l es un parámetro desconocido. Considere las dos estadísticos siguientes:
360
1
𝑇1 =
𝑋1 + 𝑋3 + 𝑋5 + ⋯ + 𝑋29
1 1
𝑇2 = =
𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋30 𝑋̅
El estadístico 𝑇1 no es un estimador suficiente del parámetro l mientras que 𝑇2 sí lo es, porque para
su cálculo se utilizaron los 30 datos.
d) Consistentes
En una población de 500 puntuaciones cuya media es igual a 4.9 se han hecho tres muestreos
aleatorios (número de muestras es igual a 100) con los siguientes resultados
Tabla VII.9
Estimadores consistentes
𝑛 Media de las medias muestrales
5 4.6
25 4.8
100 4.9
Fuente: Investigación directa com datos hipotéticos
Lo que se observa en la tabla anterior es que el muestreo en que n=100 la media de las medias
muestrales toma el mismo valor que la media de la población.
361
VII.6 Examen sobre teoría de la estimación para reafirmar sus conceptos básicos y
aplicaciones
1. Utilice los apéndices A y D de las tablas estadísticas para confirmar que los valores de Zα y tα
(grados de libertad) respectivamente, son correctos, tachando los incorrectos, cuando
proceda, con los siguientes datos.
a) 𝛽 = 95% y 𝑛 = 15; 𝑡𝛼 = ± 2.145
b) 𝛽 = 95% y 𝑛 = 252; 𝑍𝛼 = ± 1.96
c) 𝛽 = 90% y 𝑛 = 28; 𝑡𝛼 = ±1.703
d) 𝛽 = 90% y 𝑛 = 67; 𝑍𝛼 = ± 1.65
e) 𝛽 = 99% y 𝑛 = 12; 𝑡𝛼 = ± 3.106
f) 𝛽 = 99% y 𝑛 = 80; 𝑍𝛼 = ± 2.58
a) ¿Cuál es el valor de 𝜇𝑥 ?
Respuesta: Se desconoce el valor de 𝜇𝑥 𝑝𝑒𝑟𝑜 𝑠𝑒 𝑒𝑠𝑡𝑖𝑚𝑎 𝑐𝑜𝑛 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
Respuesta:
𝑋̅ ± 𝑡𝛼 𝑆𝑋̅ ;
Donde:
𝑆 0.5 0.5
𝑆𝑋̅ = = = = 0.11
√𝑛 √22 4.69
Sustituyendo:
𝑋̅ ± 𝑡𝛼𝑆𝑋̅ ;
=7 ± 2.08(0.11)
362
= 7 ± 0.23
3. El Ministerio de Hacienda planea fusionar dos de sus bancos de desarrollo (A y B). Para ello,
se definen los siguientes requisitos: primero, que por lo menos tres cuartas partes de los
empleados de A aprueben la fusión; segundo; para conocer la proporción de los que opinan a
favor de la fusión toma una muestra de 𝑛 = 2000 empleados y si con dicha muestra se halló
que 1600 aceptaron la fusión. Ahora calcular el error estándar de estimación de una
proporción cuya fórmula es:
(𝑝 ∗ (1 − 𝑝))
𝜎𝑝 = √
𝑛
Conforme a lo anterior determine:
a) ¿Cuál es el estimador de la proporción de la población?
Respuesta:
𝑋 1600
𝑝 = 𝑛 = 2000 = 0.8,
𝑝 ± 𝑍𝛼 𝜎𝑝
Se sabe que:
0.16
𝜎𝑝 = √ = 0.008
2000
Y que
𝑍𝛼 = ±1.96
Sustituyendo:
363
0.8 ± 1.96(0.008)
0.8 ± 0.02
Luego
Límite inferior = 0.8 − 0.02 = 0.78
Límite superior = 0.8 + 0.02 = 0.82
80
Respuesta: 100
= 0.80,
Y como
𝑍𝛼 = ±1.96
Sustituyendo:
0.8 ± 1.96(0.04)
0.8 ± 0.0784
Luego
El límite inferior = 0.8 − 0.0784 = 0.7216
Límite superior = 0.8 + 0.0784 = 0.8784
d) ¿Es razonable pensar que la proporción de clientes que paga con tarjeta de crédito está entre
60 y 70%?
364
Respuesta: No porque los dos valores son menores al límite inferior; en otras palabras, porque
dichos porcentajes están fuera del intervalo de confianza.
Estimación con Excel: Se desea determinar las características de las calificaciones de los
alumnos de una escuela de una población de 1,080 de estudiantes de la cual se tomó una
muestra de 50 de ellos, con objeto de determinar el intervalo de confianza y sus límites inferior
y superior
Para el cálculo de estos límites, se tomará como ejemplo las CALIFICACIONES obtenidas por los
alumnos en las pruebas del ICFES, cuya base de datos corresponde al Profesor Ciro Martínez B.
(2005).
Cuadro VII.1
Análisis de Datos
365
Cuadro VII.2
Estadística descriptiva
Cuadro VII.3
Digitar Datos en el Cuadro de Dialogo Estadística Descriptiva
366
Cuadro VII.4
Cuadro de Resultados
= 1.96 ∗ CELDA O5
=1.96*O5
El valor de 𝑍 𝑒𝑠 1.96, siendo que se está trabajando con un nivel de confianza del 95%. Así que es
posible cambiar el valor de 𝑍, dependiendo de la confianza establecida.
Cuadro VII.5
Límites de Confianza
𝜇̂ = 313.7 ± 11.02
𝜇̂ 𝑆 = 324.72
𝜇̂ 𝐼 = 302.68
367
Ejemplo 2
PARA MUESTRAS PEQUEÑAS : 𝑪𝒖𝒂𝒏𝒅𝒐 𝒏 ≤ 𝟑𝟎
En este caso el valor del parámetro se estima con el valor del estimador más un margen de error.
Cuando la muestra es pequeña, menor que 30, se usa la t de student para calcular el citado margen,
de error, el cual se relaciona con el estimador para calcular los límites de confianza dentro de los
cuales se estima que esté contenido el parámetro poblacional.
Su fórmula es:
𝒔
̂=𝒙
𝝁 ̅±𝒕
√𝒏
Así, recordando, que una muestra es pequeña si 𝑛 < 30 y que, por el contrario, es
𝑔𝑟𝑎𝑛𝑑𝑒 𝑠𝑖 𝑛 > 30. De acuerdo a lo anterior, sólo se tomarán los primeros 20 datos del cuadro
VIII.1 columna H, para una muestra de tan sólo 20 estudiantes. La variable seguirá siendo
calificaciones, el título estará en las CELDAS H1 y H2, los datos se ubican entre H3 y H22.
Además, la confianza y las hipótesis son las mismas utilizadas para muestras grandes. Así,
368
Cuadro VII.6
Digitar Datos en el Cuadro de Dialogo Estadística Descriptiva
Cuadro VII.7
Resultados del Análisis Estadístico
Llos límites de confianza con un nivel de confianza del 95% van de 311.21 𝑎 318.29
369
CAPÍTULO VIII. TEORÍA DE LA DECISIÓN ESTADÍSTICA O PRUEBA DE HIPÓTESIS
Antes de iniciar el tema es conveniente señalar que existe dicha relación, ya que en una prueba de
hipótesis, dado un nivel de significación α se construye un intervalo de confianza 𝛽 para no
rechazar la hipótesis nula.
Así, por ejemplo, si en una prueba de dos extremos se utiliza 𝑍, con un cierto nivel de significación
α de que 𝐻0 : 𝜇𝑋 = 𝜇0 , donde el intervalo para no rechazar 𝐻0 es que la 𝑍 crítica o valor teórico que
se obtiene de tablas sea igual o mayor que la 𝑍 real u observada, que es lo mismo, en el caso del
intervalo de confianza, ya que, la media muestral, más menos, el producto de 𝑍 teórica por el error
estándar de la media, sea superior a la media hipotética. Ambas desigualdades son lo mismo y cada
una tiene una probabilidad 1 − 𝛼 = 𝛽, si es que 𝜇𝑋 𝑒𝑠 𝜇0 ; la primera garantiza que la prueba tiene
nivel de significación α y la segunda, garantiza que el intervalo de confianza tiene probabilidad
1 − 𝛼 de contener 𝜇𝑋 .
Se puede decir que ésta es una de las principales aportaciones de la teoría de la probabilidad a la
inferencia estadística, ya que al verificar una hipótesis de trabajo con una muestra probabilística, si
dicha hipótesis es aceptada, ello es una gran contribución a la investigación que ahora ya dispone de
un método estadístico para la toma de decisiones con certidumbre pero, además, contribuye al
aumento del acervo de conocimientos en el área que se esté efectuado la verificación de la hipótesis,
en virtud de que muchas hipótesis al corroborarse que son ciertas, pasan a formar parte de la
ciencia en que se desenvuelve el investigador.
Es importante decir que en cualquier situación de prueba de hipótesis, la exactitud del supuesto
valor del parámetro poblacional, es decir, la validez de la hipótesis, no se puede probar
directamente. En su lugar, lo que se prueba es la magnitud de la diferencia entre el supuesto valor
del parámetro poblacional y el valor obtenido de una estadística muestral.
La evidencia ideal en apoyo de una hipótesis sería la observación que la diferencia entre los dos
valores fuera igual a cero. Esta hipótesis se conoce como hipótesis nula. Así por ejemplo, si en la
producción de anillos industriales se requiere que el diámetro medio de cada uno sea 0.575
370
centímetros y si se toma una muestra aleatoriamente para verificarlo, si su media es 0.565, se
prueba la hipótesis nula en el sentido de verificar estadísticamente la diferencia entre los valores
0.565 y 0.575 centímetros y se pregunta ¿la diferencia de 0.010 centímetros es significativamente
diferente de cero?
Al respecto, al generar las distribuciones de muestras, se debe recordar que usando el muestreo con
o sin reemplazo, se producen distribuciones de muestras, de cuyas medias se puede seleccionar una
de ellas aleatoriamente para comparar su valor con el del supuesto valor del parámetro poblacional.
Esperando que si éste último es cierto, los valores de muchas medias muestrales se agruparán o
situarán simétricamente alrededor de su valor. Si se hubiera seleccionado aleatoriamente otra
muestra de todas las que están disponibles, otro sería el valor de su media muestral y otra sería la
diferencia con el valor del parámetro poblacional, y así sucesivamente hasta agotar dicha
distribución de muestras.
Ejemplo:
Hipótesis nula, 𝐻0 : 𝜇𝑥 = 𝜇0
Hipótesis alternativa, 𝐻𝑎 : 𝜇𝑥 ≠ 𝜇0
Para este caso la hipótesis alternativa señala que la prueba de hipótesis será con dos extremos, pero
si la hipótesis alternativa fuera diferente al caso anterior, es decir, 𝐻𝑎 : 𝜇0 𝑚𝑎𝑦𝑜𝑟 𝑜 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 𝜇𝑥 .,
entonces la prueba es de un extremo.
Se reitera, cuando se formula una hipótesis nula, también se requiere formular una hipótesis
alternativa para probarla, mismas que se contrastarán para ver si la primera es cierta o no. No
obstante ya sea que se acepte o se rechace la prueba no es absolutamente segura puesto que existe
un margen de error o bien un nivel de confianza que son valores relativos. Por lo general no se
conoce el valor del parámetro poblacional, por lo que su hipótesis se puede probar recurriendo a
una muestra para contrastarla con su valor hipotético, es decir su media aritmética tiene un valor de
manera que lo que se prueba es la diferencia entre 𝜇0 y 𝑋̅ tal que: 𝑋̅ − 𝜇𝑜 = 0
Ello indica que se prueba que no hay diferencia entre 𝜇𝑥 y 𝑋̅, lo cual es llamado Hipótesis Nula,
(Ho). Cualquier hipótesis diferente de la nula es llamada Hipótesis Alternativa, (Ha).
371
Cuando se hace el planteamiento para tomar una decisión estadística, es posible cometer 2 tipos de
errores:
1. Error tipo I: Rechazar la hipótesis nula cuando realmente es verdadera; que se representa
con α;
2. Error tipo II: Consiste en aceptar una hipótesis nula cuando realmente ésta es falsa; se
representa con β .
Nota: Cabe aclarar que la letra β aquí toma un significado diferente al que antes se le dio, que
representaba el nivel de confianza.
Existen por tanto, dos posibles decisiones: aceptar o rechazar la hipótesis la que, a la vez puede ser
cierta o falsa. Cualquiera de estas decisiones es elegida con base en un determinado nivel de
significación.
Al considerar la naturaleza del error tipo II éste se puede controlar aumentando el valor del error
tipo I. Pero en ambos casos el error tenderá a disminuir a medida que se incrementa el tamaño de la
muestra.
Por lo general las distribuciones de probabilidad más utilizadas en la economía y los negocios
para probar hipótesis, son las distribuciones Z, t, χ2 y F.
Así, una prueba utilizando la distribución normal, en forma gráfica se presenta como lo indica la
gráfica siguiente, que como se observa corresponde a dos "colas" o extremos:
372
Gráfica VIII.1
Prueba de Hipótesis con dos Colas
373
Cuadro VIII.2
Panorama general del proceso de seleccionar el estadístico de prueba de hipótesis con una sola
muestra.
Si No
¿Tiene la población ¿Tiene la población
una distribución una distribución
normal o normal o Pasar a la
aproximadamente aproximadamente distribución
normal? normal? binomial
correspondiente
Si No No
Si No Si
Prueba z, con Usar una prueba Prueba de t, con Prueba z, con estadístico de
estadístico de asociada a estas estadístico de prueba
prueba distribuciones prueba
𝑝 − 𝜋0
z=
𝑥̅ − 𝜇 𝑥̅ − 𝜇 𝜎𝑝
z= t=
𝜎𝑥̅ 𝑠𝑥̅
Donde
Donde Donde
𝜎 𝑠 𝜋0 (1 − 𝜋0 )
𝜎𝑥̅ = 𝑠𝑥̅ = 𝜎𝑝 = √
𝑛
√𝑛 √𝑛
Y 𝜇0 es la 𝐻0 Y 𝜇0 es la 𝐻0
𝑥̅ −𝜇𝑜
𝑍= cuando se conoce 𝜎 y 𝑛 > 30, con:.
𝜎𝑥̅
𝜎 𝑥̅ −𝜇𝑜 𝑥̅ −𝜇𝑜
𝜎𝑥̅ = para una población infinita y se hace con: 𝑡 = = 𝑠 cuando se desconoce σ y
√𝑛 𝑠𝑥̅
√𝑛−1
𝑛 < 30.
Ahora también, las reglas de decisión son: cuando Z ó t ≤ Zα o t α se acepta H0 ; y cuando Z o t >
Zα o t α se rechaza H0
A continuación se muestran los valores de Zα más usados para evitar ir a buscarlos en la tabla del
Apéndice A.
Tabla VIII.1
Zα PARA Prueba de hipótesis
Nivel de significación (𝛼) 0.10 0.05 0.01 0.005 0.00
Valores críticos para ensayos de un -1.28 -1.645 -2.33 -2.58 -2.88
extremo 1.28 1.645 2.33 2.58 2.88
Valores críticos para ensayos de dos -1.645 -1.96 -2.58 -2.81 -3.00
extremos 1.645 1.96 2.58 2.81 3.00
Fuente: Investigación Directa
Caso 1. Diferencia de una media muestral y una poblacional conocido σ, tal que:
𝑥̅ −𝜇0 𝜎
𝑍= , 𝜎𝑥̅ = para una población infinita
𝜎𝑥̅ √𝑛
Para una diferencia de proporciones:
𝑝−𝜋 𝑃𝑄
𝑍= 𝜎𝑝
, 𝜎𝑝 = √ 𝑛 para una población infinita
Ejemplo 1:
Suponga que en una empresa se supone que la producción de cierto tipo de anillos industriales cada
uno de ellos tenga un diámetro medio de 0.575 centímetros, con una desviación estándar es de
0.50 centímetros. Para comprobar si dicho promedio es cierto, se lleva cabo una investigación
muestral. Se toma una muestra de 50 anillos industriales en forma aleatoria y se establece un nivel
de confianza β de 0.95 y, por consiguiente α = 0.05, y se hace un ensayo de dos extremos. y
arrojan un diámetro medio de 0.565 centímetros, con esos datos pruebe la hipótesis de que la media
poblacional es igual a la media hipotética, con los siguientes datos:
𝜇0 = 0.575 𝑐𝑒𝑛𝑡𝑖𝑚𝑒𝑡𝑟𝑜𝑠
𝑛 = 50 𝑎𝑛𝑖𝑙𝑙𝑜𝑠 𝑖𝑛𝑑𝑢𝑠𝑡𝑟𝑖𝑎𝑙𝑒𝑠
𝑋̅ = 0.565 𝑐𝑒𝑛𝑡𝑖𝑚𝑒𝑡𝑟𝑜𝑠
𝜎 = 0.50
𝛼 = 5%
375
𝑍𝛼 = ± 1.96 = 𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 𝑝𝑎𝑟𝑎 𝑎𝑐𝑒𝑝𝑡𝑎𝑟 𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻𝑜 .
𝐻0 : 𝑋̅ = 𝜇 𝑣𝑠 𝐻𝑎 : 𝑋̅ ≠ 𝜇
Gráfica VIII.2
Prueba de Hipótesis de dos colas
En donde:
−0.010
𝑍= = −0.1414
0.0707
𝑍 = −0.1414 esta dentro de la zona de aceptación y se acepta Ho; se dice que estadísticamente la
diferencia no es significativa y que se debe a la selección aleatoria de la muestra.
Esta prueba está indicada en aquellos casos cuando se quiere establecer la diferencia entre dos
medias muestrales, extraídas de dos poblaciones independientes; aquí interesa checar si una media
es igual, mayor o menor que la otra.
Algunos ejemplos de esta prueba son: ¿es la accidentalidad vehicular mayor en la población
femenina o masculina?¿hay diferencia en la calidad de un producto de la marca A y un producto de
la marca B? (o, 2005: p. 439)
Diferencia de dos medias muéstrales, cuando se conocen las desviaciones estándar: σ´s .
𝐻0 : 𝜇1 = 𝜇2 o bien 𝐻0 : 𝜇1 − 𝜇2=0
𝐻𝑎 : 𝜇1 ≠ 𝜇2 o bien 𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0
𝑥̅1 −𝑥̅2 𝜎1 𝜎2
En ese caso 𝑍 = donde 𝜎(𝑥̅1 −𝑥̅2 ) = √ +
𝜎(𝑥̅1−𝑥̅2) 𝑛1 𝑛2
376
En el caso de una proporción:
𝑝1 − 𝑝2 𝑝1 𝑞1 𝑝2 𝑞2
𝑍= ; 𝜎(𝑝1 −𝑝2 ) = √ +
𝜎(𝑝1 −𝑝2 ) 𝑛1 𝑛2
Cuando N y n son grandes, se pueden usar las desviaciones estándar de las muestras en lugar del σ1
y σ2 .
𝑆1 𝑆2 𝑥̅1 − 𝑥̅2
𝑠(𝑥̅ 1−𝑥̅2 ) = √ + tal que 𝑍 =
𝑛1 𝑛2 𝑠(𝑥̅1 −𝑥̅2 )
VIII.3 Prueba de Hipótesis con Z usando Excel. Uso del excel en el cálculo de la prueba de
hipótesis
(MARTINEZ, 2005:110)
Se considera en primer lugar la aplicación de Excel en las pruebas de hipótesis, en una distribución
de media muestral, cuando es bilateral, con un nivel de significación del 5% (α = 0.05), para la
característica que se ha venido utilizando, es decir, calificaciones obtenidas por los alumnos en las
pruebas realizadas por el ICFES. La hipótesis nula, es decir, la media poblacional supuesta es de
300 (μ = 300), frente a la alternativa de que sea diferente.
𝛼 = 0.05
𝐻𝑜 ∶ 𝜇 = 300
𝐻𝑎 ∶ 𝜇 ≠ 300
PASOS:
377
indicar la celda en la que aparecerán los resultados se ubica el cursor en Rango de
salida/clic seleccionando la celda (N2) y, para finalizar se busca Aceptar/clic.
Cuadro VIII.3
Resultados del Análisis Estadístico
Cuadro VIII.4
Resultados del Análisis Estadístico
3. Ahora se cuenta con la información necesaria para calcular el valor de Z por lo que se
(O4–300)
coloca el cursor en la celda O10 y se teclea la siguiente fórmula: =
O5
378
Cuadro VIII.5
Valor de Z
𝑥̅ −𝜇 313.70−300 13.70
La fórmula que se utilizo fue: 𝑍 = 𝑆 ; siendo 𝑍 = 39.75 = = 2.40
5.62
√𝑛 √50
S
x̅ = 313.70 ; = 5.62 μ0 = 300
√n
Gráfica VIII.3
Prueba de Hipótesis usando Z
Como se muestra en el gráfico el valor de Z (2.44) es mayor que Zα = ± 1.96 y cae en la región
crítica o zona de rechazo, por lo tanto se rechaza la hipótesis nula Ho.
379
VIII.3.2 Prueba de hipótesis de la diferencia entre dos medias muestrales
𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻𝑎: 𝜇𝑥 ≠ 𝜇𝑦
Con 𝛼 = 0.05
𝑥̅ − 𝑦̅
𝑍=
2 𝜎2
√𝜎𝑥 + 𝑦
𝑛1 𝑛2
MUESTRAS GRANDES (z)
Pasos:
1. En una hoja de cálculo de Excel digitar la información, correspondiente a dos (2) muestras
de tamaños 𝒏𝟏 = 𝟐𝟑; 𝒏𝟐 = 𝟐𝟓 respecto a la duración (miles de kilómetros) de dos (2)
marcas de llantas para automóviles.
Cuadro VIII.6
Digitalización de los Datos en Excel
380
Cuadro VIII.7
Análisis de Datos
Cuadro VIII.8
Digitar Datos en el Cuadro de Dialogo
381
Cuadro VIII.9
Resultados de la Prueba Z para medias de dos Muestras
Como Z = 1.30, cae en la zona de aceptación, por lo tanto al nivel del 5%, se acepta H0
Gráfica VIII.4
Prueba de Hipótesis Z
Esta distribución fue elaborada por William S. Gosset, que usaba el nombre de "Student". Como se
indicó en el capítulo V se utiliza para manejar muestras pequeñas, generalmente menores de 30 y
cuando no se conoce σ. Esta distribución tiene una apariencia parecida y tiende a la normalidad y,
se aproxima cada vez más a ésta, a medida que se tienen más grados de libertad, por lo que:
Tiene media 0 y desviación estándar 1, es decir, adopta la forma de la distribución normal estándar.
Así, en el caso de la prueba de hipótesis cuando no se conoce σ, ésta se estima a partir de S. De esta
manera al igual que 𝑍; si: Z o t son menores o iguales que Zα o t α se acepta la hipótesis nula.
Ejemplo 1: Se desea probar que el ingreso medio mensual de los trabajadores en la ciudad γ es de
$2,500.00, con alfa 𝛼 = 5%. Para ello se selecciona una muestra al azar de 26 trabajadores cuyo
ingreso medio mensual es de $3,000.00 con una desviación estándar de $100.00.
Así:
𝐻0 : 𝜇0 = $2,500.00; donde 𝜇𝑜 = 𝑚𝑒𝑑𝑖𝑎 ℎ𝑖𝑝𝑜𝑡é𝑡𝑖𝑐𝑎
Tal que 𝑥̅ − 𝜇𝑥 = 0
𝐻𝐴 : 𝜇𝑥 ≠ $2,500.00
𝑛 = 26 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑑𝑜𝑟𝑒𝑠
𝑥̅ = $3,000.00
𝑆 = $100.00
𝛼 = 5%
𝑡𝛼 ± 2.06
Gráfica VIII.5
Prueba de Hipótesis t
𝑥̅ − 𝜇0 𝑆 100
𝑡= donde 𝑆𝑥̅ = = = 20, luego
𝑆𝑥̅ √𝑛−1 √25
383
3,000 − 2,500 500
t= = = 25
20 20
Como t = 25 > t α = 2.06 se rechaza la hipótesis de que el ingreso medio de los trabajadores sea
de $2,500.00 en la ciudad 𝛾. Ello se fundamenta en que la diferencia entre x̅ y μ0 es significativa
estadísticamente y no puede atribuírsele a la selección aleatoria de la muestra.
Por otra parte hay casos en lo cuales se pueden tener dos muestras con sus medias aritméticas
correspondientes, de las cuales se puede inferir que provienen de la misma población, para lo cual
se plantea se plantea la hipótesis nula de que ambas medias son iguales, en contraste con la
hipótesis alternativa de que ambas medias son diferentes. Esta prueba de hipótesis se puede realizar
con muestras grandes ( n ≥ 30) y pequeñas ( n ≤30) ; para muestras grandes se usa el estadístico de
contraste Z, con casos en que aun la muestra sea grande se desconoce la ´desviación estándar
poblacional, para lo cual es conveniente usar el estadístico de contraste t.-
Así, se puede probar la hipótesis nula de la diferencia de dos medias usando t cuando no se
conoce σ y se trabaja con muestras pequeñas menores de 30. Planteamiento:
Es decir se desea probar que 𝑥̅1 − 𝑥̅2 no difieren estadísticamente de manera significativa.
𝑛1 𝑆12 + 𝑛2 𝑆22
y 𝑆̂ = √ con n1 + n2 − 2 = G. L
𝑛1 + 𝑛2 − 2
Ejemplo 2:
Cuando no se conoce σ y son muestras pequeñas, se desea probar la hipótesis con 𝛼 = 5%, de que
el ingreso medio familiar no difiere estadísticamente de manera significativa en las colonias Arenal
y Tlacotal. Para probar esta hipótesisi nula se seleccionan dos muestras al azar y se obtienen los
siguientes datos:
384
Hipótesis nula:
Hipótesis alternativa:
𝐻𝑎 : 𝑥̅1 ≠ 𝑥̅2
Datos:
𝑛1 = 10 𝑓𝑎𝑚𝑖𝑙𝑖𝑎𝑠; 𝑛2 = 17 𝑓𝑎𝑚𝑖𝑙𝑖𝑎𝑠
𝑥̅1 = $6,200.00/𝑚𝑒𝑠 ; 𝑥̅2 = $5,600.00/𝑚𝑒𝑠
𝑆1 = 690 ; 𝑆2 = 600
Con α = 5%; t α = ±2.06 (Valor encontrado en la tabla estadística del Apéndice D).
Referencia gráfica:
Gráfica VIII.6
Prueba de Hipótesis 𝑡
Así se decide con un nivel de confianza de 95% que el ingreso medio por familia es diferente en
las colonias Arenal y Tlacotal.
Por otra parte, cuando n − 1 es grande, casi es n, tal que Z puede usarse en lugar de t. En general
cuando n > 30 se usará Z; y cuando n < 30 se usará t.
𝐻𝑜 : μ = 300 y con
Ha:𝜇 ≠ 300
Si se tiene que si 𝑋̅ y 𝑠 2 son la media y la varianza de una muestra aleatoria de tamaño n tomadas de
una población normal con media µ y la varianza 𝜎 2 , entonces:
𝑥̅ − 𝜇
𝑡= 𝑠
√𝑛
Datos: media aritmética muestral = 314.75; n = 20
Para obtener la Distribución t en Excel se deben seguir los siguientes pasos:
Cuadro VIII.10
Resultados del Análisis de Datos
Cuadro VIII.11
Prueba 𝑡
Al utilizar 𝑛1 = 12 𝑦 𝑛2 = 16, del cuadro con el cual se trabajó para muestras grandes
𝐻𝑂 : 𝜇𝑥 = 𝜇𝑦 𝑥̅ − 𝑦̅
𝛼 = 0.05 𝑡=
𝐻𝑎 : 𝜇𝑥 ≠ 𝜇𝑦 𝑆2 𝑆2
√
𝑛1 + 𝑛2
387
La prueba es bilateral, además se calcula una varianza (S 2 ) muestral igual para ambas muestras.
Los grados de libertad serán iguales a υ = 𝑛1 + 𝑛2 – 2 = 12 + 16 – 2 = 26 𝑦 𝛼 = 0.05.
Pasos:
1. Se coloca el cursor en la pestaña Datos/clic, posteriormente se elige la opción Análisis de
Datos/clic. En el nuevo cuadro de dialogo se selecciona Pruebas t para medias de dos
muestras suponiendo varianzas iguales/clic, y se oprime Aceptar/clic.
Cuadro VIII.12
Prueba t para dos Muestras suponiendo Varianzas Iguales
388
Cuadro VIII.13
Cuadro de Dialogo para Prueba t
Cuadro VIII.14
Resultados de la Prueba t para dos Muestras suponiendo varianzas iguales
Con ella se pueden comparar frecuencias observadas y esperadas y dos o más conjuntos de
frecuencias para ver si difieren significativamente (Richmond, 1964), su fórmula es:
(𝑓𝑜 − 𝑓𝑒)2
𝝌𝟐 = ∑
𝑓𝑒
La distribución de sus datos nunca es regular. (Ver su exposición en capítulo V). Debido a lo
anterior, aquí se decidió por usar ésta estadística en los siguientes casos de prueba de hipótesis
Se interpreta al estadístico χ2, como una medida de la distancia entre las frecuencias observadas y
esperadas. Como cualquier distancia, su valor siempre es cero o positivo. Es cero sólo cuando las
frecuencias observadas son exactamente iguales a las frecuencias esperadas. Los valores de χ2
grandes constituyen una evidencia en contra de Ho, ya que indican que las frecuencias observadas
están lejos de lo esperado si Ho fuera cierta. Aunque la hipótesis alternativa Ha es de muchas colas,
la prueba χ es de una cola debido a que cualquier violación de Ho tiende a producir un valor de χ2
389
grande. Los valores pequeños de χ2 no constituyen ninguna evidencia en contra de Ho. (S. Moore,
2004: 622). La χ2 se usa para:
Ejemplo 1.
En la venta de un producto, (Richmond, 1964) el gerente dividió al país en 6 regiones de venta para
obtener pedidos por correo. El gerente espera igual número de pedidos en cada una de las 6 áreas.
Después de un breve período, decide probar la eficacia de su campaña de ventas; en ese momento
ha recibido 60 solicitudes. Él establece la hipótesis nula de que no hay diferencia, que las ventas en
las 6 áreas son iguales, espera 10 solicitudes de cada área. La hipótesis alterna es de que si hay
ventas diferentes entre las regiones.
𝐻𝑜: 𝑓𝑜 = 𝑓𝑒
𝐻𝑎: 𝑓𝑜 ≠ 𝑓𝑒
Tabla VIII.2
Resultados de las áreas
Nº de pedidos (𝑓𝑜 − 𝑓𝑒 )2
Área fe fo-fe (fo-fe)2
fo 𝑓𝑒
A 6 10 -4 16 1.6
B 15 10 5 25 2.5
C 7 10 -3 9 0.9
D 4 10 -6 36 3.6
E 17 10 7 49 4.9
F 11 10 1 1 0.1
60 60 13.6
Fuente: Investigación Directa com datos hipotéticos
390
(𝑓𝑜 − 𝑓𝑒)2
𝑋2 = ∑ = 13.6
𝑓𝑒
Para deteminar el valor teórico de Ji cuadrada se requiere calcular los grados de libertad y
determinar el margen de error permitido. Así, si hay 6 regiones, los grados de libertad= 6-1;
α = 5%; Xα2 = 11.07, que es el nivel de significación que señala la frontera de las zonas de
aceptación y de rechazo de la hipótesis nula, que se obtuvo del Apéndice E y que ahora se contrasta
con 13.6.
Zona de
aceptación
Zona de
rechazo
β = 95%
α = 0,05
𝜒𝛼2 = 11.07
Fuente: Investigación directa com datos hipotéticos
Esto es: χ2 = 13.6 se halla en la zona de rechazo, ya que la zona de aceptación llega hasta χ2𝛼 =
11.07
391
VIII.7.2 Prueba de la independencia de las respuestas o de su clasificación usando las tablas
de contingencia.
Cuando tres grupos se puedan clasificar en tres formas, se obtiene una tabla de contingencia.
(Richmond, 1964), con la cual se pueden probar hipótesis. Sea:
Tabla VIII.3
Contingencia
Clase A1 A2 A3
B1 n 11 N 21 N 31
B2 n 12 N 22 N 32
B3 n 13 N 23 N 33
Fuente: Investigación directa con datos hipotéticos
Si se envía un cuestionario para ser contestado por correo por los subscriptores de una revista: 100
con un billete de $500.00 en agradecimiento y 200 sin el billete; la hipótesis nula es que no influye
el billete en el ánimo de los subscriptores para contestar el cuestionario, por lo que la clasificación
es independiente:
Tabla VIII.4
Envío de cuestionario para los subscriptores
Observados Esperados
Cuestionario No No
Respondieron Total Respondieron Total
respondieron respondieron
Billete incluido 77 23 100 65.7 34.3 100
Billete no
120 80 200 131.3 68.7 200
incluido
TOTAL 197 103 300 197 103 300
Fuente: Richmond 1964
Así, por ejemplo si se esperan 197 normalmente distribuidos entre con y sin billete, las frecuencias
esperadas se calculan así:
197
Para la primera celda: Cálculo de los cuestionarios esperados: 300
∗ 100 = 65.7 se esperan
normalmente distribuidos con el billete incluido con el cuestionario.
197
Para la segunda celda: ∗ 200 = 131.3 cuestionarios sin el billete. Así, para los que no
300
respondieron:
103 103
∗ 100 = 34.3 𝑦 ∗ 200 = 68.7
300 300
392
Tabla VIII.5
Calculo de 𝑋 2
Celda fo fe fo-fe (fo-fe)2 (𝑓𝑜 − 𝑓𝑒 )2
𝑓𝑒
1 - 1 77 65.7 11.3 127.7 1.9437
1 - 2 23 34.3 -11.3 127.7 3.7230
2 - 1 120 131.3 -11.3 127.7 0.9726
2 - 2 80 68.7 11.3 127.7 1.8588
8.4981
Fuente: Investigación directa con datos hipotéticos
𝜒 2 = 8.49 > 𝜒𝛼2 = 3.841, donde: los grados de libertad se determinan por el producto del número
de renglones menos uno por el número de columnas menos 1. Así: (R-1)( C-1)= (2-1)(2-1)=1. El
valor teórico se localiza en el Apéndice E.
χ2α = 3.841 con α = 5% y G. L. = 1 por lo tanto se rechaza la hipótesis de que el billete influyó en
el ánimo de los subscritores para contestar el cuestionario; definitivamente sí influyó.
Ejemplo 2. Adicional a resolver:
Se tomó una muestra de 200 tornillos producidos por 4 diferentes máquinas para ver la eficacia de
los operadores. Para ver si ellos tienden a producir la misma distribución de la calidad del producto
de acuerdo con las clasificaciones de calidad previamente definidas.
Tabla VIII.6
Frecuencias Observadas
Operador
Calidad Total
1 2 3 4
Excelente 40 44 32 24 140
Marginal 7 5 12 16 40
No aceptable 3 11 6 - 20
Totales 50 60 50 40 200
Fuente: Investigación directa con datos hipotéticos
Probar la hipótesis nula de que no hay diferencia entre los cuatro operadores: que producen con la
misma calidad, con α = 5 %.
Como el numerador es siempre positivo: 𝜒 2 > 0, tal que la prueba de hipótesis es de una sola cola o
extremo. Con α y (Columnas − 1)(Renglones − 1)grados de libertad se calculan frecuencias
esperadas:
393
Tabla VIII.7
Frecuencias
Calidad Frecuencia observada Frecuencia esperada
H1 H2 H3 H4 Total X1 X2 X3 X4 Total
Excelente 40 44 32 24 140 35 42 35 28 140
Marginal 7 5 12 16 40 10 12 10 8 40
No aceptable 3 11 6 - 20 5 6 5 4 20
Totales 50 60 50 40 200 50 60 50 40 200
Fuente: Investigación directa con datos hipotético
Tabla VIII.8
Cálculo de las Frecuencias Esperadas
𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟒
Gráfica VIII.10
Prueba de Hipótesis sobre independencia de principios
Zona de
aceptación
Zona de
rechazo
β = 95%
α = 0,05
𝜒𝛼2 = 12.595
Fuente: Investigación directa con datos hipotéticos
Con esta referencia numérica y gráfica ahora se calcula la 𝜒 2 real u observada así:
394
Tabla VIII.9
Cálculo de 𝜒 2
(𝑓𝑜 − 𝑓𝑒 )2
Celda fo fe fo-fe (fo-fe)2
𝑓𝑒
1 - 1 40 35 5 25 0.7143
1 - 2 44 42 2 4 0.0952
1 - 3 32 35 -3 9 0.2571
1 - 4 24 28 -4 16 0.5714
2 - 1 7 10 -3 9 0.9000
2 - 2 5 12 -7 49 4.0833
2 - 3 12 10 2 4 0.4000
2 - 4 16 8 8 64 8.0000
3 - 1 3 5 -2 4 0.8000
3 - 2 11 6 5 25 4.1667
3 - 3 6 5 1 1 0.2000
3 - 4 0 4 -4 16 4.0000
24.1881
Fuente: Investigación directa con datos hipotéticos.
(𝑓𝑜 − 𝑓𝑒)2
𝑋2 = ∑ = 24.17
𝑓𝑒
Como 𝑋 2 = 24.17 > 𝜒𝛼2 = 12.592 se rechaza la hipótesis de que los cuatro operadores no difieran
en habilidad para producir tornillos.
Para ilustrar lo anterior se tomó como referencia una encuesta mensual que hace el Instituto de la
Pequeña y Mediana Empresa.
395
1. Prueba de asociación
La escasez de recursos humanos que suelen tener algunas empresas, en esta etapa determinaron el
manejo de sólo tres medidas de asociación; en la medida que se resuelvan estos problemas y que el
personal se familiarice con el análisis estadístico, se aplicarán diseños muestrales y coeficientes de
asociación más sofisticados.
Se recurre a la 𝜒 2 : Ji Cuadrada basada en las tablas de contingencia (que se usan para cuantificar la
relación que pueda existir entre dos o más variables, preferentemente cualitativas: nominales u
ordinales, aunque éstas se pueden mezclar con las cuantitativas) para probar la hipótesis de
independencia entre el tamaño de la muestra y la opinión de los empresarios. Para ello se
comparan las respuestas "reales" de la muestra con las respuestas "esperadas".
Tabla VIII.10
Personal Ocupado
Muestra Respuesta Real Total
Aumento No Disminuyó
Aumentó
Alimentos
.
.
.
.
Otros
Total 419
% 100
Fuente: Investigación directa con datos hipotéticos
396
Así por ejemplo, partiendo del rechazo de la hipótesis nula basado en la𝜒 2 , se utilizará la estadística
𝜙 para cuantificar la relación entre la muestra y las opiniones; ya que si es baja quizá no valga la
pena hacer las revisiones correspondientes; en cambio sí es alta de inmediato se hace un análisis de
sesgo y cobertura.
Es una medida de la fuerza de la relación que existe entre las variables descriptivas, la cuantitativa
(muestra) y la cualitativa (opinión de los empresarios). Phi toma el valor de 0 cuando no hay
relación 𝑦 + 1 cuando las variables se relacionan a la perfección. Phi hace la corrección en el
valor de 𝜒 2 porque éste es directamente proporcional al tamaño de la muestra (n) y por ello su
fórmula es:
1⁄
𝜒2 2
𝜙=[ ]
𝑛
VIII.8.4 V de Cramer
El valor de la estadística V también oscila entre 0 𝑦 + 1. Así, un valor alto de V significa que hay
un alto grado de asociación.
Su fórmula es:
1⁄2
ϕ2
V=( )
min(r − 1, c − 1)
NOTA: min indica que se toma un solo valor, ya sea el de las columnas o el de los renglones, el de
menor cuantía.
En resumen, si una vez aplicadas las estadísticas 𝜒 2 , 𝜙 y V, se encuentra que el valor de V es alto,
entonces se toma la decisión de hacer el análisis de sesgo y cobertura, para lo cual se analiza la
información a fin de validarla y determinar si los resultados pueden atribuirse a relaciones o
asociaciones legítimas o a la selección aleatoria de la muestra.
397
VIII.8.5 Procedimiento
A continuación se expone un ejemplo completo con datos del mes de junio, empezando por la 𝜒 2 , 𝜙
y V , hasta el análisis de cobertura para el caso extremo en que se tuviera que recalcular toda la
muestra, aplicando el muestreo simple aleatorio; así como para el cálculo específico para algunos
grupos industriales, usando el muestreo estratificado proporcional.
Tabla VIII.11
Tabla de contingencia
GRUPO
INDUSTRIAL A1 A2 A3 TOTAL
B1 R11 S21 T31 V1 = R11 + S21 + T13
B2 R12 S22 T32 V2 = R12 + S22 + T32
B3 R13 S23 T33 V3 = .
B4 R14 V4 = .
B5 R15 V5 = .
B6 R16 V6 = .
B7 R17 V7 = .
B8 R18 S28 V8 = .
B9 R19 V9 = R19 + S29 + T39
B10 R110 T310 V10 = .
B11 R111 S211 V11 = .
B12 R112 V12 = .
B13 R113 V13 = .
B14 R114 T314 V14 = .
B15 R115 S215 T315 V15 = .
B16 R116 S216 T316 V16 = R116 + S216 + T316
TOTAL R S T V = R + S +T
Fuente: Investigación directa con datos hipotéticos
Construyendo la tabla de contingencia con los resultados observados para el Personal Ocupado en
junio, se obtiene la tabla 3X16 que aparece a continuación para las dos variables descriptivas Bi
(cuantitativa) y A (cualitativa: opinión de los empresarios).
Donde:
𝑆 = ∑ 𝑆𝑖
𝑇 = ∑ 𝑇𝑖
398
𝑉 = ∑ 𝑉𝑖 = 𝑅 + 𝑆 + 𝑇
𝑉 𝑖 = ∑(𝑅𝑖 + 𝑆𝑖 + 𝑇𝑖 )
𝑖 = 1, 2, 3, . . . . , 16
Tabla VIII.12
Personal Ocupado Promedio
Respuesta Real
Muestra Aumento No vario Disminuyo Total
(Bi) (A1) (A2) (A3)
Fab. de alimentos 10 61 13 84
Industria Textil 3 22 3 28
Fab. de Prendas de Vestir 4 27 9 40
Fab. de Calzado e Ind. del Cuero 5 25 7 37
Ind. y Prod. de Madera y Corcho - - - 0
Excepto Muebles 1 9 5 15
Fab. y Rep. de Muebles de Madera 1 11 9 21
Ind. Editorial de Impresión y Conexas 6 13 1 20
Industria Química 3 11 2 16
Fab. de Prod. de Hule y Plástico 4 19 2 25
Fab. de Productos Minerales no Metálicos 3 24 9 36
Industrias Metálicos Básicas - 4 1 5
Fab. de Prod. Metílicos 2 27 12 41
Fab. de Maq. y Equipo Excepto los Eléctricos 9 13 2 24
Fab. de Maq. y Equipo y Aparatos Eléctricos - 4 3 7
Construcción de Equipo de Transporte 3 6 5 14
Otras Indústrias Manufactureras 2 3 1 6
TOTAL 56 279 84 419
R S T V
Fuente: Investigación directa con datos hipotéticos
399
Tabla VIII.13
Cálculo de las frecuencias esperadas
GRUPO
INDUSTRIAL A1 A2 A3 TOTAL
B1 V1 ( R/V ) = 11 V1 ( S/V ) = 56 V1 ( T/V ) = 17 V = 84
1
B2 V2 ( R/V ) = 4 V2 ( S/V ) = 17 V2 ( T/V ) = 6 V = 28
2
B3 V3 ( R/V ) = 5 V3 ( S/V ) = 27 V3 ( T/V ) = 9 V = 40
3
B4 V4 ( R/V ) = 5 V4 ( S/V ) = 25 V4 ( T/V ) = 7 V = 37
4
B5 V5 ( R/V ) = 2 V5 ( S/V ) = 10 V5 ( T/V ) = 3 V = 15
5
B6 V6 ( R/V ) = 3 V6 ( S/V ) = 14 V6 ( T/V ) = 4 V = 21
6
B7 V7 ( R/V ) = 3 V7 ( S/V ) = 13 V7 ( T/V ) = 4 V = 20
7
B8 V8 ( R/V ) = 2 V8 ( S/V ) = 11 V8 ( T/V ) = 3 V = 16
8
B9 V9 ( R/V ) = 3 V9 ( S/V ) = 17 V9 ( T/V ) = 5 V = 25
9
B10 V10 ( R/V ) = 5 V10 ( S/V ) = 24 V1 ( T/V ) = 7 V = 36
0 10
B11 V11 ( R/V ) = 1 V11 ( S/V ) = 3 V1 ( T/V ) = 1 V = 5
1 11
B12 V12 ( R/V ) = 5 V12 ( S/V ) = 28 V1 ( T/V ) = 8 V = 41
2 12
B13 V13 ( R/V ) = 3 V13 ( S/V ) = 16 V1 ( T/V ) = 5 V = 24
3 13
B14 V14 ( R/V ) = 1 V14 ( S/V ) = 5 V1 ( T/V ) = 1 V = 7
4 14
B15 V15 ( R/V ) = 2 V15 ( S/V ) = 9 V1 ( T/V ) = 3 V = 14
5 15
B16 V16 ( R/V ) = 1 V16 ( S/V ) = 4 V1 ( T/V ) = 1 V = 6
6 16
TOTAL R = 56 S= T = 84 V = 419
279
Fuente: Investigación directa con datos hipotéticos
400
Agrupándolos por celda, se tendrá:
Tabla VIII.14
Agrupación por celdas
Celda Fr Fe fr-fe Celda fr fe fr-fe
1 - 1 10 11 -1 9 - 3 2 5 -3
1 - 2 61 56 5 10 - 1 3 5 -2
1 - 3 13 17 -4 10 - 2 24 24 0
2 - 1 3 5 -2 10 - 3 9 7 2
2 - 2 22 17 5 11 - 1 0 1 -1
2 - 3 3 6 -3 11 - 2 4 3 1
3 - 1 4 4 0 11 - 3 1 1 0
3 - 2 27 27 0 12 - 1 2 5 -3
3 - 3 9 9 0 12 - 2 27 28 -1
4 - 1 5 5 0 12 - 3 12 8 4
4 - 2 25 25 0 13 - 1 9 3 6
4 - 3 7 7 0 13 - 2 13 16 -3
5 - 1 1 2 -1 13 - 3 2 5 -3
5 - 2 9 10 -1 14 - 1 0 1 -1
5 - 3 5 3 2 14 - 2 4 5 -1
6 - 1 1 3 -2 14 - 3 3 1 2
6 - 2 11 14 -3 15 - 1 3 2 1
6 - 3 9 4 5 15 - 2 6 9 -3
7 - 1 6 3 3 15 - 3 5 3 2
7 - 2 13 13 0 16 - 1 2 1 1
7 - 3 1 4 -3 16 - 2 3 4 -1
8 - 1 3 2 1 16 - 3 1 1 0
8 - 2 11 11 0
8 - 3 2 3 -1 Fuente: Investigación directa con datos
hipotéticos
9 - 1 4 3 1
9 - 2 19 17 2
401
Tabla VIII.15
Comparaciones entre 𝑓𝑟 y 𝑓𝑒
(𝑓𝑟 − 𝑓𝑒 )2 (𝑓𝑟 − 𝑓𝑒 )2 (𝑓𝑟 − 𝑓𝑒 )2 (𝑓𝑟 − 𝑓𝑒 )2 (𝑓𝑟 − 𝑓𝑒 )2 (𝑓𝑟 − 𝑓𝑒 )2 (𝑓𝑟 − 𝑓𝑒 )2 (𝑓𝑟 − 𝑓𝑒 )2
𝑓𝑒 𝑓𝑒 𝑓𝑒 𝑓𝑒
1 0.0909 16 2 1 0.5 0 0
25 0.4464 36 12 1 0.1 1 0.3333
16 0.9412 9 0.5625 4 0.2352 1 0.3333
4 0.8 9 1.8 9 1.8 1 1
25 1.4706 4 1.3333 4 0.8 1 0.2
9 1.5 4 1.3333 0 0 4 4
0 0 9 0.6429 4 0.5714 1 0.5
0 0 25 6.25 1 1 9 1
0 0 9 3 1 0.3333 4 1.3333
0 0 0 0 0 0 1 1
0 0 9 2.25 9 1.8 1 0.25
0 0 1 0.5 1 0.0357 0 0
Total 54.04
Fuente: Investigación directa con datos hipotéticos
(𝑓𝑟 − 𝑓𝑒 )2
𝜒2 = → 𝜒 2 = 54.04
𝑓𝑒
Gráfica VIII.11
Prueba de Hipótesis del Grupo Industrial
Zona de
aceptación
Zona d e
rechazo
β = 95%
α = 0,05
2 = 43.773
Fuente: Investigación directa con datos hipotéticos.
Como 𝜒 2 = 54.04 > 𝜒𝛼2 = 43.773, se rechaza la hipótesis nula de que no hay diferencia entre el
tamaño de la muestra y la opinión de los empresarios.
402
Luego se inicia la prueba Phi (𝜙) para cuantificar el grado de asociación entre las dos variables
descriptivas, sabiendo que toma valores entre 0 y 1.
1⁄ 1⁄
𝜒2 2 54.0469 2 1⁄
𝜙= [ ] = ( ) = (0.12899) 2 = 0.3591
𝑛 419
Como la tabla de contingencia es más grande que una de dos por dos, se aplica la V Cramer para
corregir el valor de ϕ.
1⁄ 1⁄
𝜙2 2 (0.3591)2 2
1⁄
𝑉= [ ] = ( ) = (0.0644) 2 = 0.2539
𝐶−1 2
NOTA: Observe que se tomó el valor mínimo entre el número de columnas o de renglones, en este
caso fue el de las columnas: 𝐶 − 1 = 3 − 1 = 2
Puesto que el valor de V oscila entre cero y más uno, no se modifica el tamaño de la muestra para el
mes de junio porque la asociación no es fuerte.
Objetivo:
Obtener el tamaño de la muestra adecuado para asegurar con una probabilidad igual a 95%, que el
error en la estimación del número medio de empresas necesarias no sea mayor del 6% (e).
Para ella se tomó la muestra aleatoria del mes de junio, la cual fue de 419 empresas distribuidas en
16 grupos industriales de la siguiente manera:
403
Tabla VIII.16
Grupos Industriales
Nº de Nº de
0 Concepto Empresas Concepto Empresas
(Xi) (Xi)
Fab. de Prod. de Hule y
1 Fab. de alimentos 84 9 25
Plástico
Fab. de Productos Minerales
2 Industria Textil 28 10 36
no Metálicos
3 Fab. de Prendas de Vestir 40 11 Industrias Metálicas Básicas 5
Fab. de Calzado e Ind. del
4 37 12 Fab. de Prod. Metálicos 41
Cuero
Ind. y Prod. de Madera y Fab. de Maq. y Equipo
5 15 13 24
Corcho Excepto Muebles Excepto los Eléctricos
Fab. y Rep. de Muebles de Fab. de Maq. y Equipo y
6 21 14 7
Madera Aparatos Eléctricos
Ind. Editorial de Impresión Construcción de Equipo de
7 20 15 14
y Conexas Transporte
Otras Industrias
8 Industria Química 16 16 6
Manufactureras
TOTAL 419
Fuente: Investigación directa con datos hipotéticos.
Tabla VIII.17
Cálculo de estadísticos de los Grupos Industriales
Grupo
Xi % Xi2 Xi2 - 𝑋̅ 2
Industrial
1 84 20.05 7056 6370.2148
2 28 6.68 784 98.214844
3 40 9.55 1600 914.21484
4 37 8.83 1369 683.21484
5 15 3.58 225 -460.7852
6 21 5.01 441 -244.7852
7 20 4.77 400 -285.7852
8 16 3.82 256 -429.7852
9 25 5.97 625 -60.78516
10 36 8.59 1296 610.21484
11 5 1.19 25 -660.7852
12 41 9.79 1681 995.21484
13 24 5.73 576 -109.7852
14 7 1.67 49 -636.7852
15 14 3.34 196 -489.7852
16 6 1.43 36 -649.7852
404
Suma 419 100 16,615 5,642
Fuente: Investigación directa con datos hipotéticos.
𝑛
1 1
𝑥̅ = ∑ 𝑥𝑖 = (419) = 26 empresas
𝑛 16
𝑖=1
𝑛
1 1
𝑆2 = ∑(𝑥𝑖2 − 𝑥̅ 2 ) = (5,642) = 352.6523 empresas
𝑛 16
𝑖=1
Considerando que el error permitido en la estimación (Ɛ) del promedio de empresas no debe ser
superior al 6%, y recordando que el estimador de μ = x = 26 empresas, se observa que Ɛ =
26(0.06) = 1.56 empresas.
En este caso se estima μ de la población con variable aleatoria asociada X mediante el empleo de x ,
proveniente de n = 419 con un error permitido de Ɛ = 6 % y un nivel de confianza β = 95%, donde
Z = desviación correspondiente al nivel de confianza de β en la distribución normal; en este caso a
la probabilidad β le corresponde 𝑍𝛼 = ±1.96.
Considerando a 𝑘𝜎𝜒̅𝑥 como 𝑍𝛼 (𝜎𝜒̅ ) este razonamiento para obtener el tamaño de la muestra se basa
en el hecho de que:
α = nivel de significación = 5%
Ello significa que el error en la estimación del valor de μ en valores absolutos es:
Sabiendo que K= Z
405
𝜎 2 𝑁−𝑛
Cuando la población es finita Ɛ = 𝑘 √ 𝑛 𝑁−1
𝑆2 𝑁 − 𝑛
Ɛ = 𝑍𝜎𝑥̅ = 𝑍√
𝑛 𝑁−1
Para obtener el tamaño de la muestra (n), se despeja de la ecuación anterior elevando al cuadrado
ambos miembros.
𝑆2 𝑁 − 𝑛
Ɛ2 = 𝑍 2
𝑛 𝑁−1
𝑍2 ∗𝑆 2 ∗𝑁
Así: 𝑛 = Ɛ2 𝑁−Ɛ2 +𝑍2 𝑆 2
α=5%
β = 95 %
𝑍 = ±1.96
𝑆 2 = 352.6523
𝑁 = 8,966
n = 524 empresas.
𝑆2 𝑁 − 𝑛
Ɛ2 = 𝑍 2 = (3.8416)(0.6727)(0.9416) = 2.4336
𝑛 𝑁−1
Ahora bien, si se desea distribuir la muestra de 524 empresas por grupo industrial, se hace con el
procedimiento llamado de afijación proporcional de la muestra, de conformidad con la importancia
que tenga cada estrato (Ni) dentro del universo (N), gráficamente se ve así:
406
Tabla VIII.18
Afijación proporcional de la muestra
Grupo %
n = 524 ni
Industrial (Ni/N)
1
2
.
.
.
.
.
14
15
16
Fuente: Investigación directa con datos hipotéticos.
Donde i = 1, 2, 3, 4, 5, … , 16
por lo que 𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛16 = 𝑛 = 524; luego para distribuir la muestra de 524 se usa el
siguiente método de muestreo:
Muestreo estratificado
Se toman como referencia los datos de este diseño muestral que se aplica en el inciso en que se
habla de la precisión, donde se indicó que el error de muestreo se mide con el error estándar,
entonces ahora se dice que si el error estándar de la proporción proveniente de una distribución de
muestreo estratificada finita (Ferber,1967) es:
𝑘
𝑁𝑖 − 𝑛𝑖
𝜎𝑝 = √∑ 𝑊𝑖2 𝑆𝑖2
𝑁𝑖 ∗ 𝑛𝑖
𝑖=1
Se desarrolla y se obtiene:
𝑘
𝑁𝑖 − 𝑛𝑖 ∑𝑘𝑖=1 𝑊𝑖2 𝑆𝑖2 𝑁𝑖 − 𝑛𝑖 ∑𝑘𝑖=1 𝑊𝑖2 𝑆𝑖2
𝜎𝑝2 = ∑ 𝑊𝑖2 𝑆𝑖2 =
𝑁𝑖 ∗ 𝑛𝑖 𝑁𝑖 ∗ 𝑛𝑖
𝑖=1
𝑘 𝑘
407
𝑘 𝑘
Entonces:
𝑘 𝑘
𝑁𝑖 ∑𝑘𝑖=1 𝑊𝑖2 𝑝𝑞
𝑛𝑖 = 2
𝜎𝑝 𝑁𝑖 + ∑𝑘𝑖=1 𝑊𝑖2 𝑝𝑞
Ejemplo:
Tabla VIII.19
Muestreo Estratificado
Empresas de la muestra que
Estratos Ni Wi ni muestra Pi
contestaron
1 7,000 0.7 200 160 0.8
2 1,000 0.1 100 40 0.4
3 2,000 0.2 100 60 0.6
10,000 1 400 260
Fuente: Investigación directa con datos de Ferber.
Con 𝜎𝑝 = 0.025
7,000(0.0904) 632.8
𝑛1 = 2
= = 141.7118
(0.025) ∗ 7,000 + 0.0904 4.4654
1,000(0.0904) 90.4
𝑛2 = 2
= = 126.3628
(0.025) ∗ 1,000 + 0.0904 0.7154
2,000(0.0904) 180.8
𝑛3 = 2
= = 134.8851
(0.025) ∗ 2,000 + 0.0904 1.3404
𝑛1 + 𝑛2 + 𝑛3 = 𝑛 = 402.9598
408
Para el análisis de sesgo se definen límites de control (o de confianza) donde con cierta probabilidad
se mantendrá el valor del porciento con un tamaño dado de muestra.
Cuando se salga de esos límites de control nuevamente se hará la prueba de χ2; si se rechaza la
hipótesis nula, nuevamente se revisará la muestra en el grupo y se determinará si el porciento es
legítimo o se debe a errores de muestreo, de tal manera que el proceso se vuelve iterativo, en el
sentido de que se harán ajustes cuantas veces sea necesario hasta llegar a muestras satisfactorias.
2
(𝑛𝑖 − 𝑛𝑖∗ )2
𝜒 =∑
𝑛𝑖∗
Esta prueba se emplea cuando se tienen más de dos resultados al realizar un experimento, al mismo
tiempo, para obtener conclusiones al comparar las frecuencias observadas con sus respectivas
esperadas, basadas en el supuesto de que así ocurra en la población o poblaciones de donde fueron
extraídas la muestra o muestras.
Considérense dos ejemplos, que pueden ser resueltos mediante la aplicación de EXCEL.
Primero: Lanzamiento de un dado 360 veces, que equivale a lanzar 360 dados una sola vez, de esta
manera se tendrá los resultados obtenidos, los esperados, y además el porcentaje o la proporción de
presentación de cada cara.
Tabla VIII.20
Lanzamiento de dados. 𝑛𝑖∗ = 𝑛𝑝; siendo n = 360 y p = 1/6.
CARAS ni n*i P
1
1 56 60 0.1667 𝑛𝑖∗ = 360 ( ) = 60
2 58 60 0.1667 6
3 62 60 0.1667
4 64 60 0.1667 Cada cara se espera que se
5 61 60 0.1667 presente 60 veces en 360
6 59 60 0.1667 lanzamientos.
S 360 360 1
Fuente: Investigación directa con datos hipotéticos.
Segundo: En tablas de contingencia, por ejemplo: una tabla de 3 x 3, con la siguiente información:
409
Tabla VIII.21
Tabla de Contingencia
Variable Variable Columna Total 𝑝1 = 700⁄2500 = 0.28
Línea L M N
A 400 200 100 700
𝑝2 = 700⁄2500 = 0.28
B 300 350 150 800
C 300 450 250 1000
Total 1000 1000 500 2500 𝑝3 = 700⁄2500 = 0.28
Fuente: Investigación directa con datos hipotéticos.
PASOS:
Cuadro VIII.15
Datos en Excel
410
Cuadro VIII.16
Comandos: Prueba Ji - Cuadrada
Cuadro VIII.17
Resultado de la Prueba Ji - Cuadrada
411
Cuadro VIII.19
Resultado de la Prueba Chi – Cuadrada Inversa
Con la estadística F se continúa con el estudio de las pruebas de hipótesis; este estadístico se
utiliza para realizar pruebas de hipótesis sobre: 1.-Igualdad de varianzas; 2.- la igualdad de más de
dos medias.(Yamane, 1979: 411).
Características de la distribución F
“Se determina a través de dos parámetros: los grados de libertad en el numerador y los grados de
libertad en el denominador;
Es una distribución continua, es decir, puede tomar un número infinito de valores entre cero y el
infinito positivo;
Es asintótica, es decir, su curva tiende al eje de las “x” pero nunca lo toca, tal y como lo hace la
distribución normal”.
Ejemplo:
Se sospecha que el gasto de las familias de la zona A tiene una variación mayor que las familias de
la zona B. En contra a la afirmación de la autoridad del Instituto de Estadística del País que señala
que la variación es igual en ambas zonas. Para probar la hipótesis se toma una muestra de 25
familias de la Zona A que da una varianza de 20 mil pesos, y una muestra de 20 familias de la Zona
B que da una varianza de 15 mil pesos. Con un error α= 0.01
412
Pruebe:
Por consiguiente como el nivel de significación es mayor al valor del estadístico F, se aprueba la
Hipótesis Nula. Considerándose que los ingresos de ambas zonas son iguales.
Al respecto, es importante reiterar que como en el caso antes expuesto, el estadístico F también se
usa para hacer pruebas de hipótesis, ahora comparando de manera simultánea varias medias. A esta
comparación simultanea se le denomina “análisis de la varianza (ANOVA)” (Lind, et al,
2005:387). Concretamente se aplica cuando hay interés por parte del investigador por determinar si
las diferentes medias muestrales proceden de una misma población o de poblaciones con diferentes
medias muestrales. En cualquier caso dichas comparaciones se hacen por medio de sus varianzas;
este procedimiento es el sustento del cálculo de F ya que en el caso de una población, ésta
proporciona la base para calcular su varianza , cuyo valor se obtiene usando dos formas distintas:
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜𝑠 y 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑔𝑟𝑢𝑝𝑜𝑠, las cuales sirven para calcular F que
se convierte en el cociente de las mismas. Ahora bien, si F es igual a 1, ello indica que dichas
varianzas son iguales y se dice que las medias muestrales de la población en estudio son iguales.
Cuando F es diferente a 1 se concluye diciendo que las medias muestrales no son iguales.
Lo antes expuesto se ilustra a continuación con el siguiente ejemplo, cuyo planteamiento se inicia
con el establecimiento de su fórmula, la cual es:
Así, dígamos que la compañía “Sánchez y Asociados” desea verificar si sus 3 agentes de ventas:
Rodríguez, Salinas y Pacheco tienden a vender el mismo valor de sus mercancías o si difieren en
su habilidad para hacerlo.
Lo anterior se verifica tomando el promedio de ventas hechas por cada uno de ellos , quienes la
semana pasada hicieron 14 llamadas de la siguiente manera:
413
y sus ventas fueron como sigue en miles de pesos:
Tabla VIII.22
Ventas -Miles de Pesos-
Rodríguez Salinas Pacheco
$ 300.00 $ 600.00 $ 700.00
$ 400.00 $ 300.00 $ 300.00
$ 300.00 $ 300.00 $ 400.00
$ 500.00 $ 400.00 $ 600.00
$ 0.00 --- $ 500.00
$ 1,500.00 $ 1,600.00 $ 2,000.00
Fuente: Richmond (1964).
Con esos datos se calculan las medias aritméticas de las ventas de cada uno:
La pregunta a contestar es: si las tres medias difieren más de lo esperado por la selección aleatoria
de la muestra: Ho
Para ello se analiza la relación entre sus varianzas y se establece que la varianza poblacional se
puede calcular de la muestra en diversas formas ( Richmond, 1964), las cuales son:
i) Se podría estimar calculando las desviaciones de las medias muéstrales con respecto a la gran
media, a lo cual se le denomina variación entre grupos (medias X ), cuyos datos para hacerlo son:
ii) También se puede obtener de la muestra comparando cada una de las ventas individuales con la
media de su grupo, lo cual se llama variación dentro de los grupos.
El total de observaciones (T) es 14; con ni en cada grupo, esto es, si i = 1,2,3, entonces:
𝑛1 = 5; 𝑛2 = 4; 𝑛3 = 5
iii) La otra manera de estimarla será comparando cada una de las 14 observaciones con la gran
media de las observaciones en los tres grupos a lo cual se denominará variación total.
Para realizar la prueba se establece la hipótesis nula de que no hay diferencias entre la habilidad de
los vendedores, y que las diferencias observadas se deben a la selección aleatoria de la muestra.
414
Esta prueba, como antes se indicó, se realiza con la distribución F, por medio de la cual se
determina si dos varianzas difieren más de lo esperado, examinando la razón o cociente entre ellas.
Los grados de libertad G.L.1, y G.L.2 , determinan la forma de la curva; GL1 = n1 − 1; GL2 = n2 −
2; F(n1 − 1, n2 − 2), donde el primer número en el paréntesis son los G.L. del numerador y el
segundo los G.L. del denominador (Ver Apéndice P).
Por lo inicialmente dicho, la mayoría de las pruebas que se realizan con F son de una cola, donde
la región de rechazo se halla en la cola derecha.
Gráfica VIII.12
Distribución F
Zona de
aceptación
Zona de
rechazo
β = 95% α = 0,05
Por ello, generalmente la prueba de hipótesis se hace utilizando el extremo o cola derecha.
Debe quedar claro, que en este caso las pruebas de análisis de varianza no pretenden probar la
significación de las diferencias entre dos varianzas muestrales ( como se hizo en VIII.10.1), aquí su
propósito es probar la significación de las diferencias entre medias muestrales con el mecanismo de
distribución F.
Ahora se procede a desarrollar las ecuaciones necesarias para realizar la prueba de análisis de
varianza usando los siguientes símbolos:
ni : designación de grupo
K: número de grupos ( K = 3 )
ni: número de observaciones en el i-ésimo grupo
T : total de observaciones
𝑘
𝑇 = ∑ 𝑛𝑖 = 5 + 4 + 5 = 14
𝑖=1
X i : Media de i-ésimo grupo
j : numeración seriada de las observaciones dentro de los grupos
xij : una observación. La j-ésima observación en el grupo i-ésimo
415
X : gran media de las T observaciones
Así :
(𝐾 − 1) + (𝑇 − 𝐾) = (𝑇 − 1)
∑ 𝑛𝑖 (𝑥̅𝑖 − 𝑥̿ )2
𝑖=1
𝑘 𝑛𝑖
∑ ∑(𝑥𝑖𝑗 − 𝑥̅𝑗 )2
𝑖=1 𝑗=1
𝑘 𝑛𝑖
416
Tabla VIII.23
Cálculo de la variación dentro de los grupos
J (𝑥1𝑗 − 𝑥̅1 ) (𝑥1𝑗 − 𝑥̅1 )2 (𝑥2𝑗 − 𝑥̅2 ) (𝑥2𝑗 − 𝑥̅2 )2 (𝑥3𝑗 − 𝑥̅3 ) (𝑥3𝑗 − 𝑥̅3 )2
J
(𝑋1𝑗 − 𝑋̿) (𝑋1𝑗 − 𝑋̿)2 (𝑋2𝑗 − 𝑋̿) (𝑋2𝑗 − 𝑋̿)2 (𝑋3𝑗 − 𝑋̿) (𝑋3𝑗 − 𝑋̿)2
417
Tabla VIII.25
Análisis de Varianza
Grados de Suma de
Variación Varianza
libertad cuadrados
Entre
K-1 = 3-1 = 2 100,000.00 50,000.00
grupos
Dentro de
T-K = 14-3 = 11 300,000.00 27,273.00
grupos
Total T-1 = 14-1 = 13 400,000.00
Fuente: Investigación directa.
50,000
𝐹(2,11) = = 1.8333
27,273
Como F = 1.83 < Fα = 3.98: se concluye con esta evidencia que hay homogeneidad entre las
medias; no es una evidencia de la cual se puede inferir que los vendedores difieren en habilidad
para vender los productos de la empresa.
VIII.11 Práctica XI
Tema: Prueba de Hipótesis
1.- Establezca la diferencia entre: a) Una hipótesis nula y una hipótesis alternativa; b) Un error tipo
I y un error tipo II.
2.- Explique lo siguiente: a) Nivel de significación; b) Valor critico; c) Región de rechazo; Región
de aceptación.
3.- Indique la diferencia entre: a) Una prueba de dos extremos y una prueba de un extremo; b) Una
prueba de extremo izquierdo y una de extremo derecho.
4.- Describa el procedimiento básico para hacer una prueba de hipótesis, haciendo énfasis cuando el
tamaño de la muestra es grande y cuando es pequeña, así como cuando la desviación estándar de la
población, σ, es conocida, y cuando σ es desconocida y el error estándar del estadístico, 𝑆𝑥̅ , se
estima a partir de una muestra.
Problema 1.- La media y la desviación estándar de la resistencia de cuerdas producidas por una
compañía A, fueron 600 libras y 40 libras respectivamente. Se acaba de aplicar una nueva técnica
en el proceso de fabricación. Se piensa que la resistencia de las cuerdas puede aumentar con este
proceso. Para ello el gerente de producción tomo una muestra de 64 cuerdas cuya media es de 609
libras. ¿Se puede concluir que hay un incremento de la resistencia media con α = 5%?
Problema 2.- Los laboratorios de medicina "Anahuac" sostienen que su producto, "Vuelve a la vida"
fue 95% efectivo en mitigar los sufrimientos de la fiebre en un período de menos de 5 horas. Una
muestra de 150 personas que usaron el producto indica que produjo alivio para 138 personas en ese
418
lapso de tiempo. ¿Cree que la afirmación hecha por "Anahuac" es válida al nivel de significación de
0.10?
Problema 3.- Una muestra de calificaciones de 80 estudiantes en una clase de estadística está dada
en las columnas (1 y 2) de la siguiente tabla. El número teórico de estudiantes para cada clase que
figura en la columna 3 se obtuvo mediante la curva normal. Determine si hay una diferencia
significativa, usando la χ2 entre las calificaciones esperadas o teóricas y las observadas en la clase
de estadística con α = 0.05.
Tabla VIII.27
Muestra de las calificaciones
1 2 3
Calificaciones Número de estudiantes
(Intervalo de clase) Real Teórico
20 – 29 3 1
30 – 39 6 3
40 – 49 5 8
50 – 59 7 13
60 – 69 10 17
70 – 79 29 16
80 – 89 12 12
90 – 99 8 6
99.5 y más 0 4
Total 80 80
Fuente: Investigación directa con datos hipotéticos.
Tabla VIII.28
Salarios
Número de trabajadores en Salarios de los trabajadores
cada muestra Electricistas Carpinteros Pintores $
$ $
1 74.00 75.00 56.00
2 65.00 78.00 55.00
3 72.00 74.00 53.00
4 69.00 76.00 52.00
5 72.00
Total 280.00 375.00 216.00
Fuente: Investigación directa con datos hipotéticos.
419
SOLUCIÓN PRÁCTICA X
Datos:
x = 609 libras α = 5%
uego Zα = ± 1.645
𝑥̅ −𝜇 𝜎
La prueba se hace con: 𝑍 = donde 𝜎𝑥 = porque n > 30
𝜎𝑥 √𝑛
609−600 9 40 40
Sustituyendo, luego 𝑍 = 5
= 5 = 1.8 así 𝜎𝑥 = = =5
√64 8
𝜎𝑥 = 5
Como Z = 1.8 > Zα = 1.645 se toma la decisión de rechazar la hipótesis nula de que hay un
incremento de la resistencia de las cuerdas en la nueva técnica de fabricación es decir, no mejoró su
resistencia.
Datos:
Π= 95% mejoría en menos de 5 horas n = 150
P = 92% = 138/150 α = 0.10
Luego Zα = ± 1.280
La prueba es de una cola o extremo, puesto que el alivio fue en un período de cinco horas; la
hipótesis alternativa es:
HA: Π = ≤ 95% de mejoría en más de cinco horas: El alivio fue para un período mayor de cinco
horas.
420
Gráfica VIII.13
Distribución Normal
𝑝−𝛱 𝑝𝑞
La prueba se hace con 𝑍 = 𝜎𝑝
donde 𝜎𝑝 = √ 𝑛 porque 𝑛 > 30 luego
(0.92)(0.08)
𝜎𝑝 = √ = √0.0004906 = 0.02215
150
0.92−0.95
Así se tiene que 𝑍 = 0.02215
por lo tanto 𝑍 = −1.36
Antecedentes: Se acostumbra como una regla de seguridad para aplicar la distribución χ2, que la
frecuencia esperada o en este caso el número teórico de estudiantes, en cada clase deberá ser cuando
menos cinco. Así, cuando hay frecuencias pequeñas en cada clase, éstas deberán ser combinadas
para llenar los requisitos.
Tabla VIII.29
Muestra de las Calificaciones
Calificaciones Número de Real – Teórico (Real - Teórico)2 (𝑅𝑒𝑎𝑙 − 𝑇𝑒ó𝑟𝑖𝑐𝑜)2
(Intervalo de clase) estudiantes 𝑇𝑒ó𝑟𝑖𝑐𝑜
Real Teórico
20 - 49 14 12 2 4 0.3333
50 - 59 7 13 -6 36 2.7692
60 - 69 10 17 -7 49 2.88
70 - 79 29 16 13 169 10.56
80 - 89 12 12 0 0 0.00
90 y más 8 10 -2 4 0.40
Total 80 80 0 262 𝜒 2 =16.9474
Fuente: Investigación directa con datos hipotéticos.
421
Grados de libertad = n-1= 6-1= 5; con = 5%, la 𝜒 2 TEÓRICA = 11.070
Tabla VIII.30
Muestra de las Calificaciones
Número de
Calificaciones (𝑅𝑒𝑎𝑙 − 𝑇𝑒ó𝑟𝑖𝑐𝑜)2
estudiantes Real – Teórico (Real - Teórico)2
(Intervalo de clase) 𝑇𝑒ó𝑟𝑖𝑐𝑜
Real Teórico
20 - 29 3 1 2 4 4
30 - 39 6 3 3 9 3
40 - 49 5 8 -3 9 1.13
50 - 59 7 13 -6 36 2.77
60 - 69 10 17 -7 49 2.88
70 - 79 29 16 13 169 10.56
80 - 89 12 12 0 0 0
90 - 99 8 6 2 4 0.67
99.5 y más 0 4 -4 16 4
Total 80 80 0 296 29.0058
Fuente: Investigación directa con datos hipotéticos.
Luego con α = 5%
𝜒𝛼2 =15.507
Decisión: se toma la decisión de rechazar la hipótesis nula de que las calificaciones reales y las
esperadas o teóricos no difieren significativamente, puesto que 𝜒𝛼2 = 15.507 < 𝜒 2 = 29.005
422
Solución del problema No. 4, calculando F con el método abreviado.
2
1. Se calcula ∑𝑖 𝑋𝑖𝑗
𝑥1𝑗 𝑥1𝑗 2 𝑥2𝑗 𝑥2𝑗 2 𝑥3𝑗 𝑥3𝑗 2
74 5,476 75 5,625 56 3,136
65 4,225 78 6,084 55 3,025
72 5,184 74 5,476 53 2,809
69 4,761 76 5,776 52 2,704
72 5,184
19,646 28,145 11,674
Fuente: Investigación directa con datos hipotéticos.
2. Se calcula:
𝑘
∑ 𝑛𝑖 𝑥̅𝑖2 = 𝑛1 𝑥̅12 + 𝑛2 𝑥̅22 + 𝑛3 𝑥̅32 = 4(70)2 + 5(75)2 + 4(54)2 = 19,600 + 28,125 + 11,664
𝑖=1
= 59,389
𝑘
2
∑ 𝑋𝑖𝑗 − ∑ 𝑛𝑖 𝑥̅𝑖2 = 59,465 − 59,389 = 76
𝑖 𝑖=1
Variación total:
2
∑ 𝑋𝑖𝑗 − 𝑇𝑋̿ 2 = 59,465 − 58,357 = 1,108
𝑖
Así:
423
Tabla VIII.31
Análisis de la variación
Suma de
Grados de libertad Varianza
cuadrados
Variación
entre K-1 = 3 - 2 = 2 1,032 516
grupos
Dentro de
T-K = 13 - 3 = 10 76 7.6
grupos
Total T-1 = 13 - 1 = 12 1,108 92.33
Fuente: Investigación directa con datos hipotéticos.
a) En el apéndice F se ve que con α =5% y G.L. (2 y 10) se obtiene Fα = 4.10, Luego se rechaza la
hipótesis nula.
1.- Establezca la diferencia entre: a) Una hipótesis nula y una hipótesis alternativa; b) Un error tipo
I y un error tipo II.
Respuesta:
a) Una hipótesis nula (Ho) es la que desea verificar el investigador; una hipótesis alternativa
(Ha) es la verificación distinta a la deseada con Ho.
2.- Explique lo siguiente: a) Nivel de significación; b) Valor crítico; c) Región de rechazo; Región
de aceptación; d) ¿Cómo el investigador determina el tamaño de “α”?
Respuesta:
424
b) Es el punto establecido para tomar la decisión de aceptar o rechazar Ho.
c) Es el área asignada a α para rechazar Ho; por lo que la región de aceptación es el área
asignada a β para aceptar Ho.
3.- Explique la diferencia entre: a) Una prueba de dos extremos y una prueba de un extremo; b)
Explique cuándo o en que caso se hace una prueba de extremo izquierdo y una de extremo
derecho.
Respuesta:
a) La de dos extremos comprende la posibilidad de que μ sea mayor o menor que μ0 y para
abarcar estas dos posibilidades α se divide entre dos y coloca en las dos colas de la curva.
La de un extremo especifica que μ sólo tiene una posibilidad: ser mayor o se menor que μ0.
Ho: μ0 ≥ μ
VS
Ha: μ0 < μ
Ho: μ0 ≤ μ
VS
Ha: μ0 > μ
4.- Describa el procedimiento básico para hacer una prueba de hipótesis (enuncie los cinco pasos
conocidos), haciendo énfasis cuando el tamaño de la muestra es grande y cuando es pequeña, así
como cuando la desviación estándar de la población, σ, es conocida, y cuando σ es desconocida y
el error estándar del estadístico, Sx , se estima a partir de una muestra.
Respuesta:
425
Z cuando n > 30 y se conoce σ.
t cuando n < 30 y no se conoce σ.
χ2 cuando se comparen frecuencias observadas con esperadas.
F cuando se comparan más de dos medias muestrales.
Se acepta Ho si Z ≤ Zα
Se rechaza Ho si Z > Zα
Paso 5: Se toma una decisión: aceptar o rechazar Ho con su análisis económico y estadístico.
5.- Indique cuándo usar cada uno de los siguientes cuatro estadísticos para probar hipótesis: “t”,
“Z”, “F” y “χ2”.
Respuesta:
Problema 1.- A los mexicanos les intriga pensar que el ingreso medio de los funcionarios públicos
sea mayor a 100000 pesos mensuales. Para verificar lo anterior se toma una muestra de 50 de ellos,
cuya media es de $95000 al mes y una desviación estándar poblacional de $7000. Con α = 1%
pruebe la hipótesis nula de que su ingreso promedio mensual no es mayor a $100000. Analice e
intérprete los resultados económica y estadísticamente.
Respuesta:
𝜎 7000
Luego 𝜎𝑥̅ = = ≈ 1,000
√𝑛 √50
𝑋̅−µ0 95,000−100,000
Así, 𝑍 = = = −5
𝜎𝑥̅ 1,000
426
Interpretación económica: El ingreso medio de los funcionarios públicos es mayor que $100,000.
Respuesta:
Ho: µo = 80
VS
Ha: µo ≠ 80
𝑠 2 2
𝑆𝑥̅ = = = = 0.52
√𝑛 √15 3.873
𝑋̅ − μ0 75 − 80
𝑡= = = −9.6153
𝑆𝑥̅ 0.52
Problema 3. Una muestra de calificaciones de 45 estudiantes en una clase de estadística está dada en
los intervalos contenidos en la columna 1 y las frecuencias o número real u observado de
estudiantes que las obtuvieron aparece en la columna 2 de la siguiente tabla. Por su parte, las
frecuencias o número teórico o esperado de estudiantes para cada clase o intervalo, figura en la
columna 3, mismo que se obtuvo mediante la curva normal. Determine si hay una diferencia
significativa estadísticamente entre las calificaciones esperadas o teóricas y las observadas en la
clase de estadística con α = 0.05. Analice e interprete los resultados académica y estadísticamente.
427
Tabla VIII.32
Calificaciones
1 2 3
Calificaciones Número de estudiantes
(Intervalo de clase) Real Teórico
20 – 29 2 3
30 – 39 4 5
40 – 49 6 4
50 – 59 8 5
60 – 69 6 5
70 – 79 10 8
80 – 89 6 9
90 – 99 2 4
99.5 y más 1 2
Total 45 45
Fuente: Investigación directa con datos hipotéticos.
Respuesta:
𝐻𝑜 : 𝑓𝑜 = 𝑓𝑒
𝐻𝑎 : 𝑓𝑜 ≠ 𝑓𝑒
Tabla VIII.33
Cálculo de la Distribución χ2 - Cuadrada
(𝑓𝑜 − 𝑓𝑒 )2
fo fe fo-fe (fo-fe)2
𝑓𝑒
2 3 -1 1 0.33
4 5 -1 1 0.2
6 4 2 4 1
8 5 3 9 1.8
6 5 1 1 0.2
10 8 2 4 0.5
6 9 -3 9 1
2 4 -2 4 1
1 2 -1 1 0.5
45 45 6.53
Fuente: Investigación directa con datos hipotéticos.
(𝑓𝑜 − 𝑓𝑒 )2
𝜒2 = ∑ = 6.53
𝑓𝑒
428
Interpretación estadística: La diferencia entre fo y fe no es significativa estadísticamente y, se debe a
la selección aleatoria de la muestra.
Tabla VIII.34
Calificaciones de la Facultad de Economía
Calificaciones
Número de estudiantes
Finanzas
en cada muestra Estadística Macroeconomía
públicas
1 6 6 7
2 7 6 8
3 8 7 7
4 9 9 10
5 10 10 10
15 40 38 42
Fuente: Investigación directa con datos hipotéticos.
Respuesta:
Tabla VIII.35
Cálculo del estadístico F
Macroeconomía Finanzas
Estadística (X1)2
(X2)2 (X3)2
36 36 49
49 36 64
64 49 49
81 81 100
100 100 100
Σ = 330 Σ = 302 Σ = 362
Fuente: Investigación directa con datos hipotéticos.
40
𝑥̅1 = = 8;
5
38
𝑥̅2 = = 7.6;
5
42
𝑥̅3 = = 8.4;
5
429
40 + 38 + 42 120
𝑥̿ = = = 8;
15 15
Así:
2
∑ 𝑥𝑖𝑗 = 330 + 302 + 362 = 994
𝑡
∑ 𝑛𝑖 𝑥̅𝑖 = 5(8)2 + 5(7.6)2 + 5(8.4)2 = 5(64) + 5(57.76) + 5(70.56) = 320 + 288.8 + 352.8
𝑖=1
= 961.6
Luego:
2
Variación dentro de grupos: ∑𝑡 𝑥𝑖𝑗 − ∑𝑘𝑖=1 𝑛𝑖 𝑥̅𝑖 = 994 − 961.6 = 32.4
2
2
Variación total: ∑𝑡 𝑥𝑖𝑗 − 𝑇(𝑋̿) = 994 − 960 = 34
Tabla VIII.36
Resumen de análisis de varianza
Suma de
Variación Grados de libertad Varianza
cuadrados
Entre
k-1=3-1=2 1.6 1.6/2=0.8
grupos
Dentro de
T-k=15-3=12 32.4 32.4/12=2.7
grupos
Total T-1=15-1=14 34 34/14=2.43
Fuente: Investigación directa con datos hipotéticos.
0.8
𝐹(2,12) = 0.296
2.7
Interpretación académica: No hay diferencia en las calificaciones por el método de enseñanza de los
profesores.
430
Interpretación estadística: No hay una diferencia estadística significativa en las calificaciones de los
15 alumnos, la diferencia se debe a la selección aleatoria de las tres muestras.
Observaciones: Cada una de las primeras cinco preguntas vale un punto; cada uno de los tres
primeros problemas vale un punto y el último, un punto, en una escala de 0 a 10. Usted puede
consultar la bibliografía que juzgue conveniente y/o necesaria.
COMENTARIOS FINALES:
Después de haber expuesto la forma en que se verifica estadísticamente una hipótesis de trabajo, se
puede concluir diciendo que este instrumental es muy importante cuando se hacen investigaciones
aplicando el método científico, ya que son fundamentales para el desarrollo de los estudios que se
realicen; la aceptación o rechazo de la hipótesis nula influye en el cumplimiento de los objetivos
establecidos para la solución de un determinado problema.
Si el método científico guía la investigación, dice el Dr. Raúl Rojas Soriano (2001), la hipótesis,
como estudio específico para verificar conjeturas sobre la naturaleza y solución del problema,
coadyuva a la obtención de resultados que enriquecen y aceleran el cumplimiento de los objetivos
planteados.
Por ello recomienda que debe plantearse con claridad y precisión; sus conceptos deben contar con
referencias empíricas y siempre formularse en términos afirmativos para garantizar que sus
hallazgos coadyuven a la solución de los problemas.
431
TABLAS ESTADÍSTICAS, tomadas de Samuel B. Richmond (1964) y G. C. Canavos (1988)
para propósitos didácticos, no lucrativos.
𝑋−𝜇 Ordenada (Y) de Área bajo la 𝑋−𝜇 Ordenada (Y) de Área bajo la
𝑍= la curva con curva entre la 𝑍= la curva con curva entre la
𝜎 respecto de X media y X 𝜎 respecto de X media y X
0.40 0.3683 0.1554 0.70 0.3123 0.2580
0.41 0.3668 0.1591 0.71 0.3101 0.2611
0.42 0.3653 0.1628 0.72 0.3079 0.2642
0.43 0.3637 0.1664 0.73 0.3056 0.2673
0.44 0.3621 0.1700 0.74 0.3034 0.2704
0.45 0.3605 0.1736 0.75 0.3011 0.2734
0.46 0.3589 0.1772 0.76 0.2989 0.2764
0.47 0.3572 0.1808 0.77 0.2966 0.2794
0.48 0.3555 0.1844 0.78 0.2943 0.2823
0.49 0.3538 0.1879 0.79 0.2920 0.2852
0.50 0.3521 0.1915 0.80 0.2897 0.2881
0.51 0.3503 0.1950 0.81 0.2874 0.2910
0.52 0.3485 0.1985 0.82 0.2850 0.2939
0.53 0.3467 0.2019 0.83 0.2827 0.2967
0.54 0.3448 0.2054 0.84 0.2803 0.2995
0.55 0.3429 0.2088 0.85 0.2780 0.3023
0.56 0.3410 0.2123 0.86 0.2756 0.3051
0.57 0.3391 0.2157 0.87 0.2732 0.3078
0.58 0.3372 0.2190 0.88 0.2709 0.3106
0.59 0.3352 0.2224 0.89 0.2685 0.3133
0.60 0.3332 0.2257 0.90 0.2661 0.3159
0.61 0.3312 0.2291 0.91 0.2637 0.3186
0.62 0.3292 0.2324 0.92 0.2613 0.3212
0.63 0.3271 0.2357 0.93 0.2589 0.3238
0.64 0.3251 0.2389 0.94 0.2565 0.3264
0.65 0.3230 0.2422 0.95 0.2541 0.3289
0.66 0.3209 0.2454 0.96 0.2516 0.3315
0.67 0.3187 0.2486 0.97 0.2492 0.3340
0.68 0.3166 0.2517 0.98 0.2468 0.3365
0.69 0.3144 0.2549 0.99 0.2444 0.3389
433
Tabla de áreas y ordenadas de la curva normal (3)
𝑋−𝜇 Ordenada (Y) de Área bajo la 𝑋−𝜇 Ordenada (Y) de Área bajo la
𝑍= la curva con curva entre la 𝑍= la curva con curva entre la
𝜎 respecto de X media y X 𝜎 respecto de X media y X
1.00 0.2420 0.3413 1.30 0.1714 0.4032
1.01 0.2396 0.3438 1.31 0.1691 0.4049
1.02 0.2371 0.3461 1.32 0.1669 0.4066
1.03 0.2347 0.3485 1.33 0.1647 0.4082
1.04 0.2323 0.3508 1.34 0.1626 0.4099
1.05 0.2299 0.3531 1.35 0.1604 0.4115
1.06 0.2275 0.3554 1.36 0.1582 0.4131
1.07 0.2251 0.3577 1.37 0.1561 0.4147
1.08 0.2227 0.3599 1.38 0.1539 0.4162
1.09 0.2203 0.3621 1.39 0.1518 0.4177
1.10 0.2179 0.3643 1.40 0.1497 0.4192
1.11 0.2155 0.3665 1.41 0.1476 0.4207
1.12 0.2131 0.3686 1.42 0.1456 0.4222
1.13 0.2107 0.3708 1.43 0.1435 0.4236
1.14 0.2083 0.3729 1.44 0.1415 0.4251
1.15 0.2059 0.3749 1.45 0.1394 0.4265
1.16 0.2036 0.3770 1.46 0.1374 0.4279
1.17 0.2012 0.3790 1.47 0.1354 0.4292
1.18 0.1989 0.3810 1.48 0.1334 0.4306
1.19 0.1965 0.3830 1.49 0.1315 0.4319
1.20 0.1942 0.3849 1.50 0.1295 0.4332
1.21 0.1919 0.3869 1.51 0.1276 0.4345
1.22 0.1895 0.3888 1.52 0.1257 0.4357
1.23 0.1872 0.3907 1.53 0.1238 0.4370
1.24 0.1849 0.3925 1.54 0.1219 0.4382
1.25 0.1826 0.3944 1.55 0.1200 0.4394
1.26 0.1804 0.3962 1.56 0.1182 0.4406
1.27 0.1781 0.3980 1.57 0.1163 0.4418
1.28 0.1758 0.3997 1.58 0.1145 0.4429
1.29 0.1736 0.4015 1.59 0.1127 0.4441
434
Tabla de áreas y ordenadas de la curva normal (4)
𝑋−𝜇 Ordenada (Y) de Área bajo la 𝑋−𝜇 Ordenada (Y) de Área bajo la
𝑍= la curva con curva entre la 𝑍= la curva con curva entre la
𝜎 respecto de X media y X 𝜎 respecto de X media y X
1.60 0.1109 0.4452 1.90 0.0656 0.4713
1.61 0.1092 0.4463 1.91 0.0644 0.4719
1.62 0.1074 0.4474 1.92 0.0632 0.4726
1.63 0.1057 0.4484 1.93 0.0620 0.4732
1.64 0.1040 0.4495 1.94 0.0608 0.4738
1.65 0.1023 0.4505 1.95 0.0596 0.4744
1.66 0.1006 0.4515 1.96 0.0584 0.4750
1.67 0.0989 0.4525 1.97 0.0573 0.4756
1.68 0.0973 0.4535 1.98 0.0562 0.4761
1.69 0.0957 0.4545 1.99 0.0551 0.4767
1.70 0.0940 0.4554 2.00 0.0540 0.4772
1.71 0.0925 0.4564 2.01 0.0529 0.4778
1.72 0.0909 0.4573 2.02 0.0519 0.4783
1.73 0.0893 0.4582 2.03 0.0508 0.4788
1.74 0.0878 0.4591 2.04 0.0498 0.4793
1.75 0.0863 0.4599 2.05 0.0488 0.4798
1.76 0.0848 0.4608 2.06 0.0478 0.4803
1.77 0.0833 0.4616 2.07 0.0468 0.4808
1.78 0.0818 0.4625 2.08 0.0459 0.4812
1.79 0.0804 0.4633 2.09 0.0449 0.4817
1.80 0.0790 0.4641 2.10 0.0440 0.4821
1.81 0.0775 0.4649 2.11 0.0431 0.4826
1.82 0.0761 0.4656 2.12 0.0422 0.4830
1.83 0.0748 0.4664 2.13 0.0413 0.4834
1.84 0.0734 0.4671 2.14 0.0404 0.4838
1.85 0.0721 0.4678 2.15 0.0396 0.4842
1.86 0.0707 0.4686 2.16 0.0387 0.4846
1.87 0.0694 0.4693 2.17 0.0379 0.4850
1.88 0.0681 0.4699 2.18 0.0371 0.4854
1.89 0.0669 0.4706 2.19 0.0363 0.4857
435
Tabla de áreas y ordenadas de la curva normal (5)
𝑋−𝜇 Ordenada (Y) de la Área bajo la 𝑋−𝜇 Ordenada (Y) de Área bajo la
𝑍= curva con respecto curva entre la 𝑍= la curva con curva entre la
𝜎 de X media y X 𝜎 respecto de X media y X
2.20 0.0355 0.4861 2.50 0.0175 0.4938
2.21 0.0347 0.4864 2.51 0.0171 0.4940
2.22 0.0339 0.4868 2.52 0.0167 0.4941
2.23 0.0332 0.4871 2.53 0.0163 0.4943
2.24 0.0325 0.4875 2.54 0.0158 0.4945
2.25 0.0317 0.4878 2.55 0.0154 0.4946
2.26 0.0310 0.4881 2.56 0.0151 0.4948
2.27 0.0303 0.4884 2.57 0.0147 0.4949
2.28 0.0297 0.4887 2.58 0.0143 0.4951
2.29 0.0290 0.4890 2.59 0.0139 0.4952
2.30 0.0283 0.4893 2.60 0.0136 0.4953
2.31 0.0277 0.4896 2.61 0.0132 0.4955
2.32 0.0270 0.4898 2.62 0.0129 0.4956
2.33 0.0264 0.4901 2.63 0.0126 0.4957
2.34 0.0258 0.4904 2.64 0.0122 0.4959
2.35 0.0252 0.4906 2.65 0.0119 0.4960
2.36 0.0246 0.4909 2.66 0.0116 0.4961
2.37 0.0241 0.4911 2.67 0.0113 0.4962
2.38 0.0235 0.4913 2.68 0.0110 0.4963
2.39 0.0229 0.4916 2.69 0.0107 0.4964
2.40 0.0224 0.4918 2.70 0.0104 0.4965
2.41 0.0219 0.4920 2.71 0.0101 0.4966
2.42 0.0213 0.4922 2.72 0.0099 0.4967
2.43 0.0208 0.4925 2.73 0.0096 0.4968
2.44 0.0203 0.4927 2.74 0.0093 0.4969
2.45 0.0198 0.4929 2.75 0.0091 0.4970
2.46 0.0194 0.4931 2.76 0.0088 0.4971
2.47 0.0189 0.4932 2.77 0.0086 0.4972
2.48 0.0184 0.4934 2.78 0.0084 0.4973
2.49 0.0180 0.4936 2.79 0.0081 0.4974
436
Tabla de áreas y ordenadas de la curva normal (6)
𝑋−𝜇 Ordenada (Y) de Área bajo la 𝑋−𝜇 Ordenada (Y) de Área bajo la
𝑍= la curva con curva entre la 𝑍= la curva con curva entre la
𝜎 respecto de X media y X 𝜎 respecto de X media y X
2.80 0.0079 0.4974 3.10 0.0033 0.4990
2.81 0.0077 0.4975 3.11 0.0032 0.4991
2.82 0.0075 0.4976 3.12 0.0031 0.4991
2.83 0.0073 0.4977 3.13 0.0030 0.4991
2.84 0.0071 0.4977 3.14 0.0029 0.4992
2.85 0.0069 0.4978 3.15 0.0028 0.4992
2.86 0.0067 0.4979 3.16 0.0027 0.4992
2.87 0.0065 0.4979 3.17 0.0026 0.4992
2.88 0.0063 0.4980 3.18 0.0025 0.4993
2.89 0.0061 0.4981 3.19 0.0025 0.4993
2.90 0.0060 0.4981 3.20 0.0024 0.4993
2.91 0.0058 0.4982 3.21 0.0023 0.4993
2.92 0.0056 0.4982 3.22 0.0022 0.4994
2.93 0.0055 0.4983 3.23 0.0022 0.4994
2.94 0.0053 0.4984 3.24 0.0021 0.4994
2.95 0.0051 0.4984 3.25 0.0020 0.4994
2.96 0.0050 0.4985 3.26 0.0020 0.4994
2.97 0.0048 0.4985 3.27 0.0019 0.4995
2.98 0.0047 0.4986 3.28 0.0018 0.4995
2.99 0.0046 0.4986 3.29 0.0018 0.4995
3.00 0.0044 0.4987 3.30 0.0017 0.4995
3.01 0.0043 0.4987 3.31 0.0017 0.4995
3.02 0.0042 0.4987 3.32 0.0016 0.4995
3.03 0.0040 0.4988 3.33 0.0016 0.4996
3.04 0.0039 0.4988 3.34 0.0015 0.4996
3.05 0.0038 0.4989 3.35 0.0015 0.4996
3.06 0.0037 0.4989 3.36 0.0014 0.4996
3.07 0.0036 0.4989 3.37 0.0014 0.4996
3.08 0.0035 0.4990 3.38 0.0013 0.4996
3.09 0.0034 0.4990 3.39 0.0013 0.4997
437
Tabla de áreas y ordenadas de la curva normal (7)
𝑋−𝜇 Ordenada (Y) de la Área bajo la 𝑋−𝜇 Ordenada (Y) de Área bajo la
𝑍= curva con respecto curva entre la 𝑍= la curva con curva entre la
𝜎 de X media y X 𝜎 respecto de X media y X
3.40 0.0012 0.4997 3.70 0.0004 0.4999
3.41 0.0012 0.4997 3.71 0.0004 0.4999
3.42 0.0012 0.4997 3.72 0.0004 0.4999
3.43 0.0011 0.4997 3.73 0.0004 0.4999
3.44 0.0011 0.4997 3.74 0.0004 0.4999
3.45 0.0010 0.4997 3.75 0.0004 0.4999
3.46 0.0010 0.4997 3.76 0.0003 0.4999
3.47 0.0010 0.4997 3.77 0.0003 0.4999
3.48 0.0009 0.4997 3.78 0.0003 0.4999
3.49 0.0009 0.4998 3.79 0.0003 0.4999
3.50 0.0009 0.4998 3.80 0.0003 0.4999
3.51 0.0008 0.4998 3.81 0.0003 0.4999
3.52 0.0008 0.4998 3.82 0.0003 0.4999
3.53 0.0008 0.4998 3.83 0.0003 0.4999
3.54 0.0008 0.4998 3.84 0.0003 0.4999
3.55 0.0007 0.4998 3.85 0.0002 0.4999
3.56 0.0007 0.4998 3.86 0.0002 0.4999
3.57 0.0007 0.4998 3.87 0.0002 0.4999
3.58 0.0007 0.4998 3.88 0.0002 0.4999
3.59 0.0006 0.4998 3.89 0.0002 0.4999
3.60 0.0006 0.4998 3.90 0.0002 0.4999
3.61 0.0006 0.4998 3.91 0.0002 0.4999
3.62 0.0006 0.4999 3.92 0.0002 0.4999
3.63 0.0005 0.4999 3.93 0.0002 0.4999
3.64 0.0005 0.4999 3.94 0.0002 0.4999
3.65 0.0005 0.4999 3.95 0.0002 0.4999
3.66 0.0005 0.4999 3.96 0.0002 0.4999
3.67 0.0005 0.4999 3.97 0.0002 0.4999
3.68 0.0005 0.4999 3.98 0.0001 0.4999
3.69 0.0004 0.4999 3.99 0.0001 0.4999
438
Apéndice B: Distribución Binomial
𝐧!
𝐏{𝐗} = 𝐩𝐗 𝐪𝐧−𝐗
𝐗! (𝐧 − 𝐗)!
p
n X
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
1 0 0.9500 0.9000 0.8500 0.8000 0.7500 0.7000 0.6500 0.6000 0.5500 0.5000
1 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0.4000 0.4500 0.5000
2 0 0.9025 0.8100 0.7225 0.6400 0.5625 0.4900 0.4225 0.3600 0.3025 0.2500
1 0.0950 0.1800 0.2550 0.3200 0.3750 0.4200 0.4550 0.4800 0.4950 0.5000
2 0.0025 0.0100 0.0225 0.0400 0.0625 0.0900 0.1225 0.1600 0.2025 0.2500
3 0 0.8574 0.7290 0.6141 0.5120 0.4219 0.3430 0.2746 0.2160 0.1664 0.1250
1 0.1354 0.2430 0.3251 0.3840 0.4219 0.4410 0.4436 0.4320 0.4084 0.3750
2 0.0071 0.0270 0.0574 0.0960 0.1406 0.1890 0.2389 0.2880 0.3341 0.3750
3 0.0001 0.0010 0.0034 0.0080 0.0156 0.0270 0.0429 0.0640 0.0911 0.1250
4 0 0.8145 0.6561 0.5220 0.4096 0.3164 0.2401 0.1785 0.1296 0.0915 0.0625
1 0.1715 0.2916 0.3685 0.4096 0.4219 0.4116 0.3845 0.3456 0.2995 0.2500
2 0.0135 0.0486 0.0975 0.1536 0.2109 0.2646 0.3105 0.3456 0.3675 0.3750
3 0.0005 0.0036 0.0115 0.0256 0.0469 0.0756 0.1115 0.1536 0.2005 0.2500
4 0.0000 0.0001 0.0005 0.0016 0.0039 0.0081 0.0150 0.0256 0.0410 0.0625
5 0 0.7738 0.5905 0.4437 0.3277 0.2373 0.1681 0.1160 0.0778 0.0503 0.0313
1 0.2036 0.3281 0.3915 0.4096 0.3955 0.3602 0.3124 0.2592 0.2059 0.1563
2 0.0214 0.0729 0.1382 0.2048 0.2637 0.3087 0.3364 0.3456 0.3369 0.3125
3 0.0011 0.0081 0.0244 0.0512 0.0879 0.1323 0.1811 0.2304 0.2757 0.3125
4 0.0000 0.0005 0.0022 0.0064 0.0146 0.0284 0.0488 0.0768 0.1128 0.1563
5 0.0000 0.0000 0.0001 0.0003 0.0010 0.0024 0.0053 0.0102 0.0185 0.0313
6 0 0.7351 0.5314 0.3771 0.2621 0.1780 0.1176 0.0754 0.0467 0.0277 0.0156
1 0.2321 0.3543 0.3993 0.3932 0.3560 0.3025 0.2437 0.1866 0.1359 0.0938
2 0.0305 0.0984 0.1762 0.2458 0.2966 0.3241 0.3280 0.3110 0.2780 0.2344
3 0.0021 0.0146 0.0415 0.0819 0.1318 0.1852 0.2355 0.2765 0.3032 0.3125
4 0.0001 0.0012 0.0055 0.0154 0.0330 0.0595 0.0951 0.1382 0.1861 0.2344
5 0.0000 0.0001 0.0004 0.0015 0.0044 0.0102 0.0205 0.0369 0.0609 0.0938
6 0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0018 0.0041 0.0083 0.0156
439
Tabla de la Distribución Binomial(2)
p
n X
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
7 0 0.6983 0.4783 0.3206 0.2097 0.1335 0.0824 0.0490 0.0280 0.0152 0.0078
1 0.2573 0.3720 0.3960 0.3670 0.3115 0.2471 0.1848 0.1306 0.0872 0.0547
2 0.0406 0.1240 0.2097 0.2753 0.3115 0.3177 0.2985 0.2613 0.2140 0.1641
3 0.0036 0.0230 0.0617 0.1147 0.1730 0.2269 0.2679 0.2903 0.2918 0.2734
4 0.0002 0.0026 0.0109 0.0287 0.0577 0.0972 0.1442 0.1935 0.2388 0.2734
5 0.0000 0.0002 0.0012 0.0043 0.0115 0.0250 0.0466 0.0774 0.1172 0.1641
6 0.0000 0.0000 0.0001 0.0004 0.0013 0.0036 0.0084 0.0172 0.0320 0.0547
7 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0016 0.0037 0.0078
8 0 0.6634 0.4305 0.2725 0.1678 0.1001 0.0576 0.0319 0.0168 0.0084 0.0039
1 0.2793 0.3826 0.3847 0.3355 0.2670 0.1977 0.1373 0.0896 0.0548 0.0313
2 0.0515 0.1488 0.2376 0.2936 0.3115 0.2965 0.2587 0.2090 0.1569 0.1094
3 0.0054 0.0331 0.0839 0.1468 0.2076 0.2541 0.2786 0.2787 0.2568 0.2188
4 0.0004 0.0046 0.0185 0.0459 0.0865 0.1361 0.1875 0.2322 0.2627 0.2734
5 0.0000 0.0004 0.0026 0.0092 0.0231 0.0467 0.0808 0.1239 0.1719 0.2188
6 0.0000 0.0000 0.0002 0.0011 0.0038 0.0100 0.0217 0.0413 0.0703 0.1094
7 0.0000 0.0000 0.0000 0.0001 0.0004 0.0012 0.0033 0.0079 0.0164 0.0313
8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0017 0.0039
9 0 0.6302 0.3874 0.2316 0.1342 0.0751 0.0404 0.0207 0.0101 0.0046 0.0020
1 0.2985 0.3874 0.3679 0.3020 0.2253 0.1556 0.1004 0.0605 0.0339 0.0176
2 0.0629 0.1722 0.2597 0.3020 0.3003 0.2668 0.2162 0.1612 0.1110 0.0703
3 0.0077 0.0446 0.1069 0.1762 0.2336 0.2668 0.2716 0.2508 0.2119 0.1641
4 0.0006 0.0074 0.0283 0.0661 0.1168 0.1715 0.2194 0.2508 0.2600 0.2461
5 0.0000 0.0008 0.0050 0.0165 0.0389 0.0735 0.1181 0.1672 0.2128 0.2461
6 0.0000 0.0001 0.0006 0.0028 0.0087 0.0210 0.0424 0.0743 0.1160 0.1641
7 0.0000 0.0000 0.0000 0.0003 0.0012 0.0039 0.0098 0.0212 0.0407 0.0703
8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0013 0.0035 0.0083 0.0176
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008 0.0020
10 0 0.5987 0.3487 0.1969 0.1074 0.0563 0.0282 0.0135 0.0060 0.0025 0.0010
1 0.3151 0.3874 0.3474 0.2684 0.1877 0.1211 0.0725 0.0403 0.0207 0.0098
2 0.0746 0.1937 0.2759 0.3020 0.2816 0.2335 0.1757 0.1209 0.0763 0.0439
3 0.0105 0.0574 0.1298 0.2013 0.2503 0.2668 0.2522 0.2150 0.1665 0.1172
4 0.0010 0.0112 0.0401 0.0881 0.1460 0.2001 0.2377 0.2508 0.2384 0.2051
5 0.0001 0.0015 0.0085 0.0264 0.0584 0.1029 0.1536 0.2007 0.2340 0.2461
440
Tabla de la Distribución Binomial(3)
p
n X
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
6 0.0000 0.0001 0.0012 0.0055 0.0162 0.0368 0.0689 0.1115 0.1596 0.2051
7 0.0000 0.0000 0.0001 0.0008 0.0031 0.0090 0.0212 0.0425 0.0746 0.1172
8 0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0043 0.0106 0.0229 0.0439
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016 0.0042 0.0098
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010
11 0 0.5688 0.3138 0.1673 0.0859 0.0422 0.0198 0.0088 0.0036 0.0014 0.0005
1 0.3293 0.3835 0.3248 0.2362 0.1549 0.0932 0.0518 0.0266 0.0125 0.0054
2 0.0867 0.2131 0.2866 0.2953 0.2581 0.1998 0.1395 0.0887 0.0513 0.0269
3 0.0137 0.0710 0.1517 0.2215 0.2581 0.2568 0.2254 0.1774 0.1259 0.0806
4 0.0014 0.0158 0.0536 0.1107 0.1721 0.2201 0.2428 0.2365 0.2060 0.1611
5 0.0001 0.0025 0.0132 0.0388 0.0803 0.1321 0.1830 0.2207 0.2360 0.2256
6 0.0000 0.0003 0.0023 0.0097 0.0268 0.0566 0.0985 0.1471 0.1931 0.2256
7 0.0000 0.0000 0.0003 0.0017 0.0064 0.0173 0.0379 0.0701 0.1128 0.1611
8 0.0000 0.0000 0.0000 0.0002 0.0011 0.0037 0.0102 0.0234 0.0462 0.0806
9 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018 0.0052 0.0126 0.0269
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0005
12 0 0.5404 0.2824 0.1422 0.0687 0.0317 0.0138 0.0057 0.0022 0.0008 0.0002
1 0.3413 0.3766 0.3012 0.2062 0.1267 0.0712 0.0368 0.0174 0.0075 0.0029
2 0.0988 0.2301 0.2924 0.2835 0.2323 0.1678 0.1088 0.0639 0.0339 0.0161
3 0.0173 0.0852 0.1720 0.2362 0.2581 0.2397 0.1954 0.1419 0.0923 0.0537
4 0.0021 0.0213 0.0683 0.1329 0.1936 0.2311 0.2367 0.2128 0.1700 0.1208
5 0.0002 0.0038 0.0193 0.0532 0.1032 0.1585 0.2039 0.2270 0.2225 0.1934
6 0.0000 0.0005 0.0040 0.0155 0.0401 0.0792 0.1281 0.1766 0.2124 0.2256
7 0.0000 0.0000 0.0006 0.0033 0.0115 0.0291 0.0591 0.1009 0.1489 0.1934
8 0.0000 0.0000 0.0001 0.0005 0.0024 0.0078 0.0199 0.0420 0.0762 0.1208
9 0.0000 0.0000 0.0000 0.0001 0.0004 0.0015 0.0048 0.0125 0.0277 0.0537
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0025 0.0068 0.0161
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
13 0 0.5133 0.2542 0.1209 0.0550 0.0238 0.0097 0.0037 0.0013 0.0004 0.0001
1 0.3512 0.3672 0.2774 0.1787 0.1029 0.0540 0.0259 0.0113 0.0045 0.0016
2 0.1109 0.2448 0.2937 0.2680 0.2059 0.1388 0.0836 0.0453 0.0220 0.0095
441
Tabla de la Distribución Binomial(4)
p
n X
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
3 0.0214 0.0997 0.1900 0.2457 0.2517 0.2181 0.1651 0.1107 0.0660 0.0349
4 0.0028 0.0277 0.0838 0.1535 0.2097 0.2337 0.2222 0.1845 0.1350 0.0873
5 0.0003 0.0055 0.0266 0.0691 0.1258 0.1803 0.2154 0.2214 0.1989 0.1571
6 0.0000 0.0008 0.0063 0.0230 0.0559 0.1030 0.1546 0.1968 0.2169 0.2095
7 0.0000 0.0001 0.0011 0.0058 0.0186 0.0442 0.0833 0.1312 0.1775 0.2095
8 0.0000 0.0000 0.0001 0.0011 0.0047 0.0142 0.0336 0.0656 0.1089 0.1571
9 0.0000 0.0000 0.0000 0.0001 0.0009 0.0034 0.0101 0.0243 0.0495 0.0873
10 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0022 0.0065 0.0162 0.0349
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0012 0.0036 0.0095
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
14 0 0.4877 0.2288 0.1028 0.0440 0.0178 0.0068 0.0024 0.0008 0.0002 0.0001
1 0.3593 0.3559 0.2539 0.1539 0.0832 0.0407 0.0181 0.0073 0.0027 0.0009
2 0.1229 0.2570 0.2912 0.2501 0.1802 0.1134 0.0634 0.0317 0.0141 0.0056
3 0.0259 0.1142 0.2056 0.2501 0.2402 0.1943 0.1366 0.0845 0.0462 0.0222
4 0.0037 0.0349 0.0998 0.1720 0.2202 0.2290 0.2022 0.1549 0.1040 0.0611
5 0.0004 0.0078 0.0352 0.0860 0.1468 0.1963 0.2178 0.2066 0.1701 0.1222
6 0.0000 0.0013 0.0093 0.0322 0.0734 0.1262 0.1759 0.2066 0.2088 0.1833
7 0.0000 0.0002 0.0019 0.0092 0.0280 0.0618 0.1082 0.1574 0.1952 0.2095
8 0.0000 0.0000 0.0003 0.0020 0.0082 0.0232 0.0510 0.0918 0.1398 0.1833
9 0.0000 0.0000 0.0000 0.0003 0.0018 0.0066 0.0183 0.0408 0.0762 0.1222
10 0.0000 0.0000 0.0000 0.0000 0.0003 0.0014 0.0049 0.0136 0.0312 0.0611
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0033 0.0093 0.0222
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0019 0.0056
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0009
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
15 0 0.4633 0.2059 0.0874 0.0352 0.0134 0.0047 0.0016 0.0005 0.0001 0.0000
1 0.3658 0.3432 0.2312 0.1319 0.0668 0.0305 0.0126 0.0047 0.0016 0.0005
2 0.1348 0.2669 0.2856 0.2309 0.1559 0.0916 0.0476 0.0219 0.0090 0.0032
3 0.0307 0.1285 0.2184 0.2501 0.2252 0.1700 0.1110 0.0634 0.0318 0.0139
4 0.0049 0.0428 0.1156 0.1876 0.2252 0.2186 0.1792 0.1268 0.0780 0.0417
5 0.0006 0.0105 0.0449 0.1032 0.1651 0.2061 0.2123 0.1859 0.1404 0.0916
6 0.0000 0.0019 0.0132 0.0430 0.0917 0.1472 0.1906 0.2066 0.1914 0.1527
7 0.0000 0.0003 0.0030 0.0138 0.0393 0.0811 0.1319 0.1771 0.2013 0.1964
8 0.0000 0.0000 0.0005 0.0035 0.0131 0.0348 0.0710 0.1181 0.1647 0.1964
442
Tabla de la Distribución Binomial(5)
p
n X
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
8 0.0000 0.0000 0.0005 0.0035 0.0131 0.0348 0.0710 0.1181 0.1647 0.1964
9 0.0000 0.0000 0.0001 0.0007 0.0034 0.0116 0.0298 0.0612 0.1048 0.1527
10 0.0000 0.0000 0.0000 0.0001 0.0007 0.0030 0.0096 0.0245 0.0515 0.0916
11 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0074 0.0191 0.0417
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052 0.0139
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0032
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
16 0 0.4401 0.1853 0.0743 0.0281 0.0100 0.0033 0.0010 0.0003 0.0001 0.0000
1 0.3706 0.3294 0.2097 0.1126 0.0535 0.0228 0.0087 0.0030 0.0009 0.0002
2 0.1463 0.2745 0.2775 0.2111 0.1336 0.0732 0.0353 0.0150 0.0056 0.0018
3 0.0359 0.1423 0.2285 0.2463 0.2079 0.1465 0.0888 0.0468 0.0215 0.0085
4 0.0061 0.0514 0.1311 0.2001 0.2252 0.2040 0.1553 0.1014 0.0572 0.0278
5 0.0008 0.0137 0.0555 0.1201 0.1802 0.2099 0.2008 0.1623 0.1123 0.0667
6 0.0001 0.0028 0.0180 0.0550 0.1101 0.1649 0.1982 0.1983 0.1684 0.1222
7 0.0000 0.0004 0.0045 0.0197 0.0524 0.1010 0.1524 0.1889 0.1969 0.1746
8 0.0000 0.0001 0.0009 0.0055 0.0197 0.0487 0.0923 0.1417 0.1812 0.1964
9 0.0000 0.0000 0.0001 0.0012 0.0058 0.0185 0.0442 0.0840 0.1318 0.1746
10 0.0000 0.0000 0.0000 0.0002 0.0014 0.0056 0.0167 0.0392 0.0755 0.1222
11 0.0000 0.0000 0.0000 0.0000 0.0002 0.0013 0.0049 0.0142 0.0337 0.0667
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0040 0.0115 0.0278
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0029 0.0085
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
17 0 0.4181 0.1668 0.0631 0.0225 0.0075 0.0023 0.0007 0.0002 0.0000 0.0000
1 0.3741 0.3150 0.1893 0.0957 0.0426 0.0169 0.0060 0.0019 0.0005 0.0001
2 0.1575 0.2800 0.2673 0.1914 0.1136 0.0581 0.0260 0.0102 0.0035 0.0010
3 0.0415 0.1556 0.2359 0.2393 0.1893 0.1245 0.0701 0.0341 0.0144 0.0052
4 0.0076 0.0605 0.1457 0.2093 0.2209 0.1868 0.1320 0.0796 0.0411 0.0182
5 0.0010 0.0175 0.0668 0.1361 0.1914 0.2081 0.1849 0.1379 0.0875 0.0472
6 0.0001 0.0039 0.0236 0.0680 0.1276 0.1784 0.1991 0.1839 0.1432 0.0944
7 0.0000 0.0007 0.0065 0.0267 0.0668 0.1201 0.1685 0.1927 0.1841 0.1484
8 0.0000 0.0001 0.0014 0.0084 0.0279 0.0644 0.1134 0.1606 0.1883 0.1855
9 0.0000 0.0000 0.0003 0.0021 0.0093 0.0276 0.0611 0.1070 0.1540 0.1855
443
Tabla de la Distribución Binomial(6)
p
n X
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
9 0.0000 0.0000 0.0003 0.0021 0.0093 0.0276 0.0611 0.1070 0.1540 0.1855
10 0.0000 0.0000 0.0000 0.0004 0.0025 0.0095 0.0263 0.0571 0.1008 0.1484
11 0.0000 0.0000 0.0000 0.0001 0.0005 0.0026 0.0090 0.0242 0.0525 0.0944
12 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0081 0.0215 0.0472
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0021 0.0068 0.0182
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
18 0 0.3972 0.1501 0.0536 0.0180 0.0056 0.0016 0.0004 0.0001 0.0000 0.0000
1 0.3763 0.3002 0.1704 0.0811 0.0338 0.0126 0.0042 0.0012 0.0003 0.0001
2 0.1683 0.2835 0.2556 0.1723 0.0958 0.0458 0.0190 0.0069 0.0022 0.0006
3 0.0473 0.1680 0.2406 0.2297 0.1704 0.1046 0.0547 0.0246 0.0095 0.0031
4 0.0093 0.0700 0.1592 0.2153 0.2130 0.1681 0.1104 0.0614 0.0291 0.0117
5 0.0014 0.0218 0.0787 0.1507 0.1988 0.2017 0.1664 0.1146 0.0666 0.0327
6 0.0002 0.0052 0.0301 0.0816 0.1436 0.1873 0.1941 0.1655 0.1181 0.0708
7 0.0000 0.0010 0.0091 0.0350 0.0820 0.1376 0.1792 0.1892 0.1657 0.1214
8 0.0000 0.0002 0.0022 0.0120 0.0376 0.0811 0.1327 0.1734 0.1864 0.1669
9 0.0000 0.0000 0.0004 0.0033 0.0139 0.0386 0.0794 0.1284 0.1694 0.1855
10 0.0000 0.0000 0.0001 0.0008 0.0042 0.0149 0.0385 0.0771 0.1248 0.1669
11 0.0000 0.0000 0.0000 0.0001 0.0010 0.0046 0.0151 0.0374 0.0742 0.1214
12 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0047 0.0145 0.0354 0.0708
13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0045 0.0134 0.0327
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0039 0.0117
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0031
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
19 0 0.3774 0.1351 0.0456 0.0144 0.0042 0.0011 0.0003 0.0001 0.0000 0.0000
1 0.3774 0.2852 0.1529 0.0685 0.0268 0.0093 0.0029 0.0008 0.0002 0.0000
2 0.1787 0.2852 0.2428 0.1540 0.0803 0.0358 0.0138 0.0046 0.0013 0.0003
3 0.0533 0.1796 0.2428 0.2182 0.1517 0.0869 0.0422 0.0175 0.0062 0.0018
4 0.0112 0.0798 0.1714 0.2182 0.2023 0.1491 0.0909 0.0467 0.0203 0.0074
5 0.0018 0.0266 0.0907 0.1636 0.2023 0.1916 0.1468 0.0933 0.0497 0.0222
6 0.0002 0.0069 0.0374 0.0955 0.1574 0.1916 0.1844 0.1451 0.0949 0.0518
444
Tabla de la Distribución Binomial(7)
p
n X
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
7 0.0000 0.0014 0.0122 0.0443 0.0974 0.1525 0.1844 0.1797 0.1443 0.0961
8 0.0000 0.0002 0.0032 0.0166 0.0487 0.0981 0.1489 0.1797 0.1771 0.1442
9 0.0000 0.0000 0.0007 0.0051 0.0198 0.0514 0.0980 0.1464 0.1771 0.1762
10 0.0000 0.0000 0.0001 0.0013 0.0066 0.0220 0.0528 0.0976 0.1449 0.1762
11 0.0000 0.0000 0.0000 0.0003 0.0018 0.0077 0.0233 0.0532 0.0970 0.1442
12 0.0000 0.0000 0.0000 0.0000 0.0004 0.0022 0.0083 0.0237 0.0529 0.0961
13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0024 0.0085 0.0233 0.0518
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0082 0.0222
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0022 0.0074
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
20 0 0.3585 0.1216 0.0388 0.0115 0.0032 0.0008 0.0002 0.0000 0.0000 0.0000
1 0.3774 0.2702 0.1368 0.0576 0.0211 0.0068 0.0020 0.0005 0.0001 0.0000
2 0.1887 0.2852 0.2293 0.1369 0.0669 0.0278 0.0100 0.0031 0.0008 0.0002
3 0.0596 0.1901 0.2428 0.2054 0.1339 0.0716 0.0323 0.0123 0.0040 0.0011
4 0.0133 0.0898 0.1821 0.2182 0.1897 0.1304 0.0738 0.0350 0.0139 0.0046
5 0.0022 0.0319 0.1028 0.1746 0.2023 0.1789 0.1272 0.0746 0.0365 0.0148
6 0.0003 0.0089 0.0454 0.1091 0.1686 0.1916 0.1712 0.1244 0.0746 0.0370
7 0.0000 0.0020 0.0160 0.0545 0.1124 0.1643 0.1844 0.1659 0.1221 0.0739
8 0.0000 0.0004 0.0046 0.0222 0.0609 0.1144 0.1614 0.1797 0.1623 0.1201
9 0.0000 0.0001 0.0011 0.0074 0.0271 0.0654 0.1158 0.1597 0.1771 0.1602
10 0.0000 0.0000 0.0002 0.0020 0.0099 0.0308 0.0686 0.1171 0.1593 0.1762
11 0.0000 0.0000 0.0000 0.0005 0.0030 0.0120 0.0336 0.0710 0.1185 0.1602
12 0.0000 0.0000 0.0000 0.0001 0.0008 0.0039 0.0136 0.0355 0.0727 0.1201
13 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0045 0.0146 0.0366 0.0739
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0049 0.0150 0.0370
15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0049 0.0148
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0046
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
445
Apéndice C: Distribución t de Student
6 0.131 0.265 0.404 0.553 0.718 0.906 1.134 1.44 1.943 2.447 3.143 3.707 5.959
7 0.13 0.263 0.402 0.549 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 5.405
8 0.13 0.262 0.399 0.546 0.706 0.889 1.108 1.397 1.86 2.306 2.896 3.355 5.041
9 0.129 0.261 0.398 0.543 0.703 0.883 1.1 1.383 1.833 2.262 2.281 3.25 4.781
10 0.129 0.26 0.397 0.542 0.7 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.587
11 0.129 0.26 0.396 0.54 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.437
12 0.128 0.259 0.395 0.539 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 4.318
Tabla de la Distribución t de Student (2)
446
Nivel de significación
Grados
de 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.02 0.01 0.001
libertad
13 0.128 0.259 0.394 0.538 0.694 0.87 1.079 1.35 1.771 2.16 2.65 3.012 4.221
14 0.128 0.258 0.393 0.537 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 4.14
15 0.125 0.258 0.393 0.536 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 4.073
16 0.125 0.258 0.392 0.535 0.69 0.865 1.071 1.337 1.746 2.12 2.583 2.921 4.015
17 0.128 0.257 0.392 0.534 0.689 0.863 1.069 1.333 1.74 2.11 2.567 2.898 3.965
18 0.127 0.257 0.392 0.534 0.688 0.862 1.067 1.33 1.734 2.101 2.552 2.878 3.922
19 0.127 0.257 0.391 0.533 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.883
20 0.127 0.257 0.391 0.533 0.687 0.86 1.064 1.325 1.725 2.086 2.528 2.845 3.85
21 0.127 0.257 0.391 0.532 0.686 0.859 1.063 1.323 1.721 2.08 2.518 2.831 3.819
22 0.127 0.256 0.39 0.532 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.792
23 0.127 0.256 0.39 0.532 0.685 0.858 1.06 1.319 1.714 2.069 2.5 2.807 3.767
24 0.127 0.256 0.39 0.531 0.685 0.857 1.059 1.318 1.714 2.064 2.492 2.797 3.745
25 0.127 0.256 0.39 0.531 0.648 0.856 1.058 1.316 1.708 2.06 2.485 2.787 3.725
26 0.127 0.256 0.39 0.531 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.707
27 0.127 0.256 0.389 0.531 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.69
28 0.127 0.256 0.389 0.53 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.674
29 0.127 0.256 0.389 0.53 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.659
30 0.127 0.256 0.389 0.53 0.683 0.854 1.055 1.31 1.697 2.042 2.457 2.75 3.646
447
Tabla de la Distribución t de Student (3)
448
Apéndice D: Distribución χ2, Ji - cuadrada
449
Tabla de la Distribución Ji – cuadrada (2)
450
Apéndice E: Distribución de F
Tabla de la distribución F
Valores de F: La cola derecha de la distribución F para P=0.05 (Valores sin negrita), 0.01 (Valores en negritas)
10.13 9.55 9.28 9.12 9.01 8.94 8.88 8.84 8.81 8.78 8.76 8.74
3 3
34.12 30.81 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23 27.13 27.05
7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.93 5.91
4 4
21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.54 14.45 14.37
6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.78 4.74 4.70 4.68
5 5
16.26 13.27 12.06 11.39 10.97 10.67 10.45 10.27 10.15 10.05 9.96 9.89
5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00
6 6
13.74 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.79 7.72
5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.63 3.60 3.57
7 7
12.25 9.55 8.45 7.85 7.46 7.19 7.00 6.84 6.71 6.62 6.54 6.47
5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.34 3.31 3.28
8 8
11.26 8.65 7.59 7.01 6.63 6.37 6.19 6.03 5.91 5.82 5.74 5.67
5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.13 3.10 3.07
9 9
10.56 8.02 6.99 6.42 6.06 5.80 5.62 5.47 5.35 5.26 5.18 5.11
4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.97 2.94 2.91
10 10
10.04 7.56 6.55 5.99 5.64 5.39 5.21 5.06 4.95 4.85 4.78 4.71
4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.86 2.82 2.79
11 11
9.65 7.20 6.22 5.67 5.32 5.07 4.88 4.74 4.63 4.54 4.46 4.40
4.75 3.88 3.49 3.26 3.11 3.00 2.92 2.85 2.80 2.76 2.72 2.69
12 12
9.33 6.93 5.95 5.41 5.06 4.82 4.65 4.50 4.39 4.30 4.22 4.16
4.67 3.80 3.41 3.18 3.02 2.92 2.84 2.77 2.72 2.67 2.63 2.60
13 13
9.07 6.70 5.74 5.20 4.88 4.62 4.44 4.30 4.19 4.10 4.02 3.96
Nota: Los números con negritas se refieren al nivel de significacion del 1% y; los otros, al 5%.
451
Tabla de la distribución F (2)
3 3
26.92 26.83 26.69 26.60 26.50 26.41 26.35 26.27 26.23 26.18 26.14 26.12
5.87 5.84 5.80 5.77 5.74 5.71 5.70 5.68 5.66 5.65 5.64 5.63
4 4
14.24 14.15 14.02 13.93 13.83 13.74 13.69 13.61 13.57 13.52 13.48 13.46
4.64 4.60 4.56 4.53 4.50 4.46 4.44 4.42 4.40 4.38 4.37 4.36
5 5
9.77 9.68 9.55 9.47 9.38 9.29 9.24 9.17 9.13 9.07 9.04 9.02
3.96 3.92 3.87 3.84 3.81 3.77 3.75 3.72 3.71 3.69 3.68 3.67
6 6
7.60 7.52 7.39 7.31 7.23 7.14 7.09 7.02 6.99 6.94 6.90 6.88
3.52 3.49 3.44 3.41 3.38 3.34 3.32 3.29 3.28 3.25 3.24 3.23
7 7
6.35 6.27 6.15 6.07 5.98 5.90 5.85 5.78 5.75 5.70 5.67 5.65
3.23 3.20 3.15 3.12 3.08 3.05 3.03 3.00 2.98 2.96 2.94 2.93
8 8
5.56 5.48 5.36 5.28 5.20 5.11 5.06 5.00 4.96 4.91 4.88 4.86
3.02 2.98 2.93 2.90 2.86 2.82 2.80 2.77 2.76 2.73 2.72 2.71
9 9
5.00 4.92 4.80 4.73 4.64 4.56 4.51 4.45 4.41 4.36 4.33 4.31
2.86 2.82 2.77 2.74 2.70 2.67 2.64 2.61 2.59 2.56 2.55 2.54
10 10
4.60 4.52 4.41 4.33 4.25 4.17 4.12 4.05 4.01 3.96 3.93 3.91
2.74 2.70 2.65 2.61 2.57 2.53 2.50 2.47 2.45 2.42 2.41 2.40
11 11
4.29 4.21 4.10 4.02 3.94 3.86 3.80 3.74 3.70 3.66 3.62 3.60
2.64 2.60 2.54 2.50 2.46 2.42 2.40 2.36 2.35 2.32 2.31 2.30
12 12
4.05 3.98 3.86 3.78 3.70 3.61 3.56 3.49 3.46 3.41 3.38 3.36
2.55 2.51 2.46 2.42 2.38 2.34 2.32 2.28 2.26 2.24 2.22 2.21
13 13
3.85 3.78 3.67 3.59 3.51 3.42 3.37 3.30 3.27 3.21 3.18 3.16
Nota: Ibíd.
452
Tabla de la distribución F (3)
16 16
8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.61 3.55
4.45 3.59 3.20 2.96 2.81 2.70 2.62 2.55 2.50 2.45 2.41 2.38
17 17
8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.52 3.45
4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.37 2.34
18 18
8.28 6.01 5.09 4.58 4.25 4.01 3.85 3.71 3.60 3.51 3.44 3.37
4.38 3.52 3.13 2.90 2.74 2.63 2.55 2.48 2.43 2.38 2.34 2.31
19 19
8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.36 3.30
4.35 3.49 3.10 2.87 2.71 2.60 2.52 2.45 2.40 2.35 2.31 2.28
20 20
8.10 5.85 4.94 4.43 4.10 3.87 3.71 3.56 3.45 3.37 3.30 3.23
4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.28 2.25
21 21
8.02 5.78 4.87 4.37 4.04 3.81 3.65 3.51 3.40 3.31 3.24 3.17
4.30 3.44 3.05 2.82 2.66 2.55 2.47 2.40 2.35 2.30 2.26 2.23
22 22
7.94 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.18 3.12
4.28 3.42 3.03 2.80 2.64 2.53 2.45 2.38 2.32 2.28 2.24 2.20
23 23
7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.14 3.07
4.26 3.40 3.01 2.78 2.62 2.51 2.43 2.36 2.30 2.26 2.22 2.18
24 24
7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.25 3.17 3.09 3.03
4.24 3.38 2.99 2.76 2.60 2.49 2.41 2.34 2.28 2.24 2.20 2.16
25 25
7.77 5.57 4.68 4.18 3.86 3.63 3.46 3.32 3.21 3.13 3.05 2.99
4.22 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.18 2.15
26 26
7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.17 3.09 3.02 2.96
Nota: Ibíd.
453
Tabla de la distribución F (4)
16 16
3.45 3.37 3.25 3.18 3.10 3.01 2.96 2.89 2.86 2.80 2.77 2.75
2.33 2.29 2.23 2.19 2.15 2.11 2.08 2.04 2.02 1.99 1.97 1.96
17 17
3.35 3.27 3.16 3.08 3.00 2.92 2.86 2.79 2.76 2.70 2.67 2.65
2.29 2.25 2.19 2.15 2.11 2.07 2.04 2.00 1.98 1.95 1.93 1.92
18 18
3.27 3.19 3.07 3.00 2.91 2.83 2.78 2.71 2.68 2.62 2.59 2.57
2.26 2.21 2.15 2.11 2.07 2.02 2.00 1.96 1.94 1.91 1.90 1.88
19 19
3.19 3.12 3.00 2.92 2.84 2.76 2.70 2.63 2.60 2.54 2.51 2.49
2.23 2.18 2.12 2.08 2.04 1.99 1.96 1.92 1.90 1.87 1.85 1.84
20 20
3.13 3.05 2.94 2.86 2.77 2.69 2.63 2.56 2.53 2.47 2.44 2.42
2.20 2.15 2.09 2.05 2.00 1.96 1.93 1.89 1.87 1.84 1.82 1.81
21 21
3.07 2.99 2.88 2.80 2.72 2.63 2.58 2.51 2.47 2.42 2.38 2.36
2.18 2.13 2.07 2.03 1.98 1.93 1.91 1.87 1.84 1.81 1.80 1.78
22 22
3.02 2.94 2.83 2.75 2.67 2.58 2.53 2.46 2.42 2.37 2.33 2.31
2.14 2.10 2.04 2.00 1.96 1.91 1.88 1.84 1.82 1.79 1.77 1.76
23 23
2.97 2.89 2.78 2.70 2.62 2.53 2.48 2.41 2.37 2.32 2.28 2.26
2.13 2.09 2.02 1.98 1.94 1.89 1.86 1.82 1.80 1.76 1.74 1.73
24 24
2.93 2.85 2.74 2.66 2.58 2.49 2.44 2.36 2.33 2.27 2.23 2.21
2.11 2.06 2.00 1.96 1.92 1.87 1.84 1.80 1.77 1.74 1.72 1.71
25 25
2.89 2.81 2.70 2.62 2.54 2.45 2.40 2.32 2.29 2.23 2.19 2.17
2.10 2.05 1.99 1.95 1.90 1.85 1.82 1.78 1.76 1.72 1.70 1.69
26 26
2.86 2.77 2.66 2.58 2.50 2.41 2.36 2.28 2.25 2.19 2.15 2.13
Nota: Ibíd.
454
Tabla de la distribución F (5)
29 29
7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.08 3.00 2.92 2.87
4.17 3.32 2.92 2.69 2.53 2.42 2.34 2.27 2.21 2.16 2.12 2.09
30 30
7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.06 2.98 2.90 2.84
4.15 3.30 2.90 2.67 2.51 2.40 2.32 2.25 2.19 2.14 2.10 2.07
32 32
7.50 5.34 4.46 3.97 3.66 3.42 3.25 3.12 3.01 2.94 2.86 2.80
4.13 3.28 2.88 2.65 2.49 2.38 2.30 2.23 2.17 2.12 2.08 2.05
34 34
7.44 5.29 4.42 3.93 3.61 3.38 3.21 3.08 2.97 2.89 2.82 2.76
4.11 3.26 2.86 2.63 2.48 2.36 2.28 2.21 2.15 2.10 2.06 2.03
36 36
7.39 5.25 4.38 3.89 3.58 3.35 3.18 3.04 2.94 2.86 2.76 2.72
4.10 3.25 2.85 2.62 2.46 2.35 2.26 2.19 2.14 2.09 2.05 2.02
38 38
7.35 5.21 4.34 3.86 3.54 3.32 3.15 3.02 2.91 2.82 2.75 2.69
4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.07 2.04 2.00
40 40
7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.88 2.80 2.73 2.66
4.07 3.22 2.83 2.59 2.44 2.32 2.24 2.17 2.11 2.06 2.02 1.99
42 42
7.27 5.15 4.29 3.80 3.49 3.26 3.10 2.96 2.86 2.77 2.70 2.64
4.06 3.21 2.82 2.58 2.43 2.31 2.23 2.16 2.10 2.05 2.01 1.98
44 44
7.24 5.12 4.26 3.78 3.46 3.24 3.07 2.94 2.84 2.75 2.68 2.62
4.05 3.20 2.81 2.57 2.42 2.30 2.22 2.14 22.09 2.04 2.00 1.97
46 46
7.21 5.10 4.24 3.76 3.44 3.22 3.05 2.92 2.82 2.73 2.66 2.60
4.04 3.19 2.80 2.56 2.41 2.30 2.21 2.14 2.08 2.03 1.99 1.96
48 48
7.19 5.08 4.22 3.74 3.42 3.20 3.04 2.90 2.80 2.71 2.64 2.58
Nota: Ibíd.
455
Tabla de la distribución F (6)
29 29
2.77 2.68 2.57 2.49 2.41 2.32 2.27 2.19 2.15 2.10 2.06 2.03
2.04 1.99 1.93 1.89 1.84 1.79 1.76 1.72 1.69 1.66 1.64 1.62
30 30
2.74 2.66 2.55 2.47 2.38 2.29 2.24 2.16 2.13 2.07 2.03 2.01
2.02 1.97 1.91 1.86 1.82 1.76 1.74 1.69 1.67 1.64 1.61 1.59
32 32
2.70 2.62 2.51 2.42 2.34 2.25 2.20 2.12 2.08 2.02 1.98 1.96
2.00 1.95 1.89 1.84 1.80 1.74 1.71 1.67 1.64 1.61 1.59 1.57
34 34
2.66 2.58 2.47 2.38 2.30 2.21 2.15 2.08 2.04 1.98 1.94 1.91
1.98 1.93 1.87 1.82 1.78 1.72 1.69 1.65 1.62 1.59 1.56 1.55
36 36
2.62 2.54 2.43 2.35 2.26 2.17 2.12 2.04 2.00 1.95 1.90 1.87
1.96 1.92 1.85 1.80 1.76 1.71 1.67 1.63 1.60 1.57 1.54 1.53
38 38
2.59 2.51 2.40 2.32 2.22 2.14 2.08 2.00 1.97 1.90 1.86 1.84
1.95 1.90 1.84 1.79 1.74 1.69 1.66 1.61 1.59 1.55 1.53 1.51
40 40
2.56 2.49 2.37 2.29 2.20 2.11 2.05 1.97 1.94 1.88 1.84 1.81
1.94 1.89 1.82 1.78 1.73 1.68 1.64 1.60 1.57 1.54 1.51 1.49
42 42
2.54 2.46 2.35 2.26 2.17 2.08 2.02 1.94 1.91 1.85 1.80 1.78
1.92 1.88 1.81 1.76 1.72 1.66 1.63 1.58 1.56 1.52 1.50 1.48
44 44
2.52 2.44 2.32 2.24 2.15 2.06 2.00 1.92 1.88 1.82 1.78 1.75
1.91 1.87 1.80 1.75 1.71 1.65 1.62 1.57 1.54 1.51 1.48 1.46
46 46
2.50 2.42 2.30 2.22 2.13 2.04 1.98 1.90 1.86 1.80 1.76 1.72
1.90 1.86 1.79 1.74 1.70 1.64 1.61 1.56 1.53 1.50 1.47 1.45
48 48
2.48 2.40 2.28 2.20 2.11 2.02 1.96 1.88 1.84 1.78 1.73 1.70
Nota: Ibíd.
456
Tabla de la distribución F (7)
7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.56 2.50
65 3.99 3.14 2.75 2.51 2.36 2.24 2.15 2.08 2.02 1.98 1.94 1.90 65
7.04 4.95 4.10 3.62 3.31 3.09 2.93 2.79 2.70 2.61 2.54 2.47
70 3.98 3.13 2.74 2.50 2.35 2.23 2.12 2.07 2.01 1.97 1.93 1.89 70
7.01 4.92 4.08 3.60 3.29 3.07 2.91 2.77 2.67 2.59 2.51 2.45
80 3.96 3.11 2.72 2.48 2.33 2.21 2.12 2.05 1.99 1.95 1.91 1.88 80
6.96 4.88 4.04 3.56 3.25 3.04 2.87 2.74 2.64 2.55 2.48 2.41
100 3.94 3.09 2.70 2.46 2.30 2.19 2.10 2.03 1.97 1.92 1.88 1.85 100
6.90 4.82 3.98 3.51 3.20 2.99 2.82 2.69 2.59 2.51 2.43 2.36
125 3.92 3.07 2.68 2.44 2.29 2.17 2.08 2.01 1.95 1.90 1.86 1.83 125
6.84 4.78 3.94 3.47 3.17 2.95 2.79 2.65 2.56 2.47 2.40 2.33
150 3.91 3.06 2.67 2.43 2.27 2.16 2.07 2.00 1.94 1.89 1.85 1.82 150
6.81 4.75 3.91 3.44 3.14 2.92 2.76 2.62 2.53 2.44 2.37 2.30
200 3.89 3.04 2.65 2.41 2.26 2.14 2.05 1.98 1.92 1.87 1.83 1.80 200
6.76 4.71 3.88 3.41 3.11 2.90 2.73 2.60 2.50 2.41 2.34 2.28
400 3.86 3.02 2.62 2.39 2.23 2.12 2.03 1.96 1.90 1.85 1.81 1.78 400
6.70 4.66 3.83 3.36 3.06 2.85 2.69 2.55 2.46 2.37 2.29 2.23
1000 3.85 3.00 2.61 2.38 2.22 2.10 2.02 1.95 1.89 1.84 1.80 1.76 1000
6.66 4.62 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34 2.26 2.20
∞ 3.84 2.99 2.60 2.37 2.21 2.09 2.01 1.94 1.88 1.83 1.79 1.75 ∞
6.64 4.60 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.24 2.18
Nota: Ibíd.
457
Tabla de la distribución F (8)
2.40 2.32 2.20 2.12 2.03 1.93 1.87 1.79 1.74 1.68 1.63 1.60
65 1.85 1.80 1.73 1.68 1.63 1.57 1.54 1.49 1.46 1.42 1.39 1.37 65
2.37 2.30 2.18 2.09 2.00 1.90 1.84 1.76 1.71 1.64 1.60 1.56
70 1.84 1.79 1.72 1.67 1.62 1.56 1.53 1.47 1.45 1.40 1.37 1.35 70
2.35 2.28 2.15 2.07 1.98 1.88 1.82 1.74 1.69 1.62 1.56 1.53
80 1.82 1.77 1.70 1.65 1.60 1.54 1.51 1.45 1.42 1.38 1.35 1.32 80
2.31 2.24 2.11 2.03 1.94 1.84 1.78 1.70 1.65 1.57 1.52 1.49
100 1.79 1.75 1.68 1.63 1.57 1.51 1.48 1.42 1.39 1.34 1.30 1.28 100
2.26 2.19 2.06 1.98 1.89 1.79 1.73 1.64 1.59 1.51 1.46 1.43
125 1.77 1.72 1.65 1.60 1.55 1.49 1.45 1.39 1.36 1.31 1.27 1.25 125
2.23 2.15 2.03 1.94 1.85 1.75 1.68 1.59 1.54 1.46 1.40 1.37
150 1.76 1.71 1.64 1.59 1.54 1.47 1.44 1.37 1.34 1.29 1.25 1.22 150
2.20 2.12 2.00 1.91 1.83 1.72 1.66 1.56 1.51 1.43 1.37 1.33
200 1.74 1.69 1.62 1.57 1.52 1.45 1.42 1.35 1.32 1.26 1.22 1.19 200
2.17 2.09 1.97 1.88 1.79 1.69 1.62 1.53 1.48 1.39 1.33 1.28
400 1.72 1.67 1.60 1.54 1.49 1.42 1.38 1.32 1.28 1.22 1.16 1.13 400
2.12 2.04 1.92 1.84 1.74 1.64 1.57 1.47 1.42 1.32 1.24 1.19
1000 1.70 1.65 1.58 1.53 1.47 1.41 1.36 1.30 1.26 1.19 1.13 1.08 1000
2.09 2.01 1.89 1.81 1.71 1.61 1.54 1.44 1.38 1.28 1.19 1.11
∞ 1.69 1.64 1.57 1.52 1.46 1.40 1.35 1.28 1.24 1.17 1.11 1.00 ∞
2.07 1.99 1.87 1.79 1.69 1.59 1.52 1.41 1.36 1.25 1.15 1.00
Nota: Ibíd.
458
Apéndice F: Distribución de Poisson
m
X 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679
1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679
2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839
3 0.0002 0.0011 0.0033 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613
4 0.0000 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153
5 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031
6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005
7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
m
X 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
0 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 0.1353
1 0.3662 0.3614 0.3543 0.3452 0.3347 0.3230 0.3106 0.2975 0.2842 0.2707
2 0.2014 0.2169 0.2303 0.2417 0.2510 0.2584 0.2640 0.2678 0.2700 0.2707
3 0.0738 0.0867 0.0998 0.1128 0.1255 0.1378 0.1496 0.1607 0.1710 0.1804
4 0.0203 0.0260 0.0324 0.0395 0.0471 0.0551 0.0636 0.0723 0.0812 0.0902
5 0.0045 0.0062 0.0084 0.0111 0.0141 0.0176 0.0216 0.0260 0.0309 0.0361
6 0.0008 0.0012 0.0018 0.0026 0.0035 0.0047 0.0061 0.0078 0.0098 0.0120
7 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0020 0.0027 0.0034
8 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002
m
X 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0
0 0.1225 0.1108 0.1003 0.0907 0.0821 0.0743 0.0672 0.0608 0.0550 0.0498
1 0.2572 0.2438 0.2306 0.2177 0.2052 0.1931 0.1815 0.1703 0.1596 0.1494
2 0.2700 0.2681 0.2652 0.2613 0.2565 0.2510 0.2450 0.2384 0.2314 0.2240
3 0.1890 0.1966 0.2033 0.2090 0.2138 0.2176 0.2205 0.2225 0.2237 0.2240
4 0.0992 0.1082 0.1169 0.1254 0.1336 0.1414 0.1488 0.1557 0.1622 0.1680
5 0.0417 0.0476 0.0538 0.0602 0.0668 0.0735 0.0804 0.0872 0.0940 0.1008
6 0.0146 0.0174 0.0206 0.0241 0.0278 0.0319 0.0362 0.0407 0.0455 0.0504
7 0.0044 0.0055 0.0068 0.0083 0.0099 0.0118 0.0139 0.0163 0.0188 0.0216
8 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0057 0.0068 0.0081
9 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0022 0.0027
10 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
459
Tabla de la Distribución de Poisson (2)
m
X 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
0 0.0450 0.0408 0.0369 0.0334 0.0302 0.0273 0.0247 0.0224 0.0202 0.0183
1 0.1397 0.1304 0.1217 0.1135 0.1057 0.0984 0.0915 0.0850 0.0789 0.0733
2 0.2165 0.2087 0.2008 0.1929 0.1850 0.1771 0.1692 0.1615 0.1539 0.1465
3 0.2237 0.2226 0.2209 0.2186 0.2158 0.2125 0.2087 0.2046 0.2001 0.1954
4 0.1733 0.1781 0.1823 0.1858 0.1888 0.1912 0.1931 0.1944 0.1951 0.1954
5 0.1075 0.1140 0.1203 0.1264 0.1322 0.1377 0.1429 0.1477 0.1522 0.1563
6 0.0555 0.0608 0.0662 0.0716 0.0771 0.0826 0.0881 0.0936 0.0989 0.1042
7 0.0246 0.0278 0.0312 0.0348 0.0385 0.0425 0.0466 0.0508 0.0551 0.0595
8 0.0095 0.0111 0.0129 0.0148 0.0169 0.0191 0.0215 0.0241 0.0269 0.0298
9 0.0033 0.0040 0.0047 0.0056 0.0066 0.0076 0.0089 0.0102 0.0116 0.0132
10 0.0010 0.0013 0.0016 0.0019 0.0023 0.0028 0.0033 0.0039 0.0045 0.0053
11 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0011 0.0013 0.0016 0.0019
12 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006
13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
m
X 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0
0 0.0166 0.0150 0.0136 0.0123 0.0111 0.0101 0.0091 0.0082 0.0074 0.0067
1 0.0679 0.0630 0.0583 0.0540 0.0500 0.0462 0.0427 0.0395 0.0365 0.0337
2 0.1393 0.1323 0.1254 0.1188 0.1125 0.1063 0.1005 0.0948 0.0894 0.0842
3 0.1904 0.1852 0.1798 0.1743 0.1687 0.1631 0.1574 0.1517 0.1460 0.1404
4 0.1951 0.1944 0.1933 0.1917 0.1898 0.1875 0.1849 0.1820 0.1789 0.1755
5 0.1600 0.1633 0.1662 0.1687 0.1708 0.1725 0.1738 0.1747 0.1753 0.1755
6 0.1093 0.1143 0.1191 0.1237 0.1281 0.1323 0.1362 0.1398 0.1432 0.1462
7 0.0640 0.0686 0.0732 0.0778 0.0824 0.0869 0.0914 0.0959 0.1002 0.1044
8 0.0328 0.0360 0.0393 0.0428 0.0463 0.0500 0.0537 0.0575 0.0614 0.0653
9 0.0150 0.0168 0.0188 0.0209 0.0232 0.0255 0.0281 0.0307 0.0334 0.0363
10 0.0061 0.0071 0.0081 0.0092 0.0104 0.0118 0.0132 0.0147 0.0164 0.0181
11 0.0023 0.0027 0.0032 0.0037 0.0043 0.0049 0.0056 0.0064 0.0073 0.0082
12 0.0008 0.0009 0.0011 0.0013 0.0016 0.0019 0.0022 0.0026 0.0030 0.0034
13 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013
14 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005
15 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002
m
X 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
0 0.0061 0.0055 0.0050 0.0045 0.0041 0.0037 0.0033 0.0030 0.0027 0.0025
1 0.0311 0.0287 0.0265 0.0244 0.0225 0.0207 0.0191 0.0176 0.0162 0.0149
2 0.0793 0.0746 0.0701 0.0659 0.0618 0.0580 0.0544 0.0509 0.0477 0.0446
3 0.1348 0.1293 0.1239 0.1185 0.1133 0.1082 0.1033 0.0985 0.0938 0.0892
4 0.1719 0.1681 0.1641 0.1600 0.1558 0.1515 0.1472 0.1428 0.1383 0.1339
5 0.1753 0.1748 0.1740 0.1728 0.1714 0.1697 0.1678 0.1656 0.1632 0.1606
6 0.1490 0.1515 0.1537 0.1555 0.1571 0.1584 0.1594 0.1601 0.1605 0.1606
7 0.1086 0.1125 0.1163 0.1200 0.1234 0.1267 0.1298 0.1326 0.1353 0.1377
8 0.0692 0.0731 0.0771 0.0810 0.0849 0.0887 0.0925 0.0962 0.0998 0.1033
9 0.0392 0.0423 0.0454 0.0486 0.0519 0.0552 0.0586 0.0620 0.0654 0.0688
460
Tabla de la Distribución de Poisson (3)
m
X 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
10 0.0200 0.0220 0.0241 0.0262 0.0285 0.0309 0.0334 0.0359 0.0386 0.0413
11 0.0093 0.0104 0.0116 0.0129 0.0143 0.0157 0.0173 0.0190 0.0207 0.0225
12 0.0039 0.0045 0.0051 0.0058 0.0065 0.0073 0.0082 0.0092 0.0102 0.0113
13 0.0015 0.0018 0.0021 0.0024 0.0028 0.0032 0.0036 0.0041 0.0046 0.0052
14 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013 0.0015 0.0017 0.0019 0.0022
15 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009
16 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001
m
X 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
0 0.0022 0.0020 0.0018 0.0017 0.0015 0.0014 0.0012 0.0011 0.0010 0.0009
1 0.0137 0.0126 0.0116 0.0106 0.0098 0.0090 0.0082 0.0076 0.0070 0.0064
2 0.0417 0.0390 0.0364 0.0340 0.0318 0.0296 0.0276 0.0258 0.0240 0.0223
3 0.0848 0.0806 0.0765 0.0726 0.0688 0.0652 0.0617 0.0584 0.0552 0.0521
4 0.1294 0.1249 0.1205 0.1162 0.1118 0.1076 0.1034 0.0992 0.0952 0.0912
5 0.1579 0.1549 0.1519 0.1487 0.1454 0.1420 0.1385 0.1349 0.1314 0.1277
6 0.1605 0.1601 0.1595 0.1586 0.1575 0.1562 0.1546 0.1529 0.1511 0.1490
7 0.1399 0.1418 0.1435 0.1450 0.1462 0.1472 0.1480 0.1486 0.1489 0.1490
8 0.1066 0.1099 0.1130 0.1160 0.1188 0.1215 0.1240 0.1263 0.1284 0.1304
9 0.0723 0.0757 0.0791 0.0825 0.0858 0.0891 0.0923 0.0954 0.0985 0.1014
10 0.0441 0.0469 0.0498 0.0528 0.0558 0.0588 0.0618 0.0649 0.0679 0.0710
11 0.0244 0.0265 0.0285 0.0307 0.0330 0.0353 0.0377 0.0401 0.0426 0.0452
12 0.0124 0.0137 0.0150 0.0164 0.0179 0.0194 0.0210 0.0227 0.0245 0.0263
13 0.0058 0.0065 0.0073 0.0081 0.0089 0.0099 0.0108 0.0119 0.0130 0.0142
14 0.0025 0.0029 0.0033 0.0037 0.0041 0.0046 0.0052 0.0058 0.0064 0.0071
15 0.0010 0.0012 0.0014 0.0016 0.0018 0.0020 0.0023 0.0026 0.0029 0.0033
16 0.0004 0.0005 0.0005 0.0006 0.0007 0.0008 0.0010 0.0011 0.0013 0.0014
17 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006
18 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001
m
X 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0
0 0.0008 0.0007 0.0007 0.0006 0.0006 0.0005 0.0005 0.0004 0.0004 0.0003
1 0.0059 0.0054 0.0049 0.0045 0.0041 0.0038 0.0035 0.0032 0.0029 0.0027
2 0.0208 0.0194 0.0180 0.0167 0.0156 0.0145 0.0134 0.0125 0.0116 0.0107
3 0.0492 0.0464 0.0438 0.0413 0.0389 0.0366 0.0345 0.0324 0.0305 0.0286
4 0.0874 0.0836 0.0799 0.0764 0.0729 0.0696 0.0663 0.0632 0.0602 0.0573
5 0.1241 0.1204 0.1167 0.1130 0.1094 0.1057 0.1021 0.0986 0.0951 0.0916
6 0.1468 0.1445 0.1420 0.1394 0.1367 0.1339 0.1311 0.1282 0.1252 0.1221
7 0.1489 0.1486 0.1481 0.1474 0.1465 0.1454 0.1442 0.1428 0.1413 0.1396
8 0.1321 0.1337 0.1351 0.1363 0.1373 0.1381 0.1388 0.1392 0.1395 0.1396
9 0.1042 0.1070 0.1096 0.1121 0.1144 0.1167 0.1187 0.1207 0.1224 0.1241
10 0.0740 0.0770 0.0800 0.0829 0.0858 0.0887 0.0914 0.0941 0.0967 0.0993
11 0.0478 0.0504 0.0531 0.0558 0.0585 0.0613 0.0640 0.0667 0.0695 0.0722
12 0.0283 0.0303 0.0323 0.0344 0.0366 0.0388 0.0411 0.0434 0.0457 0.0481
13 0.0154 0.0168 0.0181 0.0196 0.0211 0.0227 0.0243 0.0260 0.0278 0.0296
14 0.0078 0.0086 0.0095 0.0104 0.0113 0.0123 0.0134 0.0145 0.0157 0.0169
461
Tabla de la Distribución de Poisson (4)
m
X 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0
15 0.0037 0.0041 0.0046 0.0051 0.0057 0.0062 0.0069 0.0075 0.0083 0.0090
16 0.0016 0.0019 0.0021 0.0024 0.0026 0.0030 0.0033 0.0037 0.0041 0.0045
17 0.0007 0.0008 0.0009 0.0010 0.0012 0.0013 0.0015 0.0017 0.0019 0.0021
18 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009
19 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0003 0.0004
20 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002
21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001
m
X 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0
0 0.0003 0.0003 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0001 0.0001
1 0.0025 0.0023 0.0021 0.0019 0.0017 0.0016 0.0014 0.0013 0.0012 0.0011
2 0.0100 0.0092 0.0086 0.0079 0.0074 0.0068 0.0063 0.0058 0.0054 0.0050
3 0.0269 0.0252 0.0237 0.0222 0.0208 0.0195 0.0183 0.0171 0.0160 0.0150
4 0.0544 0.0517 0.0491 0.0466 0.0443 0.0420 0.0398 0.0377 0.0357 0.0337
5 0.0882 0.0849 0.0816 0.0784 0.0752 0.0722 0.0692 0.0663 0.0635 0.0607
6 0.1191 0.1160 0.1128 0.1097 0.1066 0.1034 0.1003 0.0972 0.0941 0.0911
7 0.1378 0.1358 0.1338 0.1317 0.1294 0.1271 0.1247 0.1222 0.1197 0.1171
8 0.1395 0.1392 0.1388 0.1382 0.1375 0.1366 0.1356 0.1344 0.1332 0.1318
9 0.1256 0.1269 0.1280 0.1290 0.1299 0.1306 0.1311 0.1315 0.1317 0.1318
10 0.1017 0.1040 0.1063 0.1084 0.1104 0.1123 0.1140 0.1157 0.1172 0.1186
11 0.0749 0.0776 0.0802 0.0828 0.0853 0.0878 0.0902 0.0925 0.0948 0.0970
12 0.0505 0.0530 0.0555 0.0579 0.0604 0.0629 0.0654 0.0679 0.0703 0.0728
13 0.0315 0.0334 0.0354 0.0374 0.0395 0.0416 0.0438 0.0459 0.0481 0.0504
14 0.0182 0.0196 0.0210 0.0225 0.0240 0.0256 0.0272 0.0289 0.0306 0.0324
15 0.0098 0.0107 0.0116 0.0126 0.0136 0.0147 0.0158 0.0169 0.0182 0.0194
16 0.0050 0.0055 0.0060 0.0066 0.0072 0.0079 0.0086 0.0093 0.0101 0.0109
17 0.0024 0.0026 0.0029 0.0033 0.0036 0.0040 0.0044 0.0048 0.0053 0.0058
18 0.0011 0.0012 0.0014 0.0015 0.0017 0.0019 0.0021 0.0024 0.0026 0.0029
19 0.0005 0.0005 0.0006 0.0007 0.0008 0.0009 0.0010 0.0011 0.0012 0.0014
20 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0005 0.0006
21 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0002 0.0003
22 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
m
X 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10.0
0 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0000
1 0.0010 0.0009 0.0009 0.0008 0.0007 0.0007 0.0006 0.0005 0.0005 0.0005
2 0.0046 0.0043 0.0040 0.0037 0.0034 0.0031 0.0029 0.0027 0.0025 0.0023
3 0.0140 0.0131 0.0123 0.0115 0.0107 0.0100 0.0093 0.0087 0.0081 0.0076
4 0.0319 0.0302 0.0285 0.0269 0.0254 0.0240 0.0226 0.0213 0.0201 0.0189
5 0.0581 0.0555 0.0530 0.0506 0.0483 0.0460 0.0439 0.0418 0.0398 0.0378
6 0.0881 0.0851 0.0822 0.0793 0.0764 0.0736 0.0709 0.0682 0.0656 0.0631
7 0.1145 0.1118 0.1091 0.1064 0.1037 0.1010 0.0982 0.0955 0.0928 0.0901
8 0.1302 0.1286 0.1269 0.1251 0.1232 0.1212 0.1191 0.1170 0.1148 0.1126
9 0.1317 0.1315 0.1311 0.1306 0.1300 0.1293 0.1284 0.1274 0.1263 0.1251
10 0.1198 0.1210 0.1219 0.1228 0.1235 0.1241 0.1245 0.1249 0.1250 0.1251
11 0.0991 0.1012 0.1031 0.1049 0.1067 0.1083 0.1098 0.1112 0.1125 0.1137
12 0.0752 0.0776 0.0799 0.0822 0.0844 0.0866 0.0888 0.0908 0.0928 0.0948
13 0.0526 0.0549 0.0572 0.0594 0.0617 0.0640 0.0662 0.0685 0.0707 0.0729
462
Tabla de la Distribución de Poisson (5)
m
X 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10.0
14 0.0342 0.0361 0.0380 0.0399 0.0419 0.0439 0.0459 0.0479 0.0500 0.0521
15 0.0208 0.0221 0.0235 0.0250 0.0265 0.0281 0.0297 0.0313 0.0330 0.0347
16 0.0118 0.0127 0.0137 0.0147 0.0157 0.0168 0.0180 0.0192 0.0204 0.0217
17 0.0063 0.0069 0.0075 0.0081 0.0088 0.0095 0.0103 0.0111 0.0119 0.0128
18 0.0032 0.0035 0.0039 0.0042 0.0046 0.0051 0.0055 0.0060 0.0065 0.0071
19 0.0015 0.0017 0.0019 0.0021 0.0023 0.0026 0.0028 0.0031 0.0034 0.0037
20 0.0007 0.0008 0.0009 0.0010 0.0011 0.0012 0.0014 0.0015 0.0017 0.0019
21 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009
22 0.0001 0.0001 0.0002 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004
23 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
24 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001
m
X 11 12 13 14 15 16 17 18 19 20
0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0010 0.0004 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0037 0.0018 0.0008 0.0004 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000
4 0.0102 0.0053 0.0027 0.0013 0.0006 0.0003 0.0001 0.0001 0.0000 0.0000
5 0.0224 0.0127 0.0070 0.0037 0.0019 0.0010 0.0005 0.0002 0.0001 0.0001
6 0.0411 0.0255 0.0152 0.0087 0.0048 0.0026 0.0014 0.0007 0.0004 0.0002
7 0.0646 0.0437 0.0281 0.0174 0.0104 0.0060 0.0034 0.0019 0.0010 0.0005
8 0.0888 0.0655 0.0457 0.0304 0.0194 0.0120 0.0072 0.0042 0.0024 0.0013
9 0.1085 0.0874 0.0661 0.0473 0.0324 0.0213 0.0135 0.0083 0.0050 0.0029
10 0.1194 0.1048 0.0859 0.0663 0.0486 0.0341 0.0230 0.0150 0.0095 0.0058
11 0.1194 0.1144 0.1015 0.0844 0.0663 0.0496 0.0355 0.0245 0.0164 0.0106
12 0.1094 0.1144 0.1099 0.0984 0.0829 0.0661 0.0504 0.0368 0.0259 0.0176
13 0.0926 0.1056 0.1099 0.1060 0.0956 0.0814 0.0658 0.0509 0.0378 0.0271
14 0.0728 0.0905 0.1021 0.1060 0.1024 0.0930 0.0800 0.0655 0.0514 0.0387
15 0.0534 0.0724 0.0885 0.0989 0.1024 0.0992 0.0906 0.0786 0.0650 0.0516
16 0.0367 0.0543 0.0719 0.0866 0.0960 0.0992 0.0963 0.0884 0.0772 0.0646
17 0.0237 0.0383 0.0550 0.0713 0.0847 0.0934 0.0963 0.0936 0.0863 0.0760
18 0.0145 0.0255 0.0397 0.0554 0.0706 0.0830 0.0909 0.0936 0.0911 0.0844
19 0.0084 0.0161 0.0272 0.0409 0.0557 0.0699 0.0814 0.0887 0.0911 0.0888
20 0.0046 0.0097 0.0177 0.0286 0.0418 0.0559 0.0692 0.0798 0.0866 0.0888
21 0.0024 0.0055 0.0109 0.0191 0.0299 0.0426 0.0560 0.0684 0.0783 0.0846
22 0.0012 0.0030 0.0065 0.0121 0.0204 0.0310 0.0433 0.0560 0.0676 0.0769
23 0.0006 0.0016 0.0037 0.0074 0.0133 0.0216 0.0320 0.0438 0.0559 0.0669
24 0.0003 0.0008 0.0020 0.0043 0.0083 0.0144 0.0226 0.0328 0.0442 0.0557
25 0.0001 0.0004 0.0010 0.0024 0.0050 0.0092 0.0154 0.0237 0.0336 0.0446
26 0.0000 0.0002 0.0005 0.0013 0.0029 0.0057 0.0101 0.0164 0.0246 0.0343
27 0.0000 0.0001 0.0002 0.0007 0.0016 0.0034 0.0063 0.0109 0.0173 0.0254
28 0.0000 0.0000 0.0001 0.0003 0.0009 0.0019 0.0038 0.0070 0.0117 0.0181
29 0.0000 0.0000 0.0001 0.0002 0.0004 0.0011 0.0023 0.0044 0.0077 0.0125
30 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0013 0.0026 0.0049 0.0083
31 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0007 0.0015 0.0030 0.0054
32 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0004 0.0009 0.0018 0.0034
33 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0005 0.0010 0.0020
463
Tabla de la Distribución de Poisson (6)
m
X 11 12 13 14 15 16 17 18 19 20
34 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0012
35 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0007
36 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004
37 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
38 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
39 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
464
Apéndice G: Distribución de Poisson acumulada
10 0.0001 0.0001 0.0001 0.0002 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011
11 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001
m
X 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 0.9550 0.9592 0.9631 0.9666 0.9698 0.9727 0.9753 0.9776 0.9798 0.9817
2 0.8153 0.8288 0.8414 0.8532 0.8641 0.8743 0.8838 0.8926 0.9008 0.9084
3 0.5988 0.6201 0.6406 0.6603 0.6792 0.6973 0.7146 0.7311 0.7469 0.7619
465
Tabla de la distribución de Poisson acumulada (2)
m
X 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
4 0.3752 0.3975 0.4197 0.4416 0.4634 0.4848 0.5058 0.5265 0.5468 0.5665
5 0.2018 0.2194 0.2374 0.2558 0.2746 0.2936 0.3128 0.3322 0.3516 0.3712
6 0.0943 0.1054 0.1171 0.1295 0.1424 0.1559 0.1699 0.1844 0.1994 0.2149
7 0.0388 0.0446 0.0510 0.0579 0.0653 0.0733 0.0818 0.0909 0.1005 0.1107
8 0.0142 0.0168 0.0198 0.0231 0.0267 0.0308 0.0352 0.0401 0.0454 0.0511
9 0.0047 0.0057 0.0069 0.0083 0.0099 0.0117 0.0137 0.0160 0.0185 0.0214
10 0.0014 0.0018 0.0022 0.0027 0.0033 0.0040 0.0048 0.0058 0.0069 0.0081
11 0.0004 0.0005 0.0006 0.0008 0.0010 0.0013 0.0016 0.0019 0.0023 0.0028
12 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009
13 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001
m
X 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 0.9834 0.9850 0.9864 0.9877 0.9889 0.9899 0.9909 0.9918 0.9926 0.9933
2 0.9155 0.9220 0.9281 0.9337 0.9389 0.9437 0.9482 0.9523 0.9561 0.9596
3 0.7762 0.7898 0.8026 0.8149 0.8264 0.8374 0.8477 0.8575 0.8667 0.8753
4 0.5858 0.6046 0.6228 0.6406 0.6577 0.6743 0.6903 0.7058 0.7207 0.7350
5 0.3907 0.4102 0.4296 0.4488 0.4679 0.4868 0.5054 0.5237 0.5418 0.5595
6 0.2307 0.2469 0.2633 0.2801 0.2971 0.3142 0.3316 0.3490 0.3665 0.3840
7 0.1214 0.1325 0.1442 0.1564 0.1689 0.1820 0.1954 0.2092 0.2233 0.2378
8 0.0573 0.0639 0.0710 0.0786 0.0866 0.0951 0.1040 0.1133 0.1231 0.1334
9 0.0245 0.0279 0.0317 0.0358 0.0403 0.0451 0.0503 0.0558 0.0618 0.0681
10 0.0095 0.0111 0.0129 0.0149 0.0171 0.0195 0.0222 0.0251 0.0283 0.0318
11 0.0034 0.0041 0.0048 0.0057 0.0067 0.0078 0.0090 0.0104 0.0120 0.0137
12 0.0011 0.0014 0.0017 0.0020 0.0024 0.0029 0.0034 0.0040 0.0047 0.0055
13 0.0003 0.0004 0.0005 0.0007 0.0008 0.0010 0.0012 0.0014 0.0017 0.0020
14 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0007
15 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001
m
X 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 0.9939 0.9945 0.9950 0.9955 0.9959 0.9963 0.9967 0.9970 0.9973 0.9975
2 0.9628 0.9658 0.9686 0.9711 0.9734 0.9756 0.9776 0.9794 0.9811 0.9826
3 0.8835 0.8912 0.8984 0.9052 0.9116 0.9176 0.9232 0.9285 0.9334 0.9380
4 0.7487 0.7619 0.7746 0.7867 0.7983 0.8094 0.8200 0.8300 0.8396 0.8488
5 0.5769 0.5939 0.6105 0.6267 0.6425 0.6578 0.6728 0.6873 0.7013 0.7149
6 0.4016 0.4191 0.4365 0.4539 0.4711 0.4881 0.5050 0.5217 0.5381 0.5543
7 0.2526 0.2676 0.2829 0.2983 0.3140 0.3297 0.3456 0.3616 0.3776 0.3937
8 0.1440 0.1551 0.1665 0.1783 0.1905 0.2030 0.2159 0.2290 0.2424 0.2560
9 0.0748 0.0819 0.0894 0.0973 0.1056 0.1143 0.1234 0.1328 0.1426 0.1528
10 0.0356 0.0397 0.0441 0.0488 0.0538 0.0591 0.0648 0.0708 0.0772 0.0839
11 0.0156 0.0177 0.0200 0.0225 0.0253 0.0282 0.0314 0.0349 0.0386 0.0426
12 0.0063 0.0073 0.0084 0.0096 0.0110 0.0125 0.0141 0.0159 0.0179 0.0201
13 0.0024 0.0028 0.0033 0.0038 0.0045 0.0051 0.0059 0.0068 0.0078 0.0088
14 0.0008 0.0010 0.0012 0.0014 0.0017 0.0020 0.0023 0.0027 0.0031 0.0036
15 0.0003 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0010 0.0012 0.0014
16 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0004 0.0004 0.0005
17 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002
18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
466
Tabla de la distribución de Poisson acumulada (3)
m
X 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 0.9978 0.9980 0.9982 0.9983 0.9985 0.9986 0.9988 0.9989 0.9990 0.9991
2 0.9841 0.9854 0.9866 0.9877 0.9887 0.9897 0.9905 0.9913 0.9920 0.9927
3 0.9423 0.9464 0.9502 0.9537 0.9570 0.9600 0.9629 0.9656 0.9680 0.9704
4 0.8575 0.8658 0.8736 0.8811 0.8882 0.8948 0.9012 0.9072 0.9129 0.9182
5 0.7281 0.7408 0.7531 0.7649 0.7763 0.7873 0.7978 0.8080 0.8177 0.8270
6 0.5702 0.5859 0.6012 0.6163 0.6310 0.6453 0.6594 0.6730 0.6863 0.6993
7 0.4098 0.4258 0.4418 0.4577 0.4735 0.4892 0.5047 0.5201 0.5353 0.5503
8 0.2699 0.2840 0.2983 0.3127 0.3272 0.3419 0.3567 0.3715 0.3864 0.4013
9 0.1633 0.1741 0.1852 0.1967 0.2084 0.2204 0.2327 0.2452 0.2580 0.2709
10 0.0910 0.0984 0.1061 0.1142 0.1226 0.1314 0.1404 0.1498 0.1595 0.1695
11 0.0469 0.0514 0.0563 0.0614 0.0668 0.0726 0.0786 0.0849 0.0916 0.0985
12 0.0224 0.0250 0.0277 0.0307 0.0339 0.0373 0.0409 0.0448 0.0490 0.0533
13 0.0100 0.0113 0.0127 0.0143 0.0160 0.0179 0.0199 0.0221 0.0245 0.0270
14 0.0042 0.0048 0.0055 0.0063 0.0071 0.0080 0.0091 0.0102 0.0115 0.0128
15 0.0016 0.0019 0.0022 0.0026 0.0030 0.0034 0.0039 0.0044 0.0050 0.0057
16 0.0006 0.0007 0.0008 0.0010 0.0012 0.0014 0.0016 0.0018 0.0021 0.0024
17 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0007 0.0008 0.0010
18 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004
19 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
m
X 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 0.9992 0.9993 0.9993 0.9994 0.9994 0.9995 0.9995 0.9996 0.9996 0.9997
2 0.9933 0.9939 0.9944 0.9949 0.9953 0.9957 0.9961 0.9964 0.9967 0.9970
3 0.9725 0.9745 0.9764 0.9781 0.9797 0.9812 0.9826 0.9839 0.9851 0.9862
4 0.9233 0.9281 0.9326 0.9368 0.9409 0.9446 0.9482 0.9515 0.9547 0.9576
5 0.8359 0.8445 0.8527 0.8605 0.8679 0.8751 0.8819 0.8883 0.8945 0.9004
6 0.7119 0.7241 0.7360 0.7474 0.7586 0.7693 0.7797 0.7897 0.7994 0.8088
7 0.5651 0.5796 0.5940 0.6080 0.6218 0.6354 0.6486 0.6616 0.6743 0.6866
8 0.4162 0.4311 0.4459 0.4607 0.4754 0.4900 0.5044 0.5188 0.5330 0.5470
9 0.2840 0.2973 0.3108 0.3243 0.3380 0.3518 0.3657 0.3796 0.3935 0.4075
10 0.1798 0.1904 0.2012 0.2123 0.2236 0.2351 0.2469 0.2589 0.2710 0.2834
11 0.1058 0.1133 0.1212 0.1293 0.1378 0.1465 0.1555 0.1648 0.1743 0.1841
12 0.0580 0.0629 0.0681 0.0735 0.0792 0.0852 0.0915 0.0980 0.1048 0.1119
13 0.0297 0.0327 0.0358 0.0391 0.0427 0.0464 0.0504 0.0546 0.0591 0.0638
14 0.0143 0.0159 0.0176 0.0195 0.0216 0.0238 0.0261 0.0286 0.0313 0.0342
15 0.0065 0.0073 0.0082 0.0092 0.0103 0.0114 0.0127 0.0141 0.0156 0.0173
16 0.0028 0.0031 0.0036 0.0041 0.0046 0.0052 0.0059 0.0066 0.0074 0.0082
17 0.0011 0.0013 0.0015 0.0017 0.0020 0.0022 0.0026 0.0029 0.0033 0.0037
18 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009 0.0011 0.0012 0.0014 0.0016
19 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0007
20 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003
21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001
467
Tabla de la distribución de Poisson acumulada (4)
m
X 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 0.9997 0.9997 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9999 0.9999
2 0.9972 0.9975 0.9977 0.9979 0.9981 0.9982 0.9984 0.9985 0.9986 0.9988
3 0.9873 0.9882 0.9891 0.9900 0.9907 0.9914 0.9921 0.9927 0.9932 0.9938
4 0.9604 0.9630 0.9654 0.9677 0.9699 0.9719 0.9738 0.9756 0.9772 0.9788
5 0.9060 0.9113 0.9163 0.9211 0.9256 0.9299 0.9340 0.9379 0.9416 0.9450
6 0.8178 0.8264 0.8347 0.8427 0.8504 0.8578 0.8648 0.8716 0.8781 0.8843
7 0.6987 0.7104 0.7219 0.7330 0.7438 0.7543 0.7645 0.7744 0.7840 0.7932
8 0.5609 0.5746 0.5881 0.6013 0.6144 0.6272 0.6398 0.6522 0.6643 0.6761
9 0.4214 0.4353 0.4493 0.4631 0.4769 0.4906 0.5042 0.5177 0.5311 0.5443
10 0.2959 0.3085 0.3212 0.3341 0.3470 0.3600 0.3731 0.3863 0.3994 0.4126
11 0.1942 0.2045 0.2150 0.2257 0.2366 0.2478 0.2591 0.2706 0.2822 0.2940
12 0.1193 0.1269 0.1348 0.1429 0.1513 0.1600 0.1689 0.1780 0.1874 0.1970
13 0.0687 0.0739 0.0793 0.0850 0.0909 0.0971 0.1035 0.1102 0.1171 0.1242
14 0.0372 0.0405 0.0439 0.0476 0.0514 0.0555 0.0597 0.0642 0.0689 0.0739
15 0.0190 0.0209 0.0229 0.0251 0.0274 0.0299 0.0325 0.0353 0.0383 0.0415
16 0.0092 0.0102 0.0113 0.0125 0.0138 0.0152 0.0168 0.0184 0.0202 0.0220
17 0.0042 0.0047 0.0053 0.0059 0.0066 0.0074 0.0082 0.0091 0.0101 0.0111
18 0.0018 0.0021 0.0023 0.0027 0.0030 0.0034 0.0038 0.0043 0.0048 0.0053
19 0.0008 0.0009 0.0010 0.0011 0.0013 0.0015 0.0017 0.0019 0.0022 0.0024
20 0.0003 0.0003 0.0004 0.0005 0.0005 0.0006 0.0007 0.0008 0.0009 0.0011
21 0.0001 0.0001 0.0002 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004
22 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
23 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001
m
X 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 1.0000
2 0.9989 0.9990 0.9991 0.9991 0.9992 0.9993 0.9993 0.9994 0.9995 0.9995
3 0.9942 0.9947 0.9951 0.9955 0.9958 0.9962 0.9965 0.9967 0.9970 0.9972
4 0.9802 0.9816 0.9828 0.9840 0.9851 0.9862 0.9871 0.9880 0.9889 0.9897
5 0.9483 0.9514 0.9544 0.9571 0.9597 0.9622 0.9645 0.9667 0.9688 0.9707
6 0.8902 0.8959 0.9014 0.9065 0.9115 0.9162 0.9207 0.9250 0.9290 0.9329
7 0.8022 0.8108 0.8192 0.8273 0.8351 0.8426 0.8498 0.8567 0.8634 0.8699
8 0.6877 0.6990 0.7100 0.7208 0.7313 0.7416 0.7515 0.7612 0.7706 0.7798
9 0.5574 0.5704 0.5832 0.5958 0.6082 0.6204 0.6324 0.6442 0.6558 0.6672
10 0.4258 0.4389 0.4521 0.4651 0.4782 0.4911 0.5040 0.5168 0.5295 0.5421
11 0.3059 0.3180 0.3301 0.3424 0.3547 0.3671 0.3795 0.3920 0.4045 0.4170
12 0.2068 0.2168 0.2270 0.2374 0.2480 0.2588 0.2697 0.2807 0.2919 0.3032
13 0.1316 0.1393 0.1471 0.1552 0.1636 0.1721 0.1809 0.1899 0.1991 0.2084
14 0.0790 0.0844 0.0900 0.0958 0.1019 0.1081 0.1147 0.1214 0.1284 0.1355
15 0.0448 0.0483 0.0520 0.0559 0.0600 0.0643 0.0688 0.0735 0.0784 0.0835
16 0.0240 0.0262 0.0285 0.0309 0.0335 0.0362 0.0391 0.0421 0.0454 0.0487
17 0.0122 0.0135 0.0148 0.0162 0.0177 0.0194 0.0211 0.0230 0.0249 0.0270
18 0.0059 0.0066 0.0073 0.0081 0.0089 0.0098 0.0108 0.0119 0.0130 0.0143
19 0.0027 0.0031 0.0034 0.0038 0.0043 0.0048 0.0053 0.0059 0.0065 0.0072
468
Tabla de la distribución de Poisson acumulada (5)
m
X 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10.0
20 0.0012 0.0014 0.0015 0.0017 0.0020 0.0022 0.0025 0.0028 0.0031 0.0035
21 0.0005 0.0006 0.0007 0.0008 0.0009 0.0010 0.0011 0.0013 0.0014 0.0016
22 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0005 0.0006 0.0007
23 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003
24 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
m
X 11 12 13 14 15 16 17 18 19 20.0
0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
1 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
2 0.9998 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
3 0.9988 0.9995 0.9998 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
4 0.9951 0.9977 0.9989 0.9995 0.9998 0.9999 1.0000 1.0000 1.0000 1.0000
5 0.9849 0.9924 0.9963 0.9982 0.9991 0.9996 0.9998 0.9999 1.0000 1.0000
7 0.9214 0.9542 0.9741 0.9858 0.9924 0.9960 0.9979 0.9990 0.9995 0.9997
8 0.8568 0.9105 0.9460 0.9684 0.9820 0.9900 0.9946 0.9971 0.9985 0.9992
9 0.7680 0.8450 0.9002 0.9379 0.9626 0.9780 0.9874 0.9929 0.9961 0.9979
10 0.6595 0.7576 0.8342 0.8906 0.9301 0.9567 0.9739 0.9846 0.9911 0.9950
11 0.5401 0.6528 0.7483 0.8243 0.8815 0.9226 0.9509 0.9696 0.9817 0.9892
12 0.4207 0.5384 0.6468 0.7400 0.8152 0.8730 0.9153 0.9451 0.9653 0.9786
13 0.3113 0.4240 0.5369 0.6415 0.7324 0.8069 0.8650 0.9083 0.9394 0.9610
14 0.2187 0.3185 0.4270 0.5356 0.6368 0.7255 0.7991 0.8574 0.9016 0.9339
15 0.1460 0.2280 0.3249 0.4296 0.5343 0.6325 0.7192 0.7919 0.8503 0.8951
16 0.0926 0.1556 0.2364 0.3306 0.4319 0.5333 0.6285 0.7133 0.7852 0.8435
18 0.0322 0.0630 0.1095 0.1728 0.2511 0.3407 0.4360 0.5314 0.6216 0.7030
19 0.0177 0.0374 0.0698 0.1174 0.1805 0.2577 0.3450 0.4378 0.5305 0.6186
20 0.0093 0.0213 0.0427 0.0765 0.1248 0.1878 0.2637 0.3491 0.4394 0.5297
21 0.0047 0.0116 0.0250 0.0479 0.0830 0.1318 0.1945 0.2693 0.3528 0.4409
22 0.0023 0.0061 0.0141 0.0288 0.0531 0.0892 0.1385 0.2009 0.2745 0.3563
23 0.0010 0.0030 0.0076 0.0167 0.0327 0.0582 0.0953 0.1449 0.2069 0.2794
24 0.0005 0.0015 0.0040 0.0093 0.0195 0.0367 0.0633 0.1011 0.1510 0.2125
25 0.0002 0.0007 0.0020 0.0050 0.0112 0.0223 0.0406 0.0683 0.1067 0.1568
26 0.0001 0.0003 0.0010 0.0026 0.0062 0.0131 0.0252 0.0446 0.0731 0.1122
27 0.0000 0.0001 0.0005 0.0013 0.0033 0.0075 0.0152 0.0282 0.0486 0.0779
29 0.0000 0.0000 0.0001 0.0003 0.0009 0.0022 0.0050 0.0103 0.0195 0.0343
30 0.0000 0.0000 0.0000 0.0001 0.0004 0.0011 0.0027 0.0059 0.0118 0.0218
31 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0014 0.0033 0.0070 0.0135
32 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0007 0.0018 0.0040 0.0081
33 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0010 0.0022 0.0047
34 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0005 0.0012 0.0027
35 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0015
36 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008
37 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004
38 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
40 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
469
Apéndice H: Distribución Hipergeométrica
470
Valores de las funciones de probabilidad y distribución acumulativa para la distribución Hipergeométrica (2)
471
Valores de las funciones de probabilidad y distribución acumulativa para la distribución Hipergeométrica (3)
472
Valores de las funciones de probabilidad y distribución acumulativa para la distribución Hipergeométrica (4)
473
Valores de las funciones de probabilidad y distribución acumulativa para la distribución Hipergeométrica (5)
474
BIBLIOGRAFÍA
4. Blalock Jr. M.Hubert (1966). Estadística social. Fondo de Cultura Económica, México.
10. Cristófoli, María Elizabeth (2005). Manual de Estadística con Microsoft Excel. Editorial
Comitron.
11. Croxton F.E y Cowden D.J. (1964). Estadística General Aplicada. F.C.E.
12. Downie, N.M. & Heath, R.W ( 1965). Basic Statistical Methods. 2o Edition. A Harper
International Student Reprint.
14. Ferber Robert., Blankertz Donald F. & Hollander Sidney (1964). Marketing Research.
The Ronald Press Company, New York.
15. Flores, Ana María (1963). Profesora de estadística. Escuela Nacional de Economía.
18. Haeussler, Ernest & Jr./ Richard S. Paul (1996). Matemáticas para Administración y
Economía. Grupo Editorial Iberoamérica. 2a Edición.
21. Huntsberger V. David & Billingsley Patrick (1983). Elementos de Estadística Inferencial.
Editorial CECSA.
23. Kazmier, Leonard J. (1967). Statistical Analysis for Business and Economics. Mc Graw-
Hill.
25. Lind A. Douglas, Marchal William G. y Wathen Samuel A. (2005.). Estadística Aplicada
a los Negocios y a la Economía, Mc Graw Hill, 12a edición.
32. Mason Robert D., Lind Douglas A. y Marchal William G. (2001). Estadística para
Administración y Economía. Alfaomega, 10a edición.
35. Mills, Richard L. ( 1980). Estadística para Economía y Administración. McGraw Hill.
476
38. Richmond, Samuel B. (1964). Statistical Analysis. The Ronald Press Co., 2a edición.
39. Riveros Rotgé, Héctor G., Julian Sánchez, Adriana y Riveros Rosas (2009). Método
Científico Experimental. Trillas, México.
40. Roberts, S.D. (1988). Estadísticas para IBM, pc, Mc Graw Hill, México.
41. Rojas, Soriano Raúl (2001). Guía para realizar Investigaciones Sociales. Plaza y Valdez
Editores.
43. Sánchez, Barajas Genaro (1967). La Población Económicamente Activa a través de una
Encuesta por Muestreo. Tesis Profesional, E.N.E. UNAM.
44. Sánchez, Barajas Genaro (2000). La Estadística como Método de Análisis Económico.
Editorial Cambio XXI.
47. S. Moore, David (2004). Estadística Aplicada Básica. Antoni Bosch Editor, España.
48. Stuart y Ord. (2004). Estadística matemática con aplicaciones. Edamsa Impresiones, S.A
de C.V, 6a edición, México.
52. Zamora, Francisco (1963). Tratado de Teoría Económica. Fondo de Cultura Económica,
México.
477