You are on page 1of 34

En nuestros días, la estadística se ha convertido en un método efectivo para describir con

exactitud los valores de datos económicos, políticos, sociales, psicológicos, biológicos y físicos,
y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto
estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo en el proceso de
interpretación de esa información.

El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la


estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando
determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para
analizar datos estadísticos.

TRABABJO # 1

CONCEPTOS BASICOS PARA EL DESARROLLO DEL CURSO DE ESTADISTICA.

 Definición de estadística

Rama de las matemáticas que se refiere a un conjunto de métodos, normas, reglas y principios
para observar, agrupar, describir, cuantificar y analizar el comportamiento de un grupo.

 División de la estadística

Generalmente se considera que la estadística tiene dos funciones ( divisiones).

Una es describir conjuntos de datos ( estadística descriptiva); la otra es ayudar a hacer


inferencias.Como ejemplo del uso descriptivo, se quiere saber cuantas mujeres zurdas fueron
recluidas en la prision en Holloway en 1976. Para responder e esta pregunta, debe obtenerse
información sobre la mano que usaban las prisioneras en 1976 y contar simplemente cuantas
eran zurdas.

Para ilustrar el uso inferencial ( estadística inferencial), pudiera haber interés en averiguar si es
más probable que las personas que conducen automóviles grandes sean más agresivas que
aquellas que conducen automóviles pequeños. Debido al gran numero de personas que habría
sondear, estaría fuera de consideración la investigación de cada conductor de automóvil. Seria
necesario estudiar una muestra de ellos, y usar los resultados de la muestra para hacer
inferencias que se espera serán aplicables a todos los conductores de automóviles. Sin
embargo, como solo sé esta estudiando una muestra, hay la posibilidad de que las
conclusiones pueden no ser del todo precisas y nunca puede tenerse la certeza de que se ha
hecho la inferencia correcta. Por esta razón el uso de la estadística inferencial puede
considerarse como una ayuda para tomar decisiones en condiciones de incertidumbre. No
obstante, es diferente de la conjeturacion, puesto que en la estadística se proporciona también
un método para estimar el grado de confiabilidad de las conclusiones. En cada proposición
estadística que se hace, se indica la probabilidad de que los descubrimientos como los hechos
podrían haber sido el resultado de factores casuales.

 Que es población?

Una población es el conjunto total de eventos que sé esta considerando. La población de


interés podría ser el conjunto de toas las personas, o el conjunto de las personas que residían
en Londres en 1982, o el conjunto de todos los niños en edad escolar que provienen de un
hogar malogrado. Una población es su uso estadístico no tiene que estar formado por
personas. Por ejemplo, pudiera haber interés en la población de utensilios de la edad de hierro,
i en la población de las calculadoras de bolsillo fabricadas por cierta compañía o en la
población de palabras de la novela de Rex Stout o en la población de los resultados del
examen del primer año de psicología en 1968 de la Universidad de Newcastle en Tyne.
Cualquier conjunto completo de personas objetos o resultados que tengan alguna característica
observable común constituyen una población.
 Que es muestra?

Se dice de cualquier fracción de una población y sobre la que se estudian ciertas


características que posteriormente se generalizan a todo el conjunto. La selección de la
muestra se efectúa según un criterio determinado y sus características dependen del muestreo
que se tiene que realizar. Por ejemplo, el conjunto de palabras del capitulo 2 de la novela de
Rex Stout es una muestra de la población de palabras de la novela completa.

 Que es muestreo?

Estudio, por medio de muestras representativas y debidamente elegidas, de las características


de una población. En su empleo interesa tener en cuenta los siguientes factores: Los
procedimientos para obtener una muestra verdaderamente representativa, para determinar la
probabilidad de que posea las características de la población y para determinar el tamaño
según la precisión que de ella se quiere obtener en las conclusiones estadísticas posteriores.

 Tipos de muestreo

Fundamentalmente el muestreo es de dos tipos:

 Probabilistico : permite calcular el posible error de la muestra, y

 No probabilistico: En el que el calculo del error no es posible

De entre los primeros él mas utilizado es el llamado aleatorio o al azar, en el cual la muestra se
obtiene mediante sorteo de los individuos que la tienen que formar. El segundo puede ser de
dos clases: por cuotas, en el que solo se especifica el tamaño de la muestra y las
características que tienen que tener los individuos que la componen, y por juicio, en el que el
investigador selecciona los individuos de la muestra según su representatividad.

 Tamaño muestral

Es la unión de todos los efectos posibles de una serie de pruebas estadísticas.

 Que es atributo y coloque un ejemplo.

Las características de los elementos que no se pueden medir se denominan atributos o


variables cualitativas. Ejemplo : hombre - mujer es lo mismo; pero hay una distincion.

 Que es variable y ejemplo.

Se le llama variable a cualquier cantidad medible que puede variar de un individuo a otro. Un
ejemplo en la población de palabras de la novela de Rex Stout, la variable en la que había
interés era la longitud de las palabras; cada palabra individual tiene una longitud particular y
esta puede variar de una palabra a otra.

 Tipos de variables y ejemplo.

• Variable cualitativa: esta constituida por la marca, el tipo, el color y el estado general;
que corresponde a aspectos que no se pueden medir sino observar, y por ello se
denominan variables cualitativas. Pueden ser nominales o ordinarias.

• Variable cuantitativa: esta constituida por el tiempo de uso, el precio, el tamaño del
marco y él numero de velocidades, que corresponden a aspectos que son medibles y
por ello se denominan cuantitativas. Puede ser discreta o continua.
• Variable aleatoria: Una variable aleatoria es una función que asigna un numero real a
cada resultado en el espacio muestral de un experimento aleatorio. Las variables
aleatorias se denotan con una letra mayúscula, tal como X, y con una letra minúscula,
como x, el valor posible de x. El conjunto de los posibles valores de la variable aleatoria
X recibe el nombre de rango de X.

Ejemplo: El sistema de comunicación por voz de una empresa tiene 48 líneas externas. En un
determinado momento, se observa el sistema y algunas líneas están ocupadas. Sea X la
variable aleatoria que denota él numero de líneas en uso. Entonces X puede tomar cualquier
valor entero de cero a 48.

• Variable aleatoria discreta: Es una variable aleatoria con un rango finito.

• Variable aleatoria discreta uniforme: Una variable aleatoria X es una variable aleatoria
discreta uniforma si cada uno de los n valores que están en el rango de esta, x1, x2, …
x11, tiene la misma probabilidad.

• Variable aleatoria continua: Si el rango de una variable aleatoria X contiene un intervalo


( ya sea finito o infinita) de numera reales.

En algunos ejemplos, la variable aleatoria en realidad es discreta, pero como el rango de todos
los valores posibles es muy grande, puede resultar más conveniente utilizar un modelo basado
en una variable aleatoria continua. Por ejemplo, una escala digital puede mostrar el peso de
una pieza redondeado hasta centésimos de gramo, tal vez sea conveniente pensar el peso de
la pieza como una variable aleatoria continua. Como otro ejemplo, es posible medir la corriente
hasta el microampere más cercano. Dado que solo es posible un numero entero de
microamperes, la variable aleatoria es discreta. Sin embargo, tal vez sea más conveniente
suponer que las mediciones de corriente corresponden a valores de una variable aleatoria
continua.

- Variable aleatoria normal estándar: Una variable aleatoria normal con = 0 y =1 y se denota
por Z.

 Distribución de frecuencias

Los datos recogidos deben ser organizados, tabulados y presentados para que su análisis e
interpretación sean rápidos y útiles. Por ejemplo, para estudiar e interpretar la distribución de
las notas o calificaciones de un examen en una clase con 30 alumnos, primero se ordenan las
notas en orden creciente: 3,0; 3,5; 4,3; 5,2; 6,1; 6,5; 6,5; 6,5; 6,8; 7,0; 7,2; 7,2; 7,3; 7,5; 7,5; 7,6;
7,7; 7,8; 7,8; 8,0; 8,3; 8,5; 8,8; 8,8; 9,0; 9,1; 9,6; 9,7; 10 y 10. Esta secuencia muestra, a
primera vista, que la máxima nota es un 10, y la mínima es un 3; el rango, diferencia entre la
máxima y la mínima es 7.

En un diagrama de frecuencia acumulada, como el de la figura 1, las notas aparecen en el eje


horizontal y el número de alumnos en el eje vertical izquierdo, con el correspondiente
porcentaje a la derecha. Cada punto representa el número total de estudiantes que han
obtenido una calificación menor o igual que el valor dado. Por ejemplo, el punto A corresponde
a 7,2, y según el eje vertical, hay 12 alumnos, o un 40%, con calificaciones menores o iguales
que 7,2.
Para analizar las calificaciones obtenidas por 10 clases de 30 alumnos cada una en cuatro
exámenes distintos (un total de 1.200 calificaciones), hay que tener en cuenta que la cantidad
de datos es demasiado grande para representarlos como en la figura 1. El estadístico tiene que
separar los datos en grupos elegidos previamente denominados intervalos. Por ejemplo, se
pueden utilizar 10 intervalos para tabular las 1.200 calificaciones, que se muestran en la
columna (a) de la tabla de distribución de datos adjunta; el número de calificaciones por cada
intervalo, llamado frecuencia del intervalo, se muestra en la columna (c). Los números que
definen el rango de un intervalo se denominan límites. Es conveniente elegir los límites de
manera que los rangos de todos los intervalos sean iguales y que los puntos medios sean
números sencillos. Una calificación de 8,7 se cuenta en el intervalo entre 8 y 9; una calificación
igual a un límite de intervalo, como 9, se puede asignar a cualquiera de los dos intervalos,
aunque se debe hacer de la misma manera a lo largo de toda la muestra. La frecuencia
relativa, columna (d), es la proporción entre la frecuencia de un intervalo y el número total de
datos. La frecuencia acumulada, columna (e), es el número de estudiantes con calificaciones
iguales o menores que el rango de cada intervalo sucesivo. Así, el número de estudiantes con
calificaciones menores o iguales a 3 se calcula sumando las frecuencias de la columna (c) de
los tres primeros intervalos, dando 53. La frecuencia acumulada relativa, columna (f), es el
cociente entre la frecuencia acumulada y el número total de notas.
Los datos de una tabla de distribución de frecuencias se pueden representar gráficamente
utilizando un histograma o diagrama de barras (como en la figura 2), o como un polígono de
frecuencias acumuladas (como en la figura 3). El histograma es una serie de rectángulos con
bases iguales al rango de los intervalos y con área proporcional a sus frecuencias. El polígono
de la figura 3 se obtiene conectando los puntos medios de cada intervalo de un histograma de
frecuencias acumuladas con segmentos rectilíneos.

En los periódicos y otros medios de comunicación los datos se representan gráficamente


utilizando símbolos de diferente longitud o tamaño que representan las distintas frecuencias.
ESTADÍSTICA DESCRIPTIVA

ANOTACIONES

1º BACHILLERATO SOCIALES

EMPRESARIALES ECONOMÍA ADE

PSICOLOGÍA

TRABAJO SOCIAL

Luciano Rubio Yusto


Dpto. Matemáticas

ESTADÍSTICA DESCRIPTIVA
Estadística es la ciencia que utilizando las matemáticas y de modo particular el
cálculo estudia las leyes de comportamiento de aquellos fenómenos que no estando
sometidos a leyes rígidas dependen del azar y basándose en ella, se predicen resultados.

La estadística tiene dos grandes ramas: Descriptiva e Inferencial.

- Estadística Descriptiva analiza las características de una población o muestra


definiéndose unas propiedades acerca de su estructura y composición.

- Estadística Inferencial basándose en los resultados obtenidos de una muestra


induce o estima las leyes reales de comportamiento de la población de la que
proviene dicha muestra.

- Población son todos y cada uno de los elementos que se quieren analizar.
Puede ser finita o infinita( en realidad las poblaciones infinitas no existen,
pero cuando se trata de un número grande se trata como si lo fuera).

- Muestra es un subconjunto de la población o parte de la población que se


observa.

- Característica de una población es la propiedad que se estudia.

- Variables es cualquier característica cuantitativa ( tome valor numérico) de


una población .

Ejemplo: Población Estudiantes de Económicas de Salamanca, Característica Edad de


ellos, la característica se designa con letras mayúsculas X, Y, Z,...., los valores de esas
edades son numéricos entonces es una variable cuantitativa y los valores que toman se
denotarían X={x1, x2, x3,........xn }.

- Dominio de la variable son los valores que toma

- Recorrido de la variable es la diferencia entre el valor mayor y el menor de


los que toma la variable.

- Variable Discreta cuando toma un número finito de valores o bien cuando


toma infinitos y son numerables es decir entre dos no hay otro intermedio.
Ejemplo: la edad, las notas, ......

- Variable continua cuando entre dos valores cualesquiera siempre puede


haber otro. Ejemplo: Talla, peso,......

- Variable unidimensional Estudia solo una característica de la población.


Ejemplo: Estudiar el peso (X)

- Variable bidimensional Estudia dos características de una población.


Ejemplo Estatura(X) y peso (Y)

- Variable infidimensional estudiaría infinitas características


- Atributos son características de la población no susceptibles de
cuantificación numérica. Ejemplo.: Color del pelo, los atributos se designan
con letras A, B, C, .......y sus valores A={a1, a2, .............., an}.

En Economía son muchos más importantes las variables (toman valor


numérico)) que los atributos.

ETAPAS DEL ANÁLISIS ESTADÍSTICO


1) Recogida de Datos
2) Ordenación de los mismos en tablas
3) Resumen de la información recogida a través de las medidas(Descriptiva)
4) Analizar los datos provenientes de una muestra para sacar conclusiones sobre la
población de la que proviene la muestra ( Inferencial).

ESCALAS DE MEDIDA

- Escala nominal la característica estudiada se clasifica en una serie de


características no numéricas y mutuamente excluyentes y no se puede
establecer ningún orden entre ellos.

- Escala ordinal el carácter medido no es numérico pero puede establecerse


algún tipo de orden. Ejemplo estudios de una persona.

- Escala de intervalos la característica puede cuantificarse numéricamente,


estableciéndose intervalos entre dos operaciones. Ejemplo: Renta mensual
que percibe una persona.

ANÁLISIS ESTADÍSTICO DE DISTRIBUCIONES UNIDIMENSIONALES

- Distribución unidimensional está formada por los valores que toma la


variable que se estudia acompañados de sus respectivas frecuencias.

- Frecuencia absoluta ( fi ) es el número de veces que se repite un


determinado valor.

- Frecuencia relativa ( hi) es el cociente entre la frecuencia absoluta y el


número total de observaciones, por tanto la frecuencia relativa está siempre
entre cero y uno.
i

- Frecuencia absoluta acumulada Fi = ∑ f j es decir se suman las


j 01

frecuencias anteriores a un valor dado, por tanto la acumulada al final


coincide con la población N.

- Distribución por datos no agrupados es cuando se especifican todos y cada


uno de los valores de la variable.

- Distribución por datos agrupados los valores de la variable se miden en


intervalos , la amplitud del intervalo es la diferencia entre el extremo
superior e inferior del intervalo y la suma de las amplitudes de todos los
intervalos es igual al recorrido ( diferencia entre el valor mayor y el menor
de la distribución).

- Marca de clase de un intervalo es la semisuma de los extremos del intervalo


l + li
x=
i −1
y es el valor que sustituye a todo el intervalo i
siendo el
2
intervalo [li-1 , li ].

Las representaciones gráficas tienen que estar hechas para que el simple
impacto visual nos dé información de la distribución

En distribuciones cuantitativas si los datos no están agrupados, se emplea el


diagrama de barras, si están agrupados el histograma., si la distribución es
cualitativa se suele emplear el diagrama de sectores.

Diagrama de barras Datos sin agrupar y las barras proporcionales a las


frecuencias.

Diagrama de Barras

12
10
Frecuencias

8
6
4
2
0

x1 x2 x3 x4 x5
Datos X

Diagrama rectángulos

10

8
Frecuencias

0
x1 x2 x3 x4 x5
X
En datos agrupados el Histograma pone en el eje vertical las densidades de
frecuencia de cada intervalo de forma que el área de cada rectángulo es la frecuencia
absoluta del intervalo.

Densidad de frecuencia di = fi/ai

Diagrama en escalera para datos no agrupados se utiliza para las frecuencias


acumuladas , son histogramas en los que en el eje vertical se acumulan las frecuencias
absolutas, por eso se llaman en escalera.
Frecuencias absolutas

x1 x2 x3 xn
Datos

Diagrama de barras acumulado para datos agrupados


Frecuencias acumuladas

Intervalos clase
Histograma para datos agrupados en intervalos

El área de cada rectángulo nos da la frecuencia del intervalo, por tanto la base es
la amplitud y la altura la densidad de frecuencia de dada uno di

f5
Densidades

f3

f1 f4
f2

a1 a2 a3 a4 a5
Amplitudes
MEDIDAS DE POSICIÓN

Se trata de resumir la información en un único número.


Las medidas de posición pueden ser:

• De tendencia central o promedios

1. Media
2. Mediana
3. Moda

• De tendencia no central

1. Cuantiles.

Las medidas de posición tienen que cumplir que intervengan todos los valores de la
variable, que se puedan calcular y que su valor sea único para cada distribución de
frecuencias.

1.- MEDIA

La media puede ser :

• Aritmética simple o ponderada


• Media Cuadrática
• Media Geométrica
• Media Armónica

Media aritmética simple

Se suman de todos los valores de la variable ponderados por sus frecuencias absolutas y
dividido todo ello por el número total de observaciones
n

− ∑x f i i

x=
i =1

N
La media aritmética es siempre el centro de gravedad de la distribución y es
siempre un valor que entra dentro del campo de variación de la variable.
Si los datos están agrupados en intervalos se toma la marca de clase de cada
intervalo para su cálculo.

Propiedades

1.- Cuando a los valores de la variable se les suma una constante, la nueva media
es la antigua más la constante.
− −
x´= x + K ⇒ x´ = x + K
Demostración

x´ =
∑ x ´ f = ∑ ( x + K ) f = ∑ x f + k ∑ f = x + K puesto que la suma
i i i i i i i

N N N N
de las fi es N.

2.- Si a los valores de la variable se les multiplica por una constante, la nueva
media es la antigua multiplicada por la constante.
− −
x , ´= x i K ⇒ x´= K x

Demostración

x´=
∑ x ´ f = ∑ Kx f = K ∑ x f = k x
i i i i i i

N N N

3.- Como consecuencia de las dos anteriores si a los valores de una variable se
les multiplica por constante y se les suma un número, la media aritmética queda
multiplicada por la constante y sumado el número.
− −
Es decir si : Y = KX + B entonces Y = K X + B

4.- La media aritmética se puede hacer siempre con variables cuantitativas y es


perfecta, pero tiene un inconveniente que es que si los valores son muy extremos
( desviados del resto), puede desvirtuarse la situación y hacerla poco
representativa, debido a este problema, a veces se hace la media truncada que es
quitar los extremos y hacer la media de los que quedan.

Media Aritmética ponderada

Es igual que la media aritmética simple, pero se pondera cada valor de la


variable por un coeficiente distinto de la frecuencia absoluta.

Media cuadrática

Es la media de los valores de la variable al cuadrado es decir :

∑x f
− 2

x2 = i i

N
Media Armónica

Es la media de los valores inversos de la variable, o la inversa de la media aritmética

N
H =
f
∑ i
xi

La media armónica se utiliza cuando la variable se encuentra medida en términos


relativos. Por ejemplo la velocidad.

Media Geométrica

Es la raíz N-ésima del producto de los valores de la variable elevado cada uno de ellos a
su frecuencia absoluta

G = N x1f .x 2f .......... x nf
1 2 n

Tiene el problema de que su cálculo es muy complicado sobre todo si N es grande.

2.- MEDIANA

Es el valor de la variable que ocupa el lugar central de la distribución, es decir el valor


de la variable que deja el 50% de observaciones hacia la izquierda y el 50% a la
derecha.

Para poder hallar la mediana, lo primero que hay que hacer es ordenar los valores de la
variable de forma creciente, y escribir los valores de las frecuencias acumuladas Fi.

Distinguiremos dos casos, datos no agrupados y datos agrupados.

Para datos no agrupados

Se calcula primero el 50% de la población N/2, se lleva ese valor a la columna de


frecuencias absolutas acumuladas.

• Si el valor no está en la columna de acumuladas, se toma como valor de la


mediana el de la variable correspondiente al siguiente.

• Si el valor si está en la columna de acumuladas, se toma como mediana la media


aritmética del valor de la variable y el siguiente.

Para datos agrupados en intervalos

Se calcula como antes la mitad de la población, y se lleva ese valor a la columna de


frecuencias absolutas acumuladas.
• Si el valor no está en la columna, se toma como intervalo al que pertenece la
Mediana el siguiente al valor de N/2, y después de situarnos en el intervalo por
la hipótesis de uniformidad hacemos una proporción entre la amplitud del
intervalo, los elementos que tiene y la amplitud que correspondería a la
diferencia entre N/2 y la frecuencia acumulada anterior valor que añadiríamos al
extremo inferior del intervalo.

• Si el valor sí está en la columna de frecuencias acumuladas, se toma como


Mediana el extremo superior del intervalo correspondiente.

También se puede hallar gráficamente con el diagrama correspondiente a las frecuencias


absolutas acumuladas.

3.- MODA

Es el valor de la variable que más veces se repite. En algunos casos existen varias
modas, pero normalmente es una, si son dos se llama bimodal.

Para datos no agrupados

La moda es el valor de la variable correspondiente a la mayor frecuencia absoluta.

Para datos agrupados en intervalos

Se halla la densidad de frecuencia de cada uno de los intervalos (di) y el de mayor


densidad de frecuencia se selecciona como intervalo modal, para determinar el valor de
la Moda, se aplica la siguiente fórmula, basada en la proporcionalidad:

d i − d i −1
Mo = Li + .a i
( d i − d i −1 ) + (d i − d i +1 )

Si los intervalos tienen todos la misma amplitud el intervalo modal es el de mayor


frecuencia absoluta.

CUANTILES

Son medidas de posición que no tiene porqué ser central. Hay varios tipos de cuantiles:

1.- Cuartiles Son valores de la variable que dividen a la distribución en cuatro partes
iguales, por lo tanto los cuartiles son tres C1 que deja por detrás de él al 25% de la
población, C2 que divide a la población en dos partes iguales y C3 que deja dtrás de él al
75% de la población.

2.- Deciles Son valores e la variable que dividen a la distribución en diez partes iguales,
por lo tanto los deciles son nueve, D1 deja al 10% antes, D2 al 20% y así sucesivamente
hasta D9 que deja al 90% antes y al 10% después de él.
3.- Percentiles.- Son valores de la variable que dividen a la distribución en cien
partes iguales, por lo tanto los percentiles son 99.

En realidad tanto cuartiles como deciles se calculan con el correspondiente percentil.

D1= P10 D9 = P90 C1 = P25 C2 = D5 = P50 = ME .

Para calcular cualquiera de ellos se utiliza por lo tanto el mismo procedimiento


que el descrito en el cálculo de la Mediana.

MEDIDAS DE DISPERSIÓN

Las medidas de dispersión nos indican el mayor o menor alejamiento de los


valores de una variable respecto a un promedio. Casi siempre acompañando a un
promedio debe ir una medida de dispersión que nos indica la mayor o menor
representatividad del promedio.

Las medidas de dispersión absoluta más utilizadas son:

Recorrido
Recorrido Intercuartílico
Desviación Media
Varianza
Desviación Típica

RECORRIDO

Es la diferencia entre el mayor y el menor valor de la variable

R = xn – x1

RECORRIDO INTERCUARTÍLICO

Es la diferencia entre el tercer cuartil y el primer cuartil

RI = Q 3 – Q 1

DESVIACIÓN MEDIA

Es la suma de los valores en valor absoluto de la diferencia entre cada valor de la


variable y la media aritmética por su frecuencia y dividido por el número de datos.

∑  x − x  f
i=n −

D =
i =1  i
 i


x N
VARIANZA

S 2X =
∑( xi − x)2 fi
N

Siempre es positiva (por estar al cuadrado). Como la varianza es siempre


positiva, a mayor varianza mayor será la dispersión.

Propiedades:

1.-La varianza siempre es mayor o igual que cero. Tan solo hay un caso en que es cero y
es cuando todos los valores de la variable son iguales.

2.- Si a los valores de la variable le sumo una constante, la varianza de la nueva variable
es la misma que la que tenía antes.

Es decir si xi´= xi+K entonces S2x´= S2x

Demostración:

− −

S x´2 =
∑( xi ´− x´) fi =
∑( xi + k − ( x + k )) 2 fi = S x2
N N

3.- Si a los valores de la variable se les multiplica por una constante, la varianza de la
nueva variable es la que tenía por el cuadrado de la constante.

Es decir si xi´= k xi entonces S2x´= k2 S2x

Demostración

´− − −

S 2
´=
∑( x ´− x)
i
2
fi
=
∑(kx i − k x)2 fi
=k 2 ∑( x i − x) 2 f i
= k 2 S x2
x
N N N

4.- Es consecuencia de las dos anteriores, la varianza de la variable Y=aX+b es la


varianza de X multiplicada por el cuadrado de a.

S y2 = a 2 S x2
− −2
5.- Cálculo abreviado de la varianza
S = x − x que es la fórmula más utilizada.
2
x
2

Demostración

−2
  −2 − −2 −
∑2  xi− x fi ∑ (xi2+ x− 2 i )fxx i ∑ i2fx i x∑ fi 2x∑ fx ii −2 −2 .

Sx = = = + − = x − x
N N N N N
DESVIACIÓN TÍPICA (Sx)

Es la raíz cuadrada positiva de la varianza y es la medida de dispersión más utilizada.

Clases de medidas de dispersión relativas

Se caracterizan por ser adimensionales, las más importante es el coeficiente de


variación de Pearson, nos indica la mayor o menor homogeneidad de los datos respecto
de la media y por lo tanto nos da la representatividad de la media en la distribución.
Sx
CVx = −
x

Tipificación de variables

Tipificar una variable es cambiarla por otra que tenga de media cero y
desviación típica 1. Se utiliza para comparar distribuciones .

Cada valor se tipifica restando la media y dividiendo por la desviación típica, la


nueva variable z, tiene de media cero y desviación típica 1.

x−x
z=
Sx

MEDIDAS DE FORMA

Hacen referencia a la forma de la distribución, simétrica, asimetría a la derecha o


a la izquierda. En general la mejor manera de verlo es por la representación gráfica,
pero si no la tenemos existen coeficientes que nos indican la forma de la distribución.
Los más utilizados son:

 Coeficiente de asimetría de Pearson, sólo se puede utilizar en distribuciones


campaniformes (forma de campana) y unimodales



x− M o
Ap =
Sx
Este coeficiente puede ser:

 0 entonces la media igual que la moda, distribución simétrica


 >0 entonces la media mayor que la moda, asimetría a la derecha positiva
 <0 entonces la media menor que la moda asimetría a la izquierda negativa

 Coeficiente de asimetría de Fisher, tiene la ventaja de que se puede hallar para


todas las distribuciones, aunque su cálculo es complicado y laborioso.

g1 =
∑( xi − x)3 fi
N .S x3

Este coeficiente puede ser:

 0 entonces la distribución es simétrica


 >0 entonces asimetría a la derecha
 <0 entonces asimetría a la izquierda.
 Curtosis hace referencia al mayor o menor apuntamiento que tiene una
distribución de frecuencias respecto a una distribución Normal, por lo tanto sólo
se estudia en distribuciones campaniformes , para compararlas con la campana
de Gauss, su calculo también es muy laborioso.

g2 =
∑(x i − x) 4 f i
−3
N .S x4
Este coeficiente puede ser:

 0 la curva es igual que la normal, se llama Mesocúrtica


 >0 la curva es más puntiaguda que la normal se llama Leptocúrtica
 <0 la curva es más aplastada quie la normal, se llama Platicúrtica
ANEXO MEDIDAS DE CONCENTRACIÓN

La concentración estudia el mayor o menor grado de distribución de los valores


de la variable, la mayor o menor equidad o igualdad en el reparto, por lo tanto sólo se
puede estudiar en variables de tipo económico, rentas, sueldos, subvenciones, etc...........

Las medidas más utilizadas son el Índice de Gini y la curva de Lorentz, su cálculo se
basa en la siguiente tabla de distribución:

Li-1-Li mi fi Fi Fi u
ui = ∑f i .mi
pi = .100 qi i = i .100
N un
10-20 15 6 6 90 26,09 8,45
20-40 30 4 10 210 43,48 19,72
40-50 45 3 13 345 56,52 32,39
50-70 60 5 18 645 78,26 60,56
70-80 75 2 20 795 86,96 74,65
80-100 90 3 23 1065
N=23 291,31

Los pi nos indican el porcentaje de población y los qi correspondientes la cantidad que


se reparte ese porcentaje de población, también claro está en porcentaje.

Siempre pi > qi en caso de igualdad implica que todos perciben la misma cantidad, por
lo tanto hay nula concentración o total uniformidad en el reparto.

Si pi se aproxima a qi hay poca concentración o sea bastante uniformidad, caso contrario


mucha concentración o sea no hay uniformidad.

Indice de Gini

IG =
∑( p − q ) = 95,54 = 0,3280
i i
en nuestro ejemplo hay escasa
∑p i 291,31
concentración por lo tanto bastante uniformidad en el reparto.

La curva de Lorenz sería por tanto de la forma:


EJERCICIOS ESTADÍSTICA DESCRIPTIVA

1.- Dada la siguiente distribución de frecuencias de variable discreta . Calcular:

a) Mediana b) Moda c) Media d) Varianza y desviación típica

xi fi
47 1
48 3
49 2
50 8
51 3
52 2
53 1

2.- Consultados 350 matrimonios sobre la edad de la esposa, se confecciona la siguiente


tabla:

Edad esposa Nº matrimonios


15.20 23
20.25 28
25.30 76
30.35 54
35.40 60
40.50 42
50.70 67

Calcular Media, Mediana y Moda

3.- Un hotel tiene cinco tipos de habitaciones cuyos precios así como los ingresos son:

Precio por Habitación Ingresos


200 16.000
500 20.000
750 37.500
1.000 30.000
1.300 26.000

• Calcula precio medio


• Si el coeficiente de variación de los precios de otro hotel es 0,75 ¿ Cúal de los
dos hoteles posee una estructura de precios más homogéneos?
4.- Un empresario desea repartir unas bonificaciones entre sus empleados en base a
la categoría y productividad de los mismos. Dicha distribución quedó de la siguiente
forma:

Bonificaciones (Cientos Euros) Nº Empleados


10.15 3
15.25 8
25-28 12
28.32 15
32.40 7
40.55 5

• Bonificación media por trabajador


• Bonificación más frecuente
• Bonificación tal que la mitad de las restantes sea inferior a ella
• La varianza
• El coeficiente de variación y significado
• El coeficiente de asimetría de Pearson y significado.

5.- Los beneficios en millones de euros de un grupo de empresas vienen detallados en


el siguiente histograma de frecuencias absolutas acumuladas:

3
2,8
2,6
2,4
2,2
2
1,8
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
25 50 75 100 125 150

Calcular:

• Tabla estadística
• Establecer nº de empresas con beneficios superiores a 75 millones
• Calcular media mediana y moda
• Coeficiente de variación y de asimetría de Pearson ( significado)
6.- Las calificaciones de 90 opositores en el primer ejercicio han sido:

xi fi
0 4
1 10
2 13
3 11
4 13
5 10
6 9
7 7
8 7
9 4
10 2

Se pide Cuartiles e interpretación de los resultados

7.- La tabla adjunta muestra la distribución de los salarios/mes en Euros percibidos por
los 65 empleados de la empresa AVISO.

Salario mes Nº empleados


500.600 8
600.700 10
700.800 16
800.900 14
900.1000 10
1000.1100 5
1100.1200 2

• Se pide Salario medio de la empresa


• Salario tal que la mitad de los empleados ganan menos
• Salario más frecuente
• Presenta los datos en un histograma.

8.- Una variable estadística tiene una media igual a 7, y una desviación típica igual a 5.
Calcular la media y la varianza de las variables:

• Y = (X-2)/4
• Z= 5X+2
9.- Completar los datos que faltan en la siguiente tabla de distribución de frecuencias:

xi fi FI hi HI
70 2 - - -
60 - 12 - -
50 8 - - -
40 6 - - -
30 - 34 - -
20 4 - - -
10 3 - - -

Calcular:

• Media aritmética
• Varianza
• Coeficiente de variación
• Mediana
• Recorrido intercuartílico

10.- La puntuación que han obtenido 50 personas que se presentaron para ocupar un
puesto en la plantilla de una empresa, ha sido la siguiente:

Puntuación Nº personas
14.18 3
18.20 6
20.25 11
25.28 15
28.32 8
32.36 7

• Puntuación media y puntuación más frecuente


• Coeficiente de asimetría de Pearson y significado
• ¿ Qué tipo de curtosis presenta la distribución?

11.- Las últimas cien ventas facturadas por un establecimiento se habían agrupado en
cuatro intervalos de clase, recordamos tan sólo la siguiente información:

• El primer intervalo tiene seis semanas como extremo superior, una frecuencia
relativa de 0,2 y una amplitud de cuatro semanas.
• La marca de clase del segundo y cuarto intervalo son ocho y cincuenta semanas
respectivamente.
• Hasta el segundo intervalo se acumulan sesenta ventas.
• El tercer intervalo presenta una frecuencia de treinta ventas y una amplitud de
treinta semanas.

Con esta información construye la distribución de frecuencias y calcula la media,


mediana, moda y coeficiente de variación.
12.- Las indemnizaciones recibidas por los 42 propietarios de áreas de cultivo
después de unas recientes inundaciones, se distribuyen del siguiente modo:

Cientos de Euros Propietarios


20.50 8
50.100 20
100.140 8
150 5
220 1

• Si las perdidas se han valorado en más de 400.000 Euros, puede


afirmarse que las indemnizaciones son suficientes?
• Calcular la indemnización más frecuente
• Calcular la mediana y la media
• Si a todos los propietarios se les subiera la indemnización en
2.000 Euros serían suficientes las indemnizaciones? Cuál sería
entonces la media?.

13.- Durante la última semana dos librerías han vendido los libros que ocupan los tres
primeros puestos en las listas de ventas a los siguientes precios

Librería 1 Librería2
Precio Nº Ejemplares Precio Nº Ejemplares
18 10 15 25
21 13 19 18
23 15 20 25

• Qué establecimiento ha presentado una recaudación media más


representativa
• Cuál de los establecimientos presenta una mayor disparidad de precios?

14.- Una empresa automovilística ha abierto una nueva factoría en un país del este. En
este año en dicha factoría se han obtenido unas ventas medias mensuales de 100
automóviles con una desviación típica de 10, mientras que en España por término medio
se han vendido 75 coches con una desviación típica de 8.

• ¿ En la factoría de qué país las ventas medias de automóviles son más


representativas?
• Si en el último mes las ventas de la nueva factoría son de 105 vehículos y
en la española de 80 ¿qué factoría presenta mayores ventas en términos
relativos este mes? ( Tipificar los valores)
• Si la empresa piensa abrir otra factoría en Asia, y se espera que la
distribución de ventas sea Y= X – 10 , siendo X la distribución de ventas
en España ¿ En cuál de estas dos factorías las ventas son más
representativas?
15.- Las calificaciones obtenidas por un grupo de alumnos en Matemáticas y
Economía son:

Se pide a los alumnos de la clase las notas de la evaluación en las dos asignaturas y
se anotan los resultados. Una vez anotados los resultados en dos filas, se pide:

• ¿Cuántos alumnos tiene el grupo?


• Tabla de correlación
• Distribuciones marginales, medias y varianzas
• ¿Cuál de las dos es más homogénea?
• Hallar la distribución de matemáticas condicionada a la Economía sea 7
• Distribución de Economía condicionada a Matemáticas superior a 4
• Porcentaje de personas que aprobaron la Economía
• Nota mínima obtenida por el 30% de los alumnos que más nota tienen en
Economía
• Calcular la covarianza
• Calcular el coeficiente de correlación lineal y significado.
• Nube de puntos.

16.- Con los datos de la siguiente tabla obténgase las medias, varianzas y covarianza de
las variables X e Y

yj 1 2 4 ni
xi
5 1 0 2 3
10 2 1 0 3
15 0 1 3 4

nij 3 2 5 10

17.- Dada la distribución :

xi yj nij
2 1 6
2 4 7
3 2 4
3 5 2
5 4 1

• Determínese el coeficiente de correlación lineal entre las variables y dar


su significado, relaciona el resultado obtenido con la nube de puntos de
la distribución
18.- Se ha encuestado a 100 familias en una ciudad sobre su gasto mensual en ocio
(variable Y) y sus ingresos mensuales (Variable X). En la siguiente tabla se presentan
los resultados obtenidos, donde las variables vienen expresadas en Euros.

Y 0-100 100-200 200-400 400-800


X
600-1000 4 1 1 -
1000-1500 9 8 3 -
1500-2000 9 12 20 3
2000-3000 5 8 12 3
3000-5000 1 1 - -

• Obtener el ingreso medio mensual por familia


• Obtener el gasto en ocio medio mensual por familia
• Obtener la media de gasto en ocio para las familias con ingresos
inferiores a 2000 Euros
• Cúal de las dos distribuciones es más homogénea?
• Halla la correlación lineal entre ambas y explica su significado
• ¿ Cuál es el ingreso máximo que tienen el 20% de las familias que
menos ingreso tienen?

19.- En un determinado sector, la producción y las exportaciones durante los últimos


años han sido:

Año Producción (miles) Exportación (miles)


2000 400 80
2001 420 80
2002 440 90
2003 480 92
2004 500 98

• Calcule la covarianza y el coeficiente de correlación lineal y dé su


interpretación
• Realice un ajuste lineal entre ambas variables
• Determine el coeficiente de determinación e interprete el resultado.

20.- Calcular las rectas de regresión de una variable bidimensional (X,Y) sabiendo los
siguientes datos :

x = 1 4 y = 7 S x2 = 3 S y2 = 1 r = 0,9 5
• ¿ Qué valor asignaría a X para un valor Y=5
21.- Dada la recta de regresión Y = - 0,25 + 3,2X ¿ Puede ser Sy< 6,4 si Sx = 2?

22.- En una región de España se observó el precio del vino y la cantidad de producción
durante algunos años , obteniéndose los siguientes datos :

X 35 31 42 60 52 49 61 50 55 58
Y 100 140 120 110 200 200 110 160 160 200

donde X es el precio por litro del vino en céntimos de Euro e Y es la cantidad


producida en miles de litros. Considerando la variable X agrupada en intervalos de
amplitud constante y considerando que el primer intervalo es 25-35; se pide:

• Distribuciones marginales
• Media, mediana, desviación típica y coeficiente de variación de Pearson
de X
• Covarianza entre las variables
• Porcentaje de años en los que el precio del vino fue inferior a 48
céntimos
• Recta de regresión de Y/X
• Coeficiente de correlación y de determinación , significado.

23.- La recta de regresión entre dos variables viene dada por Y = 5 + b.X. Sabiendo que
las medias de las variables son respectivamente 5 y 20. Calcular el coeficiente de
regresión .

24.- Contestar razonadamente si las afirmaciones siguientes son ciertas:

1. Si el coeficiente de regresión es negativo, se deduce que:

• El coeficiente de correlación es menor que cero


• La variable Y aumenta cuando X disminuye
• La covarianza es negativa

2. Si el coeficiente de determinación en un ajuste es 0,9

• El ajuste es bueno
• El coeficiente de correlación es 0,9
• El 10% de los valores no se explican por la regresión

25.- Media aritmética y varianza. Tipos de medida que son. Utilidad, importancia y
propiedades que cumple cada una de ellas.
IES LEÓN FELIPE
Dpto Matemáticas
Examen ESTADÍSTICA 1º
19 de Mayo 2005

TEORÍA

1.- ( 2 puntos) Media aritmética. Definición. Propiedades y demostración de las


mismas.

2.- ( 2 puntos) Responda razonadamente a las siguientes cuestiones:

• ¿ Qué predicción sería más fiable en un modelo lineal?


a1) Aquella en la que R = 0,9
a2) Aquella en la que r = 0,92
• Es posible que una variable estadística tenga de coeficiente de asimetría de
Pearson –2, siendo la media mayor que la moda?
• Obtener la varianza de la variable Y = 2X + 4 siendo Sx = 6
• Si una variable estadística toma un único valor constante K cual es su media y su
varianza.

PROBLEMAS
En todos los apartados ponga en un recuadro el resultado final

1.- ( 2 puntos ) Realizada una encuesta entre fumadores se ha obtenido la siguiente


tabla de frecuencias:

Nº Cigarrillos diarios Nº de individuos

5.10 20
10.15 15
15.20 25
20.30 40

• Número medio de cigarrillos fumados por individuo y día


• Desviación típica y coeficiente de variación de Pearson
• El valor más frecuente de la variable
• Histograma de frecuencias absolutas
• Número de cigarrillos que fuman el 30% de la población más fumadora.

2.- ( 2 puntos ) Halle las rectas de regresión de una variable bidimensional (X,Y)
− −
sabiendo x = 20 y = 10 S x = 4 S y = 2 , siendo el coeficiente de correlación lineal r =
0,95.
En cual de las dos variables la media es más representativa?. ¿ Qué valor asignaría
a Y = 6? Sería la predicción fiable?
3.- ( 2 puntos ) En una muestra de 20 empresas del sector metalúrgico se
obtuvieron los siguientes datos sobre el número de empleados X y sus ingresos anuales
Y en miles de Euros

Nº empleados(X) Ingresos Anuales(Y) Ingresos anuales(Y) Ingresos anuales(Y)


5-15 15-25 25-45
10-30 6 2 0
30-50 1 1 0
50-100 0 0 10

• Calcule los ingresos medios anuales


• La mediana del número de empleados
• La recta que te permita calcular los ingresos sabiendo el número de empleados
• Sería fiable la predicción que se hiciera?
• En los mismos ejes representa nube de puntos y recta de regresión hallada.
IES LEÓN FELIPE
Dpto. Matemáticas
Examen ESTADÍSTICA 1º
31de Mayo 2005

TEORÍA

1.- ( 2 puntos ) Conteste a la pregunta que mejor sepa de entre las propuestas por el
profesor en clase.

2.- ( 2 puntos ) Responda razonadamente las siguientes cuestiones:

• Si la media y la varianza de la variable X son 10 y 36 respectivamente, es el


coeficiente de variación de Pearson mayor que 1?
• Es posible que Sx sea mayor que 4 si Sxy=4 y Sy2 = 0,9?
• Si a una variable se le multiplica por dos y después se le suma 5 ¿ que le ocurre
a la media?¿Qué le ocurre a la varianza?
• Si una variable toma únicamente los valores uno y menos uno¿ Cuál sería su
media?¿Cuál sería su varianza?

PROBLEMAS
En todos los apartados ponga en un recuadro el resultado final

1.-(2 puntos ) Una empresa quiere realizar un estudio sobre la influencia de las
campañas publicitarias en sus cifras de ventas. Para ello dispone del gasto destinado a
publicidad y sus ventas en los últimos cinco años:

Años Gastos publicidad Ventas


(Millones de Euros) (Millones de Euros)
2000 2,5 200
2001 2,8 221
2002 2,9 230
2003 3,1 239
2004 3,5 248

• Obtenga la recta de regresión que permita predecir las ventas a partir


de los gastos en publicidad
• Prediga las ventas para el año 2005 si se piensa invertir en publicidad
4.000.000 de Euros.
• Juzgue la bondad del modelo y la fiabilidad de la predicción
realizada.
2.-(2 puntos ) Calcular los tres cuartiles de las dos distribuciones siguientes:

Xi fi
2 8
3 10
8 12
12 6
15 3

Li-1-Li fi
5-10 6
10-15 7
15-20 10
20-30 9

Calcular también estas medidas gráficamente en ambos casos


Calcula la Moda en la segunda distribución.

3.-(2 puntos ) Dada la variable X , que toma los valores 2, 4, 20 y 24.

• Hallar la media y la varianza de los valores de esa variable tipificados.


• Hallar la media y la varianza de la variable Y= 2X + 5
• Hallar el coeficiente de variación de la variable X y de la variable Y e
interpretar el resultado.
• Si a todos los valores de la variable X se les resta 2¿Cuál sería la media y la
varianza de la nueva variable?
Nota importante

Estas anotaciones, creo son de utilidad, primero para nuestros alumnos de


bachillerato de Sociales, paso previo para ir a la Universidad, y luego como material
de consulta bastante válido para las carreras universitarias de Psicología, Trabajo
Social, Economía, Administración y Dirección de Empresas, Empresariales, Trabajo
Social, Magisterio y algunas más que tengan contenidos relacionados. Si os sirven de
algo, muy bien, y de no ser así gracias

You might also like