You are on page 1of 35

Elaborado por: Vanessa Fox

2. REPASO ESTADSTICA
DESCRIPTIVA

CONCEPTOS BSICOS
Experimento

: generacin de datos, proceso por el cual se tiene una observacin. Evento: resultados obtenidos mediante un experimento. Poblacin : conjunto universo siendo analizado. Muestra : Subconjunto de una poblacin. Variables:
Variables cualitativas o atributos: no se pueden medir numricamente (por ejemplo: nacionalidad, color de la piel, sexo). Variables cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos anuales).

Elaborado por: Vanessa Fox

Clasificacin variables:
Variables unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los alumnos de una clase). Variables bidimensionales: recogen informacin sobre dos caractersticas de la poblacin (por ejemplo: edad y altura de los alumnos de una clase). Variables pluridimensionales: recogen informacin sobre tres o ms caractersticas (por ejemplo: edad, altura y peso de los alumnos de una clase).

Elaborado por: Vanessa Fox

Variables cuantitativas : caracterstica medible o apreciable de la muestra.


variable discreto : nmeros enteros. Por ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podr ser 3.45). variable continuo : valores dentro de un rango continuo de valores. Por ejemplo, la velocidad de un vehculo puede ser 80.3 km/h, 94.57 km/h...etc.

RESUMEN

TIPOS DE VARIABLES

Elaborado por: Vanessa Fox

CUALITATIVA

CUANTITATIVA

MARCA DE PC ESTADO CIVIL COLOR CABELLO SEXO

DISCRETA

CONTINUA

NUM. HIJOS APARATOS QUE POSEEN. TIROS EN UN HOYO DE GOLF.

MONTO DEL IMPUESTO SOBRE LA RENTA. PESO. PRECIPITACIN ANUAL.

Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos: Individuo: cualquier elemento que aporte informacin sobre el fenmeno que se estudia: Altura de los nios de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que aporten informacin sobre el fenmeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total de las viviendas de dicha ciudad. Muestra: subconjunto que seleccionamos de la poblacin. Si se estudia el precio de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

Elaborado por: Vanessa Fox

DISTRIBUCIN DE FRECUENCIAS

La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin que se ha recogido sobre la variable que se estudia.
Variable (Valor) Frecuencias absolutas Simple Acumulada Frecuencias relativas Simple Acumulada

Elaborado por: Vanessa Fox

x
X1 X2

...
Xn-1 Xn

x n1 n2 ... nn-1 nn

x n1 n1 + n2 ... n1 + n2 +..+ nn-1 n

x f1 = n1 / n f2 = n2 / n ... fn-1 = nn-1 / n fn = nn / n

x f1 f1 + f2 ... f1 + f2 +..+fn-1 f

Siendo X los distintos valores que puede tomar la variable. Siendo n el nmero de veces que se repite cada valor. Siendo f el porcentaje que la repeticin de cada valor supone sobre el total

EJEMPLO

Se mide la altura de los nios de una clase y obtenemos los siguientes resultados (cm):
Elaborado por: Vanessa Fox

Alumno x Alumno 1 Alumno 2 Alumno 3 Alumno 4 Alumno 5 Alumno 6 Alumno 7 Alumno 8 Alumno 9 Alumno 10

Estatura x 1,25 1,28 1,27 1,21 1,22 1,29 1,30 1,24 1,27 1,29

Alumno x Alumno 11 Alumno 12 Alumno 13 Alumno 14 Alumno 15 Alumno 16 Alumno 17 Alumno 18 Alumno 19 Alumno 20

Estatura x 1,23 1,26 1,30 1,21 1,28 1,30 1,22 1,25 1,20 1,28

Alumno x Alumno 21 Alumno 22 Alumno 23 Alumno 24 Alumno 25 Alumno 26 Alumno 27 Alumno 28 Alumno 29 Alumno 30

Estatura x 1,21 1,29 1,26 1,22 1,28 1,27 1,26 1,23 1,22 1,21

Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia:


Variable (Valor) x 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 x 1 4 4 2 1 2 3 3 4 3 3 Frecuencias absolutas Simple Acumulada x 1 5 9 11 12 14 17 20 24 27 30 x 3,3% 13,3% 13,3% 6,6% 3,3% 6,6% 10,0% 10,0% 13,3% 10,0% 10,0% Frecuencias relativas Simple Acumulada x
Elaborado por: Vanessa Fox

3,3% 16,6% 30,0% 36,6% 40,0% 46,6% 56,6% 66,6% 80,0% 90,0% 100,0%

Si

los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos o clases, ya que de otra manera obtendramos una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.

Elaborado por: Vanessa Fox

Supongamos que medimos la estatura de los habitantes de una comunidad y obtenemos los siguientes resultados (cm):

Si presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de 30 lneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportara escasa informacin

Elaborado por: Vanessa Fox

En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacin queda ms resumida (se pierde, por tanto, algo de informacin), pero es ms manejable e informativa:
Elaborado por: Vanessa Fox

El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla.

MTODO GRFICO PARA DESCRIBIR UN


CONJUNTO DE MEDICIONES

Partiendo que hacer inferencias implica la descripcin parcial o total de un fenmeno u objeto fsico. Esta descripcin ya sea de una poblacin o muestra debe ser tal, que el conocimiento de las medidas descriptivas nos permita tener una apreciacin clara del conjunto de datos.

Elaborado por: Vanessa Fox

Entonces,

cualquier conjunto de mediciones se puede describir mediante una distribucin de frecuencias relativas o histograma de frecuencias relativas. grfica se construye al subdividir el eje de mediciones en intervalos de igual longitud, tambin llamadas clases.

Elaborado por: Vanessa Fox

Su

Partiendo del ejemplo que se esta desarrollando de estaturas de los habitantes, si graficramos cada rango de datos o intervalos en el eje X y su frecuencia relativa en el eje y

Elaborado por: Vanessa Fox

En este caso los intervalos aplicados no se aplic alguna metodologa, y esto es posible en la mayora de las veces y se deja al criterio de la persona que lo elabora. Es importante considerar que todos los datos deben estar representados en los rangos evitando un dato pueda pertenecer a 2 intervalos o en un punto de divisin. Cuanto mayor sea la cantidad de datos, mayor ser el nmero de intervalos que se pueden incluir y as representar una grfica representativa. Se sugiere cubrir la amplitud de variacin de los datos con 5 a 20 intervalos y utilizar el mayor nmero de intervalos para mayores cantidades de datos.

Elaborado por: Vanessa Fox

MTODOS NUMRICOS PARA DESCRIBIR UN


CONJUNTO DE MEDICIONES

El histograma de frecuencias relativas proporciona informacin muy til para describir el conjunto de mediciones pero NO se pueden hacer inferencias respecto de una poblacin ni medir la bondad de la inferencia. Por lo que se requiere de medidas numricas descriptivas de un conjunto de datos. Se buscan nmeros que describan la distribucin de frecuencias para cualquier conjunto de mediciones. Esto ser por medio de medidas de tendencia central y las medidas de dispersin o variabilidad.

Elaborado por: Vanessa Fox

MEDIDAS DE TENDENCIA CENTRAL


Las

medidas de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. medidas permiten conocer diversas caractersticas de esta serie de datos.

Elaborado por: Vanessa Fox

Estas

Las

medidas de tendencia central son de dos tipos:

a) Medidas de posicin central: informan sobre los valores medios de la serie de datos.
b) Medidas de posicin no centrales: informan de como se distribuye el resto de los valores de la serie.

Elaborado por: Vanessa Fox

MEDIA
Principal medida de posicin central. Es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las ms utilizadas:

Elaborado por: Vanessa Fox

a) La Media aritmtica puede calcularse de 2 maneras:

Se calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:

Xm =(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn) --------------------------------------------------------------------------------------------n

Como un promedio, donde la media de un conjunto de n mediciones y1,y2,,yn esta dada por:

Elaborado por: Vanessa Fox

El smbolo y se refiere a al media de una MUESTRA. La media de todas las mediciones de una poblacin se representar con el smbolo .

Nota importante: En general no es posible medir , ms bien es una constante desconocida que se desea estimar a partir de la informacin de una muestra.

Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raz "n" (siendo "n" el total de datos de la muestra).
Elaborado por: Vanessa Fox

La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo sobre el de los aos anteriores, ya que se aplica el exponente como un ponderacin de los datos.

La media de un conjunto de mediciones solamente localiza el CENTRO de la distribucin de los datos. No ofrece una DESCRIPCIN adecuada del conjunto de mediciones que se intenta analizar. Por ejemplo, 2 conjunto de mediciones podran tener sus distribuciones de frecuencias muy diferentes pero con la misma media.

Elaborado por: Vanessa Fox

La diferencia entre las 2 distribuciones esta en la variacin o dispersin de las mediciones a ambos lados de la media.

MEDIANA

Es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
Elaborado por: Vanessa Fox

No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su clculo toda la informacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido).

MODA

Es el valor que ms se repite en la muestra.

Ventajas

Nos indica el punto medio alrededor del cual se distribuyen los datos normalmente. Este clculo utiliza todos los valores de la serie, por lo que no pierde informacin. Indicador central ms utilizado.
Desventajas:

Elaborado por: Vanessa Fox

El clculo est influido por valores extremos, haciendo que pierda representatividad.

MEDIDAS DE POSICIN NO CENTRALES


Las

medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales:

Elaborado por: Vanessa Fox

Entre

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.

Elaborado por: Vanessa Fox

Ejemplo:

Se necesita a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos.
Nota: Los deciles y centiles se calculan de igual manera, aunque hara falta distribuciones con mayor nmero de datos.
Elaborado por: Vanessa Fox

Variable (Valor) X 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30

Frecuencias absolutas Frecuencias relativas Simple Acumulada Simple Acumulada x x x x 1 1 3,3% 3,3% 4 5 13,3% 16,6% 4 9 13,3% 30,0% 2 11 6,6% 36,6% 1 12 3,3% 40,0% 2 14 6,6% 46,6% 3 17 10,0% 56,6% 3 20 10,0% 66,6% 4 24 13,3% 80,0% 3 27 10,0% 90,0% 3 30 10,0% 100,0%

1 cuartil: es el valor 1.22 cm, ya que por debajo del indicador se sita el 25% de la frecuencia (tal como se puede ver en la columna de la frecuencia relativa acumulada). 2 cuartil: es el valor 1.26 cm, ya que entre este valor y el 1 cuartil se sita otro 25% de la frecuencia. 3 cuartil: es el valor 1.28 cm, ya que entre este valor y el 2 cuartil se sita otro 25% de la frecuencia. Adems, por encima suya queda el restante 25% de la frecuencia.

Elaborado por: Vanessa Fox

Nota: cuando un cuartil recae en un valor que se ha repetido ms de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posicin no central sera realmente una de las repeticiones.

MEDIDAS DE DISPERSIN
Rango

medio: mide la amplitud de los valores de la muestra y se calcula con el promedio de las observaciones mayor y menor de un conjunto de datos.
RM = (Xmayor Xmenor) 2 No es muy utilizado dado que es afectado por datos extremos.

Elaborado por: Vanessa Fox

Rango:

mide la amplitud de los valores de la muestra y se calcula con la diferencia entre las observaciones mayor y menor.
Elaborado por: Vanessa Fox

RM = (Xmayor Xmenor) No es muy utilizado dado que es afectado por datos extremos adems de no tomar en cuenta la distribucin de los mismos.

Varianza: Mide la distancia existente entre los valores de la serie y la media.


La varianza de un conjunto de mediciones y1,y2,,yn es la media del cuadrado de las desviaciones de las mediciones con respecto a su media, es decir, la sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el tamao de la muestra.

Elaborado por: Vanessa Fox

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Al contrario, mientras mayor sea la varianza, ms dispersos estn. La varianza de una poblacin se denota por el smbolo 2.

Desviacin Estndar: Se calcula como raz cuadrada de la varianza.

Elaborado por: Vanessa Fox

La desviacin estndar correspondiente a una poblacin se denomina . Es importante considerar que tanto la Desviacin Estndar como la Varianza, al ser medidas de dispersin de un conjunto de datos, representan la volatilidad o riesgo de que los datos se alejen o acerquen a la media.

Precio histrico de una accin


Elaborado por: Vanessa Fox

Muchas distribuciones de la vida real tienen forma de una montaa o campana. Es decir, se pueden aproximar por una distribucin de frecuencias de forma de campana que se conoce como curva Normal o de Gauss. Los datos que tienen una distribucin acampanada tienen caractersticas definidas con respecto a la variacin: Para una distribucin de mediciones que es aproximadamente normal (forma de campana), el intervalo contiene aproximadamente 68% de las mediciones. 2 contiene aproximadamente 95% de las mediciones. 3 contiene casi todas las mediciones.

Elaborado por: Vanessa Fox

Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica entre la media de la muestra.

Medida relativa de dispersin que se expresa como porcentaje al medir la dispersin de los datos respecto de la media.
Elaborado por: Vanessa Fox

Cuando resulta til? Cuando se comparan 2 o ms conjuntos de datos que se miden en las mismas unidades pero que difieren en tal medida que una comparacin directa de las respectivas desviaciones estndar no resulta til.
Por ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones tpicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variacin son ambos porcentajes, por lo que s se pueden comparar.

You might also like