Professional Documents
Culture Documents
x 1, x2,, xn,
xi
x1 x 2 ... x n
i 1
x
n
n
El valor de la media muestral es ms preciso que la precisin asociada a cada
observacin individual lo que sugiere que su valor numrico tenga un digito ms que los
utilizados en cada medida.
Es posible tambin pensar en media poblacional, que es entonces representada por la
letra griega (mu). Si la poblacin es finita, con por ejemplo N individuos o elementos,
la media poblacional es
x
i 1
1.1.2 Moda.
La moda de un conjunto de datos es definida como aquello valor con mayor frecuencia.
Si dos valores presentan el mismo nmero de observaciones y ningn otro presenta
frecuencia mayor entonces se dice que los datos son bimodales.
1.1.3 Mediana.
La tercera medida de localizacin o de tendencia central es la mediana, representada por
~
x . Representa el punto donde la muestra, ordenada, se divide en dos partes iguales.
La muestra ordenada en orden creciente de valores es representada por x (1), x(2),, x(n)
donde x(1) es la observacin ms pequea, x(2) la segunda medida ms pequea, , y x(n)
~
denota la observacin ms grande. Entonces, definimos la mediana x como la
[(n+1)/2]-sima observacin si n es impar, o el promedio entre la (n/2)-sima y la
[(n/2)+1]-sima observaciones si n es par, o sea
x ([n1]/2) ,
impar
x x (n/2) x ([n/2]1)
, par
Percentiles.
Los percentiles por su vez dividen el conjunto de datos en 100 partes iguales, siendo
considerados los ms importantes los percentiles 1, 5, 10, 25, 50, 75, 90, 95 y 99 que
representan los valore correspondientes a 1%, 5%, 10%, etc.
1.1.4.4
Otros
Otros valores que cuantifican una muestra y que sirven tambin como medidas de
posicin son los valores mnimo y mximo que, lgicamente, representan los valores
ms pequeo y ms grande de la serie de datos. Algunas veces ellos son tambin
llamados de cuartil o y cuartil 4, o de decl 0 y decl 10, as como de percentil 0 y
percentil 100.
1.2
2
i 1
s
n 1
Como en esta formula hay la necesidad de conocerse la media de la muestra, otra
manera, mucho ms sencilla de encontrar la varianza es dada por:
s2
x
i 1
2
i
i 1
n 1
En estas dos formulas aparece el divisor n-1, tambin conocido como grados de libertad
de la muestra, pues como la suma de las desviaciones de cada valor con respeto a la
media deben sumar 0 (cero), basta conocerse n-1 valores de estas desviaciones que la
ultima es automticamente determinada.
Como en ambas formulas los valores son siempre tomados al cuadrado la varianza tiene
su medida como el cuadrado de la medida original de los dados. As, si se miden los
dimetros de tornillos en mm, la varianza estar dada por mm 2. Una medida alternativa
de dispersin de los dados, y que mantiene la medida original de los dados es la
desviacin estndar (s) que es igual a la raz cuadrada de la varianza.
1.2.2 Error tpico
El error tpico, tambin llamado de error estndar de la media (eem), es igual a la raz
cuadrada del cociente entre la varianza de la muestra y el nmero de valores existentes
en la muestra (n), o sea:
eem
s2
n
CV
s
_
xi x
s
i 1
1.2.6 Curtosis
La curtosis representa el achatamiento o la elevacin de la curva de los datos cuando
comparada con una distribucin normal. Curvas muy elevadas presentan curtosis
positiva y curvas achatadas curtosis negativa.
n
n n 1
xi x
Curtosis
s
( n 1)(n 2)( n 3) i 1
n( n 1) 2
( n 2)( n 3)
1.3
}
5
Opciones de entrada
Rango de entrada define las celdas inicial y final que contiene los datos
Agrupado por: - marcar columnas o filas segn la disposicin de los datos en la hoja de
trabajo
Rtulos en la primera fila marcar la cuadricula si hay rtulo para los datos.
Opciones de salida
Las opciones de salida son:
a) salida de informacin en la misma hoja en que se encuentran los datos, en esto caso
marcar la opcin e identificar por lo menos una celda a donde debe empezar la tabla de
resultados;
b) en una hora nueva (salida estndar) e identificar celda inicial si no se desea salida a
partir de la primera celda de la nueva hoja,
c) en libro nuevo.
El resumen de estadsticas debe ser siempre marcado, en cuanto las otras tres opciones
deben ser marcadas cuando se desea precisin diferente de 95% (indicar la precisin
deseada), o cuando se quiere conocer otros valores grandes o pequeos diferentes del
mximo o mnimo (indicar que valores se desea).
1.3.3 Herramientas disponibles en StatPlus
La herramienta StatPlus, presente en la barra del men de Excel tiene la opcin
univariate statistics y que cuando marcada abre una ventanita como abajo:
Primero, marque la opcin deseada en Show, despus informe si desea los resultados, en
la hoja de clculo, en lneas (Rows) o columnas (Columns). Usted ac puede tambin
cambiar el titulo de la tabla de resultados en Table title. En Input informe la o las
variables que desea analizar indicando su nombre (Use range names) o las celdas
adonde se encuentran (Use range referentes); en Output usted puede indicar se desea la
salida en la misma hoja, indicando la celda inicial de salida, o en nueva hoja o en nuevo
libro de trabajo adems de indicar si desea la salida dinmica (valores de salida cambian
al cambiar cualquier valor de la serie de datos) o esttica. Si los datos pueden o deben
ser agrupados para alguna variable de calificacin indique esto en BY.
Aqu (Summary) se indican si se desean todas las estadsticas de resumen o apenas unas
pocas seleccionadas (marcar la opcin deseada).
1.4
2. GRFICOS Y DIAGRAMAS
La representacin de los datos de una muestra en grficos o diagramas permite una
visualizacin rpida y eficiente de la informacin en ellos contenida. Tres tipos de
grficos o diagramas deben ser considerados: histograma, tallos y hojas y caja y bigotes.
El primero y el segundo tipos son usados para mostrar las frecuencias de valores, pero
que presentan reglas distintas de construccin, en cuanto el tercer, caja y bigotes, hecho
Histograma
El histograma es un grfico de barras, horizontales o verticales, que representan la
frecuencia, frecuencia acumulada, frecuencia relativa o frecuencia relativa acumulada
correspondientes a los valores existentes en una muestra.
Si los datos son del tipo discreto, conteos o notas de valor entero, tambin llamados de
valores indicativos, o si se tratan de variables cualitativas, las barras son definidas por
cada un dos valores, si no son en nmero demasiado. Si el nmero de clases es
demasiado alto, que conlleve a un grafico con nmero excesivo de barras, los valores
pueden ser agrupados en clases de valores. Para esto tipo de datos el nmero mnimo de
barras puede ser tan pequeo cuanto 2 (dos), cuando se tratan de variables tipo
Bernoulli, de suceso o fracaso, daado o no daado, por ejemplo.
Si los datos son de naturaleza continua, como por ejemplo, peso, altura, rea, volumen,
dimetro u otros de este tipo, cada barra ser asociada a un intervalo de valores. El
numero de barras es definido pela raz cuadrada del nmero total de valores ( n ).
Como el valor del nmero de clases as definido es, muy comnmente, un nmero no
entero se debe tomar el entero superior. Hay tambin de cuidar de que el nmero de
barras no sea ni muy pequeo ni muy grande.
La amplitud de valores en cada una de las clases es obtenida dividindose el rango de
los datos por el nmero de clases definidas. Los valores superiores de cada clase son
obtenidos sumndose sucesivamente al valor mnimo de los datos la amplitud de clase.
2.2
Tallos y hojas
El diagrama de tallos y hojas es otra forma de representacin visual de una serie de
valores, conformados por lo menos de dos dgitos. Para su construccin los nmeros se
dividen en dos partes, una llamada de tallo, formada por uno o ms dgitos principales y
la otra la hoja, que contiene el resto de los dgitos. El nmero de tallos es relativamente
pequeo cuando comparado con el nmero total de observaciones, para permitir una
representacin interesante de los datos. Este nmero, en general, est entre 5 y 20.
El diagrama presenta por lo tanto dos columnas de informacin una, a la izquierda que
corresponde a los tallos y la otra, a derecha, que representa las hojas. Es tambin muy
comn que se adicione una tercera columna, ms a derecha, que contiene el valor de las
frecuencias en cada tallo. Es recomendable indicar en alguna parte del diagrama la
orden de grandeza de los tallos y hojas.
Algunas veces es recomendable aumentar el nmero de tallos. Para duplicarlos, por
ejemplo, al hacer la divisin de cada tallo, en un de ellos se ponen las hojas cuyos
valores, tengan como primer dgito, valor 4 o menor, y en el otro valores 5 o mayor.
2.3
Caja y bigotes
El diagrama de caja y bigotes adems de una visualizacin de los datos de la muestra
representa tambin algunas de las estadsticas de posicin y dispersin y permite
identificar algunos valores como valores atpicos y/o valores atpicos extremos. La caja
o rectngulo central tiene como lados extremos los valores de los cuartiles 3 y 1 y una
lnea central para el cuartil 2. Dentro de esto rectngulo el smbolo + representa la
posicin de la media. Los bigotes, diseados como lneas perpendiculares al rectngulo
tiene un largo igual a 1,5 veces la distancia intercuartlica. Los valores situados entre el
final de los puntos extremos del bigote hasta una distancia igual a 3 veces la distancia
intercuartlica son considerados valores atpicos y aquellos ms all de estos puntos son
llamados de atpicos extremos.
2.4
Herramientas en Excel
Excel tiene disponible una nica opcin para representacin grfica de una serie de
datos que es el Histograma. Para el diagrama de tallos y hojas e el grfico de caja y
bigotes se debe utilizar el software complementario StatPlus.
2.4.1 Herramientas
La opcin para dibujar el Histograma esta disponible en herramientas anlisis de
datos. Al ser empleada presenta la siguiente ventana.
Para entrada son definidas las celdas que contienen los datos en rango de entrada e
aquellas con los valores lmites (superiores) de cada clase excepto el de la clase ms
alta. Para salida se debe identificar la celda inicial adonde se quiere el diagrama (cuando
en la misma hoja (rango de salida), o la identificacin de una nueva hoja o de un nuevo
libro. La opcin crear grfico debe ser tachada.
2.4.2 Herramientas disponibles en StatPlus
La herramienta StatPlus, presente en la barra del men de Excel tiene la opcin single
variable charts y las sub-opciones para tallos y hojas (Stem and leaf) y para caja y
bigotes (Boxplots).
2.4.3.1 Tallos y hojas
Cuando los datos tienen dos o ms categoras de calificacin marque Use column o
cateegory leves, si no Values in separate columns. En el primer caso deben ser
informadas las localizaciones de los datos y de las categoras, en el segn caso apenas la
localizacin de los datos. En output indicase adonde se quiere el diagrama de tallos y
hojas, en cuanto las dems opciones solo son empleadas con categoras o con ms de
una variable.
10
2.5
11