Professional Documents
Culture Documents
= + + + + =
=
VARIABLE ( )
=
+ +
=
+ . . + + +
=
= =
Son los intervalos donde se encuentran los datos agrupados cuando se estudian variables
estadsticas continuas, se denotan por: [1 ; ).
El nmero de clases o intervalos y la longitud que se debe considerar, va a depender de
cada problema y de la utilizacin que se quiera dar a las tablas estadsticas. Lo normal es
que todos los intervalos sean de la misma amplitud ( , 1 ), aunque pueden existir
mltiples razones donde se aconsejen tomar intervalos de amplitud variable, como puede
ser el caso en el que existan uno o dos intervalos donde se concentren la mayora de los
datos.
Una vez construidos los intervalos de clase, se elige un representante en cada uno de ellos.
Este representante es el valor medio de cada intervalo de clase, y se llama marca de clase.
Luego la marca de clase para cada intervalo se calcula del siguiente modo:
1
=
2
Ejemplo :
Acontinuacion se muestra unatabla de distribucion de intervalos para datos
agrupados con variable continua, para un conjunto de muestras obtenidas en
una prospeccion de Au.
Intervalo Marca Frecuencia Frecuencia Frecuencia Frecuencia
de de absoluta absoluta relativa relativa
frecuencia clase acomulada acomulada
( ) ( ) ( ) ( ) ( )
0.07 - 1.49 0.78 50 50 0.71 0.71
1.49 2.91 2.20 7 57 0.10 0.81
2.91 4.33 3.62 8 65 0.11 0.93
4.33 5.75 5.04 1 66 0.01 0.94
5.75 7.17 6.46 2 68 0.03 0.97
7.17 -8.59 7.88 1 69 0.01 0.99
TOTAL 70
= 1 + 3.322 log
4. Media Aritmtica:
Clculo de la media:
La media aritmtica, tal como se define, se puede calcular a partir de:
=1
() = =
=1
() = =
5. Mediana:
+1/2 ;
= { ( + +2 ; }
2 2
La mediana es tambin llamada percentil 50, adems los datos no solo se dividen en dos
grupos, sino que se pueden dividir en cuatro partes, cuartiles, donde Q1 = percentil 25,
Q2 = Mediana y Q3 = percentil 75, si los datos se dividen en 10, tenemos los deciles. De
forma general estas medidas se pueden calcular por: [p(n+1)/100] sima observacin de
los datos ordenados ascendentemente, donde p es el percentil que se desea calcular.
6. Moda:
= 2
En la distribucin normal la asimetra tiene valor cero, un valor negativo indica una cola
a la izquierda y un valor positivo indica una cola a la derecha.
9.- Curtosis: Describe el grado de esbeltez de la distribucin, tomado por lo general en
relacin a una distribucin normal, y se puede calcular por:
1
4 = ( )4 / 4
1
=1
2
=
La distribucin normal tiene un valor de error estndar menor que 1.25 y la distribucin
lognormal o una distribucin con tendencia positiva, tiene valores de error estndar
mayores que 1.25.
11.- Coeficiente de variacin: Es una medida de la variacin relativa de los datos y puede
ser calculado por:
=
y en porcentaje como: 100 CV = 100 (S/Xm) %
CV = coeficiente de variacin
S = desviacin estndar
Xm = media
Proporciona una comparacin entre la variacin de grandes valores y la variacin de
pequeos valores. Las tcnicas de Geoestadstica Lineal que predomina en el campo de
las geociencias producen los mejores resultados cuando el coeficiente de variacin es
menor que uno, CV < 1. Para CV > 1 se recomiendan tcnicas de Geoestadstica no
Lineal.
GRAFICOS ESTADISTICOS
Diagrama de barras
Mineral Ag Au Cu Pl Zn Fe
Ley del 15 5 10 3 5 1
mineral
(gr/Tn)
14
12
10
0
Ag Au Cu Pl Zn Fe
Un polgono de frecuencias
polgono de frecuencia es el nombre que recibe una clase de grfico que se crea a partir
de un histograma de frecuencia. Estos histogramas emplean columnas verticales para
reflejar frecuencias): el polgono de frecuencia es realizado uniendo los puntos de mayor
altura de estas columnas.
Es decir, por tanto, podramos establecer que un polgono de frecuencia es aquel que se
forma a partir de la unin de los distintos puntos medios de las cimas de las columnas que
configuran lo que es un histograma de frecuencia. Este se caracteriza porque utiliza
siempre lo que son columnas de tipo vertical y porque nunca debe haber espacios entre
lo que son unas y otras.
Diagrama de sectores
Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa
frecuentemente para las variables cualitativas.
Mineral Ag Au Cu Pl Zn Fe
Ley del 15 5 10 3 5 1
mineral
(gr/Tn)
Ley del mineral (gr/Tn)
2%
13%
8% 38%
26%
13%
Ag Au Cu Pl Zn Fe
Diagrama de lneas
Los grficos de lneas muestran una serie como un conjunto de puntos conectados
mediante una sola lnea. Los grficos de lneas se usan para representar grandes
cantidades de datos que tienen lugar durante un perodo continuado de tiempo.
Histograma de frecuencias:
Grficos de dispersin
Los grficos de dispersin se usan para trazar puntos de datos en un eje vertical y uno
horizontal, mediante lo que se trata de mostrar cunto afecta una variable a otra.
Cada fila de la tabla de datos la representa un indicador cuya posicin depende de sus
valores en las columnas que se establecen en los ejes X e Y. Se pueden usar varias escalas
en el eje Y cuando se desea comparar varios indicadores con rangos de valor
significativamente distintos.
La relacin entre dos variables se llama correlacin. Si los indicadores forman una lnea
casi recta en el grfico de dispersin, las dos variables tendrn una correlacin alta. Si los
indicadores se distribuyen de manera uniforme a lo largo del grfico de dispersin, la
correlacin es baja o nula. Sin embargo, aunque parezca que existe una correlacin entre
variables, esto no siempre es as. La causa de una aparente correlacin podra ser que dos
variables estn relacionadas con una tercera variable, lo que explicara la variacin, o pura
coincidencia.
Tamao no muy grande. (Si tengo muchos datos, este diagrama no es significativo. Se
utiliza cuando hacemos un histograma y no vemos muy clara su interpretacin).
Grfico basado en las medidas de posicin.
Intervienen 5 cantidades: Mediana (Q2), cuartiles (Q1 y Q3), mnimo (xmin) y mximo
(xmax).
Ofrece un resumen de la informacin ms relevante de la distribucin (SIN QUE LOS
DATOS APAREZCAN)
Da los valores de extremos y los outliers.
Sirve para comparar distribuciones de dos variables.
En la caja est el Q1 y el Q3, por tanto, en el rectngulo se encuentra el 50% de los datos.
La longitud de la caja es el rango intercuartlico IQR = Q3 Q1 (es decir, indica la
dispersin de los datos CENTRALES). (Si tengo 2 distribuciones, el que tenga IQR
mayor, es el que tiene los datos ms dispersos).
Mediana: mide la tendencia central, es decir, me indica donde est el centro de los datos.
Simetra Asimetra
Distribucin Normal:
1
2
1 2 ( )
() =
2
B1 B2 MARGINAL
A1 11 12 1.
VARIABLE A2 21 22 2.
A
MARGINAL .1 .2 N
Donde:
= nmero de observaciones que tienen el atributo i y j
. = nmero de individuos que tienen el atributo i (marginal i)
.j = nmero de individuos que tienen el atributo j (marginal j)
SEXO
SI 65 58 123
FUMA NO 43 67 110
En esta tabla se puede observar en primer lugar que de los 233 individuos de
los que se tiene informacin 108 son hombres y 125 son mujeres. Asimismo, se
sabe que 123 de ellos fuman y 110 no. La tabla de contingencia nos permite
tener informacin cruzada sobre ambas variables: de los 108 hombres, 65
fuman y 43 no, mientras que, en el caso de las mujeres, 58 fuman y 67 no.
=1 =1( )2
2
=
. . 2
= , y que bajo la hiptesis nula sigue una distribucin (1)(1)
h y k: Nmero de filas y columnas, respectivamente, de la tabla
: Total de las frecuencias observadas de la isima fila (modalidad i del carcter A)
: Total de las frecuencias observadas de la jsima columna (modalidad j del
carcter B)
N: Nmero de individuos observados
2 > (1)(1)
2
Rechazar hiptesis nula (dependencia entre las variables)
2 < (1)(1)
2
Aceptar hiptesis nula (independencia entre las variables)
0 1
TIPOS DE CORRELACIN:
Porosidad
Se observa que para un mismo valor en inteligencia existen diferentes posibles valores
en rendimiento. Se trata de una correlacin positiva pero no perfecta. Este conjunto de
puntos, denominado diagrama de dispersin o nube de puntos tiene inters como
primera toma de contacto para conocer la naturaleza de la relacin entre dos variables.
Si tal nube es alargada -apunta a una recta- y ascendente como es el caso que nos ocupa,
es susceptible de aplicarse el coeficiente lineal de Pearson. El grosor de la nube da una
cierta idea de la magnitud de la correlacin; cuanto ms estrecha menor ser el margen
de variacin en Y para los valores de X, y por tanto, ms acertado los pronsticos, lo
que implica una mayor correlacin.
Correlacin negativa:
Si la nube de puntos es alargada y descendente nos encontramos con una correlacin
negativa. Supongamos, en este sentido, que relacionsemos la cantidad de alcohol
ingerida y el grado de memorizacin ante determinados estmulos. Obtendramos un
grfico como el siguiente:
Resistencia a la compresin
Fracturamiento
Correlacin nula:
Si la nube de puntos adopta una configuracin ms o menos redondeada de tal forma
que no pueda especificarse ningn tipo de relacin, nos encontramos con una
correlacin nula. Supongamos que relacionsemos peso con inteligencia. Obtendramos
el siguiente grfico:
Se observa que las personas con poco peso obtienen en inteligencia tanto puntuaciones
bajas como medias o altas. Lo mismo sucede con personas de peso alto. No puede
establecerse, pues, ningn tipo de relacin. Ambas variables son independientes entre
s; la variacin de una de ellas no influye para nada en la variacin de la otra.
FRMULA UTILIZADA
=
Donde:
=
Puntuaciones Directas:
Esta frmula es especialmente til cuando se conocen las medias de X e Y as como sus
desviaciones tipo, lo cual es relativamente frecuente.
La frmula anterior puede expresarse de forma ms sencilla de la siguiente manera:
=
2 2
Donde:
=
=
Los casos atpicos son observaciones con caractersticas diferentes de las dems. Este
tipo de casos no pueden ser caracterizados categricamente como benficos o
problemticos sino que deben ser contemplados en el contexto del anlisis y debe
evaluarse el tipo de informacin que pueden proporcionar. Su principal problema radica
en que son elementos que pueden no ser representativos de la poblacin pudiendo
distorsionar seriamente el comportamiento de los contrastes estadsticos. Por otra
parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las
caractersticas de un segmento vlido de la poblacin y, por consiguiente, una seal de
la falta de representatividad de la muestra.
Tipos de outliers
Los casos atpicos pueden clasificarse en 4 categoras.
La primera categora contiene aquellos casos atpicos que surgen de un error de
procedimiento, tales como la entrada de datos o un error de codificacin. Estos casos
atpicos deberan subsanarse en el filtrado de los datos, y si no se puede, deberan
eliminarse del anlisis o recodificarse como datos ausentes.
La segunda clase es la observacin que ocurre como consecuencia de un acontecimiento
extraordinario. En este caso, el outlier no representa ningn segmento vlido de la
poblacin y puede ser eliminado del anlisis.
La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las
variables observadas pero que son nicas en la combinacin de los valores de dichas
variables. Estas observaciones deberan ser retenidas en el anlisis pero estudiando qu
influencia ejercen en los procesos de estimacin de los modelos considerados.
La cuarta y ltima clase comprende las observaciones extraordinarias para las que el
investigador no tiene explicacin. En estos casos lo mejor que se puede hacer es replicar
el anlisis con y sin dichas observaciones con el fin de analizar su influencia sobre los
resultados. Si dichas observaciones son influyentes el analista debera reportarlo en sus
conclusiones y debera averiguar el por qu de dichas observaciones
Identificacin de outliers
Los casos atpicos pueden identificarse desde una perspectiva univariante o
multivariante.
La perspectiva univariante examina la distribucin de observaciones para cada variable,
seleccionando como casos atpicos aquellos casos cuyos valores caigan fuera de los
rangos de la distribucin. La cuestin principal consiste en el establecimiento de un
umbral para la designacin de caso atpico. Esto se puede hacer grficamente mediante
histogramas o diagramas de caja o bien numricamente, mediante el clculo de
puntuaciones tipificadas. Para muestras pequeas (de 80 o incluso menos
observaciones), las pautas sugeridas identifican como atpicos aquellos casos con
valores estndar de 2.5 o superiores. Cuando los tamaos muestrales son mayores, las
pautas sugieren que el valor umbral sea 3.
Datos ausentes aleatorios (MAR): en este caso el patrn de los datos ausentes en una
variable Y no es aleatorio sino que depende de otras variables de la muestra X.
Ahora bien, para cada valor de X, los valores observados de Y s representan una muestra
aleatoria de Y.
As, por ejemplo, si X es el sexo del encuestado e Y es su renta, un proceso
MAR se tendra si existen ms valores ausentes de Y en hombres que en mujeres y, sin
embargo, los datos son aleatorios para ambos sexos en el sentido de que, tanto en los
hombres como en las mujeres, el patrn de ausentes es completamente aleatorio. Si,
adems, tampoco existen diferencias por sexos los datos ausentes seran MCAR.
Si los datos ausentes son MAR cualquier solucin al problema deber tener en cuenta
los valores de X dado que afectan al proceso generador de datos ausentes.
Mtodos de imputacin
Los mtodos de imputacin pueden ser de tres tipos:
1) Mtodos de disponibilidad completa que utilizan toda la informacin disponible a
partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan
habitualmente para estimar medias, varianzas y correlaciones
2) Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes,
sobre la base de otra informacin existente en la muestra. As se podra sustituir
observaciones con datos ausentes por observaciones no maestrales o sustituir dichos
datos por la media de los valores observados o mediante regresin sobre otras variables
muy relacionadas con aquella a la que le faltan observaciones
3) Mtodos basados en modelos que construyen explcitamente el mecanismo por el
que se producen los datos ausentes y lo estiman por mxima verosimilitud. Entran en
esta categora el algoritmo EM o los procesos de aumento de datos.