Professional Documents
Culture Documents
INTEGRANTES:
MEDINA ULLOA FIDEL
ANLISIS EXPLORATORIO DE DATOS
Realizar un examen grfico de variables individuales y un anlisis descriptivo numrico que permita
cuantificar algunos aspectos grficos de los datos.
Realizar un examen grfico de las relaciones entre las variables y un anlisis descriptivo numrico que
cuantifique el grado de interrelacin entre ellas.
Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas tcnicas estadsticas
como: La normalidad, linealidad y homocedasticidad.
Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que puedan ejercer en
anlisis estadsticos posteriores.
Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la
representatividad de los datos analizados.
ANLISIS ESTADSTICO UNIDIMENSIONAL
TIPOS
pueden expresarse Continuas: son el resultado
numricamente de medir, y pueden
Variables cuantitativas (temperatura, precipitacin, contener decimales
profundidad suelo, altitud,
pendiente, .)
Escala de Representaciones grficas Medidas de Medidas de dispersin
medida tendencia central
Diagrama de barras
Nominal Diagrama de lneas Moda
Diagrama de sectores
Histogramas
Intervalo Polgono de Media Desviacin Tpica
frecuencias
Primer cuartil
Segundo cuartil
Tercer cuartil
Son observaciones con caractersticas diferentes de
las dems.
DATOS ATPICOS
Su principal problema radica en que son elementos
(OUTLIERS que pueden no ser representativos de la poblacin
pudiendo distorsionar seriamente el
comportamiento de los contrastes estadsticos
observaciones
como
extraordinarias
para las que el TIPOS DE consecuencia de
un
investigador no
tiene OUTLIERS acontecimiento
extraordinario
explicacin.
observaciones
cuyos valores
caen dentro del
rango de las
variables
observadas
IDENTIFICACIN DE OUTLIERS
Grfico de cajas
Grficamente
examina la distribucin de
observaciones para cada
variable, seleccionando
como casos atpicos aquellos
casos cuyos valores caigan
fuera de los rangos de la
distribucin
Histograma
perspectiva
bivariante
Son algo habitual en el Anlisis Multivariante; de
hecho, rara es la investigacin en la que no aparece
este tipo de datos
DATOS AUSENTES
(MISSING) El investigador debe ser determinar las razones que
subyacen en el dato ausente buscando entender el
proceso principal de esta ausencia para seleccionar el
curso de accin ms apropiado.
TIPOS DE VALORES AUSENTES
Datos ausentes no
Datos ausentes prescindibles
prescindibles
son resultado de procesos que se Son resultado de procesos que no
encuentran bajo el control del se encuentran bajo el control del
investigador y pueden ser investigador y/o no pueden ser
identificados explcitamente identificados explcitamente.
EJEMPLO: datos censurados que son
observaciones incompletas como Ejemplo de estas situaciones son
consecuencia del proceso de obtencin los errores en la entrada de datos
de datos seguido en el anlisis.
APLICACIN DEL ANLISIS EXPLORATORIO DE
DATOS A PROBLEMAS MINEROS
CASO DE ESTUDIO CON DATOS DE UNA MINA DE CARBN.
datos simulados sobre un estrato real de carbn en el Africa el Sur
Los taladros perforados sobre el estrato de carbn son medidos para encontrar la
siguiente informacin: espesor (mts), contenido de energa o valor calorfico del carbn
(expresado en Megajoules por Ton.), contenido de ceniza (%) y contenido de sulfuros (%).
La variable a ser estudiada ser el valor calorfico, expresado en (MJ).
PROCEDIMIENTO PARA EL ANLISIS DE LOS DATOS
Li Ls
Cualitativamente
El valor de la media y la mediana,
Obsrvense las medidas estadsticas, observamos que los datos
tienden al valor de 24.6 MJ. lo que
cuyos valores confirman que los siguen un modelo Normal,
quiere decir que el valor es bastante
datos siguen una Distribucin con una tendencia hacia la
representativo, con un coeficiente
Normal, con parmetros, media igual zona central, que
de asimetra (Skewness) de 0.228,
a 24.624 MJ y varianza de 6.043 o aproximadamente equidistan
que confirma el sesgo mnimo de la
desviacin estndar de 2.458 MJ. de los extremos.
data.
CASO DE ESTUDIO CON DATOS DE UNA MINA DE ORO.
Vamos a eliminar el valor alto de 10 gr/ton de la data y veamos ahora cual es el comportamiento el modelo y sus medidas
estadsticas.
Medida Valor
Media 1,744
Mediana 1,200
Var 2,336
desv std 1,528
CV (%) 87,611
Q1 0,275
Q3 2,400
IQR 2,125
Moment3 3,290
Moment4 16,156
Sk 0,921 Nos damos cuenta porque es
E -0,039 El modelo Log Normal est ms
necesario hacer el anlisis
definido y ahora la diferencia
estadstico, previo a un anlisis
entre la media y la mediana es
espacial o geoestadistico, el
menor (0.54 grs/ton).
objetivo es no incurrir en mayores
errores.
CASO DE UN YACIMIENTO DE ORO CON 30 DATOS
ID Xi ID Xi ID Xi
1 0,1 11 0,6 21 0,4
2 5,5 12 1,4 22 0,5
3 0,5 13 6,8 23 1,5
4 1,0 14 5,1 24 2,3
5 1,2 15 8,4 25 3,2
6 2,1 16 4,2 26 2,9
7 2,5 17 0,3 27 4,3
8 3,0 18 1,5 28 3,8
9 5,1 19 1,8 29 7,2
10 10,0 20 2,2 30 4,9