You are on page 1of 30

ANLISIS EXPLORATORIO DE DATOS

FLORES CRUZADO ANTONY


JIMENEZ REYES MANUEL
MEDINA ULLOA FIDEL
LOPEZ OLIVA JOSE
VILLANUEVA PINO JHEFERSSON

INTEGRANTES:
MEDINA ULLOA FIDEL
ANLISIS EXPLORATORIO DE DATOS

conjunto de tcnicas estadsticas cuya finalidad es conseguir un


entendimiento bsico de los datos y de las relaciones existentes entre las
variables analizadas.

Organizar y preparar datos

Mediante mtodos Detectar fallos en el sistema


sistemticos sencillos
Tratamiento y evaluacin de datos
ausentes

Identificacin de casos atpicos


ETAPAS DEL A.E.D
Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.

Realizar un examen grfico de variables individuales y un anlisis descriptivo numrico que permita
cuantificar algunos aspectos grficos de los datos.

Realizar un examen grfico de las relaciones entre las variables y un anlisis descriptivo numrico que
cuantifique el grado de interrelacin entre ellas.

Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas tcnicas estadsticas
como: La normalidad, linealidad y homocedasticidad.

Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que puedan ejercer en
anlisis estadsticos posteriores.

Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la
representatividad de los datos analizados.
ANLISIS ESTADSTICO UNIDIMENSIONAL

Consiste en realizar una anlisis estadstico grfico y numrico de las


variables del problema con el fin de tener una idea inicial de la
informacin contenida en el conjunto de datos as como detectar la
existencia de posibles errores en la codificacin de los mismos.

caractersticas de los no tienen medida numrica;


elementos de una poblacin se representan por
Variables cualitativas (o
y que varan de una unidad categoras o atributos (tipo
categricas)
a otra. de suelo, de vegetacin,
textura,).

Discretas : son el resultado


de contar y slo toman
Variables valores enteros

TIPOS
pueden expresarse Continuas: son el resultado
numricamente de medir, y pueden
Variables cuantitativas (temperatura, precipitacin, contener decimales
profundidad suelo, altitud,
pendiente, .)
Escala de Representaciones grficas Medidas de Medidas de dispersin
medida tendencia central
Diagrama de barras
Nominal Diagrama de lneas Moda
Diagrama de sectores

Ordinal Boxplot Mediana


Rango Intercuartlico

Histogramas
Intervalo Polgono de Media Desviacin Tpica
frecuencias

Razn Media Geomtrica Coeficiente de Variacin


DISTRIBUCIN NORMAL DISTRIBUCIN BIMODAL
DISTRIBUCIN LOG NORMAL
DISTRIBUCIN LOG NORMAL
HACIA LA IZQUIERDA
EJEMPLO :Yacimiento de Matagente- Cerro de Pasco

DISTRIBUCIN LOG NORMAL DISTRIBUCIN LOG NORMAL


POSITIVA POSITIVA
FIGURA:TIPOLOGIA DE LAS DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS
MEDIDAS DE LOCACALIZACIN

Primer cuartil
Segundo cuartil
Tercer cuartil
Son observaciones con caractersticas diferentes de
las dems.

No son beneficos ni problemticos, si no que


requieren evaluacin y anlisis sobre el tipo de
informacin que pueden proporcionar

DATOS ATPICOS
Su principal problema radica en que son elementos
(OUTLIERS que pueden no ser representativos de la poblacin
pudiendo distorsionar seriamente el
comportamiento de los contrastes estadsticos

Pueden ser indicativos de las caractersticas de un


segmento vlido de la poblacin
TIPOS DE OUTLIERS
Los que surgen
de un error de
procedimiento:
la entrada de
datos o un error
de codificacin

observaciones
como
extraordinarias
para las que el TIPOS DE consecuencia de
un
investigador no
tiene OUTLIERS acontecimiento
extraordinario
explicacin.

observaciones
cuyos valores
caen dentro del
rango de las
variables
observadas
IDENTIFICACIN DE OUTLIERS
Grfico de cajas

Grficamente
examina la distribucin de
observaciones para cada
variable, seleccionando
como casos atpicos aquellos
casos cuyos valores caigan
fuera de los rangos de la
distribucin
Histograma

perspectiva univariante Puede hacerse

Para muestras pequeas (de 80 o incluso


menos observaciones), son atpicos aquellos
casos con valores estndar de 2.5 o superiores
Numricamente
Cuando los tamaos muestrales son mayores,
las pautas sugieren que el valor umbral sea 3.
pueden analizarse conjuntamente pares
de variables mediante un grfico de
dispersin. Casos que caigan
manifiestamente fuera del rango del
resto de las observaciones pueden
identificarse como puntos aislados en el
grfico de dispersin.

perspectiva
bivariante
Son algo habitual en el Anlisis Multivariante; de
hecho, rara es la investigacin en la que no aparece
este tipo de datos
DATOS AUSENTES
(MISSING) El investigador debe ser determinar las razones que
subyacen en el dato ausente buscando entender el
proceso principal de esta ausencia para seleccionar el
curso de accin ms apropiado.
TIPOS DE VALORES AUSENTES

Datos ausentes no
Datos ausentes prescindibles
prescindibles
son resultado de procesos que se Son resultado de procesos que no
encuentran bajo el control del se encuentran bajo el control del
investigador y pueden ser investigador y/o no pueden ser
identificados explcitamente identificados explcitamente.
EJEMPLO: datos censurados que son
observaciones incompletas como Ejemplo de estas situaciones son
consecuencia del proceso de obtencin los errores en la entrada de datos
de datos seguido en el anlisis.
APLICACIN DEL ANLISIS EXPLORATORIO DE
DATOS A PROBLEMAS MINEROS
CASO DE ESTUDIO CON DATOS DE UNA MINA DE CARBN.
datos simulados sobre un estrato real de carbn en el Africa el Sur

Los taladros perforados sobre el estrato de carbn son medidos para encontrar la
siguiente informacin: espesor (mts), contenido de energa o valor calorfico del carbn
(expresado en Megajoules por Ton.), contenido de ceniza (%) y contenido de sulfuros (%).
La variable a ser estudiada ser el valor calorfico, expresado en (MJ).
PROCEDIMIENTO PARA EL ANLISIS DE LOS DATOS

Determinar el rango de variacin de los datos (R)


Determinar el nmero de intervalos.
CONSTRUCCIN DE Determinar amplitud de intervalos.
TABLA DE
FRECUENCIAS Determinar los limites de los intervalos.

Los datos pueden ser presentados mediante los siguientes grficos:


Histograma de frecuencias.
PRESENTACIN DE
Polgono de frecuencias.
LOS DATOS Histograma acumulado.

Media, Varianza, Desviacin estndar, % coeficiente de variacin


Coeficiente de Skewness, Kurtosis
CLCULO DE Valor mnimo, Valor mximo.
MEDIDAS
ESTADSTICAS. Primer cuartil, Mediana, Tercer cuartil
TABLA DE DISTRIBUCIN DE FRECUENCIAS. CONSTRUCCIN DEL HISTOGRAMA XI VS FI

INTERVALO Xi Fi Hi Fi Hi hi*100 Hi*100

Li Ls

19,920 21,240 20,580 9 0,094 9,000 0,094 9,375 9,375

21,240 22,560 21,900 13 0,135 22,000 0,229 13,542 22,917

22,560 23,880 23,220 15 0,156 37,000 0,385 15,625 38,542

23,880 25,200 24,540 21 0,219 58,000 0,604 21,875 60,417

25,200 26,520 25,860 15 0,156 73,000 0,760 15,625 76,042

26,520 27,840 27,180 11 0,115 84,000 0,875 11,458 87,500

27,840 29,160 28,500 8 0,083 92,000 0,958 8,333 95,833

29,160 30,480 29,820 4 0,042 96,000 1,000 4,167 100,000


MEDIDAS ESTADSTICAS CONSTRUCCIN DEL HISTOGRAMA XI VS FI
Media 24.624
Varianza 6.043
Desviacin estndar 2.458
% coeficiente de variacin 9.983
Coeficiente de Skewness 0.228
Kurtosis 2.405
Valor mnimo 19.920
Primer cuartil 22.680
Mediana 24.565
Tercer cuartil 26.110
Valor mximo 30.460

Cualitativamente
El valor de la media y la mediana,
Obsrvense las medidas estadsticas, observamos que los datos
tienden al valor de 24.6 MJ. lo que
cuyos valores confirman que los siguen un modelo Normal,
quiere decir que el valor es bastante
datos siguen una Distribucin con una tendencia hacia la
representativo, con un coeficiente
Normal, con parmetros, media igual zona central, que
de asimetra (Skewness) de 0.228,
a 24.624 MJ y varianza de 6.043 o aproximadamente equidistan
que confirma el sesgo mnimo de la
desviacin estndar de 2.458 MJ. de los extremos.
data.
CASO DE ESTUDIO CON DATOS DE UNA MINA DE ORO.

Las muestras tomadas en un yacimiento de oro, configuran los


siguientes datos expresados en gr/ton.

0,1 0,2 0,5 1,0 1,2 2,1 2,5 3,0 5,1 10

Calcular las medidas estadsticas, analizar la variabilidad de los


datos y la tendencia hacia un modelo Normal o Log Normal.
Aplicando las formulas estadsticas, tenemos los
1 ESTRUCTURA DE DATOS PARA UN CLCULO MANUAL. 2
siguientes resultados:
ID Xi (Xi - Media)^2 (Xi - Media)^3 (Xi - Media)^4 Hi*100 Medida Valor
1 0,1 6,101 -15,069 37,220981 10 media 2,570
2 0,2 5,617 -13,312 31,549566 20 mediana 1,650
Var 8,236
3 0,5 4,285 -8,870 18,360368 30
desv std 2,870
4 1 2,465 -3,870 6,075732 40 CV (%) 111,668
5 1,2 1,877 -2,571 3,522754 50 Q1 0,350
6 2,1 0,221 -0,104 0,048797 60 Q3 2,750
7 2,5 0,005 0,000 0,000024 70 IQR 2,400
8 3 0,185 0,080 0,034188 80 moment3 38,265
9 5,1 6,401 16,194 40,971521 90 moment4 318,536
sk 1,619
10 10 55,205 410,172 3047,580984 100
E 1,696

3 Construccin del histograma Xi VS fi Observando el histograma y las medidas estadsticas,


notamos que hay valores OUTLIERS, fuera de la vecindad del
conjunto y uno de esos valores es el dato cuyo valor tiene 10
gr/ton, lo que hace que la distribucin tenga un sesgo
pronunciado con tendencia al modelo Log Normal
El valor de la media no es representativo ya que tiene una
tendencia hacia los valores altos, mostrndose una gran
diferencia entre el valor de la media y la mediana (0.92
gr/ton).
No podemos seguir con nuestro anlisis, ya que primero tenemos que homogenizar nuestra data para no arrastrar errores, que
podran repercutir ms adelante cuando uno haga estimaciones y modelamientos, los mismos que devendran en no confiables.

Vamos a eliminar el valor alto de 10 gr/ton de la data y veamos ahora cual es el comportamiento el modelo y sus medidas
estadsticas.

Medida Valor
Media 1,744
Mediana 1,200
Var 2,336
desv std 1,528
CV (%) 87,611
Q1 0,275
Q3 2,400
IQR 2,125
Moment3 3,290
Moment4 16,156
Sk 0,921 Nos damos cuenta porque es
E -0,039 El modelo Log Normal est ms
necesario hacer el anlisis
definido y ahora la diferencia
estadstico, previo a un anlisis
entre la media y la mediana es
espacial o geoestadistico, el
menor (0.54 grs/ton).
objetivo es no incurrir en mayores
errores.
CASO DE UN YACIMIENTO DE ORO CON 30 DATOS

Leyes en grs/ton. Histograma deducido en base a la tabla de frecuencias

ID Xi ID Xi ID Xi
1 0,1 11 0,6 21 0,4
2 5,5 12 1,4 22 0,5
3 0,5 13 6,8 23 1,5
4 1,0 14 5,1 24 2,3
5 1,2 15 8,4 25 3,2
6 2,1 16 4,2 26 2,9
7 2,5 17 0,3 27 4,3
8 3,0 18 1,5 28 3,8
9 5,1 19 1,8 29 7,2
10 10,0 20 2,2 30 4,9

Observamos claramente que los


datos tienden a un modelo Log
Normal.
MEDIDAS ESTADSTICAS MEDIDAS ESTADSTICAS
Media 2.767 Media 0.995
Varianza 6.737 Varianza 0.541
Desviacin estndar 2.596 TRANSFORMACIN Desviacin estndar 0.736
% coeficiente de variacin 93.814 LOGARTMICA DE LOS % coeficiente de variacin 73.963
DATOS CON Yi = Ln (Xi)
Coeficiente de Skewness 1.019 Coeficiente de Skewness -0.031
Kurtosis 3.467 Kurtosis 1.851
Valor mnimo 0.000 Valor mnimo 0.000
Primer cuartil 1.000 Primer cuartil 0.000
Mediana 2.000 Mediana 1-099
Tercer cuartil 4.000 Tercer cuartil 1.609
Valor mximo 10.00 Valor mximo 2.303

La asimetra o sesgo es evidente por el valor mostrado


Estos valores logartmicos, se aproximan a una
del coeficiente Skewness de 1.019, que indica el sesgo
distribucin normal, obsrvese la similitud de los
existente en el conjunto de datos, demostrando la
valores de la media y la mediana, con un coeficiente de
aproximacin a un modelo Log Normal.
asimetra Skewness, mnimo de -0.031.

You might also like