Análisis Exploratorio de Datos

ANLISIS EXPLORATORIO DE DATOS (A.E.D.
1. DEFINICIN:
Es un conjunto de tcnicas estadsticas cuya finalidad es conseguir un entendimiento bsico de

los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este
objetivo el A.E.D. proporciona mtodos sistemticos sencillos para organizar y preparar los
datos, detectar fallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos
ausentes (missing), identificacin de casos atpicos (outliers) y comprobacin de los supuestos
subyacentes en la mayor parte de las tcnicas multivariantes (normalidad, linealidad,
homocedasticidad).
2. ETAPAS DEL A.E.D.:
Para realizar un A.E.D. conviene seguir las siguientes etapas:
a. Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.

b. Realizar un examen grfico de la naturaleza de las variables individuales a analizar y un
anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos de los
datos.
c. Realizar un examen grfico de las relaciones entre las variables analizadas y un anlisis
descriptivo numrico que cuantifique el grado de interrelacin existente entre ellas.
d. Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas tcnicas
estadsticas como, por ejemplo, la normalidad, linealidad y homocedasticidad.
e. Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que puedan
ejercer en anlisis estadsticos posteriores.
f. Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
3. PREPARACIN DE LOS DATOS

Hacer accesible los datos a cualquier tcnica estadstica descriptiva e inferencial.
Almacenar y procesar los datos en un paquete estadstico adecuado (SPSS 22,
MINITAB, STATA, R, etc), utilizando herramientas estadsticas.
4. ANLISIS ESTADSTICO UNIDIMENSIONAL
Consiste en realizar un anlisis estadstico grfico y numrico de las variables del problema con
el fin de tener una idea inicial de la informacin contenida en el conjunto de datos as como
detectar la existencia de posibles errores en la codificacin de los mismos.
4.1 Variables
Se denomina variable a cada una de las caractersticas de los elementos de una poblacin y
que varan de una unidad a otra.
4.1.1 Variables cualitativas (o categricas): aquellas que no tienen medida numrica; se

representan por categoras o atributos (tipo de suelo, de vegetacin, textura,).
4.1.2 Variables cuantitativas: las que pueden expresarse numricamente (temperatura,

precipitacin, profundidad suelo, altitud, pendiente, .)
a. Variables discretas: son el resultado de contar y slo toman valores enteros (nmero
de puntos, de cuadrculas, de pxeles).
b. Variables continuas: son el resultado de medir, y pueden contener decimales
(temperatura, profundidad, altura). Se pueden subdividir a voluntad. Pueden tomar,
entonces, cualquier valor de un determinado intervalo.
DESCRIPCIN UNIVARIADA
El primer anlisis que se realiza es la construccin del histograma de los datos con el fin de
poder determinar asuntos como: estimar la funcin de densidad, identificar el tipo de
distribucin de los datos (normal, log-normal,..., etc.), si existe una distribucin unimodal o
multimodal, si aparecenvalores extremos y outliers e identificar patrones acerca de la
variabilidad del fenmeno.
Figura 1. Histogramas de los datos.
Adicionalmente tomando como base el histograma acumulativo (grfico de frecuencia relativa

acumulada de los datos), es posible definir el valor mnimo (min), el primer cuartil (Q1), la
mediana (M), el tercer cuartil (Q3), la media (m) y el valor mximo (max), que son medidas
estadsticas fundamentales y representarlas por medio de diagramas de cajas como se muestra
en la figura 2 en su parte derecha.
Figura 2. Diagrama de cajas a partir del histograma acumulativo
Lo deseable es que los datos de la variable bajo estudio tengan una distribucin normal, si eso
no ocurre se puede hacer una transformacin de escala en el histograma. En la figura 3 se
muestra como un cambio de escala en la abscisa del histograma inicial en la cual se pasa a
escala logartmica, trasforma la distribucin de los datos: de una distribucin sesgada hacia la
izquierda pasa a una distribucin normal
Figura 3. Cambio de escala en el histograma.
Una vez realizado el histograma, los cambios de escala necesarios y los diagramas de cajas, se
deben caracterizar los datos a partir del clculo de las medidas de tendencia central, de
dispersin y de localizacin.
Las medidas de tendencia central son la media, la mediana y la moda definida de la siguiente
forma:
Media aritmtica (mean): Sensible a valores extremos. Se calcula mediante la
expresin:
n
1
= [ Z ] m= Z
n 1
Moda (mode): No sensible a valores extremos. Es el dato de mayor frecuencia

absoluta.
Mediana (median): No sensible a valores extremos. Es el dato central cuando los datos
se ordenan de menor a mayor. El 50% de los dems datos son menores que ella y el
50% de los dems datos son mayores a ella.

Una vez calculadas las medidas de tendencia central, es posible analizar que tan simtrica es la
distribucin de los datos como se muestra en las figuras 4 y 5, teniendo en cuenta que una
distribucin completamente simtrica es una distribucin normal.
Figura 4.Distribucin simtrica (normal) de los datos.

Figura 5.Distribucin asimtrica de los datos
Las medidas de dispersin, permiten determinar que tan alejados estn los datos con relacin
a las medidas de tendencia central, las ms comunes son la varianza, la desviacin estndar, el
coeficiente de variacin, coeficiente de sesgo skewness y coeficiente de curtosis; definidos a
continuacin:
Varianza: Es sensible a valores extremos. Se define como el nivel de dispersin de los

datos en torno a una medida de tendencia central, en general se calcula en torno a la
media as:
n
1
2= ( X X m )2
n1 i=1 i
Desviacin estndar: Es sensible a valores extremos. Es una normalizacin de la
varianza mediante la trasformacin raz cuadrada. Una varianza y una desviacin
estndar altas indican un alto nivel de dispersin de los datos en torno a la media y
viceversa. Se calcula de la siguiente manera.
= 2
Coeficiente de variacin: Es sensible a valores extremos. Expresa la dispersin

porcentual en trminos relativos. Se calcula mediante la siguiente expresin:
S
CV =
Xm
y en porcentaje como: 100 CV = 100 (S/Xm) %
CV = coeficiente de variacin
S = desviacin estndar
Xm = media
Es un indicador de las dificultades asociadas con la presencia de valores extremos en el
conjunto de datos mediante los siguientes criterios:
Coeficiente de sesgo (skewness): Es sensible a valores extremos. Mide la asimetra
horizontal de una distribucin de datos, es el tercer momento en torno a la media. Se
calcula mediante las siguientes expresiones:
n
1
m 3= (Z ( u ) )3
n1 1
m3
CS=
3
Los criterios de anlisis para el valor del coeficiente de sesgo son:
CS = 0, corresponde con una distribucin simtrica.
CS > 0, corresponde con un sesgo positivo (la funcin de densidad muestra una larga
cola por la derecha).
CS < 0, corresponde con un sesgo negativo (la funcin de densidad muestra una larga
cola por la izquierda).
Webster y Oliver [WEB 01] han determinado los siguientes criterios de trasformacin para
mejoras la simetra de una distribucin de datos:
0 < | CS | < = 0.5, corresponde con una distribucin simtrica y se transforman los datos.
0.5 < | CS | < = 1.0, se trasforman los datos mediante la raz cuadrada.
| CS | > 1.0, se trasforman los datos mediante el logaritmo base 10 o natural.
Coeficiente de curtosis (kurtosis): Es sensible a valores extremos, Mide la asimetra

vertical de una distribucin de datos. Es el cuarto momento en torno a la media. Se
calcula mediante las siguientes expresiones:
n
1
m 4= ( Z ( u ))4
n1 1
m4
CC= 3
4
El CC mide la forma del pico de la distribucin de densidad y su evaluacin se hace con
base en los siguientes criterios:
CC = 0, indica que la distribucin es Normal.
CC > 0, indica que la distribucin es ms puntiaguda que una Normal.
CC < 0, indica que la distribucin es menos puntiaguda que una Normal.
En la herramienta Geoestatistical Analyst al resultado del clculo del CC se le debe restar 3 ya

que usa otra frmula.
Las medidas de localizacin permiten determinar la concentracin de los datos a partir del
histograma acumulativo, las principales son los cuantiles y los cuartiles definidos de la
siguiente manera:
Los cuartiles toman un porcentaje de la funcin acumulada de 25%, de tal manera que
Q1 es aquel dato que puede o no pertenecer al conjunto de datos a partir del cual el
25% de los datos son menores que l y el 75% de los datos son mayores que l; Q2 es
aquel dato que puede o no pertenecer al conjunto de datos a partir del cual el 50% de
los datos son menores que l y el 50% de los datos son mayores que l, corresponde
con el valor de la mediana; Q3 es aquel dato que puede o no pertenecer al conjunto de
datos a partir del cual el 75% de los datos son menores que l y el 25% de los datos son
mayores que l. Q0 es el valor mnimo y Q4 es el valor mximo.
Cuando el porcentaje tomado de la funcin acumulada es del 10%, se denominan

deciles, y cuando es del 1% se denominan percentiles.
En el clculo de las medidas de caracterizacin de los datos se debe tener en cuenta que unos
pocos valores muy pequeos o muy grandes pueden afectar fuertemente las estadsticas
resumen como la media, la varianza, el coeficiente de correlacin lineal o las medidas de
continuidad espacial (la covarianza o el semivariograma), a estos valores se les denomina:
valores extremos y outliers.
Un valor extremo es aquel valor errtico que es relevante en el estudio y que tiene un
impacto significativo en la estimacin.
Un outliers es aquel valor posiblemente moderado que no es relevante en el estudio
Los valores extremos pueden ser manejados de la siguiente forma:
Se pueden declarar como errneos y removerlos.

Se pueden clasificaren poblaciones estadsticas separadas.
Se pueden usar estadsticas robustas que son menos sensitivas a valores extremos
Se pueden transformar los datos para reducir la influencia de valores extremos (ej:
transformacin logartmica).
De todas formas para remover un valor extremo se deben tener en cuenta dos aspectos: los
estadsticos que afectan y el contexto de los datos.
DESCRIPCIN BIVARIADA.
Cuando se tiene ms de una variable de estudio, es importante tratar de describir qu posible

relacin puede haber entre ellas, esto se hace por medio de diagramas de dispersin
(scatterplots), histogramas bivariados, distribuciones marginales, grficos interquantiles,
distribuciones condicionales, anlisis de regresin, de covarianza y de coeficientes de
correlacin, veamos cada uno de ellos:
Diagramas de dispersin es un grfico en el cual se muestra para cada ubicacin espacial, el

valor de una de las variables bajo estudio versus otra con la cual se quiera determinar algn
tipo de relacin como se muestra en la figura 17 en la cual se est interesado en saber que tipo
de relacin existen entre la porosidad y la permeabilidad.
Figura 17.Diagrama de dispersin de porosidad versus permeabilidad.
Como se muestra en la figura 18, cuando los datos estn muy dispersos es posible que se
requieran dos diagramas de dispersin: una para mostrar detalles y otro para mostrar
relaciones globales; adicionalmente una transformacin, por ejemplo, de tipo logaritmo podra
mejorar la visualizacin de la relacin global.
Figura 18.Diagramas de dispersin para datos dispersos.
Histogramas Bivariados se calculan a partir de contar el nmero de datos que caen dentro de
cada celda de una malla que se pinta sobre el diagrama de dispersin, como se muestra en a
figura 19
Figura 19.Histograma bivariado a partir del diagrama de dispersin.
Distribuciones Marginales: es la distribucin univariada de los datos de una de las variables

bajo estudio calculada a partir de un histograma divariado. La distribucin marginal de la
variable indicada en la abscisa, se calcula sumando las columnas del histograma divariado; la
distribucin marginal de la variable indicada en la ordenada sumando las filas del histograma
bivariado. Esto se muestra en la figura 20.
Figura 20. Calculo de las distribuciones marginales de la porosidad (a la izquierda) y la
permeabilidad (a la derecha).
Grfico intercuantiles (QQplot): dos distribuciones marginales pueden comparase graficando

los cuantiles de una variable contra la otra, de esta forma se obtiene un grfico intercuantil, si
este grfico se parece a una lnea recta entonces ambas distribuciones se modelar con la
misma funcin de densidad. Esto se muestra en la figura 21.
Figura 22. Distribuciones condicionales.
Anlisis de Regresin: Tomando como base el diagrama de dispersin, es posible hacer una
regresin polinomial con el propsito de establecer relaciones entre los datos de las variables
bajo estudio. Aunque un orden polinomial de mayor grado puede ajustar mejor los datos,
estadsticamente hablando, puede no estar describiendo la relacin en detalle, si no ms bien
las peculiaridades del conjunto de datos de la muestra. Ello se muestra en la figura 23.
Figura 23. Anlisis de Regresin.
Anlisis de Covarianza: Tomando como base el diagrama de dispersin tambin es posible

hacer una anlisis de covarianza definida como se muestra en la figura 24, para la cual una
covarianza positiva alta indica una relacin directamente proporcional entre los datos, negativa
alta una relacin inversamente proporcional y cercana a cero ningn tipo de relacin. La
covarianza para las variables xi con media x y yi con media y, se calcula mediante la siguiente
expresin:
n
covarianza=
( 1
)
x y x y
n l 1 i i
Figura 24. Anlisis de Covarianza.
Anlisis de Coeficiente de Correlacin ( ) En el anlisis de covarianza no deja de ser

ambiguo el trmino covarianza positiva alta y negativa alta; para evitar esto se normaliza la
covarianza para definir el coeficiente de correlacin cuyo valor esta entre -1 y 1 (ver figura 25).
El coeficiente de correlacin mide dependencia lineal entre dos variables pero es sensible a
valores extremos. Se calcula con base en las siguientes expresiones:
Co varianza
=
x y
En donde x es la desviacin estndar de los valores de la variable xi con media x , y

y es la desviacin estndar de los valores de la variable yi con media y . Calculadas
mediante:
x y

i x i x

n n
1 1

n l1

n l1

x = x =
Figura: Anlisis de Coeficiente de Correlacin
Anlisis de Coeficiente de Correlacin de Spearman (Rank correlation coefficient, rank ):

Como medida complementaria al coeficiente de correlacin, se utiliza el coeficiente Rank. Se
define como el coeficiente de correlacin de la posicin de los datos calculado con la misma
frmula del coeficiente de correlacin pero en lugar de los datos correspondientes a la variable
xi, y la variable yi; se trabaja con la posicin de xi, y la posicin de yi. Una vez hechos los clculos
se establecen los siguientes criterios de anlisis:
Si rank > , entonces unos pocos valores estn arruinando lo que podra ser una
buena correlacin lineal entre xi y yi.
Si rank < , entonces unos pocos valores estn mejorando lo que en realidad es
una correlacin pobre.
En la figura 26 se pueden ver ambas situaciones.

Figura: coeficiente de correlacion Rank
CASO DE ESTUDIO CON DATOS DE UNA MINA DE CARBN
Conjunto de datos simulados sobre un estrato real de carbn en el Africa el Sur. Los taladros
perforados sobre el estrato de carbn son medidos para encontrar la siguiente informacin:
espesor (mts), contenido de energa o valor calorfico del carbn (expresado en Megajoules por
Ton.), contenido de ceniza (%) y contenido de sulfuros (%).
Las tres coordenadas expresadas en metros son medidas desde arriba (collar) del estrato del
carbn donde es intersectado por el taladro.
La variable a ser estudiada ser el valor calorfico, expresado en (MJ). Daremos un

procedimiento para disear la tabla de frecuencias que nos conducir a construir grficos y
mediante un anlisis cualitativo ver si estos datos siguen un modelo normal o log normal, que
sern confirmados por anlisis estadsticos cuantitativos.
Procedimiento para el diseo de la tabla de frecuencias: Despus de haberse recopilado la

informacin de campo y organizado en una base de datos, se elige la variable a ser analizada y
se procede a construir una Distribucin de Frecuencias, para facilitar el anlisis y la
interpretacin correspondiente. La estructura de la tabla es la siguiente:
Intervalo de Marca de Frecuencia Frecuencia Frecuencia Frecuencia

frecuencia. clases. absoluta. absoluta relativa. relativa
i x f acumulada. (hi ) acumulada.
Li1 L ( i) ( i) F (H i)
( i)

Procedimiento de clculo
1. Determinar el rango (R) de variacin de los datos.

R=x max x min (diferencia entre el dato mximo y mnimo).
2. Determinar el nmero de intervalos (K )

en forma directa, seleccionando un
nmero entre 5 y 30 intervalos, o calcularlo mediante la frmula de Sturges, cuyo
resultado debe ser redondeado al entero inmediato superior.
K=1+3.3 log ( n ) n 10
3. Determinar la amplitud o ancho del intervalo (W )

R
W=
K
4. Determinar los lmites de los intervalos.

L1=[ x min , x min + W )
L2=[ x min +W , xmin +2 W )
L3=[ x min +2 W , x min + 3 W )

LK =[ x min + ( K1 ) W , x min + K W )
Presentacin de datos
Los datos pueden ser presentados mediante los siguientes grficos:

Histograma de frecuencias.
Polgono de frecuencias.
Histograma acumulado.
Grficos de variabilidad.
Grafico de probabilidad.
Clculos previos para la construccin de la tabla de frecuencias, usando los datos de la mina
carbn.
VARIABLE VALOR
N 96
Min 19,92
Max 30,46
Rango 10,54
K 8
W 1,32
INTERVALO hi*10 Hi*10

Xi Fi Hi Fi Hi
Li Ls 0 0
0,0
19,920 21,240 20,580 9 0,094 9,000 9,375 9,375
94
0,2 13,5 22,91
21,240 22,560 21,900 13 0,135 22,000
29 42 7
0,3 15,6 38,54
22,560 23,880 23,220 15 0,156 37,000
85 25 2
0,6 21,8 60,41
23,880 25,200 24,540 21 0,219 58,000
04 75 7
0,7 15,6 76,04
25,200 26,520 25,860 15 0,156 73,000
60 25 2
0,8 11,4 87,50
26,520 27,840 27,180 11 0,115 84,000
75 58 0
0,9 95,83
27,840 29,160 28,500 8 0,083 92,000 8,333
58 3
1,0 100,
29,160 30,480 29,820 4 0,042 96,000 4,167
00 000
Cualitativamente observamos que los datos siguen un modelo Normal, con una tendencia hacia
la zona central, que aproximadamente equidistan de los extremos.
Grfico acumulado Xi VS Fi , con crecimiento ascendente.

2.- CASO DE ESTUDIO CON DATOS DE UNA MINA DE ORO
Las muestras tomadas en un yacimiento de oro, configuran los siguientes datos expresados en
gr/ton.
0,1 0,2 0,5 1,0 1,2 2,1 2,5 3,0 5,1 10
Calcular las medidas estadsticas, analizar la variabilidad de los datos y la tendencia hacia
un modelo Normal o Log Normal.
Estructura de datos para un clculo manual
Hi*10
ID Xi (Xi - Media)^2 (Xi - Media)^3 (Xi - Media)^4
0
1 0,1 6,101 -15,069 37,220981 10
2 0,2 5,617 -13,312 31,549566 20
3 0,5 4,285 -8,870 18,360368 30
4 1 2,465 -3,870 6,075732 40
5 1,2 1,877 -2,571 3,522754 50
6 2,1 0,221 -0,104 0,048797 60
7 2,5 0,005 0,000 0,000024 70
8 3 0,185 0,080 0,034188 80
9 5,1 6,401 16,194 40,971521 90
10 10 55,205 410,172 3047,580984 100
Aplicando las formulas estadsticas, tenemos los siguientes resultados:
Medida Valor
media 2,570
mediana 1,650
Var 8,236
desv std 2,870
CV (%) 111,668
Q1 0,350
Q3 2,750
IQR 2,400
moment3 38,265
moment4 318,536
sk 1,619
E 1,696
Asociado al conjunto de datos de la mina de oro, observando el histograma y las medidas

estadsticas, notamos que hay valores OUTLIERS, fuera de la vecindad del conjunto y uno de
esos valores es el dato cuyo valor tiene 10 gr/ton, lo que hace que la distribucin tenga un sesgo
pronunciado con tendencia al modelo Log Normal y el valor de la media no es representativo ya
que tiene una tendencia hacia los valores altos, mostrndose una gran diferencia entre el valor
de la media y la mediana (0.92 gr/ton).
Esto implica que no podemos seguir con nuestro anlisis, ya que primero tenemos que
homogenizar nuestra data para no arrastrar errores, que podran repercutir ms adelante cuando
uno haga estimaciones y modelamientos, los mismos que devendran en no confiables.
Vamos a eliminar el valor alto de 10 gr/ton de la data y veamos ahora cual es el comportamiento
el modelo y sus medidas estadsticas.
Medida Valor
Media 1,744
Mediana 1,200
Var 2,336
desv std 1,528
CV (%) 87,611
Q1 0,275
Q3 2,400
IQR 2,125
Moment3 3,290
Moment4 16,156
Sk 0,921
E -0,039
El modelo Log Normal est ms definido y ahora la diferencia entre la media y la mediana
es menor (0.54 grs/ton).
Los alumnos ahora comprendern porque es necesario hacer el anlisis estadstico, previo a
un anlisis espacial o geoestadistico, el objetivo es no incurrir en mayores errores.
3.- CASO DE UN YACIMIENTO DE ORO CON 30 DATOS.
Leyes en grs/ton.
ID Xi ID Xi ID Xi
1 0,1 11 0,6 21 0,4
2 5,5 12 1,4 22 0,5
3 0,5 13 6,8 23 1,5
4 1,0 14 5,1 24 2,3
5 1,2 15 8,4 25 3,2
6 2,1 16 4,2 26 2,9
7 2,5 17 0,3 27 4,3
8 3,0 18 1,5 28 3,8
9 5,1 19 1,8 29 7,2
10 10,0 20 2,2 30 4,9
Histograma deducido en base a una tabla de frecuencias.
Observamos claramente que los datos tienden a un modelo Log Normal.
conjunto de datos, demostrando la aproximacin a un modelo Log Normal.
Aplicaciones de las Curvas Ley Tonelaje.
1. Caso de estudio de un depsito de hierro: Tenemos un depsito de hierro, el cual se conoce que
las muestras siguen una distribucin normal con un ley promedio del 48% y una desviacin estndar del
5%. Asimismo el modelo de bloques del yacimiento nos da una desviacin estndar del 4.45%.
Analizar las incidencias de las dos distribuciones en el clculo de la Ley/Tonelaje. Representaremos los
modelos en funcin a sus parmetros y utilizando las formulas del modelo normal y clculos efectuados
en el programa Excel, para reproducir las funciones de densidad de probabilidad.
DistribucinNormal
0,09
0 ,08
0 ,07
0 ,06
0 ,05
f(x )
0 ,04 Muestras
Bloques
0 ,03
0 ,02
0 ,01
0
-30 -20 -0-10
,01 0 10 20 30 40 50 60 70 80 90
x
Modelo normal para muestras y bloques.

Calculo del Tonelaje y Ley para varias leyes de corte, usando el programa Excel y las formulas
expuestas anteriormente, para el Modelo Normal.
MUESTRAS BLOQUES
L.C.
P(%) L.MEDIA P(%) L.MEDIA
40 94,52 48,59 96,39 48,37
42 88,49 49,10 91,12 48,79
44 78,81 49,84 81,56 49,45
46 65,54 50,81 67,34 50,38
48 50 51,99 50 51,55
50 34,46 53,34 32,66 52,91
52 21,19 54,84 18,44 54,43
54 11,51 56,44 8,88 56,06
56 5,48 58,12 3,61 57,77
Cada Ley de Corte, representa una alternativa de explotacin con una proporcin de tonelaje
econmicamente explotable con su respectiva Ley, para cada modelo de muestras y bloques.
Generalmente un yacimiento se explota en base al modelo de bloques, en este caso, por
ejemplo si las condiciones de la tecnologa y el mercado determinan utilizar una Ley de Corte
de 44 %, entonces tendramos el 81.56 % de mineral econmicamente explotable con una ley
promedio de 49.45 %.
Con estos datos, representamos las curvas Ley Tonelaje.

LeydeCorte/Tonelaje
1, 2
1
0, 8
Muestras
0,6
P
Bloques
0, 4
0, 2
0
35 40 45 L.C 50 55 60
Curvas Ley de Corte/Tonelaje, para el modelo de muestras y bloques del depsito de hierro.
Ley de Corte/Ley Media

60
L ey Media
55
Muestras
Bloques
50
45
35 40 45 LC 50 55 60
Curvas Ley de Corte/Ley media, para el modelo de muestras y bloques del depsito de hierro.
2.Caso de estudio de un yacimiento de Pb y Zn.
Tomemos el caso de un yacimiento de Pb, Zn, donde el porcentaje de metal combinado es la

variable econmica. Se conoce que las muestras estn distribuidas lognormalmente con un
valor promedio del 12% y una desviacin estndar del 8%.
La unidad de minado seleccionada es un bloque de 10x10x5 mts., cuya desviacin estndar es

igual a 5.56% de metal combinado.
Analizar las incidencias del clculo de la Ley/tonelaje.
Representaremos los modelos en funcin a sus parmetros y utilizando las formulas del
modelo lognormal y clculos efectuados en el programa Excel, para reproducir las funciones de
densidad de probabilidad.
Funcin de probabilidad para el Modelo Log Normal para muestras y bloques.
Calculo del Tonelaje y Ley para varias leyes de corte, usando el programa Excel y las formulas
expuestas anteriormente, para el modelo Log Normal.
MUESTRAS BLOQUES
L.C.
P(%) L.MEDIA P(%) L.MEDIA
4 93,29 12,637 98,11 12,159
5 87,12 13,213 94,17 12,459
6 79,76 13,924 87,60 12,941
7 71,92 14,734 78,95 13,579
8 64,12 15,616 69,19 14,338
9 56,69 16,550 59,23 15,188
10 49,83 17,523 49,77 16,105
11 43,62 18,525 41,20 17,072
Cada Ley de Corte, representa una alternativa de explotacin con una proporcin de tonelaje
econmicamente explotable con su respectiva Ley, para cada modelo de muestras y bloques.
Generalmente un yacimiento se explota en base al modelo de bloques, en este caso, por
ejemplo si las condiciones de la tecnologa y el mercado determinan utilizar una Ley de Corte
del 7 %, entonces tendramos el 78.95 % de mineral econmicamente explotable con una ley
promedio de 13.579 %.

Análisis Exploratorio de Datos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis Exploratorio de Datos

Uploaded by

Copyright:

Available Formats

ANLISIS EXPLORATORIO DE DATOS (A.E.D.

Es un conjunto de tcnicas estadsticas cuya finalidad es conseguir un entendimiento bsico de

2. ETAPAS DEL A.E.D.:

Para realizar un A.E.D. conviene seguir las siguientes etapas:

a. Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.

3. PREPARACIN DE LOS DATOS

4. ANLISIS ESTADSTICO UNIDIMENSIONAL

4.1.1 Variables cualitativas (o categricas): aquellas que no tienen medida numrica; se

4.1.2 Variables cuantitativas: las que pueden expresarse numricamente (temperatura,

Figura 1. Histogramas de los datos.

Adicionalmente tomando como base el histograma acumulativo (grfico de frecuencia relativa

Figura 3. Cambio de escala en el histograma.

Moda (mode): No sensible a valores extremos. Es el dato de mayor frecuencia

Figura 4.Distribucin simtrica (normal) de los datos.

Varianza: Es sensible a valores extremos. Se define como el nivel de dispersin de los

Coeficiente de variacin: Es sensible a valores extremos. Expresa la dispersin

| CS | > 1.0, se trasforman los datos mediante el logaritmo base 10 o natural.

Coeficiente de curtosis (kurtosis): Es sensible a valores extremos, Mide la asimetra

CC = 0, indica que la distribucin es Normal.

CC > 0, indica que la distribucin es ms puntiaguda que una Normal.

CC < 0, indica que la distribucin es menos puntiaguda que una Normal.

En la herramienta Geoestatistical Analyst al resultado del clculo del CC se le debe restar 3 ya

Cuando el porcentaje tomado de la funcin acumulada es del 10%, se denominan

Un outliers es aquel valor posiblemente moderado que no es relevante en el estudio

Los valores extremos pueden ser manejados de la siguiente forma:

Se pueden declarar como errneos y removerlos.

Cuando se tiene ms de una variable de estudio, es importante tratar de describir qu posible

Diagramas de dispersin es un grfico en el cual se muestra para cada ubicacin espacial, el

Figura 17.Diagrama de dispersin de porosidad versus permeabilidad.

Figura 19.Histograma bivariado a partir del diagrama de dispersin.

Distribuciones Marginales: es la distribucin univariada de los datos de una de las variables

Grfico intercuantiles (QQplot): dos distribuciones marginales pueden comparase graficando

Anlisis de Covarianza: Tomando como base el diagrama de dispersin tambin es posible

Anlisis de Coeficiente de Correlacin ( ) En el anlisis de covarianza no deja de ser

En donde x es la desviacin estndar de los valores de la variable xi con media x , y

Anlisis de Coeficiente de Correlacin de Spearman (Rank correlation coefficient, rank ):

En la figura 26 se pueden ver ambas situaciones.

CASO DE ESTUDIO CON DATOS DE UNA MINA DE CARBN

La variable a ser estudiada ser el valor calorfico, expresado en (MJ). Daremos un

Procedimiento para el diseo de la tabla de frecuencias: Despus de haberse recopilado la

Intervalo de Marca de Frecuencia Frecuencia Frecuencia Frecuencia

1. Determinar el rango (R) de variacin de los datos.

2. Determinar el nmero de intervalos (K )

3. Determinar la amplitud o ancho del intervalo (W )

4. Determinar los lmites de los intervalos.

Los datos pueden ser presentados mediante los siguientes grficos:

INTERVALO hi*10 Hi*10

Grfico acumulado Xi VS Fi , con crecimiento ascendente.

0,1 0,2 0,5 1,0 1,2 2,1 2,5 3,0 5,1 10

Estructura de datos para un clculo manual

Aplicando las formulas estadsticas, tenemos los siguientes resultados:

Asociado al conjunto de datos de la mina de oro, observando el histograma y las medidas

3.- CASO DE UN YACIMIENTO DE ORO CON 30 DATOS.

Histograma deducido en base a una tabla de frecuencias.

Observamos claramente que los datos tienden a un modelo Log Normal.

conjunto de datos, demostrando la aproximacin a un modelo Log Normal.

Aplicaciones de las Curvas Ley Tonelaje.

Modelo normal para muestras y bloques.

Con estos datos, representamos las curvas Ley Tonelaje.

Ley de Corte/Ley Media

2.Caso de estudio de un yacimiento de Pb y Zn.

Tomemos el caso de un yacimiento de Pb, Zn, donde el porcentaje de metal combinado es la

La unidad de minado seleccionada es un bloque de 10x10x5 mts., cuya desviacin estndar es

Analizar las incidencias del clculo de la Ley/tonelaje.

INTERVALO hi10 Hi10