Professional Documents
Culture Documents
1. DEFINICIN:
Consiste en realizar un anlisis estadstico grfico y numrico de las variables del problema con
el fin de tener una idea inicial de la informacin contenida en el conjunto de datos as como
detectar la existencia de posibles errores en la codificacin de los mismos.
4.1 Variables
Se denomina variable a cada una de las caractersticas de los elementos de una poblacin y
que varan de una unidad a otra.
DESCRIPCIN UNIVARIADA
El primer anlisis que se realiza es la construccin del histograma de los datos con el fin de
poder determinar asuntos como: estimar la funcin de densidad, identificar el tipo de
distribucin de los datos (normal, log-normal,..., etc.), si existe una distribucin unimodal o
multimodal, si aparecenvalores extremos y outliers e identificar patrones acerca de la
variabilidad del fenmeno.
Lo deseable es que los datos de la variable bajo estudio tengan una distribucin normal, si eso
no ocurre se puede hacer una transformacin de escala en el histograma. En la figura 3 se
muestra como un cambio de escala en la abscisa del histograma inicial en la cual se pasa a
escala logartmica, trasforma la distribucin de los datos: de una distribucin sesgada hacia la
izquierda pasa a una distribucin normal
Una vez realizado el histograma, los cambios de escala necesarios y los diagramas de cajas, se
deben caracterizar los datos a partir del clculo de las medidas de tendencia central, de
dispersin y de localizacin.
Las medidas de tendencia central son la media, la mediana y la moda definida de la siguiente
forma:
Media aritmtica (mean): Sensible a valores extremos. Se calcula mediante la
expresin:
n
1
= [ Z ] m= Z
n 1
S
CV =
Xm
y en porcentaje como: 100 CV = 100 (S/Xm) %
CV = coeficiente de variacin
S = desviacin estndar
Xm = media
Es un indicador de las dificultades asociadas con la presencia de valores extremos en el
conjunto de datos mediante los siguientes criterios:
Coeficiente de sesgo (skewness): Es sensible a valores extremos. Mide la asimetra
horizontal de una distribucin de datos, es el tercer momento en torno a la media. Se
calcula mediante las siguientes expresiones:
n
1
m 3= (Z ( u ) )3
n1 1
m3
CS=
3
Los criterios de anlisis para el valor del coeficiente de sesgo son:
CS = 0, corresponde con una distribucin simtrica.
CS > 0, corresponde con un sesgo positivo (la funcin de densidad muestra una larga
cola por la derecha).
CS < 0, corresponde con un sesgo negativo (la funcin de densidad muestra una larga
cola por la izquierda).
Webster y Oliver [WEB 01] han determinado los siguientes criterios de trasformacin para
mejoras la simetra de una distribucin de datos:
0 < | CS | < = 0.5, corresponde con una distribucin simtrica y se transforman los datos.
0.5 < | CS | < = 1.0, se trasforman los datos mediante la raz cuadrada.
n
1
m 4= ( Z ( u ))4
n1 1
m4
CC= 3
4
El CC mide la forma del pico de la distribucin de densidad y su evaluacin se hace con
base en los siguientes criterios:
Las medidas de localizacin permiten determinar la concentracin de los datos a partir del
histograma acumulativo, las principales son los cuantiles y los cuartiles definidos de la
siguiente manera:
Los cuartiles toman un porcentaje de la funcin acumulada de 25%, de tal manera que
Q1 es aquel dato que puede o no pertenecer al conjunto de datos a partir del cual el
25% de los datos son menores que l y el 75% de los datos son mayores que l; Q2 es
aquel dato que puede o no pertenecer al conjunto de datos a partir del cual el 50% de
los datos son menores que l y el 50% de los datos son mayores que l, corresponde
con el valor de la mediana; Q3 es aquel dato que puede o no pertenecer al conjunto de
datos a partir del cual el 75% de los datos son menores que l y el 25% de los datos son
mayores que l. Q0 es el valor mnimo y Q4 es el valor mximo.
En el clculo de las medidas de caracterizacin de los datos se debe tener en cuenta que unos
pocos valores muy pequeos o muy grandes pueden afectar fuertemente las estadsticas
resumen como la media, la varianza, el coeficiente de correlacin lineal o las medidas de
continuidad espacial (la covarianza o el semivariograma), a estos valores se les denomina:
valores extremos y outliers.
Un valor extremo es aquel valor errtico que es relevante en el estudio y que tiene un
impacto significativo en la estimacin.
DESCRIPCIN BIVARIADA.
Como se muestra en la figura 18, cuando los datos estn muy dispersos es posible que se
requieran dos diagramas de dispersin: una para mostrar detalles y otro para mostrar
relaciones globales; adicionalmente una transformacin, por ejemplo, de tipo logaritmo podra
mejorar la visualizacin de la relacin global.
Figura 18.Diagramas de dispersin para datos dispersos.
Histogramas Bivariados se calculan a partir de contar el nmero de datos que caen dentro de
cada celda de una malla que se pinta sobre el diagrama de dispersin, como se muestra en a
figura 19
Anlisis de Regresin: Tomando como base el diagrama de dispersin, es posible hacer una
regresin polinomial con el propsito de establecer relaciones entre los datos de las variables
bajo estudio. Aunque un orden polinomial de mayor grado puede ajustar mejor los datos,
estadsticamente hablando, puede no estar describiendo la relacin en detalle, si no ms bien
las peculiaridades del conjunto de datos de la muestra. Ello se muestra en la figura 23.
Figura 23. Anlisis de Regresin.
Co varianza
=
x y
x y
i x i x
n n
1 1
n l1
n l1
x = x =
Figura: Anlisis de Coeficiente de Correlacin
Si rank > , entonces unos pocos valores estn arruinando lo que podra ser una
buena correlacin lineal entre xi y yi.
Si rank < , entonces unos pocos valores estn mejorando lo que en realidad es
una correlacin pobre.
Conjunto de datos simulados sobre un estrato real de carbn en el Africa el Sur. Los taladros
perforados sobre el estrato de carbn son medidos para encontrar la siguiente informacin:
espesor (mts), contenido de energa o valor calorfico del carbn (expresado en Megajoules por
Ton.), contenido de ceniza (%) y contenido de sulfuros (%).
Las tres coordenadas expresadas en metros son medidas desde arriba (collar) del estrato del
carbn donde es intersectado por el taladro.
Procedimiento de clculo
K=1+3.3 log ( n ) n 10
Presentacin de datos
Clculos previos para la construccin de la tabla de frecuencias, usando los datos de la mina
carbn.
VARIABLE VALOR
N 96
Min 19,92
Max 30,46
Rango 10,54
K 8
W 1,32
Cualitativamente observamos que los datos siguen un modelo Normal, con una tendencia hacia
la zona central, que aproximadamente equidistan de los extremos.
Las muestras tomadas en un yacimiento de oro, configuran los siguientes datos expresados en
gr/ton.
Calcular las medidas estadsticas, analizar la variabilidad de los datos y la tendencia hacia
un modelo Normal o Log Normal.
Hi*10
ID Xi (Xi - Media)^2 (Xi - Media)^3 (Xi - Media)^4
0
1 0,1 6,101 -15,069 37,220981 10
2 0,2 5,617 -13,312 31,549566 20
3 0,5 4,285 -8,870 18,360368 30
4 1 2,465 -3,870 6,075732 40
5 1,2 1,877 -2,571 3,522754 50
6 2,1 0,221 -0,104 0,048797 60
7 2,5 0,005 0,000 0,000024 70
8 3 0,185 0,080 0,034188 80
9 5,1 6,401 16,194 40,971521 90
10 10 55,205 410,172 3047,580984 100
Medida Valor
media 2,570
mediana 1,650
Var 8,236
desv std 2,870
CV (%) 111,668
Q1 0,350
Q3 2,750
IQR 2,400
moment3 38,265
moment4 318,536
sk 1,619
E 1,696
Esto implica que no podemos seguir con nuestro anlisis, ya que primero tenemos que
homogenizar nuestra data para no arrastrar errores, que podran repercutir ms adelante cuando
uno haga estimaciones y modelamientos, los mismos que devendran en no confiables.
Vamos a eliminar el valor alto de 10 gr/ton de la data y veamos ahora cual es el comportamiento
el modelo y sus medidas estadsticas.
Medida Valor
Media 1,744
Mediana 1,200
Var 2,336
desv std 1,528
CV (%) 87,611
Q1 0,275
Q3 2,400
IQR 2,125
Moment3 3,290
Moment4 16,156
Sk 0,921
E -0,039
El modelo Log Normal est ms definido y ahora la diferencia entre la media y la mediana
es menor (0.54 grs/ton).
Los alumnos ahora comprendern porque es necesario hacer el anlisis estadstico, previo a
un anlisis espacial o geoestadistico, el objetivo es no incurrir en mayores errores.
Leyes en grs/ton.
ID Xi ID Xi ID Xi
1 0,1 11 0,6 21 0,4
2 5,5 12 1,4 22 0,5
3 0,5 13 6,8 23 1,5
4 1,0 14 5,1 24 2,3
5 1,2 15 8,4 25 3,2
6 2,1 16 4,2 26 2,9
7 2,5 17 0,3 27 4,3
8 3,0 18 1,5 28 3,8
9 5,1 19 1,8 29 7,2
10 10,0 20 2,2 30 4,9
1. Caso de estudio de un depsito de hierro: Tenemos un depsito de hierro, el cual se conoce que
las muestras siguen una distribucin normal con un ley promedio del 48% y una desviacin estndar del
5%. Asimismo el modelo de bloques del yacimiento nos da una desviacin estndar del 4.45%.
Analizar las incidencias de las dos distribuciones en el clculo de la Ley/Tonelaje. Representaremos los
modelos en funcin a sus parmetros y utilizando las formulas del modelo normal y clculos efectuados
en el programa Excel, para reproducir las funciones de densidad de probabilidad.
DistribucinNormal
0,09
0 ,08
0 ,07
0 ,06
0 ,05
f(x )
0 ,04 Muestras
Bloques
0 ,03
0 ,02
0 ,01
0
-30 -20 -0-10
,01 0 10 20 30 40 50 60 70 80 90
x
MUESTRAS BLOQUES
L.C.
P(%) L.MEDIA P(%) L.MEDIA
40 94,52 48,59 96,39 48,37
42 88,49 49,10 91,12 48,79
44 78,81 49,84 81,56 49,45
46 65,54 50,81 67,34 50,38
48 50 51,99 50 51,55
50 34,46 53,34 32,66 52,91
52 21,19 54,84 18,44 54,43
54 11,51 56,44 8,88 56,06
56 5,48 58,12 3,61 57,77
Cada Ley de Corte, representa una alternativa de explotacin con una proporcin de tonelaje
econmicamente explotable con su respectiva Ley, para cada modelo de muestras y bloques.
Generalmente un yacimiento se explota en base al modelo de bloques, en este caso, por
ejemplo si las condiciones de la tecnologa y el mercado determinan utilizar una Ley de Corte
de 44 %, entonces tendramos el 81.56 % de mineral econmicamente explotable con una ley
promedio de 49.45 %.
Bloques
0, 4
0, 2
0
35 40 45 L.C 50 55 60
Curvas Ley de Corte/Tonelaje, para el modelo de muestras y bloques del depsito de hierro.
55
Muestras
Bloques
50
45
35 40 45 LC 50 55 60
Curvas Ley de Corte/Ley media, para el modelo de muestras y bloques del depsito de hierro.
Representaremos los modelos en funcin a sus parmetros y utilizando las formulas del
modelo lognormal y clculos efectuados en el programa Excel, para reproducir las funciones de
densidad de probabilidad.
Funcin de probabilidad para el Modelo Log Normal para muestras y bloques.
Calculo del Tonelaje y Ley para varias leyes de corte, usando el programa Excel y las formulas
expuestas anteriormente, para el modelo Log Normal.
MUESTRAS BLOQUES
L.C.
P(%) L.MEDIA P(%) L.MEDIA
4 93,29 12,637 98,11 12,159
5 87,12 13,213 94,17 12,459
6 79,76 13,924 87,60 12,941
7 71,92 14,734 78,95 13,579
8 64,12 15,616 69,19 14,338
9 56,69 16,550 59,23 15,188
10 49,83 17,523 49,77 16,105
11 43,62 18,525 41,20 17,072
Cada Ley de Corte, representa una alternativa de explotacin con una proporcin de tonelaje
econmicamente explotable con su respectiva Ley, para cada modelo de muestras y bloques.
Generalmente un yacimiento se explota en base al modelo de bloques, en este caso, por
ejemplo si las condiciones de la tecnologa y el mercado determinan utilizar una Ley de Corte
del 7 %, entonces tendramos el 78.95 % de mineral econmicamente explotable con una ley
promedio de 13.579 %.