You are on page 1of 20

UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA


ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN FACULTAD DE INGENIERIA CIVIL,


ARQUITECTURA Y GEOTECNIA E.A.P. INGENIERIA GEOLOGICA - GEOTECNIA

GEOESTADISTICA

1
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

GEOESTADISTICA
La anomala en la prospeccin geoqumica es una desviacin positiva y negativa de las caractersticas
consideradas normales para una poblacin de datos de un ambiente geomorfolgico, geolgico y geoqumico.
Merced a la geoestadstica bsica se determina los parmetros geoqumicos: el valor de fondo (background), sus
limitaciones de fluctuacin local y regional (threshold o umbral) y el valor por encima del cual encima del cual
una concentracin geoqumica puede considerarse anormal (la anomala).
Cabe notar que los datos estadsticos deben servir solo de gua en la evaluacin cientfica, junto con las
estimaciones visuales de los mapas geoqumicos. Por supuesto, es de importancia fundamental, el conocimiento
de la geologa y la mineralizacin de la zona de prospeccin, no solamente proveniente de los estudios ya
efectuados sino tambin de las observaciones y descripciones en el campo realizados por el gelogo geoqumico
a cargo del muestreo.

1. PROCESAMIENTO Y ANLISIS ESTADSTICO

La fase de interpretacin de un programa de prospeccin geoqumica est caracterizada por dos hechos
esenciales. La gran cantidad de datos de interpretados y la calidad de estos datos provenientes de una buena
toma de muestras.
Los mtodos de muestreo y analticos a veces deben sacrificar la calidad de trama de muestras y de los anlisis,
por la velocidad o el tiempo de la campaa, debido a la naturaleza de la prospeccin geoqumica (rapidez y bajo
costo) y por lo tanto, primera consecuencia de este hecho, es que un resultado aislado (valor anmalo) tiene
poco significado en la geoqumica, salvo que este acompaada de una firma geoqumica de elementos trazas que
se presentan como anomalas negativas.

La primera fase de la interpretacin geoqumica es disponer de una gran cantidad de datos numricos y extraer
de ellos la informacin esencial, la forma ms efectiva y real de hacer esto, es utilizando la geoestadstica, para
lo cual, esta cantidad de datos deben ser homogneos (del mismo tipo de muestra, el mismo tamiz, la misma
poblacin geolgica, etc.). La mejor forma de limitar la inconveniencia de la heterogeneidad de las muestras.

Cuando se dispone de gran cantidad de datos geoqumicos, se debe efectuar ajustes de los datos a una
distribucin lognormal (datos logartmicos ajustados a una curva Gaussiana), el primer paso es encontrar qu
clase de distribucin logartmica o aritmtica se acopla mejor a las observaciones. De esta manera el patrn de
distribucin lognormal parece ser el ms aplicable en los resultados de muchas prospecciones geoqumicas. La
distribucin lognormal significa que los logaritmos de estos valores son distribuidos siguiendo una ley normal
(o ley de Gauss) bien conocida como la curva de campana.

2
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

Es interesante notar que la distribucin lognormal se ajusta muy bien en caso de los depsitos de baja ley como
el Cu-Mo, pero para depsitos de alta ley como los de hierro, la distribucin es sesgada negativamente debido a
la presencia de pocos valores altos.
Por lo general todas las poblaciones deben contar con una cantidad de muestras lo suficiente como para llevar a
cabo una estadstica descriptiva representativa, para lo cual es necesario tener poblaciones con ms de 40
muestras.

Los valores de las muestras por debajo del lmite de deteccin no deben ser tratados estadsticamente, deben ser
tambin separados, porque dan una alta desviacin estndar y por lo tanto afectan a los parmetros geoqumicos.
Una vez analizadas las poblaciones se separan los valores altos y bajos errticos con la finalidad de procesar una
data sin sesgos una distribucin gaussiana y as obtener parmetros estadsticos y geoqumicos representativos
por cada poblacin.

Una vez comprobada la normalidad de los elementos de cada poblacin, se aplican las tcnicas estadsticas
descriptivas para calcular los parmetros estadsticos.
Para las poblaciones de mayor de 40 muestras el threshold o umbral se estima utilizando el mtodo de: Media
Geomtrica + 2desviaciones estndar y para las poblaciones con pocos se utiliza mtodos no paramtricos,
contndose con el uso de percentil 95.
Se efecta la estadstica multivarial de los datos de poblaciones estadsticas para desarrollar e interpretar el
Anlisis de Componentes Principales (PCA) con el fin de conocer las diferentes asociaciones de elementos
qumicos que ocurren para cada poblacin, como tambin para definir a los elementos indicadores o pathfinder
caractersticos de cada ambiente geolgico geoqumico.

2. ORGANIZACIN Y REPRESENTACION DE DATOS

2.1 HISTOGRAMAS

La forma ms familiar para mostrar los datos geoqumicos es la grfica de barras o histograma, en el cual una
variable continua es dividida dentro de discretas categoras y el numero o proporciones de observaciones que
caen dentro de cada categora es representada por las reas de las barras correspondientes. Si la escala en la
grfica de barras representa un nmero de observaciones, la grfica es llamada histograma de frecuencia. Si el
nmero de observaciones de cada categora son divididas por el nmero total de observaciones, la escala
representa y la grfica de barras es un histograma de frecuencia relativa.
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

a) Rango y amplitud de clase

Se llama clase a cada uno de los grupos en que se divide el conjunto de datos. Para ello normalmente se empieza
en determinar los valores mximos y mnimos del grupo de datos, estos valores extremos definen el recorrido o
rango del conjunto de datos.

Rango=Valor maximoValor minimo

Luego se determinara el nmero de clases en que se dividir los datos digamos m el cual puede hacerse con
cierto grado de arbitrariedad, pues depende del problema e cuestin, algunos sostienen que debe comprender
entre 10 y 20, mientras otros indican
que el nmero de clases es entre 8 y 15.

Valor maximo Valorminimo


Amplitud de clase=
m

Regla general

i) Decidir el numero m de clases a considerar

ii) Determinar el recorrido o rango de los datos y la amplitud de clase iii) Determinar, la amplitud o longitud
de los intervalos de clase
iv) Determinar los lmites de clase, de manera que cada observacin se clasifique sin ambigedades en una sola
clase.
v) Se determina las marcas de clase.

vi) Finalmente se halla la frecuencia relativa y absoluta de cada clase.

b) Histograma de frecuencia relativa

La base para este estudio geoqumico-estadstico es la construccin del histograma de frecuencia relativa, que es
tambin conocida como distribucin o funcin densidad.
Una distribucin normal o (Gaussiana) tiene la forma grfica de una campana simtrica
y se define por la expresin:

( )

En el cual Y (con una escala lineal) es la altura de la curva en cualquier punto a lo largo de la escala x (tambin
lineal), es el promedio o media aritmtica y S es la deviacin estndar.
Sin embargo, en geoqumica para una poblacional natural, la distribucin geoqumica
de los elementos en rocas sedimentos, suelos, aguas y vegetacin ms frecuentemente se aproximan a una
distribucin lognormal (Fig. 16.1).
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

Si un plano de distribucin normal de una poblacin natural se hace usando la escala aritmtica (lineal) se
obtiene una curva asimtrica (sesgada positiva o negativa). La asimetra positiva es la ms comn en
geoqumica (Fig. 16.2).

c) Histograma de frecuencia acumulada

Para determinar la naturaleza normal o lognormal de la distribucin geoqumica de una poblacin de datos se
recurre el papel de probabilidad. Para el primer caso de distribucin normal, el papel tiene la ordenada a
escala lineal y para la segunda, a escala logartmica, la escala de probabilidad de la abscisa sirve para trazar las
frecuencias acumuladas.
En una distribucin normal, los puntos trazados en el papel de probabilidad a escala lineal se aproximan a una
lnea recta. La Fig. 16.4 muestra que una lnea recta acomoda muy bien los puntos trazados con la ordenada a
escala aritmtica: la poblacin, por lo tanto, puede considerarse normal.
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

En la Fig. 16.5 prueba la distribucin lognormal de Cu y Zn en (A) muestra la prueba de transformacin


logartmica y se pareca la forma de campana simtrica de las curvas de frecuencias resultantes. En (B) muestra
las trazas de los mismos datos sobre el papel de probabilidad con escala logartmica, las dos lneas rectas
acomodan muy bien los puntos trazados y las poblaciones pueden considerarse lognormales.

3. MEDIDAS DE FORMA DE LA DISTRIBUCION

En los trabajos de geoqumica surge con frecuencia la necesidad de calcular parmetros que muestren la
tendencia de la dispersin de los datos con respecto a su centro y que completen la descripcin de las
distribuciones de frecuencias. Estos parmetros se llaman asimetra o sesgo (que significa no tener simetra) y la
curtosis o apuntamiento.
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

3.1 ASIMETRA O SESGO

El concepto de asimetra de una distribucin indica la deformacin horizontal de ls distribuciones de


frecuencias (Fig.16.7).
Una distribucin es simtrica cuando sus curvas de frecuencias es simtrica respecto al eje vertical y en este
caso la media aritmtica, la mediana y moda, coinciden.
La asimetra positiva o a la derecha, si tiene una ramificacin ms extendida hacia la derecha o hacia los valores
grandes de la variable, en este caso la media aritmtica es mayor que la moda, la mediana quedara comprendida
entre ambas.
La asimetra negativa o a la izquierda, si tiene una ramificacin ms extendida hacia la izquierda o hacia los
valores pequeos de la variable, en este caso la media aritmtica es menor que la moda, la mediana permanecer
en el centro de ambas.

Interpretacin

Si el coeficiente es negativo (As<0), la distribucin tiene asimetra negativa.

Si el coeficiente es cero (As=0), la distribucin es simetra.

Si el coeficiente es positivo (As>0), la distribucin tiene asimetra positiva.

3.2 DIAGRAMA DE CAJA Y VALORES ATIPICOS O BOXPLOT

El diagrama de caja es un representacin semigrfica de una distribucin construida para mostrar sus
caractersticas principales, como por ejemplo la forma y tambin mostrar los posibles datos atpicos, es decir,
aquellas observaciones que parecen ser distintas de las dems.
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

El diagrama de caja se construye como sigue:

1. Se ordena los datos de la muestra, identificando el valor mximo y valor mnimo y los tres cuartiles Q1, Q2,
Q3.
2. Se dibuja un rectngulo cuyos extremos son Q1 y Q3, e indicar la posicin de la mediana Q2 mediante un
segmento de recta horizontal. As dentro de la caja queda representado el 50% central de la informacin
contenida en los datos.
3. Se calculan los limites admisibles superior e inferior que sirven para identificar los valores atpicos, como
sigue:
LI = Q1 1.5 (Q3-Q1) = Q1 1.5RI LS = Q3 + 1.5 (Q3-Q1) = Q3 + 1.5RI
4. Dibujar un segmento de lnea recta que vaya desde cada extremo del rectngulo central hasta los lmites
admisibles LI y LS.
5. Identificar todos los datos que estn fuera del intervalo (LI; LS), marcndolos como atpicos.
Con este diagrama se puede visualizar la simetra o asimetra de la distribucin, asi mirando la mediana en la
caja (Fig. 16.8).
a) Si la lnea trazada en la mediana est en el centro de la caja, la distribucin de los daos tienden a ser
simtrico.
b) Si la lnea de la mediana se acerca al lmite inferior de la caja, hay indicacin de simetra positiva o la
derecha, debido a la influencia de los a valores altos.
c) Si l lnea de la mediana esta cerca del lmite superior de la caja, es una indicacin de asimetra negativa o a
la izquierda, debido a la influencia de valores bajos.
Mirando la longitud relativa de las lneas que une la caja con los valores mximos y mnimos, se puede usar
tambin como indicacin de asimetra:
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

a) Si la lnea que se extiende desde el lmite superior de la caja mximo valor de la variable es ms larga, los
datos presentan asimetra a derecha.
b) Si es mas larga la lnea que va desde el lmite inferior de la caja hasta el mnimo valor, hay ndice de asimetra
a la izquierda.

3.3 CURTOSIS

Se entiende por curtosis la medida de deformacin vertical de una distribucin de frecuencias, es decir, la medida
de apuntamiento o achatamiento de una distribucin.
El coeficiente de la curtosis en funcin de los cuantiles est dado por la frmula:

( )

Dnde:

K = coeficiente de curtosis percentilico

Q1 y Q3 = primer y tercer cuartil respectivamente

P90 y P10 = percentiles 90 y 10

Interpretacin:

Si K=0.263, la distribucin es mesocrtica (apuntamiento de la curva normal)

Si K<0.263, la distribucin es platicrtica (mas aplastada que la curva normal)

Si K>0.263, la distribucin es leptocrtica (mas aplastada que la curva normal)


UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

4. MEDIDAS DE TENDENCIA CENTRAL

En la geoestadstica tiene importancia medir la tendencia central de los grupos de datos, lo que se consigue con
los valores promedios, los cuales son la moda, mediana y media aritmtica.

4.1 MODA
Es el valor ms repetido o es valor que ocurre en las frecuencias ms grandes. Tambin s le llama medida de
posicin central porque tiende a hallarse en el centro de la distribucin en frecuencias. Se le representa con el
smbolo Mo.

a) Cuando los valores no estn agrupados:


2,2,3,3,4,5,4,4,4,,5,5,6,7. La moda es 4
b) Cuando los datos estn agrupados formando una distribucin de frecuencias, la moda se calcula por la
formula siguiente:
( )

Dnde:

Intervalo inferior: representa el valor inferior de la clase modal

1: Representa el exceso de frecuencia de la clase modal, con respecto a la clase contigua anterior a ella.

2: Representa el exceso de frecuencia de la clase modal, con respecto a la clase contigua posterior a ella.

C: Representa la amplitud de cada intervalo

4.2 MEDIANA

Es el punto que divide la distribucin de los datos en dos partes iguales. Por debajo de la mediana estar la
mitad del nmero de casos y por encima de ella estar la otra mitad. La mediana se le designa con el smbolo
Md.
a) Cuando los datos no estn agrupados

2,3,8,14,22,31,52,56

La mediana es el nmero que ocupa el centro de la distribucin, por tanto la mediana es el numero = 14
b) Cuando los datos estn clasificados formando distribucin de frecuencias se determina la mediana, haciendo
la divisin de n/2 y determinar en qu clase se encuentre una vez realizada ello se aplica la formula.
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

4.3 MEDIA ARITMETICA

Es la medida de concentracin ms usada y la ms conocida. En la prctica se omite la palabra aritmtica y solo


se dice la media. Se les designa con X.
Para calcular la media se distinguen dos casos.
1. Cuando los datos no estn agrupados, se suman los nmeros y se divide entre el nmero de ellos
=

2. Cuando los datos estn agrupados formando tablas de frecuencia se utiliza la frmula

= A+ ( )c

A= Es la marca de clase que se toma como origen, tambin llamada media supuesta. Al valor que toma A se le
suma o resta, segn sea el caso, el 2 trmino dela frmula.
n= Es la suma de las frecuencias

O = Es la suma de los productos que se obtiene multiplicando cada frecuencia (f) por su respectiva desviacin
unitaria (u)

Propiedades de la Media

1. La suma algebraica de las desviaciones de un conjunto de valores con respecto a su medida aritmtica es
cero.
2. La suma de los cuadrados de las desviaciones de un conjunto de nmeros con respecto a la media es
mnimo

Usos de la Media Aritmtica

1. La medida de la muestra se usa cuando se necesita una medida de tendencia central que no vare mucho
entre una y otra muestra extrada de la misma poblacin, sta es la razn para preferirla cuando se desea la
mxima confiabilidad en la estimacin de la media poblacional.
2. Tambin se usa la media cuando la distribucin de frecuencias de los datos es simtrica o se tiene poca
simetra, igualmente cuando se aproxima a la distribucin normal de probabilidades porque esta distribucin es
simtrica.
3. Se calcula la media cuando en un estudio tambin se debe calcular la varianza o la desviacin estndar, que
son medidas de variabilidad.

Desventajas

1. La media aritmtica puede verse afectada por valores extremos que no son representativo del resto de las
observaciones. Por ello, cuando se est utilizando esta medida en un anlisis, vale la pena advertir la
representatividad de los valores extremos y la influencia que estos tienen sobre el resultado.
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGIENERIA CIVIL, ARQUITECTURA Y GEOTECNIA
ESCUELA ACADEMICO PROFESIONAL DE INGIENERIA GEOLOGICA - GEOTECNIA

2. No se puede calcular la media aritmtica para un conjunto de datos que tienen intervalos abiertos en
sus extremos o en su defecto tienen intervalo de clases con frecuencia cero.

4.4 MEDIA GEOMTRICA


La media geomtrica simple se le designa con el smbolo g viene a ser la medida de
concentracin utilizando los logaritmos de los datos observados. En cuanto a la denominacin

media geomtrica proviene del hecho de que es el trmino central de una progresin geomtrica de un nmero
de observaciones, es decir, de una sucesin de nmeros positivos, tales que la relacin de cada una con el
precedente es una constante. Se distinguen dos casos:
1. Datos no agrupados, la media geomtrica de K observaciones positivas, est dada por
la raz ensima del producto de la n valores observados ( g) es decir:

g =

En la prctica, el clculo de la media geomtrica resulta ser la media aritmtica de los logaritmos de los X1.
Ahora basta calcular el antilogaritmo de la expresin anterior para
la media geomtrica:

g = anti log [
]

Hemos usado el logaritmo de base 10, es claro que puede usarse cualquier sistema de logaritmo.

2. Para datos agrupados en clases. La media geomtrica, es la raz ensima del producto de las marcas de clases
elevadas a sus respectivas frecuencias, es decir.

g =

Donde es la marca de clase, m es el nmero de clases, es la frecuencia de clases y n

nmero total de datos.

g = anti log [
]

La media geomtrica de trminos positivos es siempre menor o igual que la media aritmtica. Es igual a la
media aritmtica solo en el caso en que todos los trminos sean iguales entre s.
Desventajas de la media geomtrica.
1. Est limitado por valores positivos para que pueda ser interpretado.

2. Si algn valor de la variable es cero, la media geomtrica ser cero.

3. Si aparece algn valor negativo, el geoqumico toma un valor imaginario.

4.5 CUANTILES

Son estadgrafos que dividen a los datos en otras proporciones y no solo en mitades como lo hace la mediana o
la media. Estas medidas se llaman cuantiles o cuantilas. Los cuantiles ms usados en el anlisis estadstico son:
Cuartiles, Deciles y Percentiles. Los cuantiles se usan frecuentemente para describir el comportamiento de una
poblacin. Los valores se dan a menudo en porcentaje.

a) Cuartiles

Son medidas de posicin que dividen en cuatro partes iguales al conjunto de los valores ordenados de una
distribucin de frecuencias acumuladas. Estas medidas son: primer cuartil Q1, segundo cuartil Q2 y tercer
cuartil Q3.
Q1 = extremo. Inferior + ( )
El primer cuartil Q1, es el valor que supera a no ms de un cuarto de los valores observados y es superado por
no ms de tres cuartos de ellas. Es decir, es el valor que deja 25% de las observaciones menores o igual a l y el
75% superiores a l.
El segundo cuartil Q2 evidentemente el segundo cuartil coincide con la mediana, es decir Q2 = Md.
El tercer cuartil Q3, es el valor que supera a no ms de las tres cuartas partes de las observaciones y es superado
por no ms de un cuarto de ellos. Es decir deja el 75% de los datos o iguales a l y el 25% de estas superiores a
l.

b) Deciles

Son medidas de posicin que dividen en 10 partes iguales al conjunto de los valores ordenados de una
distribucin de frecuencias acumuladas. Estas medidas son: el primer decil D1, segundo decil D2 y as
sucesivamente hasta el noveno decil D9. La frmula para calcular deciles:
Dx = extremo.inferior + ( )c
Dx: es el decil buscado.

Extremo inferior: es el extremo inferior del intervalo donde se halla el decil buscado.
r: indica el decil (por ejemplo si queremos determinar el tercer decil, entonces r =3)

: indica la situacin del decil, es decir, la clase donde est el decil. c: intervalo de clase

c) Percentiles

Son medidas de posicin que indican el lugar que corresponde a un punto dentro de una escala ordenada de cien
elementos.
En el concepto de percentil debemos distinguir dos aspectos que son:

1) El rango percentil, que seala el orden o situacin de una escala ordenada de 100 elementos, colocados en
orden creciente de magnitud, el rango se denota con el smbolo r que es una variable de orden cuyos valores
son nmeros naturales que van desde 1 hasta 100

2) El percentil, que se representa con el smbolo P, es el puntaje o puntuacin alcanzado por un dato en
una escala ordenada de 100.
La frmula para calcular un percentil, por ser una medida de oposicin se relaciona con la frmula de la
mediana, los cuartiles y los deciles.
Pr = Ext.inf. + ( )c
Pr : indica el percentil buscado.

Ext.inf. : el extremo inferior del intervalo donde se halla el percentil.

r: es el rango percentil, es decir, la situacin dentro de la escala ordenada cien elementos.


n : nmero de elementos de la distribucin de frecuencias.
: el valor de ese trmino indica el intervalo o la clase de disribucin de frecuencias donde se halla el percentil
fi : frecuencia relativa
fi-1 : frecuencia acumulada

5- MEDIDAS DE DISPERSIN Y ASIMETRA

Hemos visto que los datos tienden a concentrarse o agruparse alrededor de los valores medios y a esta
caracterstica se ha denominado tendencia central. Ahora examinaremos el efecto contrario, considerando que
los datos tienden a extenderse alejndose de los calores medios, lo que se ha llamado dispersin o variacin de
los datos.
5.1 RANGO

Llamado extensin o recorrido de los datos se designa con la letra R: indica la extensin de los valores que
pueden tomar la variable cuyas medidas constituyen los datos. Se calcula por la formula.

R = Valor mximo Valor mnimo

Como se ve el clculo del rango slo intervienen los valores extremos de la distribucin de los datos y por lo
tanto no se toman en cuenta los posibles e interesantes variaciones al interior de la distribucin, por esa razn, el
rango se utiliza cuando se desea una rpida apreciacin de la extensin de los datos para ser utilizado en casos
especiales.

5.2 DESVIACIN ESTNDAR O TPICA

Es la ms confiable de las medidas de dispersin, tambin se le conoce como la desviacin tpica.


Es el parmetro ms crtico, necesario para establecer los valores background y las variaciones locales o
regionales (threshold) y las posibles y probables anomalas en una serie de valores de concentracin
geoqumica, la cual puede ser calculada por la ecuacin:
Para datos no agrupados:

( )

Para datos agrupados:

( )

Donde, S es la desviacin estndar; X es el valor de cada medida,


es la media o
promedio y n es el nmero de observaciones y fi es la frecuencia de la clase.

De acuerdo a la estadstica clsica en una distribucin normal:

68,27% de la poblacin tendra valores entre (x-s) y (x+s)

95.45% de la poblacin tendra valores entre (x-2s) y (x+2s)

99.73% de la poblacin tendra valores entre (x-3s) y (x+3s)

99.99% de la poblacin tendra valores entre (x-4s) y (x+4s)


Esto quiere decir que en una medida geoqumica de una poblacin de 1000 muestras,

682 muestras tendrn tericamente valores de concentracin geoqumica entre el promedio ms o menos una
desviacin estndar; puesto que en geoqumica estamos interesados en los valores positivos, 159 muestras
tendrn valores mayores que x+2s y una sola muestra tendr tericamente un valor mayor que x+3s.
En prospeccin geoqumica, es ms comn seleccionar como background el valor que corresponde a X (media)
y como lmite de las fluctuaciones localy regional (threshold) la cifra que corresponde x+2s (propuesta por
lepeltier) y los valores que exceden de este lmite pueden ser considerados como anomala geoqumica.
Las ventajas de la desviacin estndar o tpica son:

1. La desviacin estndar es sin duda, la medida de dispersin que posee una mayor estabilidad frente a las
fluctuaciones de la muestra tomada.
2. Se basa en todos los datos de la variable, tanto atendiendo a su magnitud como a su signo.
3. Su estudio es indispensable cuando se trata de interpretar datos en relacin con la distribucin normal.

5.3 VARIANZA

Se define como la media aritmtica del cuadrado de las desviaciones de los elementos con respecto a su media
aritmtica. Tambin se define como el cuadrado de la desviacin estndar. Entonces para calcular la varianza,
previamente se calcula la desviacin estndar y este valor se eleva al cuadrado para obtener la varianza.
Como la desviacin
estndar se representa con el smbolo S, la varianza se representa con el smbolo S2. La

frmula para datos no agrupados:


( )

Siendo n el nmero de elementos de la muestra, de all que resulta que hay que hacer una correccin apropiada
mediante la utilizacin en el denominador de n-1 en vez d n. La
( ( es grande para muestras
diferencia de s2 cuando se usa ) )
y

pequeas, y es mnimo para muestras grandes, prcticamente son iguales. Entonces, para muestras grandes n
60, puede usarse cualquiera de las frmulas. Para muestras pequeas se usa n-1, lo cual es llamada varianza
muestral o tambin varianza corregida.
La estadstica anteriormente mencionada estudia la distribucin de una sola variable, ahora abordaremos el
estudio de dos variables, de manera, qu sentido tiene que afirmar que dos variables estn relacionadas
linealmente entre s y cmo podemos medir esa relacin, conocidas como tcnicas de correlacin:

5.4 DIAGRAMA DE DISPERSIN

Una forma de ver su existe o no relacin lineal entre dos variables sera hacer una grfica de valores XY en un
sistema de coordenadas rectangulares, este tipo de grfica es conocida con el nombre de diagrama de dispersin,
grfico de dispersin o nube de puntos.

Fig. Distintos tipos de relacin entre dos variables y covarianza resultante


Cuando los puntos dan la sensacin de ascender en lnea recta de izquierda a derecha (pendiente positiva), esto
es caracterstico en datos en los que existe una relacin lineal positiva. Si ocurre que todos los puntos estn
incluidos en una sola lnea en forma exacta afirmamos que la relacin lineal positiva es perfecta o de covarianza
positiva.
Cuando los puntos descienden en lnea recta de derecha a izquierda (pendiente negativa) nos indica que hay una
relacin lineal entre las variables XY, por lo que se dice que hay una relacin lineal negativa o covarianza
negativa.
Cuando los puntos no caen en una lnea recta, estn dispersor formando una nube se dice que no hay relacin
lineal o su relacin es cero o covarianza prxima a cero.
Con la ayuda de las grficas nos podemos formar una idea si la nube de puntos o diagrama de dispersin,
representa una relacin lineal y si esta relacin lineal es positiva o negativa, pero con la sola observacin de la
grfica no podemos cuantificar la fuerza de la relacin, lo que si conseguiremos haciendo uso del coeficiente de
Pearson.

5.5 COEFICIENTE DE CORRELACIN

Es otro clculo que utiliza la prospeccin geoqumica para establecer la relacin entre un par de factores (o dos
grupos de valores). El coeficiente de correlacin o ndice de correlacin lineal de Pearson, entre dos variables x
e y se define por:
( )

Donde Sx y Sy son las desviaciones estndares de x e y respectivamente y cov es la covarianza. Se demuestra


que el coeficiente de correlacin cumple:
1. Si existe una relacin lineal exacta entre ambas variables y todos los puntos estn en la lnea y=a+bx (recta
de regresin), el coeficiente de correlacin es igual a 1 (si b>0)
-1 (si b<0)

2. Si no existe relacin lineal exacta: -1 < r < 1, el cual representa el grado de asociacin.

3. r = 0, cuando no hay ninguna correlacin lineal entre x e y

El coeficiente de correlacin de Pearson tambin est determinado por la ecuacin:


( ) ( )( )
[ ( ) ( ) ] ( ) ( )
En el cual:

r = una estimacin del coeficiente de correlacin n = nmero de muestras de x e y


= la suma de los valores de x multiplicado por la suma de los valores de y.
( )( ) = la suma de todos los valores de x multiplicado por la suma de los valores de y.
= la suma de cada valor de x al cuadrado
( ) = el cuadrado de la suma de todos los valores de x.
= la suma de cada valor de y al cuadrado.
( ) =el cuadrado de la suma de todos los valores de y.

El nmero resultante designado por r, la estimacin del coeficiente de correlacin puede tener un valor entre -1
y +1 pasando por cero, el nmero -1 corresponde a una correlacin negativa perfecta o relacin inversa (los
puntos del diagrama de dispersin deben encontrarse formando una lnea recta) perfectamente. El nmero +1
corresponde a una correlacin positiva perfecta o relacin directa (los puntos del diagrama de dispersin deben
encontrarse formando una lnea recta)
Un valor 0 implica una distribucin al azar sin ninguna relacin entre los factores que est siendo comparado.
Referente a la magnitud de r podemos decir que independientemente del signo, cuando el valor absoluto de r
est ms cerca de uno, mayor es la fuerza de correlacin, es as que -0,10 y + 0.10 son iguales en fuerza (ambos
son valores dbiles), los valores -0,95 y +0,95 tambin son iguales en fuerza (ambos son dos valores fuertes).

A. Anlisis factorial

El anlisis factorial es una tcnica que permite representar las variables en un espacio de menor dimensin,
denominado espacio vectorial, de tal forma que permita con comodidad, interpretar las relaciones entre ellas.
Dicho espacio debe permitir, de la misma manera, analizar las similitudes y discrepancias entre los
elementos de la muestra respecto a su comportamiento en el conjunto de las variables.
Adems, es posible determinar subconjuntos claramente diferenciados de variables en los que, por un lado,
dentro de cada subconjunto las variables estn relacionadas entre s y, por otro, las variables de los diferentes
subconjuntos no muestren relacin alguna, el conjunto de variables podr ser simplificado a un nuevo grupo de
variables, denominados factores, de tal manera que cada factor represente la informacin comn de las variables
pertenecientes a un mismo subconjunto.

B. Anlisis en componentes principales (ACP)

Es un anlisis que permite extraer del espacio vectorial, a partir de una matriz de n individuos por p variables
(n*p), un nuevo espacio p dimensional. Este tipo de anlisis se utiliza con frecuencia, en la reduccin de datos,
identificando un pequeo nmero de
factores que explique la mayora de la varianza observada en un nmero mayor de variables.
En estos ltimos tiempos es frecuente leer en los anlisis geoqumicos de rocas, suelos o sedimentos
interpretaciones genticas y de correlaciones utilizando esta herramienta.
El ACP es un anlisis factorial puesto que, intenta identificar variables subyacentes o factores, que expliquen la
configuracin de correlaciones dentro de un conjunto de variables observadas, la reduccin del nmero de
variables no se realiza por simple seleccin de unos con respecto a los otros, sino que las nuevas variables
sintticas se obtienen combinando los caracteres iniciales en trmino de factores. La particularidad de este
mtodo con respecto a los otros mtodos factoriales (cannico, discriminante) radica en el hecho de que trata
exclusivamente con caracteres numricos que juegan todos ellos el mismo rol, mientras que el anlisis cannico
y discriminante los caracteres son repartidos en grupos bien diferenciados.
El ACP es un mtodo lineal puesto que trata de combinaciones lineales entre las variables analizadas. Las
nociones de combinacin lineal, de distancias, de proyeccin nos conducen a razonar que los individuos y las
variables numricas son elementos de espacios vectoriales euclidianos a las dimensiones <p> y <n>
respectivamente. Las herramientas matemticas a utilizar sern entonces las mismas que la del lgebra lineal y
del clculo matricial.
En sntesis, el esquema del Anlisis en Componentes Principales (ACP), es un mtodo de reduccin de
variables, que permite la representacin geomtrica de individuos y variables, Tal reduccin es posible si las
<p> variables iniciales son dependientes y con coeficientes de correlacin no nulos.

BIBLIOGRAFIA

- INTRODUCCION A LA GEOQUIMICA GENERAL Y APLICADA; Hugo, Rivera


Mantilla, Segunda Edicin 2007.
- http://littlebullet2.tripod.com/Paginas/geoquimica.htm#_Toc81292332

You might also like