You are on page 1of 27

4.1 Distribucion de frecuencias.

La distribucin de frecuencias se conoce tambin como la forma de distribucin


de datos (de una variable).
La distribucin de frecuencias tiene por objeto la construccin de tablas
de frecuencias que podrn utilizarse para una mejor presentacin e
interpretacin de la informacin contenida en los datos observados en
una muestra.

Para poder obtener la forma general de una distribucin de frecuencias, es


necesario conocer algunos conceptos previos.
Consideremos una poblacin estadstica de individuos, descrita segn una
variable , cuyas modalidades han sido agrupadas en un nmero n de clases,
denotndolo como , para cada una de estas clases , =
, , , . . . vamos a definir:
La distribucin de frecuencia es una disposicin tabular de datos estadsticos,
ordenados ascendente o descendentemente, de acuerdo a la frecuencia de cada
dato. . Las frecuencias pueden ser
4.2.1 Frecuencia absoluta de clase (xi ).
Es el nmero de observaciones que existen en dicha clase. Dicho de otra
forma, es el nmero de veces que se repite dicho valor. Se denota
mediante .
Tener en cuenta que, la suma de todas las frecuencias absolutas es igual
al total de observaciones ().

4.2.2 Frecuencia absoluta acumulada de la clase( ).


Son aquellas que se obtienen de las sumas sucesivas de las frecuencias
absolutas( ) que integran cada una de las filas de una distribucin de
frecuencia, esto se logra cuando la acumulacin de las frecuencias se
realiza tomando en cuenta la primera fila hasta alcanzar la ltima. Esta
frecuencia se denota por ( ).

= + + + + =
=

Tener en cuenta que, la ltima frecuencia acumulada absoluta es igual al total


de observaciones.

4.2.3 Frecuencia relativa de la clase ( ).


Es el cociente entre las frecuencias absolutas de dicha clase y el nmero
total de observaciones o datos que se representa por , es decir aquella
que resulta de dividir cada una de las frecuencias absolutas entre el
nmero total de datos.se denota por ( ).

=

Cuando se quiere trabajar en porcentajes, slo tenemos que multiplicar la
frecuencia relativa por 100 y as representamos el porcentaje (%) de la
poblacin que comprende a esa clase.

Tener en cuenta que, la suma de todas las frecuencias relativas es igual a la


unidad.

4.2.4 Frecuencia relativa acumulada de la clase ( ).


Es aquella que resulta de dividir cada una de las frecuencias
acumuladas entre nmero total de datos () .
Se denota por .

=

Tener en cuenta que la ltima frecuencia relativa acumulada es la unidad.

4.2 DISTRIBUCIN DE FRECUENCIAS ABSOLUTAS EN TABLAS ESTADISTICAS

Es la representacin estructurada de toda la informacin que se ha recogido


sobre la variable que se estudia, es decir, es una tabla que presenta de manera
ordenada los distintos valores de una variable y sus correspondientes
frecuencias, En estas tablas, debern figurar los valores de la variable de
estudio, y sus frecuencias correspondientes Su forma ms comn es la
siguiente:

VARIABLE ( )

=

+ +
=


+ . . + + +
=

= =

4.3 INTERVALOS DE CLASE

Son los intervalos donde se encuentran los datos agrupados cuando se estudian variables
estadsticas continuas, se denotan por: [1 ; ).
El nmero de clases o intervalos y la longitud que se debe considerar, va a depender de
cada problema y de la utilizacin que se quiera dar a las tablas estadsticas. Lo normal es
que todos los intervalos sean de la misma amplitud ( , 1 ), aunque pueden existir
mltiples razones donde se aconsejen tomar intervalos de amplitud variable, como puede
ser el caso en el que existan uno o dos intervalos donde se concentren la mayora de los
datos.

Una vez construidos los intervalos de clase, se elige un representante en cada uno de ellos.
Este representante es el valor medio de cada intervalo de clase, y se llama marca de clase.
Luego la marca de clase para cada intervalo se calcula del siguiente modo:
1
=
2

4.4 Punto medio o Marca de clase( ).

Es la semisuma del lmite inferior y el lmite superior de una clase, se denota


de la siguiente manera:
+
=

4.5 Numero de intervalos se debe construir

El nmero de intervalos se determina por la ley de sturges () , con el


siguiente enunciado:
= 1 + 3.32 log

Culminando esta operacin se calcula el ancho o amplitud de cada clase ()
que est dado por:

=

Las tablas para la distribucin de datos continuos, quedan de la siguiente
manera:

Intervalo de Marca de Frecuencia Frecuencia Frecuencia Frecuencia


frecuencia. clases. absoluta. absoluta relativa. relativa
( ) ( ) ( ) acumulada. ( ) acumulada.
( ) ( )

Ejemplo :
Acontinuacion se muestra unatabla de distribucion de intervalos para datos
agrupados con variable continua, para un conjunto de muestras obtenidas en
una prospeccion de Au.
Intervalo Marca Frecuencia Frecuencia Frecuencia Frecuencia
de de absoluta absoluta relativa relativa
frecuencia clase acomulada acomulada
( ) ( ) ( ) ( ) ( )
0.07 - 1.49 0.78 50 50 0.71 0.71
1.49 2.91 2.20 7 57 0.10 0.81
2.91 4.33 3.62 8 65 0.11 0.93
4.33 5.75 5.04 1 66 0.01 0.94
5.75 7.17 6.46 2 68 0.03 0.97
7.17 -8.59 7.88 1 69 0.01 0.99
TOTAL 70

Nota: en los trabajos de investigacion los datos trabajados estadisticamente se


representan en en en graficos estadisticos (histogramas , poligonos , etc).
CLCULOS ESTADSTICOS
1. Nmero de casos:
Es el nmero de valores muestreados del fenmeno en estudio, representados
Por n y los datos por xi, i = 1,. . ., n, que llamamos distribucin.

2. El rango (R) o recorrido:

Es la diferencia entre el mximo valor t el mnimo valor de la variable. Entonces:

3. Nmero de intervalos de clase (m):

El nmero de intervalos de clase es arbitrario; sin embargo, es recomendable tener


presente los siguientes criterios:

Naturaleza de la variable, nmero de valores observados, recorrido de la variable, unidad


de medida de la variable, los objetivos del estudio que usa la informacin.

Se podra determinar el nmero de intervalos mediante la frmula propuesta por H. A.


Sturges:

= 1 + 3.322 log

4. Media Aritmtica:

La media aritmtica es el estadgrafo ms conocido y utilizado, razn por la que es


considerada la media por antonomasia.

La media aritmtica es relativamente estable en el muestreo, y es ms uniforme de


muestra a muestra, que cualquiera de los restantes estadgrafos de posicin. Esta
porpiedades de la media aritmtica es de gran importancia en el trabajo cientfico.

La media aritmtica se define y calcula dividiendo la suma de los valores de la variable


entre el nmero de observaciones o valores.

Clculo de la media:
La media aritmtica, tal como se define, se puede calcular a partir de:

a) Datos no Agrupados: La media que se obtiene a partir de n datos originales se


denomina MEDIA ARITMTICA SIMPLE.

=1
() = =

b) Datos agrupados en tablas de frecuencia: Los datos se pueden presentar o agrupar


en tablas sin intervalos y en tablas con intervalos, en ambos casos se usa la
MEDIA ARITMTICA PONDERADA:


=1
() = =

5. Mediana:

La mediana o valor mediano (M), es el valor de muestra central cuando estos se


encuentran dispuestos en orden creciente: 1 2 3 .La mediana se
calcula con la expresin:

+1/2 ;
= { ( + +2 ; }
2 2

La mediana es tambin llamada percentil 50, adems los datos no solo se dividen en dos
grupos, sino que se pueden dividir en cuatro partes, cuartiles, donde Q1 = percentil 25,
Q2 = Mediana y Q3 = percentil 75, si los datos se dividen en 10, tenemos los deciles. De
forma general estas medidas se pueden calcular por: [p(n+1)/100] sima observacin de
los datos ordenados ascendentemente, donde p es el percentil que se desea calcular.

6. Moda:

Es el valor que ocurre con mayor frecuencia.

7.- Varianza: Describe la variabilidad de la distribucin. Es la medida de la desviacin


o dispersin de la distribucin y se calcula por:

2
1
= ( )2
1
=1

n = nmero de datos contenidos en la muestra.


Xi = valor de cada variable en el conjunto de datos (muestra).
Xm = media o valor promedio del conjunto de datos.
La razn principal por la que se aboga por la divisin entre n-1 en la estimacin de la
varianza, es porque proporciona un mejor estimado; si dividimos por n-1 nos referimos a
la varianza muestral.
S2 como un estimador insesgado de la varianza poblacional 2 . Esto significa que si un
experimento fuera repetido muchas veces se podra esperar que el promedio de los valores
as obtenidos para S2 igualara a 2 . Por otra parte si dividimos entre n los valores
obtenidos para S2 seran como promedio demasiado pequeo, sin embargo cuando
tenemos muestras mayores a 100 datos, los resultados de la varianza muestral y
poblacional tienden a ser iguales.

7.- Desviacin estndar: Describe la tendencia o dispersin de la distribucin. Es la


medida de desviacin alrededor de la media.
Se calcula por:

= 2

8.- Coeficiente de asimetra: Describe la simetra de la distribucin relativa a la


distribucin normal.
Se calcula por:

1
3 = ( )3 / 3
1
=1

n = nmero de datos contenidos en la muestra


Xi = valor de cada variable en el conjunto de datos (muestra)
Xm = media o valor promedio del conjunto de datos.
S3 = momento de tercer orden.

En la distribucin normal la asimetra tiene valor cero, un valor negativo indica una cola
a la izquierda y un valor positivo indica una cola a la derecha.
9.- Curtosis: Describe el grado de esbeltez de la distribucin, tomado por lo general en
relacin a una distribucin normal, y se puede calcular por:

1
4 = ( )4 / 4
1
=1

n = nmero de datos contenidos en la muestra


Xi = valor de cada variable en el conjunto de datos (muestra)
Xm = media o valor promedio del conjunto de datos.
S4 = momento de cuarto orden.
La distribucin normal tiene curtosis igual a tres, y es llamada mesocrtica. A las
distribuciones ms agudas, con colas relativamente anchas, se les llama leptocrticas,
tienen valores de curtosis mayores que tres, y las distribuciones ms bien achatadas en el
centro se llaman platicrticas, tienen valores menores que tres, en ocasiones se
acostumbra a definir la curtosis como 4 - 3.
10.- Error estndar: Describe el grado de conocimiento de los datos y se puede calcular
por:

2
=

La distribucin normal tiene un valor de error estndar menor que 1.25 y la distribucin
lognormal o una distribucin con tendencia positiva, tiene valores de error estndar
mayores que 1.25.
11.- Coeficiente de variacin: Es una medida de la variacin relativa de los datos y puede
ser calculado por:

=

y en porcentaje como: 100 CV = 100 (S/Xm) %
CV = coeficiente de variacin
S = desviacin estndar
Xm = media
Proporciona una comparacin entre la variacin de grandes valores y la variacin de
pequeos valores. Las tcnicas de Geoestadstica Lineal que predomina en el campo de
las geociencias producen los mejores resultados cuando el coeficiente de variacin es
menor que uno, CV < 1. Para CV > 1 se recomiendan tcnicas de Geoestadstica no
Lineal.

GRAFICOS ESTADISTICOS
Diagrama de barras

Un diagrama de barras se utiliza para de presentar datos cualitativos o datos cuantitativos


de tipo discreto. Se representan sobre unos ejes de coordenadas, en el eje de abscisas se
colocan los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas o
relativas o acumuladas.

Mineral Ag Au Cu Pl Zn Fe
Ley del 15 5 10 3 5 1
mineral
(gr/Tn)

Ley del mineral (gr/Tn)


16

14

12

10

0
Ag Au Cu Pl Zn Fe

Los datos se representan mediante barras de una altura proporcional a la frecuencia.


Polgonos de frecuencia

Un polgono de frecuencias

polgono de frecuencia es el nombre que recibe una clase de grfico que se crea a partir
de un histograma de frecuencia. Estos histogramas emplean columnas verticales para
reflejar frecuencias): el polgono de frecuencia es realizado uniendo los puntos de mayor
altura de estas columnas.

Es decir, por tanto, podramos establecer que un polgono de frecuencia es aquel que se
forma a partir de la unin de los distintos puntos medios de las cimas de las columnas que
configuran lo que es un histograma de frecuencia. Este se caracteriza porque utiliza
siempre lo que son columnas de tipo vertical y porque nunca debe haber espacios entre
lo que son unas y otras.

Diagrama de sectores

Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa
frecuentemente para las variables cualitativas.

Los datos se representan en un crculo, de modo que el ngulo de


cada sector es proporcional a la frecuencia absoluta correspondiente.
360
= .

El diagrama circular se construye con la ayuda de un transportador de ngulos.

Mineral Ag Au Cu Pl Zn Fe
Ley del 15 5 10 3 5 1
mineral
(gr/Tn)
Ley del mineral (gr/Tn)
2%
13%

8% 38%

26%

13%

Ag Au Cu Pl Zn Fe

Diagrama de lneas
Los grficos de lneas muestran una serie como un conjunto de puntos conectados
mediante una sola lnea. Los grficos de lneas se usan para representar grandes
cantidades de datos que tienen lugar durante un perodo continuado de tiempo.

La ilustracin siguiente muestra un grfico de lneas que contiene tres series.

Histograma de frecuencias:

El histograma es un diagrama en forma de columna, muy parecido a los grficos de barras.


Se define como un conjunto de rectngulos paralelos, en el que la base representa la clase
de la distribucin y su altura la magnitud que alcanza la frecuencia de la clase
correspondiente. Son barras rectangulares levantadas sobre el eje de las abscisas del plano
cartesiano utilizando escalas adecuadas para los valores que asume la variable en la
distribucin de frecuencia.

El ancho de la base de los rectngulos es proporcional a cada clase de la distribucin, de


tal manera que, cuando la distribucin tiene clases de igual tamao, el tamao de todos
los rectngulos tendr bases iguales.
Los lados del rectngulo se levantan sobre los puntos del eje de las x que corresponden a
los lmites de cada clase y la longitud de los mismos ser igual a la frecuencia que tenga
esa clase, los lados por lo tanto corresponden a la frecuencia de cada clase de la
distribucin de frecuencia.

Cuando se elaboran grficas estadsticas en el plano cartesiano es recomendable que en


el eje de las ordenadas se representen las frecuencias y el eje de abscisas las variables
independientes.

Grficos de dispersin

Los grficos de dispersin se usan para trazar puntos de datos en un eje vertical y uno
horizontal, mediante lo que se trata de mostrar cunto afecta una variable a otra.

Cada fila de la tabla de datos la representa un indicador cuya posicin depende de sus
valores en las columnas que se establecen en los ejes X e Y. Se pueden usar varias escalas
en el eje Y cuando se desea comparar varios indicadores con rangos de valor
significativamente distintos.

La relacin entre dos variables se llama correlacin. Si los indicadores forman una lnea
casi recta en el grfico de dispersin, las dos variables tendrn una correlacin alta. Si los
indicadores se distribuyen de manera uniforme a lo largo del grfico de dispersin, la
correlacin es baja o nula. Sin embargo, aunque parezca que existe una correlacin entre
variables, esto no siempre es as. La causa de una aparente correlacin podra ser que dos
variables estn relacionadas con una tercera variable, lo que explicara la variacin, o pura
coincidencia.

DIAGRAMA DE CAJAS Y BIGOTES

Es una forma de representar grficamente un conjunto de estadsticos descriptivos. Esto


nos permitir detectar datos extraos (outliers) y asimetras ya que el grfico se divide en
cuatro reas de igual frecuencia.

Las caractersticas del grfico son:

Tamao no muy grande. (Si tengo muchos datos, este diagrama no es significativo. Se
utiliza cuando hacemos un histograma y no vemos muy clara su interpretacin).
Grfico basado en las medidas de posicin.
Intervienen 5 cantidades: Mediana (Q2), cuartiles (Q1 y Q3), mnimo (xmin) y mximo
(xmax).
Ofrece un resumen de la informacin ms relevante de la distribucin (SIN QUE LOS
DATOS APAREZCAN)
Da los valores de extremos y los outliers.
Sirve para comparar distribuciones de dos variables.

Valores indicativos principales:


Localizaciones
Agrupaciones significativas de valores
Zonas en las que predomina la dispersin
Relacin entre agrupaciones y dispersin
Referencia visual de la simetra central y de los extremos
Referencia visual de la curtosis (relacionando la longitud de la caja y patillas o bigotes)
Longitud de colas
Rango
Outliers, anomalas o valores alejados del grupo central de los datos

En la caja est el Q1 y el Q3, por tanto, en el rectngulo se encuentra el 50% de los datos.
La longitud de la caja es el rango intercuartlico IQR = Q3 Q1 (es decir, indica la
dispersin de los datos CENTRALES). (Si tengo 2 distribuciones, el que tenga IQR
mayor, es el que tiene los datos ms dispersos).

Mediana: mide la tendencia central, es decir, me indica donde est el centro de los datos.

Simetra Asimetra

1) Si la mediana est justamente en el centro, entonces la distribucin es simtrica.


2) Si la mediana no est en el centro, entonces la distribucin es sesgada (asimtrica).

2.1 Si la mediana est entonces la distribucin es asimtrica negativa. (izquierda)

2.2 Si la mediana es Entonces la distribucin es asimtrica positiva. (derecha)

Distribucin Normal:

La distribucin normal o gaussiana es el modelo ms importante y de mayor uso de todas


las
distribuciones continuas de probabilidad. Un gran nmero de estudios indican que la
distribucin normal proporciona una adecuada representacin de las distribuciones de una
gran cantidad de variables fsicas.

Se dice que una V.A. X se encuentra normalmente distribuida si su funcin de densidad


de probabilidad est dada por:
1 2
1 ( )
2
(; , ) = para < < < < >0
2

Modelo Log Normal:


Se dice que una variable aleatoria X sigue un Ley Log normal, si su logaritmo (neperiano,
base e) sigue una Ley Normal. Su funcin de densidad de probabilidad viene expresada
de la siguiente manera:
1 2
1 ( )
2
() = > 0 0 . 0
2

1
2
1 2 ( )
() =
2

ANLISIS ESTADSTICO BIDIMENSIONAL


ANLISIS DE VARIABLES CUALITATIVAS
TABLA DE CONTINGENCIA
La tabla de contingencia es una tabla de doble entrada, que se emplean para registrar
y analizar la asociacin entre dos o ms variables, habitualmente de naturaleza
cualitativa (nominales u ordinales)
VARIABLE B

B1 B2 MARGINAL

A1 11 12 1.
VARIABLE A2 21 22 2.
A
MARGINAL .1 .2 N

Donde:
= nmero de observaciones que tienen el atributo i y j
. = nmero de individuos que tienen el atributo i (marginal i)
.j = nmero de individuos que tienen el atributo j (marginal j)

Las tablas de contingencia tienen dos objetivos fundamentales:

Organizar la informacin contenida en un experimento cuando sta es de


carcter bidimensional, es decir, cuando est referida a dos factores (variables
cualitativas).

SEXO

HOMBRE MUJER MARGINAL

SI 65 58 123

FUMA NO 43 67 110

MARGINAL 108 125 233

En esta tabla se puede observar en primer lugar que de los 233 individuos de
los que se tiene informacin 108 son hombres y 125 son mujeres. Asimismo, se
sabe que 123 de ellos fuman y 110 no. La tabla de contingencia nos permite
tener informacin cruzada sobre ambas variables: de los 108 hombres, 65
fuman y 43 no, mientras que, en el caso de las mujeres, 58 fuman y 67 no.

A partir de la tabla de contingencia se puede adems analizar si existe alguna


relacin de dependencia o independencia entre los niveles de las variables
cualitativas objeto de estudio. El hecho de que dos variables sean
independiente significa que los valores de una de ellas no estn influidos por la
modalidad o nivel que adopte la otra.

INDEPENDENCIA DE VARIABLES CUALITATIVAS


Para identificar relaciones de dependencia entre variables cualitativas se utiliza un
contraste estadstico basado en el estadstico 2 (Chi-cuadrado), cuyo clculo nos
permitir afirmar con un nivel de confianza estadstico determinado si los niveles de
una variable cualitativa influyen en los niveles de la otra variable nominal analizada.

=1 =1( )2
2
=

. . 2
= , y que bajo la hiptesis nula sigue una distribucin (1)(1)

h y k: Nmero de filas y columnas, respectivamente, de la tabla
: Total de las frecuencias observadas de la isima fila (modalidad i del carcter A)
: Total de las frecuencias observadas de la jsima columna (modalidad j del
carcter B)
N: Nmero de individuos observados

El valor de 2 calculado se compara con el valor tabulado de una 2 para un nivel de


confianza determinado y (n-1) (k-1) grados de libertad. Si el valor calculado es mayor
que el valor de tablas de una (1)(1)
2
significar que las diferencias entre las
frecuencias observadas y las frecuencias tericas o esperadas son muy elevadas y por
tanto diremos con un determinado nivel de confianza que existe dependencia entre los
factores o atributos analizados.

2 > (1)(1)
2
Rechazar hiptesis nula (dependencia entre las variables)

2 < (1)(1)
2
Aceptar hiptesis nula (independencia entre las variables)

ANLISIS DE DOS VARIABLES CUANTITATIVOS


COEFICIENTE DE CORRELACIN LINEAL DE PEARSON
El coeficiente de correlacin de Pearson, pensado para variables cuantitativas (escala
mnima de intervalo), es un ndice que mide el grado de covariacin entre distintas
variables relacionadas linealmente. Advirtase que decimos "variables relacionadas
linealmente". Esto significa que puede haber variables fuertemente relacionadas, pero
no de forma lineal, en cuyo caso no se puede proceder a aplicarse la correlacin de
Pearson.

El coeficiente de correlacin de Pearson es un ndice de fcil ejecucin e, igualmente,


de fcil interpretacin. Digamos, en primera instancia, que sus valores absolutos oscilan
entre 0 y 1. Esto es, si tenemos dos variables X e Y, y definimos el coeficiente de
correlacin de Pearson entre estas dos variables como entonces:

0 1

Hemos especificado los trminos "valores absolutos" ya que en realidad si se contempla


el signo el coeficiente de correlacin de Pearson oscila entre 1 y +1. No obstante ha de
indicarse que la magnitud de la relacin viene especificada por el valor numrico
del coeficiente, reflejando el signo la direccin de tal valor. En este sentido, tan fuerte
es una relacin de +1 como de -1. En el primer caso la relacin es perfecta positiva y en
el segundo, perfecta negativa. Pasamos a continuacin a desarrollar algo ms estos
conceptos.

TIPOS DE CORRELACIN:

Correlacin perfecta positiva:


Decimos que la correlacin entre dos variables X e Y es perfecta positiva cuando
exactamente en la medida que aumenta una de ellas aumenta la otra. Esto sucede
cuando la relacin entre ambas variables es funcionalmente exacta, es frecuente en las
ciencias fsicas donde los fenmenos se ajustan a leyes conocidas, por ejemplo, la
relacin entre espacio y tiempo para un mvil que se desplaza a velocidad constante.
Grficamente la relacin es del tipo

Correlacin perfecta negativa:


Se dice que la relacin es perfecta negativa cuando exactamente en la medida que
aumenta una variable disminuye la otra. Igual que en el caso anterior esto sucede para
relaciones funcionales exactas, propio de las ciencias fsicas. Por ejemplo, la relacin
entre presin y volumen se ajusta a este caso. El grfico que muestra la relacin sera el
tipo:
Correlacin positiva:
En los fenmenos humanos, fuertemente cargados de componentes aleatorios, no suelen
ser posible establecer relaciones funcionales exactas. Dado un cierto valor en la variable
X no encontraremos uno y solo un nico valor en la variable Y. Por ejemplo, si
relacionamos horas de estudio con el rendimiento acadmico obtendremos mayor
rendimiento a mayor inteligencia, pero ser prcticamente imposible saber con exactitud
la puntuacin que obtendr un sujeto para unas horas determinadas. Dado un cierto
nmero de personas con un mismo nmero de horas, por ejemplo 10, no todos
obtendrn exactamente la misma puntuacin en rendimiento. Unos obtendrn ms o
menos en funcin de otras variables, tales como motivacin o personalidad. Si
relacionsemos ambas variables dada una muestra de sujetos tendramos un grfico de
las siguientes caractersticas:
Permeabilidad

Porosidad
Se observa que para un mismo valor en inteligencia existen diferentes posibles valores
en rendimiento. Se trata de una correlacin positiva pero no perfecta. Este conjunto de
puntos, denominado diagrama de dispersin o nube de puntos tiene inters como
primera toma de contacto para conocer la naturaleza de la relacin entre dos variables.
Si tal nube es alargada -apunta a una recta- y ascendente como es el caso que nos ocupa,
es susceptible de aplicarse el coeficiente lineal de Pearson. El grosor de la nube da una
cierta idea de la magnitud de la correlacin; cuanto ms estrecha menor ser el margen
de variacin en Y para los valores de X, y por tanto, ms acertado los pronsticos, lo
que implica una mayor correlacin.

Correlacin negativa:
Si la nube de puntos es alargada y descendente nos encontramos con una correlacin
negativa. Supongamos, en este sentido, que relacionsemos la cantidad de alcohol
ingerida y el grado de memorizacin ante determinados estmulos. Obtendramos un
grfico como el siguiente:
Resistencia a la compresin

Fracturamiento
Correlacin nula:
Si la nube de puntos adopta una configuracin ms o menos redondeada de tal forma
que no pueda especificarse ningn tipo de relacin, nos encontramos con una
correlacin nula. Supongamos que relacionsemos peso con inteligencia. Obtendramos
el siguiente grfico:

Se observa que las personas con poco peso obtienen en inteligencia tanto puntuaciones
bajas como medias o altas. Lo mismo sucede con personas de peso alto. No puede
establecerse, pues, ningn tipo de relacin. Ambas variables son independientes entre
s; la variacin de una de ellas no influye para nada en la variacin de la otra.

FRMULA UTILIZADA

El coeficiente de correlacin de Pearson viene definido por la siguiente expresin:


=

Donde:

=

Esto es, el coeficiente de correlacin de Pearson hace referencia a la media de los


productos cruzados de las puntuaciones estandarizadas de X y de Y. Esta frmula rene
algunas propiedades que la hacen preferible a otras. A operar con puntuaciones
estandarizadas es un ndice libre de escala de medida. Por otro lado, su valor oscila,
como ya se ha indicado, en trminos absolutos, entre 0 y 1.

Puntuaciones Directas:
Esta frmula es especialmente til cuando se conocen las medias de X e Y as como sus
desviaciones tipo, lo cual es relativamente frecuente.
La frmula anterior puede expresarse de forma ms sencilla de la siguiente manera:

Puntuaciones diferenciales o centradas:


=
2 2
Donde:
=
=

INTERPRETACIN DEL COEFICIENTE DE CORRELACIN

Como se ha indicado el coeficiente de correlacin de Pearson es un ndice cuyos


valores absolutos oscilan entre 0 y 1. Cuanto ms cerca de 1 mayor ser la correlacin, y
menor cuanto ms cerca de cero. Pero cmo interpretar un coeficiente determinado?
Qu significa un coeficiente de 0?6? Es alto o bajo? No puede darse una respuesta
precisa. Depende en gran parte de la naturaleza de la investigacin. Por ejemplo, una
correlacin de 0.6 sera baja si se trata de la fiabilidad de un cierto test, pero sin
embargo, sera alta si estamos hablando de su validez.
No obstante, intentaremos abordar el tema desde dos perspectivas distintas. Por un
lado, ya ha sido tratado desde la perspectiva de la significacin estadstica mencionada
en el apartado anterior. Desde este enfoque una correlacin es efectiva si puede
afirmarse que es distinta de cero. Pero ha de decirse que una correlacin significativa no
necesariamente ha de ser una correlacin fuerte; simplemente es una correlacin
diferente de cero. O, en otros trminos, es una correlacin que es poco probable que
proceda de una poblacin cuya correlacin es cero. Tan solo se est diciendo que se ha
obtenido "algo" y que ese "algo" es (probablemente) ms que "nada". La significacin
de rxy depende en gran medida del tamao de la muestra, tal como puede observarse en;
una correlacin de 0.01 puede ser significativa en una muestra suficientemente grande y
otra de 0.9 no serlo en una muestra pequea. Aqu se cumple la ley de los grandes
nmeros; tendencias dbiles son muy improbables, desde la Hiptesis nula, en grandes
masas de datos, mientras que tendencias fuertes pueden ser relativamente probables en
un tamao pequeo de muestra.

DATOS ATPICOS (OUTLIERS)

Los casos atpicos son observaciones con caractersticas diferentes de las dems. Este
tipo de casos no pueden ser caracterizados categricamente como benficos o
problemticos sino que deben ser contemplados en el contexto del anlisis y debe
evaluarse el tipo de informacin que pueden proporcionar. Su principal problema radica
en que son elementos que pueden no ser representativos de la poblacin pudiendo
distorsionar seriamente el comportamiento de los contrastes estadsticos. Por otra
parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las
caractersticas de un segmento vlido de la poblacin y, por consiguiente, una seal de
la falta de representatividad de la muestra.

Tipos de outliers
Los casos atpicos pueden clasificarse en 4 categoras.
La primera categora contiene aquellos casos atpicos que surgen de un error de
procedimiento, tales como la entrada de datos o un error de codificacin. Estos casos
atpicos deberan subsanarse en el filtrado de los datos, y si no se puede, deberan
eliminarse del anlisis o recodificarse como datos ausentes.
La segunda clase es la observacin que ocurre como consecuencia de un acontecimiento
extraordinario. En este caso, el outlier no representa ningn segmento vlido de la
poblacin y puede ser eliminado del anlisis.
La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las
variables observadas pero que son nicas en la combinacin de los valores de dichas
variables. Estas observaciones deberan ser retenidas en el anlisis pero estudiando qu
influencia ejercen en los procesos de estimacin de los modelos considerados.
La cuarta y ltima clase comprende las observaciones extraordinarias para las que el
investigador no tiene explicacin. En estos casos lo mejor que se puede hacer es replicar
el anlisis con y sin dichas observaciones con el fin de analizar su influencia sobre los
resultados. Si dichas observaciones son influyentes el analista debera reportarlo en sus
conclusiones y debera averiguar el por qu de dichas observaciones
Identificacin de outliers
Los casos atpicos pueden identificarse desde una perspectiva univariante o
multivariante.
La perspectiva univariante examina la distribucin de observaciones para cada variable,
seleccionando como casos atpicos aquellos casos cuyos valores caigan fuera de los
rangos de la distribucin. La cuestin principal consiste en el establecimiento de un
umbral para la designacin de caso atpico. Esto se puede hacer grficamente mediante
histogramas o diagramas de caja o bien numricamente, mediante el clculo de
puntuaciones tipificadas. Para muestras pequeas (de 80 o incluso menos
observaciones), las pautas sugeridas identifican como atpicos aquellos casos con
valores estndar de 2.5 o superiores. Cuando los tamaos muestrales son mayores, las
pautas sugieren que el valor umbral sea 3.

DATOS AUSENTES (MISSING)


Los datos ausentes son algo habitual en el Anlisis Multivariante; de hecho, rara es la
investigacin en la que no aparece este tipo de datos.
En estos casos la ocupacin primaria del investigador debe ser determinar las razones
que subyacen en el dato ausente buscando entender el proceso principal de esta
ausencia para seleccionar el curso de accin ms apropiado.
Para ello se debe determinar cul es el proceso de datos ausentes, entendido como
cualquier evento sistemtico externo al encuestado (errores en la introduccin de
datos) o accin por parte del encuestado (tales como rehusar a contestar) que da lugar
a la ausencia de datos. En particular, el investigador debe analizar si existe algn patrn
no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la
prdida de representatividad de la muestra analizada.

Tipos de valores ausentes


Se distinguen las dos situaciones siguientes:
Datos ausentes prescindibles: son resultado de procesos que se encuentran bajo el
control del investigador y pueden ser identificados explcitamente. En estos casos no se
necesitan soluciones especficas para la ausencia de datos dado que dicha ausencia es
inherente a la tcnica usada.
Ejemplos de estas situaciones son aquellas observaciones de una poblacin que no estn
incluidas en la muestra o los llamados datos censurados que son observaciones
incompletas como consecuencia del proceso de obtencin de datos seguido en el
anlisis.
Datos ausentes no prescindibles: son resultado de procesos que no se encuentran bajo
el control del investigador y/o no pueden ser identificados explcitamente.
Ejemplos de estas situaciones son los errores en la entrada de datos, la renuncia del
encuestado a responder a ciertas cuestiones o respuestas inaplicables.
En estos casos se debe analizar si existen o no patrones sistemticos en el proceso que
puedan sesgar los resultados obtenidos. Si los datos ausentes son no prescindibles
conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos. Segn
este grado el proceso de datos ausentes se puede clasificar del siguiente modo:

Datos ausentes completamente aleatorios (MCAR): este es el mayor grado de


aleatoriedad y se da cuando los datos ausentes son una muestra aleatoria simple de la
muestra sin un proceso subyacente que tiende a sesgar los datos observados. En este
caso se podra solucionar el problema sin tener cuenta el impacto de otras variables

Datos ausentes aleatorios (MAR): en este caso el patrn de los datos ausentes en una
variable Y no es aleatorio sino que depende de otras variables de la muestra X.
Ahora bien, para cada valor de X, los valores observados de Y s representan una muestra
aleatoria de Y.
As, por ejemplo, si X es el sexo del encuestado e Y es su renta, un proceso
MAR se tendra si existen ms valores ausentes de Y en hombres que en mujeres y, sin
embargo, los datos son aleatorios para ambos sexos en el sentido de que, tanto en los
hombres como en las mujeres, el patrn de ausentes es completamente aleatorio. Si,
adems, tampoco existen diferencias por sexos los datos ausentes seran MCAR.
Si los datos ausentes son MAR cualquier solucin al problema deber tener en cuenta
los valores de X dado que afectan al proceso generador de datos ausentes.

Datos ausentes no aleatorios: en este caso existen patrones sistemticos en el proceso


de datos ausentes y habra que evaluar la magnitud del problema calibrando, en
particular, el tamao de los sesgos introducidos por dichos patrones. Si stos son
grandes habra que atacar el problema directamente intentando averiguar cules son
dichos valores.
Localizacin de datos ausentes
El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del
problema. Para ello se comienza analizando el porcentaje de datos ausentes por
variables y por casos.
Si existen casos con un alto porcentaje de datos ausentes se deberan excluir del
problema. As mismo si existe una variable con un alto porcentaje de este tipo de casos
su exclusin depender de la importancia terica de la misma y la posibilidad de ser
reemplazada por variables con un contenido informativo similar.
Como regla general, sin embargo, si dicha variable es dependiente debera ser eliminada
ya que cualquier proceso de imputacin de valores puede distorsionar la significacin
estadstica y prctica de los modelos estimados para ella.

Diagnstico de la aleatoriedad en el proceso de datos ausentes


Existen 3 mtodos:
a) Para cada variable Y formar dos grupos (observaciones ausentes y presentes en Y) y
aplicar contrastes de comparacin de dos muestras para determinar si existen
diferencias significativas entre los dos grupos sobre otras variables de inters. Si se
encuentran diferencias significativas el proceso de datos ausentes no es aleatorio.
b) Utilizar correlaciones dicotomizadas para evaluar la correlacin de los datos ausentes
en cualquier par de valores. Estas correlaciones indicaran el grado de asociacin entre
los valores perdidos sobre cada par de variables. Bajas correlaciones implican
aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como
MCAR. En caso contrario son MAR.
c) Realizar contrastes conjuntos de aleatoriedad que determinen si los datos ausentes
pueden ser clasificados como MCAR. Estos contrastes analizan el patrn de datos
ausentes sobre todas las variables y las compara con el patrn esperado para un proceso
de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso
puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos
a) y b) anteriores para identificar los procesos especficos de datos ausentes que no son
aleatorios.

Aproximaciones al tratamiento de datos ausentes


Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador
debera aplicar slo el mtodo diseado especficamente para este proceso. Slo si el
investigador determina que el proceso de ausencia de datos puede clasificarse como
MCAR pueden utilizarse las siguientes aproximaciones:
a) Utilizar slo los casos completos: conveniente si el tamao muestral no se reduce
demasiado
b) Supresin de casos y/o variables con una alta proporcin de datos ausentes. Esta
supresin deber basarse en consideraciones tericas y empricas. En particular, si algn
caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto
que cualquier proceso de imputacin puede distorsionar los modelos estimados.
As mismo una variable independiente con muchos datos ausentes podr eliminarse si
existen otras variables muy similares con datos observados.
c) Imputar valores a los datos ausentes utilizando valores vlidos de otras variables y/o
casos de la muestra

Mtodos de imputacin
Los mtodos de imputacin pueden ser de tres tipos:
1) Mtodos de disponibilidad completa que utilizan toda la informacin disponible a
partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan
habitualmente para estimar medias, varianzas y correlaciones
2) Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes,
sobre la base de otra informacin existente en la muestra. As se podra sustituir
observaciones con datos ausentes por observaciones no maestrales o sustituir dichos
datos por la media de los valores observados o mediante regresin sobre otras variables
muy relacionadas con aquella a la que le faltan observaciones
3) Mtodos basados en modelos que construyen explcitamente el mecanismo por el
que se producen los datos ausentes y lo estiman por mxima verosimilitud. Entran en
esta categora el algoritmo EM o los procesos de aumento de datos.

You might also like