You are on page 1of 9

ANLISIS DE LOS DATOS

Desde un punto de vista lgico, analizar significa descomponer un todo en sus partes
constitutivas para su ms concienzudo examen.
Lo dicho tiene aplicacin directa en la metodologa de investigacin: si nuestro objeto es siempre
un conjunto coherente por ms que tambin pueda decirse que es parte de un todo mayor con
sus propias leyes y su propia estructura interior, los datos, en tal sentido, no son ms que sus
elementos integrantes, las partes aisladas que slo cobran sentido por la sntesis que pueda
integrarlos. El procesamiento implica ya un agrupamiento de los mismos en unidades
coherentes, pero estas unidades necesitarn de un estudio minucioso de sus significados y de
sus relaciones para que luego puedan ser sintetizadas en una globalidad mayor. Estas tareas
constituyen, por lo tanto, las ltimas y necesarias etapas del trabajo. Resultan fundamentales,
por cuanto sin ellas sera imposible encontrar un sentido a toda la labor previamente realizada.
El anlisis de los datos no es una tarea que se improvisa, como si recin se comenzara a pensar
en l luego de procesar todos los datos. Por el contrario, el anlisis surge ms del marco terico
trazado que de los datos concretos obtenidos y todo investigador que domine su tema y trabaje
con rigurosidad deber tener una idea precisa de cules sern los lineamientos principales del
anlisis que habr de efectuar antes de comenzar a recolectar datos. Se podr definir as, con
suficiente antelacin, qu datos sern capaces de rechazar o afirmar una hiptesis, qu
resultados indicarn una u otra conclusin. Esta actividad, llamada por algunos autores anlisis
anticipado es fundamental para evitar sorpresas lamentables, como por ejemplo la de encontrar
que no tenemos suficientes datos al final del procesamiento, o de que los que poseemos no nos
sirven en realidad para mucho.
En esta etapa se determina como analizar los datos y que herramientas de anlisis estadstico
son adecuadas para ste propsito. El tipo de anlisis de los datos depende al menos de los
siguientes factores.
a) El nivel de medicin de las variables.
b) El tipo de hiptesis formulada.
c) El diseo de investigacin utilizado indica el tipo de anlisis requerido para la
comprobacin de hiptesis.

En esta etapa del proceso de investigacin se procede a racionalizar los datos colectados a fin
de explicar e interpretar las posibles relaciones que expresan las variables estudiadas.

Las tablas diseadas para el anlisis de datos se incluyen en el reporte final y pueden ser tiles
para analizar una o ms variables. En virtud de ste ltimo criterio el anlisis de datos puede ser
univariado, bivariado o multiivariado dependiendo de la cantidad de variables que se analizan.




ANLISIS UNIVARIADO
Al realizar un anlisis univariado nos concentramos en cada variable de modo independiente.
Usualmente trabajamos con distribuciones de frecuencias, medidas de tendencia central y
medidas de dispersin.
Distribucin de frecuencias
La distribucin de frecuencias nos indica el nmero de casos que hay en cada categora de la
variable. A partir de dichos valores, en una tabla de frecuencias, se calcula el porcentaje
(respecto del total de observaciones), porcentaje vlido (excluido los valores perdidos) y el
porcentaje acumulado (porcentaje de la primera categora, luego ste ms el de la segunda
categora y as sucesivamente). Se aplica para variables nominales, ordinales y en cierto tipo de
variables intervalares (por ejemplo, en escalas Likert).
Adems de la tabla de frecuencias tambin es posible hacer representaciones grficas tales
como: grfico de barras, grfico circular o un polgono de frecuencias.
Medidas de tendencia central: media, mediana y moda
Las medidas de tendencia central dan cuenta del tipo de distribucin que tienen los valores de la
variable respecto de un valor tpico, o puntuacin central, a partir del cual se agrupan. Se
calculan para variables medidas a nivel nominal, ordinal y en algunas intervalares (por ejemplo,
en escalas Likert).
La media o promedio corresponde a la suma de todas las puntuaciones de la variable dividida
por el nmero total de casos.
La mediana es el valor que divide por la mitad a las puntuaciones de la variable: los que estn
por debajo de ste y los que estn por encima. Es decir, es el valor que divide en dos mitades a
las observaciones.
La moda es el valor que ms que ms se repite del conjunto de observaciones, pudiendo haber
ms de una moda (bimodal o multimodal).
Medidas de dispersin: desviacin estndar y varianza
Las medidas de dispersin indican el grado variabilidad de los datos respecto de la media
(promedio). Se debe tener presente que una propiedad de la media es que la suma de las
diferencias de todos los valores de la variable respecto de la media es siempre 0. Es por ello
que para el clculo de la varianza y la desviacin estndar la se procede a elevar la sumatoria de
las diferencias al cuadrado.
La varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se
utiliza mucho en pruebas de inferencia estadstica (de la muestra al universo), pero su unidad de
medida no es directamente interpretable (ya que est al cuadrado), razn por la cual se recurre a
la desviacin estndar.
La desviacin estndar o tpica es el promedio de desviacin de los valores de las
observaciones respecto de la media, expresada en los valores originales de la medicin de la
variable. Esto no es otra cosa que la raz cuadrada de la varianza. Cuanto ms se aleje el valor
respecto de la media, mayor ser la desviacin estndar. Se aplica a variables medidas a nivel
intervalo o de razn.

ANLISIS BIIVARIADO
El estudio de la relacin entre variables
En las ciencias a menudo se desea determinar la existencia o no de relacin entre dos variables,
para lo cual se realizan diferentes pruebas de significacin estadstica. La forma en que se
relacionan dos variables se denomina asociacin entre dos variables. El inters de este tipo de
anlisis se centra principalmente en la forma en que se distribuye la variable dependiente en
funcin de las diferentes categoras o valores de la variable independiente. Es decir, la variable
que atrae primordialmente la atencin del investigador, y cuya variacin trata de explicar, se
llama variable dependiente, porque se supone que los valores que toma dicha variable dependen
de los valores que presentan otras variables. Estas variables que se suponen influyen en los
valores que toma la variable dependiente son las variables independientes (explicativas o
causales), ya que permiten conocer por qu vara la variable dependiente de la forma que lo
hace en una determinada poblacin (usualmente una muestra).
Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos
variables son de naturaleza descriptiva y tales resultados no explican por qu ocurre dicha
relacin. Esto es, una correlacin entre dos variables no implica necesariamente una relacin
causal entre ellas puesto que en cualquier correlacin podra existir una tercera variable que
explique la asociacin entre las dos variables que han sido medidas (relacin espuria). A su vez,
se debe verificar que la variable independiente (causa) anteceda temporalmente a la variable
dependiente (efecto). Del mismo modo, se hace necesaria la existencia de una teora que nos
permita discriminar entre las simples relaciones estadsticas y las relaciones causales
propiamente dicha.
El estudio de la relacin entre dos variables se puede caracterizar mediante: i) la existencia o no
de asociacin; ii) la fuerza de dicha asociacin y iii) la direccin de sta. Ciertamente solamente
tiene sentido ii) y iii) si se verifica en i) la existencia de relacin entre las variables. Para ello se
utilizan un conjunto de pruebas de significacin estadstica, las cuales dependern del nivel de
medicin de las variables.
A la base de dicho anlisis se encuentra la teora y las hiptesis que se puedan desprender
de sta. En otras palabras, en el estudio de relaciones entre variables intentamos testear
empricamente hiptesis que nos resultan plausibles a la luz de un cierto marco terico-analtico.
Una hiptesis no es otra cosa que una respuesta tentativa a la pregunta de investigacin
(problema). Es una prediccin respecto del posible resultado que se espera encontrar. Y, en el
estudio de relaciones entre variables, sta guarda relacin con el hecho de determinar si las
variaciones en los valores de la variable independiente se encuentran o no asociados a las
variaciones en los valores de la variable dependiente. Puesto que una hiptesis requiere de
verificacin emprica, se hace necesario realizar una prueba de significacin estadstica para
determinar si la hiptesis planteada se verifica o no.
Las pruebas de significacin estadsticas
Para la determinacin de la existencia o no de asociacin entre la variable dependiente y las
variables independientes se utilizar el coeficiente estadstico Chi Cuadrado de Pearson. La
intensidad de la asociacin se determinar mediante el coeficiente V de Cramer. Para la
determinacin de a direccin de la asociacin, en tanto, se efectuar el coeficiente de correlacin
de Spearman.
La prueba de significacin estadstica basada en el coeficiente Chi Cuadrado de Pearson tiene
como fin examinar asociacin entre variables categricas (nominales u ordinales). Existe
asociacin entre variables cuando los valores de una de ellas dependen de los valores de otra.
Cuando dos variables estn relacionadas es posible predecir los valores de la variable
dependiente en funcin de los valores de las variables independientes. No existe relacin cuando
stas son independientes. Dos variables independientes no tienen nada en comn. El estadstico
Ji-cuadrado, sin embargo, no permite estudiar la intensidad de la relacin entre las variables.

La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados de
asociacin entre variables medidas a nivel nominal. El Coeficiente V de Cramer asume valores
entre 0 y 1, en donde, valores prximos a 0 indican una muy baja asociacin entre las variables y
valores prximos a 1 indicas una fuerte asociacin.

Finalmente, la prueba de significacin estadstica basada en el Coeficiente de Correlacin de
Spearman tiene por objeto determinar la direccin y la intensidad de la asociacin entre dos
variables medidas a nivel ordinal. Dicho coeficiente toma valores entre -1 y +1. Los valores
cercanos a -1 +1 indican fuerte asociacin entre las variables mientras que los valores
cercanos a 0 indican una muy baja asociacin. Si el valor es positivo, la variables varan en la
misma direccin, en tanto, si es negativo lo hacen en direcciones opuestas (a medida que
aumenta una disminuye la otra). Se debe tener presente que Spearman est pensado para
detectar relaciones de tipo lineal, pero no todas las relaciones son lineales (por ejemplo, las
curvilneas).

No obstante, bien vale la pena recordar al respecto dos cosas. En primer lugar, en la
investigacin en ciencias rara vez nos encontramos con variables altamente asociadas. Y, en
segundo lugar, la interpretacin de la magnitud de dicha asociacin va a depender del tipo de
estudio y si se enmarca en las ciencias o en las llamadas ciencias duras. En particular, qu
niveles de asociacin sern considerados como bajos, medios o altos sern determinados por el
investigador en funcin de la prctica disciplinaria aplicada al estudio de la temtica que se
investiga. No obstante lo anterior existen ciertas convenciones ms o menos generalizadas. En
virtud de tales consideraciones se entender en el marco del presente curso, una vez verificada
una relacin estadsticamente significativa entre las variables, como: i) una asociacin baja, a los
valores inferiores a 0.2; ii) como media, a los valores iguales o mayores que 0.2 y menores que
0.3; y iii) como alta, a los valores superiores o iguales a 0.3.

Para las pruebas estadsticas en cuestin, si el p-valor asociado al estadstico de contraste es
menor que el nivel de significacin 0.05, se rechazar la hiptesis nula H0 a un nivel de
confianza del 95%, y se aceptar la hiptesis alternativa H1 (asociacin entre la variable
dependiente y la independiente). El nivel de significacin constituye el valor crtico a partir del
cual estamos dispuestos a aceptar o rechazar una hiptesis dentro de ciertos mrgenes
razonables de error, siendo el mximo estndar en ciencias sociales de un 5% (95% de
confianza). Entre menor sea el nivel de significacin, mayor es el nivel de confianza y, por
consiguiente, menor ser la probabilidad de cometer un error en la prueba de hiptesis. Los
errores que se pueden cometer son de dos: (i) el error tipo I (alfa), el cual se produce
cuando se acepta la hiptesis alternativa siendo sta falsa; y (ii) el error tipo II (beta), el cual
se genera cuando se rechaza la hiptesis alternativa siendo sta verdadera.

ANLISIS MULTIVARIADO
Aspectos conceptuales
Dado la complejidad de la realidad, esto es, su multidimensionalidad (que se expresa tanto en
las mltiples dimisiones que suele involucrar un concepto como en la multiplicidad de variables
que inciden en la manifestacin de un fenmeno determinado), muchos de los fenmenos
sociales no son susceptibles de ser apropiadamente caracterizados a partir del estudio de la
relacin entre dos variables (dependiente e independiente). La simple determinacin de la
existencia o no de relacin entre dos variables no es suficiente para determinar si dicha relacin
es verdadera o espuria (falsa). En ese momento no podemos estar seguros acerca de los
resultados encontrados ya que eventualmente stos podran deberse a una tercera variable, que
hasta ese momento no ha sido considerada en el anlisis. Y si ese fuera el caso, la relacin
original sera explicada no por la variable independiente, sino por esta tercera variable. Dicha
variable es nombrada en tal caso como interviniente y pondra en evidencia la falsedad de la
relacin original. Eventualmente tambin, la relacin original podra verse modificada nicamente
en algunas de las categoras de la tercera variable. En tal caso hablamos de una relacin
condicionada.
En trminos generales, al momento de elaborar una relacin entre dos variables (particularmente
del tipo causa-efecto) se suele introducir una tercera variable, la cual se denomina variable
control. Lo que se intenta es determinar si sta posee un determinado efecto sobre la relacin
entre la variable dependiente y la independiente que pudiera modificar parcial (condicionada) o
totalmente la relacin original (interviniente). Por ende, cuando se descubre una relacin entre
dos variables, lo que est en juego es lograr determinar si se trata de una relacin verdadera o
espuria. Puesto que las variables en ciencias sociales se encuentran con frecuencia asociadas
unas con otras, resulta necesario asegurarse de que exista una asociacin verdadera entre las
dos variables originales. Cuando esto no ocurre hablamos de una relacin espuria, o sea, que la
relacin aparente entre dos variables se debe a la asociacin de ambas variables con una
tercera variable ajena a la relacin original.
Por consiguiente, la adecuada determinacin de la relacin bivariable original se logra mediante
la inclusin de variables control que eventualmente pudieran invalidar dicha relacin, lo cual es
clave para no arribar a conclusiones errneas sobre las relaciones entre variables sin haber
dilucidado antes si se trataba o no de relaciones espurias. En definitiva, de lo que se trata es de
comprobar si la relacin inicial que aparece entre dos variables es real o aparente, mediante la
introduccin de una variable de control. A su vez, interesa comprobar si la ausencia de relacin
entre dos variables es tambin real o se debe, por el contrario, a la existencia de una tercera
variable que suprime la relacin entre las dos variables originales.
Ms concretamente, hay al menos tres situaciones tpicas en la investigacin en donde las
variables de control son necesarias:
La primera de ellas se presenta cuando una tcnica estadstica (por ejemplo, Chi
Cuadrado de Pearson) muestra que dos variables estn relacionadas, y se duda si entre
ambas existe una relacin, no slo estadstica, sino de dependencia (o causal). Es decir,
se intenta dilucidar si tal relacin es real o espuria.
La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre
las variables. As por ejemplo, se puede intentar averiguar por qu resulta tan pequea
(o tan alta) la intensidad de la relacin entre dos variables cuando todo hace pensar que
su relacin debera ser mucho mayor (o menor).
Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relacin que
se establece entre dos variables originales funciona en todas las circunstancias o, por el
contrario, se manifiesta nicamente bajo determinadas condiciones (categoras de la
variable control).

El razonamiento estadstico de la tcnica del control por una tercera variable es muy sencillo. En
Primer lugar calculamos la relacin entre la variable dependiente y la independiente y, a
continuacin, se repite el procedimiento para cada una de las categoras de la(s) variable(s)
control.
Ahora bien, en trminos estadsticos, el que la relacin entre dos variables sea independiente de
la influencia de terceras variables significa que cualquiera que sea la tercera variable que se
introduzca como control, la relacin entre las variables iniciales se mantendr en cada una de las
categoras de la(s) variable(s) control. Para el caso contrario, cabe distinguir al menos dos
situaciones: i) cuando existe dependencia de terceras variables y la relacin desaparece por
completo en todas las categoras (relacin espuria) y ii) cuando existe dependencia de terceras
variables y la relacin desaparece parcialmente en alguna de las categoras (relacin de tipo
condicional o tambin denominada de interaccin).






INFORME DEL ANLISIS DE LOS DATOS
Al momento de escribir el informe de anlisis de datos usted debe tener en consideracin:
Para el caso de la prueba de significacin estadstica Chi-cuadrado de Pearson
Situacin 1: Asociacin.
En este caso usted debiera sealar que: existe asociacin estadsticamente significativa entre la
variable dependiente y la variable independiente. Ello ocurre cuando el estadstico de
contraste es menor a 0.05.
Situacin 2: No asociacin.
De modo anlogo al caso anterior usted debiera indicar que: no existe asociacin
estadsticamente significativa entre la variable dependiente y la variable independiente.
Ello ocurre cuando el estadstico de contraste es mayor a 0.05.
Se debe prestar especial atencin al porcentaje de celdas con frecuencia esperada inferior a 5.
Que no supere el 25% de las celdas. Si ese fuera el caso se recomienda recodificar, ya que de lo
contrario se corre el riesgo de llegar a una conclusin errnea.
Para el caso del Coeficiente V de Cramer y Spearman
Slo consideraremos el Coeficiente V de Cramer como parte del anlisis cuando Chi-cuadrado
de Pearson sea estadsticamente significativo. Es decir, cuando exista asociacin entre la
variable dependiente y la variable independiente. Usualmente, por lo dems, cuando Chi-
cuadrado de
Pearson es significativo, lo es tambin V de Cramer.
Situacin 1:
dependiente y la variable independiente.
Situacin 2:
variable dependiente y la variable independiente.
Situacin 3:
dependiente y la variable independiente.
Para el caso del Coeficiente de Correlacin de Spearman
La intensidad de la relacin se interpreta tal como el coeficiente de V de Cramer. Luego debe
indicarse la direccin de la relacin: si es directa o inversamente proporcional.
Para el caso de la introduccin de variables control
Al realizar un cruce entre la variable dependiente (Y) y la variable independiente (Y) incluyendo
una variable de control (C), se debe realizar un anlisis de los datos de modo similar a cuando
trabajamos con dos variables. As, nos encontraremos con las siguientes situaciones:

Situacin 1: Dependencia/Independencia
La variable Y depende de la variable X, independientemente de la variable C. Tal situacin
ocurre cuando el estadstico de contraste es menor a 0.05 en cada una de las categoras de la
variable de control.
La variable Y no depende de la variable X, independientemente de la variable C. Dicha
situacin ocurre cuando el estadstico de contraste es mayor a 0.05 en cada una de las
categoras de la variable de control.
Situacin 2: Relacin condicionada.
La variable Y depende de la variable X, salvo en el caso de las categoras de variable C (en
donde se da una asociacin no significativa).
La variable Y no depende de la variable X, salvo en el caso de las categoras de la variable
C (en donde se da una asociacin significativa).
Situacin 3: Relacin espuria
La variable Y no depende de la variable X sino de la variable C (no existe asociacin
significativa en cada una de las categoras de la variable control).













BIBLIOGRAFIA:
vila Baray, H.L. Introduccin a la metodologa de la investigacin (2006) Edicin
electrnica. Disponible en: www.eumed.net/libros/2006c/203/
Field, Andy Discovering Statistics Using SPSS for Windows. Third Edition (Sage,
London). (2009).
Garca Ferrando, Manuel Socioestadstica (Alianza Editorial, Madrid). (1997).
Snchez Carrin, Juan J. Manual de Anlisis de Datos (Alianza Editorial, Madrid).
(1995).
Ritzer, Ferris J. Estadstica para las Ciencias Sociales (McGraw-Hill, Mxico). (2003).
Hernndez M. Edelsys. Metodologa De La Investigacin: Cmo escribir una tesis.
Escuela Nacional de Salud Pblica. 2006.
Lozano z. Glenn. Instituto de investigacin docencia y asesora en salud (inidasa): curso
taller lima Per. 2010.
Ramirez G. Alberto. Metodologia de la Investigacion Cientifica. Pontificia Universidad
Javeriana. Bogota Colombia. 2007.

You might also like