You are on page 1of 14

ANLISIS DE DATOS

CUANTITATIVOS

Anteriormente ya han visto la forma de analizar datos descriptivos,


correspondientes a la estadstica descriptiva, para lo que se recomend trabajar en
MINITAB o EXCEL, si es que Ud. no se ha introducido en el SPSS, entre otros software
de anlisis estadsticos.

En esta seccin veremos algunos de los ms corrientes aspectos del anlisis de


datos cuantitativos correspondientes a la estadstica inferencial, como son los
anlisis paramtricos y no paramtricos.

ANALISIS PARAMETRICO Y NO PARAMTRICO

Un parmetro[1] es un dato que es tomado como necesario para analizar o


valorar una situacin. A partir del parmetro, una determinada
circunstancia puede entenderse o situarse en perspectiva. Por ejemplo: Si
nos basamos en los parmetros habituales, resultar imposible comprender esta
situacin, El paciente est evolucionando de acuerdo a los parmetros
esperados, Estamos investigando pero no hay parmetros que nos permitan
establecer una relacin con el caso anterior, La actuacin del equipo en el torneo
local es el mejor parmetro para realizar un pronstico sobre su participacin en el
campeonato mundial.

Para las matemticas, un parmetro es una variable que permite identificar, en


una familia de elementos, a cada uno de ellos mediante su valor numrico.

Un parmetro estadstico es una funcin definida sobre los valores numricos de


una poblacin. Se trata, por lo tanto de un valor representativo que permite
modelizar la realidad.

La utilidad de los parmetros estadsticos se encuentra ante la dificultad para


manejar una gran cantidad de datos individuales de una misma poblacin. Este tipo
de parmetros permite obtener un panorama general de la poblacin y realizar
comparaciones y predicciones.

En las ciencias de la computacin, un parmetro es una variable que puede ser


recibida por una rutina o una subrutina (que utilizan los valores asignados a un
parmetro para modificar su comportamiento en el tiempo de ejecucin).

La parametrizacin de una base de datos, por otra parte, es la organizacin y


estandarizacin de la informacin que se ingresa en un sistema. De esta forma, es
posible realizar distintos tipos de consulta y obtener resultados fiables.

A continuacin se muestra una tabla en que se clasifican las variables como


paramtricas y no paramtricas:

Ejemplos de variables
Variable dimensin cdigo Observaciones.
Genero hombre 1 Variable nominal. El cdigo esta
mujer expresado en nmero que no se puede
2 sumar; son excluyentes
Comuna Norte 1 Variable nominal. Se ubica la comuna
sur 2 del lugar de residencia y se asigna el
cdigo teniendo como base de
Poniente 3 clasificacin los puntos cardinales para
Oriente 4 la comuna de Santiago y empleados por
el Sistema Nacional de Servicios de
Sur Oriente
5 Salud y de Educacin.
Los cdigos no se suman;
edad aos Variable paramtrica u ordinal; el
nmero significa aos de edad; se
puede sumar.
Notas Nmero de 1 a 7 Variable ordinal. Los cdigos se pueden
sumar y cada valor tiene un significado
Colegio Municipal 1 Variable nominal o no paramtricas
Particular
2
subvencionado
Particular 3
otro 4

Los mtodos de estadstica inferencial presentados a travs del curso, son llamados
mtodos paramtricos porque ellos son basados en muestreo de una poblacin con
parmetros especficos, como la media (), la desviacin estndar () o la
proporcin (p). Estos mtodos paramtricos usualmente tienen que ajustarse a
algunas condiciones completamente estrictas, as como el requisito de que los
datos de la muestra provengan de una poblacin normalmente distribuidas.[2]

Las pruebas paramtricas requieren supuestos acerca de la naturaleza o


forma de las poblaciones involucradas. Las pruebas no paramtricas no
requieren estos supuestos. Consecuentemente, las pruebas no
paramtricas de hiptesis son frecuentemente llamadas pruebas de libre
distribucin.

PRUEBAS PARAMTRICAS
Se llaman as porque su clculo implica una estimacin de los parmetros de la
poblacin con base en muestras estadsticas. Mientras ms grande sea la muestra
ms exacta ser la estimacin, mientras ms pequea, ms distorsionada ser la
media de las muestras por los valores raros extremos.

San valores numricos dados.

Los anlisis paramtricos partes de los siguientes supuestos:

1. La distribucin poblacional de la variable dependiente es normal: el universo tiene


distribucin normal.

2. El nivel de medicin de las variables es por intervalos de razn.


3. Cuando dos o ms poblaciones son estudiadas, tienen una varianza homognea:
las poblaciones en cuestin poseen una dispersin similar en sus distribuciones.

Como estos criterios son muy rigurosos, algunos investigadores slo basan sus
anlisis en el tipo de Hi y los niveles de medicin de las variables.

Las pruebas paramtricas ms utilizadas son (HFB2):

Coeficiente de correlacin de Pearson y regresin lineal.

Prueba t.

Prueba de contraste de las diferencias de proporciones.

Anlisis de varianza unidireccional (ANOVA en un solo sentido o oneway)

Anlisis de Varianza factorial (ANOVA)

Anlisis de covarianza (ANCOVA)

Descripcin. (Otra lista de pruebas paramtricas):[3]


Prueba del valor Z de la distribucin normal
Prueba T de Student para datos relacionados (muestras dependientes)
Prueba T de Student para datos no relacionados (muestras independientes)
Prueba T de Student-Welch para dos muestras independientes con varianzas
no homogneas
Prueba de ji cuadrada de Bartlett para demostrar la homogeneidad de
varianzas
Prueba F (anlisis de varianza o ANOVA)

El coeficiente de Correlacin de Pearson (r)


Es una prueba estadstica para analizar la relacin entre dos variables medidas
en un nivel por intervalos o de razn.

Prueba Hi del tipo de A mayor X, mayor Y; A mayor X, menor Y; etc.

La prueba en si no considera a una como independiente y la otra como


dependiente, porque no evala la causalidad, solo la relacin mutua
(correlacin).

El coeficiente[4] se calcula a partir de las puntuaciones obtenidas en una muestra


de dos variables. Se relacionan las puntuaciones obtenidas de una variable con las
puntuaciones obtenidas de otra variable, en los mismos sujetos.

Mide niveles de variables de intervalo o de razn.

Puede variar de -1,00 a +1,00

(HFB2: 377)

Ejemplo de la (co)relacin entre la variable estatura y peso de alumnos de Ing.


Comercial en clases el 12.2011. (Calculo obtenido con Excel).
ESTATUR
A PESO
1,72 98
1,64 65
1,84 98
1,66 65
1,63 70
1,70 105
1,82 110

r= 0,79

Correlacin positiva considerable

Regresin lineal
Es modelo matemtico para estimar el efecto de una variable sobre otra. Est
asociado con el coeficiente r de Perason.

Sirve para resolver Hi correlacionales y causales.

Mide variables de Intervalos y de razn.

La regresin lineal se determina con base al diagrama de dispersin. Este consiste


en una grfica donde se relacionan las puntuaciones de una muestra en dos
variables, como la de estatura y peso del ejemplo anterior.
Grfica de dispersin simple

Grfica de dispersin con regresin lineal. Correlacin positiva muy fuerte,


tendencia ascendente con altas puntuaciones en X y altas puntuaciones en Y.
Obtenidas con MINITAB.

Prueba t (paramtrica)
En estadstica, una prueba t de Student[5], prueba t-Student, o Test-T es cualquier
prueba en la que el estadstico utilizado tiene una distribucin t de Student si la
hiptesis nula es cierta. Se aplica cuando la poblacin se asume ser normal pero el
tamao muestral es demasiado pequeo como para que el estadstico en el que
est basada la inferencia est normalmente distribuido, utilizndose una estimacin
de la desviacin tpica en lugar del valor real.

En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de


probabilidad que surge del problema de estimar la media de una poblacin
normalmente distribuida cuando el tamao de la muestra es pequeo.

Aparece de manera natural al realizar la prueba t de Student para la determinacin


de las diferencias entre dos medias muestrales y para la construccin del intervalo
de confianza para la diferencia entre las medias de dos poblaciones cuando se
desconoce la desviacin tpica de una poblacin y sta debe ser estimada a partir
de los datos de una muestra. (Wikipedia)

Es una prueba estadstica para evaluar si dos grupos difieren estadsticamente


entre s, de manera significativa respecto a sus medias (HFB384). Es una prueba
apropiada para comparar los promedios de dos grupos, y especialmente apropiado
como anlisis para el diseo experimental de solo postest de dos grupos al azar.

Mide variables de intervalo o de razn.

Distribucin ideal para valores de post test de grupos tratados (en experimento) y de comparacin.

Sirve para medir Hi de diferencia entre dos grupos. La Hi propone que los grupos
difieren significativamente entre s y la Hn propone que los grupos no difieren
significativamente.

La comparacin se realiza sobre una variable. Si hay diferentes variables, se


efectuarn varias pruebas t (una para cada variable). Aunque la razn que motiva
la creacin de los grupos puede ser una variable independiente. Por ejemplo: un
experimento con dos grupos, uno al cual se le aplica el estmulo experimental y el
otro grupo el de control.
Tres escenarios para diferencias de promedios

El valor t se obtiene de muestras grandes mediante la frmula:

Muy usado para medir performances, rendimientos, posibilidades de ganar para dos
o ms corredores de carreras de autos y otras situaciones en que hay que compara
rendimientos promedios. Tendencias por un candidato en dos comunas.

El ejemplo de HFB2 es Hi: Los varones le atribuyen mayor importancia al atractivo


fsico en sus relaciones heterosexuales que las mujeres. (385)

Hi: Los profesionales jvenes prefieren vivir en departamento en vez de casas.

Hi: Linux Vs. Microsoft?


Coeficiente rho de Spearman
Es un coeficiente para medir el grado de asociacin entre dos variables ordinales
cuyos valores indican rangos en cada una de ellas. Rho toma el valor +1 cuando
existe igualdad de rangos de los casos en las dos variables y -1 cuando tienen
rangos exactamente opuestos. Los valores intermedios pueden ser interpretados
segn sus magnitudes relativas. Su frmula de clculo es:

En la cual:

D = diferencia de rangos en las dos variables, o, diferencia entre los


correspondientes estadsticos de orden de x - y.

N = nmero de parejas.

Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos,


aunque si stos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente


aproximacin a la distribucin t de Student.

La interpretacin de coeficiente de Spearman es igual que la del coeficiente de


correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o
positivas respectivamente, 0 cero, significa no correlacin pero no independencia.
La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos
ordenaciones de una distribucin normal bivariante.

Ejercicio: A un grupo de 10 vendedores se les asigna rangos segn la cantidad de


ventas y el rango de tiempo en hacerlo. Se desea saber si existe asociacin entre
las dos variables.

Vendedo Rango de ventas Rango de tiempo D D2


r
1 1 1 0 0
2 2 3 -1 1
3 3 4 -1 1
4 4 5 -1 1
5 5 8 -3 9
6 6 4 2 4
7 7 9 -2 4
8 8 6 2 4
9 9 2 7 49
10 10 7 3 9

82

Colocados los valores en la frmula se tiene:

= 0.50

Respuesta al problema: existe asociacin positiva medianamente alta entre el


rango de ventas y tiempo empleado.

Ejercicio: diferencias de notas entre dos asignaturas, en un curso.

ANLISIS NO PARAMETRICOS.
Qu es un anlisis no paramtrico.

Se denominan pruebas no paramtricas aquellas que no presuponen una


distribucin de probabilidad para los datos, por ello se conocen tambin como de
distribucin libre (distribution free). En la mayor parte de ellas los resultados
estadsticos se derivan nicamente a partir de procedimientos de ordenacin y
recuento, por lo que su base lgica es de fcil comprensin. Cuando trabajamos con
muestras pequeas (n < 10) en las que se desconoce si es vlido suponer la
normalidad de los datos, conviene utilizar pruebas no paramtricas, al menos para
corroborar los resultados obtenidos a partir de la utilizacin de la teora basada en
la normal.

Segn Wikipedia: La estadstica no paramtrica es una rama de la estadstica que


estudia las pruebas y modelos estadsticos cuya distribucin subyacente no se
ajusta a los llamados criterios paramtricos. Su distribucin no puede ser definida a
priori, pues son los datos observados los que la determinan. La utilizacin de estos
mtodos se hace recomendable cuando no se puede asumir que los datos se
ajusten a una distribucin conocida, cuando el nivel de medida empleado no sea,
como mnimo, de intervalo.

Aunque el trmino no paramtrico sugiere que la prueba no est basada en un


parmetro, hay algunas pruebas no paramtricas que dependen de un parmetro
tal como la media. Las pruebas no paramtricas, sin embargo, no requieren una
distribucin particular, de manera que algunas veces son referidas como pruebas
de libre distribucin. Aunque libre distribucin es una descripcin ms exacta, el
trmino no paramtrico es ms comnmente usado. Las siguientes son las
mayores ventajas y desventajas de los mtodos no paramtricos.[6]

Ventajas de los Mtodos No Paramtricos

1. Los mtodos no paramtricos pueden ser aplicados a una amplia variedad de


situaciones porque ellos no tienen los requisitos rgidos de los mtodos
paramtricos correspondientes. En particular, los mtodos no paramtricos no
requieren poblaciones normalmente distribuidas.

2. Diferente a los mtodos paramtricos, los mtodos no paramtricos pueden


frecuentemente ser aplicados a datos no numricos, tal como el gnero de los que
contestan una encuesta.

3. Los mtodos no paramtricos usualmente involucran simples computaciones que


los correspondientes en los mtodos paramtricos y son por lo tanto, ms fciles
para entender y aplicar.

Desventajas de los Mtodos No Paramtricos

1. Los mtodos no paramtricos tienden a perder informacin porque datos


numricos exactos son frecuentemente reducidos a una forma cualitativa.

2. Las pruebas no paramtricas no son tan eficientes como las pruebas paramtricas,
de manera que con una prueba no paramtrica generalmente se necesita evidencia
ms fuerte (as como una muestra ms grande o mayores diferencias) antes de
rechazar una hiptesis nula.

Cuando los requisitos de la distribucin de una poblacin son satisfechos, las


pruebas no paramtricas son generalmente menos eficientes que sus contrapartes
paramtricas, pero la reduccin de eficiencia puede ser compensada por un
aumento en el tamao de la muestra.

Segn HFyB, Para realizar anlisis no paramtricos debe partirse de las siguientes
consideraciones:

1. La mayora de estos anlisis no requiere n de presupuestos acerca de la forma de


la distribucin poblacional. Aceptan distribuciones no normales.

2. Las variables no necesariamente deben estar medidas en un nivel para intervalos o


de razn, pueden analizar datos nominales u ordinales. De hecho, si se quiere
aplicar anlisis no paramtricos a datos de intervalos o razn, stos deben ser
resumidos a categoras discretas (a unas cuantas). Las variables deben ser
categricas.

Mtodos o pruebas estadsticas no paramtricas ms utilizados.

La ji cuadrada o x2

Los coeficientes de correlacin en independencia para tabulaciones cruzadas.

Los coeficientes de correlacin por rangos ordenados de Spearman y Kendall.

La ji cuadrada o X2
Es una prueba estadstica para evaluar hiptesis acerca de la relacin entre dos
variables categricas.

Sirve para probar Hi correlacionales.

Mide variables nominales u ordinales (o intervalos o razn reducidas a ordinales)

Ejemplo: Presentacin o en su defecto, no presentacin, de un aviso publicitario y


compra o no compra de un producto.

Ejemplo: Un corredor de propiedades quiere saber qu tipo de vivienda prefieren los


profesionales. Se le pregunta a un grupo de profesionales sobre sus preferencias de
vivienda (casa o departamento) y si prefiere vivir en Temuco o en Villarrica - Pucn.

Vivienda que posee / prefiere


Dnde departamento casa
Temuco (a) 18 (b) 10 (a+b) 28
Villarrica-Pucn (c) (d) 28 (c+d) 47
19
(a+c) 37 (b+d) 38 N: 75

Para ingresarlo al Minitab hay que reducir la tabla con cdigos:


d c
1 18 10
2 19 28

MINITAB:
Los conteos esperados se imprimen debajo de los conteos observados
Las contribuciones Chi-cuadradas se imprimen debajo de los conteos esperados

d c Total
1 18 10 28
13,81 14,19
1,269 1,236

2 19 28 47
23,19 23,81
0,756 0,736

Total 37 38 75

Chi-cuadrada = 3,996; GL = 1; Valor P = 0,046

Comentario de H,FyB: Cuando al calcular X2 se utiliza un paquete estadstico de


computadora, el resultado de X2 se proporciona junto con sus significancia, si sta
es menor a .05 o a .01, se acepta la Hi.

Puede haber tres o ms filas.

Ejercicio:

Puesto que el ejemplo anterior es imaginado, sera interesante saber si es verdad.


La Hi de investigacin es que los profesionales jvenes (menores de 40 aos)
prefieren vivir en Departamento en Temuco (no tiene patio que moleste) pero
prefieren Casa en Villarrica-Pucn (tiene patio para tomar el sol o recibir visitas y
hacer asados). Averiguarlo entrevistando a tantos profesionales como se pueda en
la semana y calcularlo con X2.

Otro ejercicio:

Averiguar si los profesionales jvenes (menores de 40 aos) prefieren vivir en


departamento o casa, separndolos por sexo. Establecer la Hi y la Hn. Resolver con
X2 en Minitab.

Otros ejercicios: Preferencias entre PCs (escritorio/notebook; notebook/netbook;


porttil/tablet).

Coeficiente phi (fi) o , (de 2x2)


El coeficiente Phi (tambin llamado coeficiente de correlacin de cuatro campos)
(tambin ) es una medida para la intensidad de la relacin entre variables
dicotmicas (Wikipedia). Este coeficiente se aplica a cuadros confeccionados
con variables con dicotomas claramente establecidas que definen cuadros
de 2x2.

El coeficiente Phi nos permite evaluar el grado de asociacin entre dos variables,
pero slo est normalizada, es decir oscila entre 0 y 1 en tablas de 2X2, en tablas
con otras caractersticas toma valores >1. En estos casos lo recomendable es
utilizar el Coeficiente de Contingencia.

Por ejemplo:

Situacin X
Y Damas Varones
Si-compran (a) (b) (a+b)
No-compran (c) (d) (c+d)
(a+c) (b+d)

Se aplica la frmula phi:

Los datos son altamente interpretables ya que el coeficiente Phi se usa para
datos nominales y ordinales, donde vara su interpretacin de acuerdo a los
datos de las variables dicotmicas.

El coeficiente oscila entre los valores +1 y -1 siendo 0.50 el equilibrio perfecto.


Asociacin positiva perfecta es (+1) cuando todos los individuos que se ubican en
una categora equivalente de otra variable, por ejemplo Todos los si son damas y
todos los no son varones. El valor (-1) indica asociacin negativa perfecta, lo que
quiere decir que las personas que pertenecen a una cierta categora en una variable
se ubican en una categora contraria en otra, en datos ordinales.

Ejercicios: Dnde pasaran sus vacaciones: playa Vs. cordillera, por sexos.

Preferencias por dos productos de igual calidad, por edad, educacin u otro.
Biobliografa

Hernndez, Fernandez y Baptista, Metodologa de Investigacin, Ediciones 2


y5.

Briones, Guillermo, Anlisis e Interpretacin de Datos, SECAB, 1992.

Briones, Guillermo, (1996) Metodologa De La Investigacin Cuantitativa En


Las Ciencias Sociales, ICFES, Colombia.

Edgardo Jos Avils-Garay, Estadstica no paramtrica, pdf.

Wikipedia

EFB2:406; EFB5: 329

[1] Tomado de: http://definicion.de/parametro/

[2] Edgardo Jos Avils-Garay, Estadstica no paramtrica, pdf.

[3] http://www.buenastareas.com/ensayos/An%C3%A1lisis-Parametrico/1276277.html

[4] 1 Nmero que indica la cantidad de veces por las que debe multiplicarse una
expresin matemtica: en la expresin 8x, el 8 es el coeficiente. 2 Nmero que
expresa el valor de una propiedad o un cambio en relacin con las condiciones en
que se produce: el coeficiente de dilatacin de los cuerpos es la relacin que existe
entre la longitud o el volumen de un cuerpo y la temperatura. Wikipedia.

[5] Historia: La distribucin de Student fue descrita en 1908 por William Sealy
Gosset. Gosset trabajaba en una fbrica de cerveza, Guinness, que prohiba a sus
empleados la publicacin de artculos cientficos debido a una difusin previa de
secretos industriales. De ah que Gosset publicase sus resultados bajo el seudnimo
de Student.

[6] Edgardo Jos Avils-Garay, Estadstica no paramtrica, pdf.

You might also like