Professional Documents
Culture Documents
Profesor de la Escuela de Educacin de la Universidad de Durham. Sus actividades de docencia universitaria las comparte con la capacitacin a colegios y desarrollo de nuevos proyectos educativos. Actualmente es Director del Grupo de Evaluacin Educativa en el
Curriculum, Evaluation and Management (CEM) Centre at Durham University. Direccin:
147
(a)
(b)
Cmo se calcula?
La ME es solo la diferencia media estandarizada entre los dos
grupos. En otras palabras:
[Media del grupo experimental] - [Media del grupo control]
ME
Desviacin Estndar
Ecuacin 1
149
DE=~ '
150
'
"
n.MJ
r.
i' = d2 / (4+d2). Ver Cohen, 1969, pp20-22 para otras frmulas y tablas de conversin.
152
Cuadro 1
Interpretaciones de la magnitud del efecto
Magnitud
del efecto
Posicin de la persona
en un GC'
p para adivinar de qu
GC debajo del
grupo es alguien'
r equivalente "
promedio'
11
50
54
58
62
66
69
73
76
79
82
84
88
92
95
96
98
99
99.9
12
13
12
11
10
9
8
7
6
6
5
4
3
2
1
1
1'
1f
1g
13
.50
.52
.54
.56
.58
.60
.62
.64
.66
.67
.69
.73
.76
.79
.82
.84
.89
.93
14 (= r)
.00
.05
.10
.15
.20
.24
.29
.33
.37
.41
.45
.51
.57
.62
.67
.71
.78
.83
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.2
1.4
1.6
1.8
2.0
2.5
3.0
Nota. 'Porcentaje de personas del grupo control quienes podran estar debajo del promedio de
personas.
hPosicin de la persona en un grupo control de 25 que podra ser equivalente a la persona
promedio en el grupo experimental.
'Probabilidad en que uno puede adivinar a qu grupo una persona pertenece a partir del
conocimiento de su puntaje.
"Correlacin equivalente, r ( =Diferencia en porcentaje de "xito").
'de 44 'de 160 de 740.
155
Cuadro2
Ejemplos de magnitud del efecto promedio extrados de investigaciones
Intervencin
Reduccin de la cantidad de
alumnos de 23 a 15
Cantidad de alumnos pequea
(<30) vs grande
Resultado
Rendimiento en una Qrueba de lectura
Rendimiento en una prueba de matemticas
Actitudes de los alumnos
Actitudes de los profesores
Rendimiento de estudiantes (global)
Ubicacin de estudiantes:
Rendimiento de estudiantes (para los de
mixto vs agrupados por habilidad alto rendimiento)
Rendimiento de estudiantes (para los
de bajo rendimiento)
Organizacin del aula: abierta Rendimiento de los estudiantes
("centrada en el nio") vs
Actitudes del estudiante hacia el colegio
tradicional
Educacin tradicional vs
especial (para nios de primaria Rendimiento
con discapacidades)
Prctica de resolver exmenes Puntajes en la prueba
Currculum de ciencias
tradicional vs basada en
investigacin
Terapia para ansiedad de
exmenes (para estudiantes
ansiosos)
Retroalimentacin a los
profesores sobre el desempeo
de los estudiantes
(estudiantes con PE!)
Tutora de pares
Instruccin individualizada
-0.06
-0.06
0.17
Fuente
Finn y Achilles, (1990)
Smith y Glass ( 1980)
Mosteller, Light y
Sac hs (1996)
Wang y Baker
0.44
0.32
(1986)
Kulik, Bangert y
Kulik (1984)
Shymansky,
Hedges y
Woodworth ( 1990)
Rendimiento
0.30
Ejecucin en la prueba
0.42
Hembree (1988)
0.70
Rendimiento de tutelados
Rendimiento de tutores
Rendimiento
0.40
0.33
0.10
Cohen, Kulik
y Kulik, (1982)
Bangert, Kulik y Kulik
(1983)
Fletcher-Flinn
y Gravatt (1995)
Ka vale y Fomess ( 1983)
Hyman et al (1989)
Slavin y Madden
(1989)
Bangert-Drowns
(1988)
156
ME
0.30
0.32
0.47
1.03
0.00
0.08
0.24
0.02
0.02
0.52
0.63
0.12
0.17
Lipsey (1992)
i(N
___ L ___
Ecuacin 2
Note que esto no es lo mismo que la desviacin estndar de todos los valores de ambos
grupos juntos concentradamente. Si, por ejemplo, cada grupo tuviera una baja DE pero
las dos medias fueran sustancialmente diferentes, la verdadera estimacin concentrada
(como se calculara con la ecuacin 2) podra ser mucho ms baja al concentrar todos los
valores juntos y calcular el DE correspondiente. Las implicaciones de elegir una u otra
desviacin estndar son discutidas en Olejnik y Algina (2000).
157
Valor calculado de d
3
(4(NE +Nc) 9)
Ecuacin 3
En el experimento de Dowson, con 38 valores, el factor de correccin ser 0.98, lo que evidencia una mnima diferencia, reduciendo la ME de 0.82 a 0.80.
159
a[d]=
N +N
e
N.N
e
e
e+
d'
2
N.N
e
e
Ecuacin 4
161
d- 1.96
* F[d]
hasta
d + 1.96
* F [d]
Ecuacin 5
Tomando los resultados del experimento de la hora del da, NE = Nc
= 19 y d = 0.8, entonces, F [d] = r(0.105 + 0.008) = 0.34. Entonces,
el intervalo de confianza al 95% es [0.14, 1.46]. Esto se podra interpretar8 como el verdadero efecto de la hora del da est muy probablemente entre 0.14 y 1.46. en otras palabras, ocurre realmente un
efecto (la tarde es mayor que la maana) y la diferencia es bastante
grande.
Se puede combinar la informacin sobre la magnitud del efecto?
Una de las principales ventajas del uso de la ME es que cuando un
experimento en particular ha sido replicado, las diferentes ME de
cada estudio pueden ser combinados para dar una mejor estimacin
global del monto del efecto. Este proceso que sintetiza los resultados
experimentales en una simple estimacin de la ME es conocido como
meta-anlisis. Este mtodo fue desarrollado en su forma actual por
un estadstico educacional, Gene Glass 9 y ahora es ampliamente utilizado no solamente en educacin, sino tambin en medicina y en las
ciencias sociales. Una introduccin breve y accesible del meta-anlisis se puede encontrar en Fitz-Gibbon (1984).
El meta-anlisis, sin embargo, puede hacer mucho ms que simplemente dar una ME promedio general, aunque tal cosa sea imparEn efecto, esta interpretacin solamente se justifica con la incorporacin de algo adicional. como la frase "siendo lo dems igual" y un enfoque Baycsiano que la mayora de los
estadsticos explcitamente usan como regla. Sin embargo, la interpretacin de lo que
precisamente proporciona las pruebas de significancia es controversia! y a menudo confuso. Ver Oakes (1986) para una iluminada discusin de este aspecto.
Ver Glass, McGaw y Smith, 1981. Las races del meta-anlisis pueden ser rastreadas en la
literatura, por ejemplo, en Lepper et al. (1999 ).
162
10
Rubio (1992). Ver tambin Lepper et al. (1999) para una discusin de Jos problema que
ocurren y algunas otras limitaciones de la aplicabilidad del meta-anlisis.
163
Standan:f Normal
Distribution
(8.0.=1)
(S.D. = 1.5)
... /
.....
~-(a)
...... .
(b)
167
Confiabilidad de la Medicin
Un tercer factor que espuriamente puede afectar un ME es la
confiabilidad de la medicin sobre el cual est basada. La confiabilidad se refiere a la exactitud, la estabilidad y robustez de una medicin, y frecuentemente se la define en funcin del grado en que dos
mediciones del mismo atributo (o una medicin repetida) producen el
mismo resultado 11 En otras palabras, cualquier medida de un particular resultado puede ser considerada como un subyacente valor verdadero junto con un componente de error. El problema es que el
monto de variacin en los puntajes obtenidos para una particular
muestra (es decir, su desviacin estndar) depender de la variacin
en los puntajes subyacentes y del monto de error en su medicin.
Para dar un ejemplo, imagine el experimento de la "hora del da"
que fue conducido con dos muestras hipotticamente idnticas de estudiantes. En la primera versin, la prueba evalu la comprensin
con solo 1O temes y sus puntajes fueron convertidos en un porcentaje. En una segunda versin, se utiliz una prueba con 50 temes y sus
puntajes se convirtieron nuevamente en un porcentaje. Las dos pruebas fueron de igual dificultad y el actual efecto de la diferencia en la
hora del da fue la misma en cada caso, as que los respectivos porcentajes promedios del grupo la maana y de la tarde fueron los mismos para ambas versiones. Sin embargo, siempre se da al caso que la
prueba ms larga ser ms confiable y la desviacin estndar de los
porcentajes de la prueba de 50 temes ser ms bajo que la desviacin estndar de la prueba de 1O temes. De esta forma, aunque el
verdadero efecto fue el mismo, el ME calculado ser diferente.
En la interpretacin de ME, es importante, por lo tanto, conocer
la confiabilidad de la medicin desde cual ha provenido su clculo.
11
168
Para una ms detallada definicin y discusin del concepto de con fiabilidad, ver Nunnally y
Bernstein (1995).
Si la correlacin entre dos variables es r, el cuadrado de este valor (frecuentemente denotado con la letra R 2) representa la proporcin de la varianza que es "explicada por" la otra variable. En otras
palabras, es la proporcin por el que la varianza de los residuales de
una ecuacin de regresin. Se puede extender esta idea a la regresin
mltiple (donde representa la proporcin de la varianza explicada por
todas las variables independientes juntas) y tiene una analoga cercana en ANOVA (donde regularmente se le llama eta cuadrado, 0 2 ). El
clculo de r (y de aqu R 2) para el tipo de situacin experimental que
hemos estado considerando, ya ha sido referido anteriormente.
Debido que R 2 (u otras medidas alternativas de varianza explicada) tiene esta flexibilidad de conversin, algunas veces se lo considera como una medida universal de ME (Thompson, 1999). Una
desventaja de este enfoque es que las medidas de ME basadas en la
varianza explicada sufren algunas limitaciones tcnicas, como su sensibilidad a la violacin de presupuestos (heterogeneidad de la varianza, diseos balanceados) y sus errores estndar pueden ser grandes
169
(Olejnik y Algina, 2000). En general, tambin pueden ser ms complejos estadsticamente y por lo mismo menos fcilmente comprendidos. Sin embargo, hay una objecin ms fundamental para el uso de
lo que es esencialmente una medida de asociacin para indicar la
fuerza de un efecto. Expresar diferentes medidas desde el punto de
vista de la misma estadstica puede ocultar importantes diferencias
entre ellos; en efecto, estas medidas del efecto diferentes son fundamentalmente diferentes y no se deberan confundir.
La crucial diferencia entre un ME calculado desde un experimento y otro calculado desde una correlacin est en la naturaleza
causal de lo que se afirma con ello. Adems, la palabra efecto tiene
una inherente implicacin de causalidad: hablar de "el efecto de A
sobre B" sugiere una relacin causal ms que solo una asociacin.
Desgraciadamente, sin embargo, la palabra efecto es frecuentemente
utilizada cuando no se hace una afirmacin causal explcita, sino que
su implicacin es algunas veces permitida que salga a flote dentro y
fuera del significado, aprovechando la ventaja de la ambigedad de
sugerir un vnculo causal donde realmente nada se justifica para ello.
Este tipo de confusin es tan extendido en educacin que aqu
recomendamos que la palabra efecto (y por lo tanto magnitud del
efecto) no se debera usar a menos que una afirmacin deliberada y
explcita se est haciendo. Cuando tal afirmacin no se hace por ningn lado, podemos hablar de la "varianza explicada por" (R 2) o la
fuerza de asociacin (r), o simplemente -y quizs ms informativamente- solo citar el coeficiente de regresin (Tukey, 1969). Si se est
haciendo una afirmacin de tipo causal, se debera hacerlo explcito
junto con una justificacin de ello. Por s mismo, r slo indica el grado de asociacin pero no seala causalidad, y no es una informacin
suficiente para inferir que A causa B (Brown, 1980).
171
anlisis de varianza y es interpretado en trminos del monto de variabilidad explicada (Cooksey, 1997).
Finalmente, la eleccin de medidas alternativas para describir la
magnitud del efecto en el estudio en mano, o an aquella descrita
con amplitud en el presente artculo, debe estar apoyada por el buen
juicio del investigador despus de obtener la informacin pertinente
para su uso e interpretacin.
Conclusiones
Proponemos algunos consejos sobre el uso de las medidas de ME:
172
Referencias
Altman, D. G. (1991 ). Practica[ Statistics for Medica! Research. Londres: Chapman and Hall.
Brown, F. G. (1980). Principios de la medicin en Psicologa y
educacin. Mxico, DF: El Manual Moderno.
173
174
175
educational, and behavioral treatment: confirmation from metaanalysis. American Psychologist, 48, 12, 1181-1209.
May, R. B., Masson, M. E. J. y Hunter, M. A. (1990). Application of
statistics in behavioural research. NuevaYork: Harper & Row.
Mosteller, F., Light, R. J. y Sachs, J. A. (1996). Sustained inquiry in
education: lessons from skill grouping and class size. Harvard
Educational Review, 66, 797-842.
Nunnally, J. C. y Bernstein, I. J. (1995). Teora psicomtrica (3ra
ed.). Mxico, DF: McGraw-Hill.
Oakes, M. (1986). Statistical inference: A commentary for the social
and behavioral sciences. Nueva York: Wiley.
Olejnik, S. y Algina, J. (2000). Measures of effect size for comparative
studies: applications, interpretations and limitations. Contemporary
Educational Psychology, 25, 241-286.
Rosenthal, R. y Rubn, D. B. (1982). A simple, general purpose display
of magnitude of experimental effect. Journal of Educational
Psychology, 74, 166-169.
Rubn, D. B. (1992). Meta-analysis: literature synthesis or effect-size
surface estimation. Journal of Educational Statistics, 17, 4, 363374.
Thompson, B. (1999). Common methodology mistakes in educational research, revisited, along with a primer on both effect sizes and the
bootstrap. Documento invitado para la reunin anual del American
Educational Research Association, Montreal.
Shymansky, J. A., Hedges, L. V. y Woodworth, G. (1990). A reassessment of the effects of inquiry-based science curricula of the 60s on
student performance. Journal of Research in Science Teaching, 27,
127-144.
Slavin, R. E. y Madden, N. A. (1989). What works for students at risk?
A research synthesis. Educational Leadership, 46(4), 4-13.
Smith, M. L. y Glass, G. V. (1980). Meta-analysis of research on class
size and its relationship to attitudes and instruction. American
Educational Research Journal, 17, 419-433.
176
177