You are on page 1of 16

Tema V.

Estudio de la precisión de las


puntuaciones aportadas por los tests

INDICE
o Introducción
o Concepto de fiabilidad
o Los errores de medición
o La Teoría Clásica de los Tests
 La puntuación verdadera
 La puntuación error
 Relación entre los componentes
del modelo
o El índice de fiabilidad
o El coeficiente de fiabilidad
o El error típico de medida

BIBLIOGRAFÍA RECOMENDADA
Muñiz, J. (1998). Teoría Clásica de los Tests.
Madrid: Pirámide.

Contenidos:
Capítulo 1, apartado 1.2.
Capítulo 2, introducción y apartado 2.1
2

Introducción

El Tema V inicia el estudio de la precisión de las puntuaciones


proporcionadas por los tests y cuestionarios psicológicos. Aunque no
de manera exclusiva, los contenidos del tema son especialmente
relevantes para los instrumentos psicológicos elaborados desde la
aproximación al escalamiento centrada en la persona. Instrumentos
de medida que además son los más utilizados por psicólogos y
educadores. Se debe recordar que los métodos de escalamiento
centrados en la persona intentan paliar las deficiencias respecto del
nivel de medida de los valores escalares con una mayor atención al
proceso de elaboración y al estudio de las propiedades métricas de
las mediciones: la precisión o "fiabilidad" de las mediciones es una de
las propiedades métricas que más atención ha recibido en
Psicometría.

El estudio de la fiabilidad de las mediciones ha estado dominado


hasta fechas recientes por la Teoría Clásica de los Tests. El tema sólo
aborda esta teoría porque sus contenidos y procedimientos siguen
siendo válidos para resolver la gran mayoría de los problemas a los
que se puede enfrentar el usuario de los tests psicológicos.

El bloque de contenidos dedicado a la fiabilidad tiene dos


temas. El Tema V presenta la Teoría Clásica de los Tests y el Tema VI
se ocupa de los procedimientos empíricos desarrollados para el
estudio de la fiabilidad de los tests.

1. Concepto de fiabilidad

Las mediciones que proporcionan los tests psicológicos están


contaminadas por el error al igual que sucede con cualquier
instrumento de medida. La importancia para las personas de las
decisiones que se toman a partir de la información obtenida con los
tests, obliga a tener presente la presencia de los errores de medición.
De ahí que, el usuario de dichos instrumentos deba estar capacitado
para utilizar la información sobre la precisión de las medidas que
3

proporcionan los tests de calidad. Esta información es imprescindible


si queremos valorar la credibilidad las puntuaciones obtenidas por las
personas en los tests.

En las ciencias físicas puede resultar relativamente sencillo


determinar la fiabilidad de una puntuación. Imaginemos que hemos
construido una báscula y nos interesa conocer su precisión. Para ello,
podríamos colocar en la báscula una pesa de magnitud conocida (p.
e., 1 kilogramo) y observar cuanto difiere el peso indicado por la
báscula del peso "real" de la pesa. Cuanto mayor fuese la diferencia
entre el peso observado y el real, mayor sería el error cometido por
la báscula y, por tanto, menos precisas o fiables serían sus
mediciones.

Lamentablemente, esta sencilla práctica no es directamente


aplicable al campo de la medición psicológica. No disponemos de
"pesos conocidos" (como la pesa de 1 kg) en el ámbito de los
constructos psicológicos. Sería como colocar en la báscula un objeto
de peso indeterminado e intentar, a partir del resultado, determinar
el error cometido. Una posible vía de acción consistiría en pesar ese
mismo objeto en múltiples ocasiones. Parece lógico considerar que
cuanta mayor variación observásemos en los resultados de las
distintas ocasiones, menos confianza podríamos tener en que el
resultado de una medición concreta fuese similar al verdadero.
Después se verá como la estrategia utilizada por los psicólogos
intenta imitar ese proceso de "mediciones repetidas".

Sin embargo, no se puede afirmar lo contrario, es decir, que la


estabilidad de las mediciones sea una prueba definitiva de la calidad
de la medida. Una gran estabilidad de las mediciones no garantiza,
necesariamente, un acierto pleno. Podría, por ejemplo, darse el caso
de que nuestra báscula arrojase sistemáticamente un resultado un
kilo superior al peso real del objeto. En esta situación, la medida sería
estable, y podría concluirse, erróneamente, que la báscula informa
con precisión del peso real del objeto, lo que no es cierto: la báscula
sistemáticamente incrementaría el peso del objeto.

A pesar de esto, el método de la repetición puede


proporcionarnos información útil en determinadas circunstancias.
Supongamos que no estamos tan interesados en conocer el peso de
un objeto en cuestión como en determinar cuál es el más pesado de
un conjunto de objetos. La báscula del ejemplo anterior, que siempre
añade un kilo al peso de cualquier objeto, podría servir perfectamente
a nuestros propósitos: ordenar los objetos en función de su peso.
Esta última situación es perfectamente extrapolable al terreno de la
medición de constructos psicológicos por medio de tests y
cuestionarios, dado que gran parte de las decisiones que se toman
4

por los usuarios de los tests se basan en la ordenación de las


personas, por ejemplo: la elección de la carrera universitaria a partir
de la nota en selectividad, la selección de aspirantes a un puesto de
trabajo, la interpretación de las mediciones de la inteligencia
mediante tablas normativas, etc.

En efecto, en medición psicológica es habitual el interés, no en


determinar la cuantía en que una persona posee una habilidad o
destreza, sino en comparar su ejecución en los tests con otras
personas para encontrar, por ejemplo, la/las más hábil/es. En este
contexto, tests que proporcionen medidas estables pueden ser
suficientemente precisos para el objetivo de la medición. Esta
perspectiva "pragmática" sobre la fiabilidad es la más utilizada a la
hora de analizar la precisión de las mediciones psicológicas.

La fiabilidad se debe entender en términos de la estabilidad de


las mediciones entre repetidas administraciones del mismo
instrumento de medida a un mismo grupo de personas.

A estas alturas se debe haber caido en la cuenta de que esta


perspectiva de la fiabilidad, parte del supuesto de estabilidad del
constructo objeto de la medición, supuesto básico para la medición
psicológico tal y como se comentó en el Tema II. Por tanto, como
señala Muñiz (1998) la fiabilidad se refiere a la estabilidad de las
mediciones siempre que no existan razones teóricas ni empíricas para
pensar que la variable haya sufrido cambios diferencias para las
distintas personas. Por ejemplo, un test que mida el desarrollo
psicomotriz de bebés pueda dar como resultado medidas inestables.
Por supuesto, esta inestabilidad se debe a cambios en el objeto de
medida: el proceso de maduración psicomotriz en el niño provoca
que, de tiempo en tiempo, la ejecución del bebé en el test varíe. El
instrumento de medida simplemente refleja ese cambio madurativo.
No hay contradicción pues entre el concepto de fiabilidad y la
naturaleza cambiante del comportamiento humano.

2. Los errores de medición

Todas las mediciones psicológicas están contaminadas por los


errores de medida. El usuario de los tests debe identificar qué fuentes
de error afectan a sus mediciones y cuantificar su efecto. Antes de
tomar una decisión a partir de las mediciones proporcionadas por un
test, el usuario debe examinar su fiabilidad ya que debe ser
consciente de que no es posible una precisión perfecta.
5

La pregunta inmediata es ¿qué factores contaminan las


mediciones producidas por los tests? En principio, cuando una
persona responde a un conjunto de ítems su puntuación representa
una muestra limitada de comportamiento, es decir, responde a un
subconjunto de todos los ítems que, idealmente, podrían haber sido
utilizados para "provocar" todos los comportamientos indicadores del
constructo. Además, estas muestras de conducta se recogen en un
momento determinado, que a su vez es una muestra de las posibles
ocasiones. Siempre que se "hace un muestreo" existe la posibilidad
de equivocarse en la elección de "ítems" y "momentos". Problemas de
elección a los que hay que sumar todas las posibles circunstancias
derivadas del contexto de administración de los tests (luminosidad,
nivel de ruido, etc.) y del "estado psicofísico" de las personas (fatiga,
motivación, etc.). Todo ello hace que las puntuaciones
proporcionadas por los tests sean falibles y estén contaminadas por el
error.

La expresión "errores de medida" engloba todas las fuentes de


variación en las mediciones que no son atribuibles al objeto de
medida. Tal y como se apuntó en el Tema II, los errores de medida
se han dividido en dos categorías:

Errores sistemáticos. Son aquellos que afectan de manera


consistente a la puntuación de un sujeto debido a alguna
característica de la persona o del test que no tiene nada que ver
con el constructo que se está midiendo. Por ejemplo, un niño que
padece de dificultades en la audición confundiendo los fonemas “r”
y “n”, puede llegar a equivocar las palabras “sana” y “rana”
cuando las escucha. Si se le pide que realice una tarea para
categorizar palabras como sustantivos o adjetivos y éstas le son
presentadas por el canal auditivo, puede que clasifique “rana”
como adjetivo porque él ha entendido “sana”, aun sabiendo
distinguir la diferencia si las lee.

Errores aleatorios. Afectan a las puntuaciones individuales de


forma azarosa. Pueden afectar sobrestimando o subestimando la
puntuación del sujeto. Aciertos por azar, distracciones en la
situación de prueba, errores en la administración del test, en la
puntuación, fluctuaciones en el estado interno del sujeto,…, son
ejemplos de este tipo de errores.

Ambos tipos de errores constituyen una fuente de preocupación


a la hora de interpretar las puntuaciones. Los errores sistemáticos no
alteran la estabilidad de la medida, ya que afectan siempre en la
misma dirección, pero sí afectan a la seguridad en la medida (no
representan la posición real del objeto en el continuo psicológico) y,
por tanto, tiene repercusiones prácticas adversas. Como se ha
6

comentado anteriormente, si el objetivo es comparar sujetos y si


todos están afectados por la misma cantidad de error, podemos
soslayar este déficit. Los errores aleatorios, además de producir este
mismo efecto, también afectan a la estabilidad en la medida y, en
consecuencia, desvirtúan el proceso de comparación entre sujetos, ya
que los errores afectan en diferente cuantía a cada uno de los
sujetos. Por tanto, es necesario desarrollar teorías y procedimientos
empíricos para evaluar la estabilidad de las puntuaciones. La teoría
dominante en Psicología hasta los últimos años es la Teoría Clásica de
los Tests (TCT).

Es importante aclara que, por el mismo concepto de fiabilidad


que estamos manejando, fiabilidad como estabilidad en la medida, la
TCT sólo analiza las fuentes de error aleatorias. Los errores
sistemáticos, como fuentes de variación sistemática, se intentan
controlar a través de la estandarización de la administración del test.

3. La Teoría Clásica de los Tests

Fue formulada originalmente por Spearman (1907, 1913) y


desarrollada más tarde por diversos autores (Guilford, 1936;
Gulliksen, 1950; Magnuson, 1967 y Lord y Novick, 1968). La esencia
de la teoría se puede reducir a la consideración de que la puntuación
observada en un test o puntuación empírica (X) es el resultado de
dos elementos hipotéticos: la puntuación verdadera (V) y un
componente error (E). La relación entre los elementos se representa
en el conocido como "modelo clásico":

X= V + E

La definición formal de cada componente del modelo es


tautológica, es decir, los elementos se definen unos en función de los
otros. Así, por ejemplo, la definición de error es: E = X - V. A
continuación, se describe con más detalle el modelo.

3. 1 La puntuación verdadera

La puntuación "verdadera" es un concepto estadístico que parte


del análisis del proceso de respuesta a un test. La puntuación
observada en un test puede considerarse una variable aleatoria, es
decir, una variable que puede asumir distintos valores de acuerdo a
un conjunto de probabilidades. Para una persona concreta, la
7

puntuación observada en el test podrá oscilar entre un conjunto de


valores, y cada uno de ellos llevará asociada una cierta probabilidad
de ocurrencia. Considere la siguiente situación hipotética: pasamos el
test en infinitas ocasiones a una persona de forma que cada una de
ellas fuera independiente de las demás. La puntuación de la persona,
afectada por cierta cantidad de error aleatorio, no sería siempre la
misma, sino que se distribuiría en torno a un cierto valor que tendería
a repetirse con mayor frecuencia. El modelo clásico supone que esta
distribución adopta la forma de la curva normal. Para cada persona,
existe una distribución normal independiente.

Como cualquier distribución, ésta tiene una media que coincide


con el valor más probable o valor esperado de la variable. Pues bien,
este valor se considera la puntuación verdadera del sujeto.

Vj =  (Xj) = Xj

Donde Vj sería la puntuación verdadera del sujeto j , Xj la


puntuación observada del sujeto j,  representa el valor esperado de
la variable y  la media poblacional de la variable.

Puede decirse que para cada sujeto la puntuación verdadera


sería la media de las puntuaciones observadas obtenidas a través de
infinitas administraciones del mismo test.

Obsérvense las palabras destacadas en cursiva. En principio, la


definición es estadística, hace referencia a un estadístico: la media.
En segundo lugar, la puntuación verdadera es dependiente del test
utilizado. Por tanto, a pesar del nombre, la puntuación verdadera no
es algo etéreo que está “dentro de la cabeza del sujeto” y que hay
que descubrir. Es una definición estadística. En diferentes tests, un
mismo sujeto poseerá diferentes puntuaciones verdaderas, aunque
ambos tests midan el mismo constructo, a no ser que uno haya sido
diseñado como réplica del otro (tests paralelos)1.

3. 2 La puntuación error

El componente error en el Modelo Clásico recoge únicamente


errores aleatorios de medida. El error puede ser definido como:

Ej = Xj - Vj

Donde Ej es el componente error para el sujeto j, Xj la


puntuación observada en el test para el sujeto j y Vj su puntuación
verdadera.
1
La definición de tests paralelos se presentará en un apartado posterior del tema.
8

Ej es una variable aleatoria, ya que es la diferencia entre otra


variable aleatoria Xj, y una constante Vj (que sólo posee un valor para
cada sujeto). La media de la distribución de los errores es:

Ej =  Ej =  (Xj - Vj )=  Xj - Vj = Vj - Vj = 0

Ej = 0

Es decir, la media de los errores de medida para un sujeto j, a


través de repetidas administraciones del test es cero.

3. 3 Relaciones entre los componentes del


modelo

De las definiciones anteriores pueden derivarse varios principios


del modelo clásico que se consideran supuestos del modelo. Estos
principios son:

1. La media de los errores de medida para una población de


sujetos es cero (E = 0).
2. La correlación entre las puntuaciones verdadera y error para
un grupo de sujetos es cero (VE = 0 ).
3. Cuando los sujetos responden a dos tests (o el mismo tests
en dos ocasiones diferentes) las puntuaciones observadas se
suponen extraídas aleatoriamente de dos distribuciones
independientes, y por tanto la correlación entre las
puntuaciones error es cero (E1E2 = 0 ).

Estos principios permiten aplicar el modelo clásico al estudio de


la fiabilidad de las puntuaciones de un test. A continuación,
presentaremos estos principios de forma lago más desarrollada.

3. 3. 1 Puntuaciones verdaderas y errores

El primer supuesto hace referencia a la media de las


puntuaciones verdaderas y de los errores. Supongamos que en lugar
de administrar un test a un sujeto en infinitas ocasiones
administramos el test una vez a los sujetos de una población. Cada
sujeto poseerá su puntuación verdadera Vj , de manera formal:

V j  X j

La media de las puntuaciones verdaderas para el grupo de


sujetos será:
9

 V   jVj

Donde el subíndice j al lado del valor esperado E indica que se


representa a todas las personas del grupo. De esta forma, la media
de las puntuaciones verdaderas de todo el grupo de personas es:

V   jX j

La expresión anterior indica que la media de las puntuaciones


verdaderas de todo el grupo es igual a la media de las puntuaciones
observadas que obtendrían todas las personas en muchas
administraciones repetidas del test. De ahí que, se establezca el
supuesto de que la media de las puntuaciones verdaderas es igual a
la media de las puntuaciones observadas. De manera formal:

V   X

El mismo razonamiento se sigue para obtener la media de las


puntuaciones error. La media de las puntuaciones error de los sujetos
a lo largo de sucesivas mediciones sería:

 E   jE j

Pero ya se ha establecido que el valor esperado de las


puntuaciones error para un sujeto a través de sucesivas
administraciones del test es cero. Así:

 E   j 0 

Y dado que el valor esperado de una constante es esa misma


constante:

E  0

Esta expresión no debe interpretarse como que la media de las


puntuaciones error para una muestra de sujetos en una
administración particular del test sea siempre cero. En esa una
ocasión particular la variable aleatoria E poseerá un valor concreto,
extraído al azar de la distribución de los errores. La expresión debe
interpretarse en el sentido de que la media de los errores cometidos
por los sujetos en la población será 0.

3. 3. 2 Relación entre puntuaciones verdaderas y errores


10

Supongamos que tenemos un grupo de sujetos de los cuales


conocemos las puntuaciones verdadera y las puntuaciones error de
cada sujeto, obtenidas a través de sucesivas administraciones del
test. Ahora la pregunta es ¿cómo es la relación entre ambas
distribuciones de puntuaciones? Para responder imaginemos la
siguiente situación. Elegimos los sujetos con la puntuación verdadera
más baja. Para todos ellos la media de las puntuaciones observadas
(puntuación verdadera) será la misma. Además, la media de los
errores para cada uno a través de las sucesivas administraciones, y
por tanto la media del grupo, es cero. Elijamos ahora a los sujetos
con la siguiente puntuación verdadera mayor. De nuevo, los errores
de medida se distribuirán en torno a la media cero. Y así
sucesivamente. Por tanto, para todas y cada una de las diferentes
puntuaciones verdaderas en el grupo, no importa su valor, la media
de los errores se supone cero. Es decir, no existe relación entre las
puntuaciones verdaderas y las puntuaciones error. O de otro modo,
no existe relación entre la habilidad de los sujetos y los errores
aleatorios cometidos en cualquier ocasión en que se administre el
test. La covarianza entre las puntuaciones error y verdadera es cero.

3. 3. 3 Relación entre los errores de medida de diferentes


administraciones

Imagine que se administran dos tests a una población de


sujetos. Uno de los sujetos posee una puntuación error alta en el
primero. ¿Cómo será la puntuación error del sujeto en el segundo
test? ¿Será también alta? No hay forma de saberlo a priori. En
concreto, las puntuaciones error en ambas administraciones de los
tests se suponen extraídas al azar de distribuciones independientes.
Recuérdese, además, que los errores aleatorios no siguen un patrón
determinado. Por tanto no existe ninguna relación entre los errores
de medida cometidos en ambas administraciones. Lo mismo podría
decirse si se administrase el mismo test en dos ocasiones distintas.
Los errores de medida, por decirlo de una forma gráfica, son
dependientes únicamente de esa situación y no tienen por qué
repetirse en sucesivas administraciones.

4. El índice de fiabilidad

Como comentábamos anteriormente, el usuario del test


necesita disponer de información acerca de la cantidad de error
cometida en la medición. Toda la variabilidad observada entre las
11

puntuaciones de los sujetos se debe a variabilidad de las


puntuaciones verdaderas y a variabilidad de las puntuaciones error.
¿Pero cuánto contribuye cada una?. En otras palabras, ¿cuál es la
relación entre puntuación observada y la verdadera? Obsérvese que
si esta relación es alta y positiva, tanto más representará la
puntuación observada a la verdadera y, por tanto, tanto más fiable
será.

El coeficiente de correlación que representa el grado de relación


entre las puntuaciones observadas y las verdadera es el índice de
fiabilidad. Veamos como se representa esta relación.

El modelo establece que:

X=V+E

, o en puntuaciones diferenciales (recuérdese que la puntuación


diferencial para cada sujeto x es la diferencia entre la directa X y la
media del grupo X ):

x= v + e

El coeficiente de correlación entre las variables X y V es igual a


la expresión:

 XV 
 xv
N x v

Si se sustituye x por su valor de acuerdo con el modelo:

 XV 
  x  e v
N x v

Desarrollando el producto:
 XV 
v 2


 ve
N x  v N x  v

La segunda fracción es la correlación entre las puntuaciones


verdaderas y los errores. Se ha establecido que esta correlación es
cero por lo que se puede eliminar de la ecuación anterior, quedando
reducida a:

 XV 
v 2

N x  v
12

Esta expresión contiene la varianza de las puntuaciones


verdaderas. Así, la correlación entre las puntuaciones observadas y
verdaderas se puede expresar como:

v
2

 XV 
 x v

v
 XV 
x

Luego, el índice de fiabilidad es la razón entre la desviación


típica de las puntuaciones verdaderas de los sujetos y la desviación
típica de las puntuaciones observadas de los sujetos, a través de
múltiples administraciones del test. Esta expresión tiene poco
atractivo práctico, ya que la puntuación verdadera no es
directamente observable, y por tanto no puede calcularse V, y
tampoco podemos calcular X porque no podemos conocer todas las
puntuaciones de los sujetos es sucesivas hipotéticas administraciones
del test. Sin embargo, el modelo clásico permite el cálculo del índice
de fiabilidad a través de otro indicador de la fiabilidad del test: el
coeficiente de fiabilidad.

5. El coeficiente de fiabilidad

La TCT utiliza lo que se podría denominar un “puente


matemático” para estimar el índice de fiabilidad. Se trata del "modelo
de tests paralelos". Este modelo proporciona la base para la definición
del coeficiente de fiabilidad.

De manera intuitiva, dos tests son paralelos si proporcionan


medidas equivalentes de las personas, es decir, para el usuario debe
resultar indiferente utilizar uno u otro a la hora de tomar decisiones a
partir de sus puntuaciones. El modelo de tests paralelos fija las
condiciones formales que deben cumplir dos tests para ser
considerados "paralelos":

1. Cada sujeto tiene la misma puntuación verdadera en cada


test.
2. Las varianzas de las puntuaciones error es la misma para
ambos tests.
13

Por tanto, ambos tests tendrán la misma media y la misma


varianzas observadas.

El cálculo del coeficiente de fiabilidad se basa en el concepto de


medidas repetidas, es decir, de medición en más de una ocasión que
se consideran "mediciones paralelas". Ya se comentó en la
introducción del tema que la fiabilidad puede ser entendida como
estabilidad en la medida. Si repetimos la administración del test, y
suponemos que la naturaleza de la variable es estable, mediciones
semejantes indican estabilidad y, por tanto, fiabilidad.

Imagínese que pasamos el test en dos ocasiones, o


administramos dos formas paralelas del test cada una en una ocasión.
En ambos casos tendremos dos conjuntos de puntuaciones observadas
de los sujetos. El coeficiente de fiabilidad puede definirse como la
correlación entre las puntuaciones entre dos formas paralelas de un
test (o dos administraciones del mismo test). Si se cumplen las
condiciones del modelo de tests paralelos puede establecerse el puente
matemático entre el coeficiente y el índice de fiabilidad. Veamos como
es la conexión formal entre ambos.

Se opera con las puntuaciones observadas diferenciales en dos


supuestos tests paralelos, puntuaciones notadas como x1 y x2
respectivamente. La notación matemática para el coeficiente de
correlación entre las dos distribuciones de puntuaciones es x1x2,
también representado a veces como  xx´. El modelo establece que:

x1= v1 + e1

x2= v2 + e2

La expresión del coeficiente de correlación entre ambos


conjuntos de puntuaciones diferenciales es:

 X1X 2 
x x 1 2

N x1  x2

Sustituyendo las puntuaciones observadas diferenciales por sus


expresiones del modelo, el coeficiente de correlación queda así:

 X1X 2 
v 1  e1  v 2  e2 
N x1  x2

El paso siguiente para establecer la relación entre el índice y el


coeficiente de fiabilidad es multiplicar las expresiones del numerador:
14

 X1 X 2 
v v 1 2

v e 1 2

v e 2 1

e e 1 2

N x1  x2 N x1  x2 N x1  x2 N x1  x2

De acuerdo con los supuestos de la TCT, las tres últimas


fracciones son, ya que representan la correlación entre las
puntuaciones verdaderas y los errores, y entre los errores. Además, los
supuestos del modelo de tests paralelos establecen que las
puntuaciones verdaderas de los sujetos son iguales y que las
desviaciones típicas de las puntuaciones empíricas también son iguales.
Por tanto, la expresión simplificada queda como:

 X1 X 2 
v 2
1

 v2
N x21  x2

El coeficiente de fiabilidad es la razón entre la varianza de las


puntuaciones verdaderas y la varianza de las puntuaciones
observadas. La relación entre el índice y el coeficiente es inmediata:
el coeficiente de fiabilidad es el cuadrado del índice de fiabilidad.
Formalmente:
 X 1 X 2    xv 
2

Crocker y Algina (1986) señalan tres consideraciones que se


deben tener en cuenta para interpretar el coeficiente de fiabilidad:

1.  X X . Representa la proporción de la varianza de las


1 2

puntuaciones observadas que se puede atribuir a la varianza de


las puntuaciones verdaderas. De manera que, el coeficiente
valdrá 1 si toda la varianza de las puntuaciones observadas se
debe a la varianza de las puntuaciones verdaderas, es decir, no
hay errores de medida.

 
2.  X 1 X 2 . Al elevar al cuadrado el coeficiente de fiabilidad, su
2

resultado indica la proporción de la varianza de las


puntuaciones observadas en el primer test paralelo que se
puede predecir a partir de la varianza de las puntuaciones
observadas en el segundo test paralelo.

3.  xv . Es la correlación entre las puntuaciones verdaderas y las


puntuaciones observadas.

Por último, no se debe olvidar que el coeficiente de fiabilidad es


al igual que el índice una cantidad estrictamente teórica: no
disponemos de medidas estrictamente paralelas. El tema siguiente
15

aborda las estrategias empíricas diseñadas para estimar el coeficiente


de fiabilidad.

6. El error típico de medida

El coeficiente de fiabilidad permite describir la proporción de


varianza de las puntuaciones observadas que se debe a la varianza
de las puntuaciones verdaderas. Sin embargo, el usuario del test
puede estar más interesado en conocer la cantidad de error que
afecta a las mediciones individuales. Aunque no es posible determinar
la cantidad exacta de error que afecta a una puntuación dada, la TCT
proporciona un método para describir la desviación esperada de la
puntuación observada de un individuo respecto de su puntuación
verdadera. Recuérdese que cada sujeto puede generar una
distribución teórica de sus puntuaciones observadas en repetidas
administraciones del test en torno a su puntuación verdadera. Para
cada Xj existirá una distancia a Vj: la puntuación error cometida en
ocasión, o sea, Ej. Esas puntuaciones error también se distribuyen
normalmente con media 0 y una determinada desviación típica Ej.
Esa desviación es un índice del error de medida. Si se promedia esa
desviación error en la población de sujetos, se obtiene el error típico
de medida del test. Veamos cuál es su expresión formal.

Recuérdese que toda la variación observada en las


puntuaciones del test puede ser descompuesta en dos términos de
varianza: la de las puntuaciones verdaderas y la de las puntuaciones
error:

 X2   V2   E2
Si se divide la expresión anterior por  X , se obtiene:
2

 V2  E2
1 2  2
X X

La primera fracción es la expresión del coeficiente de fiabilidad,


de manera que podemos ordenar la expresión anterior de la siguiente
forma:

 E2
 1   XX `'
 X2
16

La expresión anterior aún se debe simplificar para dejarla en


términos de la desviación típica de los errores de medida:

 E   X 1   XX '

Esta es la expresión formal del error típico de medida. El error


típico de medida proporciona un índice del grado de desviación e las
puntuaciones observadas respecto de las puntuaciones verdaderas.
Cuanto menor sea el error típico de medida con respecto a la
desviación de las puntuaciones observadas, menor será su varianza
y, por tanto, menor será la proporción de la varianza observada
debido al error (y mayor la debida a la varianza de las puntuaciones
verdaderas).

Supongamos que SE= 3.5 (SE es el estimador muestral de E ).


¿Qué podemos concluir acerca de este error típico de medida? ¿Es lo
suficientemente importante como para comprometer la fiabilidad del
test? Para contestar a esta cuestión es necesario comparar ese valor
con SX, el estimador de la desviación típica de las puntuaciones
observadas. Cuanto menor sea SE con respecto a SX, menor impacto
tendrá sobre la fiabilidad del test. Supongamos que en un grupo SE=
12 y SX= 60, mientras que en otro SE= 3 y SX= 9. ¿En cuál de los dos
grupos el error típico de medida será más perjudicial?. En el segundo,
ya que supone 1/3 de la desviación típica de las puntuaciones
observadas y en el primer caso sólo representa 1/5.

El error típico de medida será necesario a la hora de estimar la


puntuación verdadera de los sujetos. Ésta no puede ser determinada
exactamente, sino que se estimará un intervalo en el cual estará
incluida la puntuación verdadera, siempre con una cierta probabilidad
de que así sea.

You might also like