Revista Evaluación Educativa

Revista de Investigacin Educativa - Vol. 14, n. o 2, pgs.
141-163
PRUEBAS ESTANDARIZADASY'EVALUACIN DEL

RENDIMIENTO:
USOS y CARACTERSTICAS MTRICAS
j.M. jornet Meli y j.M. Surez Rodrguez'
RESUMEN
En este artculo presentamos algunas reflexiones sobre el uso de las pruebas estandarizadas
para la evaluacin del rendimiento. Se propone una tipologa de pruebas cuyos componentes
son: pruebas como Indicadores de resultados, pruebas de certificacin y de admisin, pruebas de
dominio, pruebas de clase y pruebas individualizadas. Para cada tipo de prueba se revisan las
propiedades mtricas que se derivan de los objetivos, caractersticas y finalidad de las pruebas.
ABSTRACT
In this articIe we present so me reflections about the use of the standarized tests for achieoe
ment evaluation. It is proposed a test typology whose components are: tests as outcome
indicators, certification and admission tests, domain tests, cIassroom tests and tailored tests.
The measurement properties derived from the tests objectives, characteristics and purpose are
reviewed for each kind of test.
1 Dpto. Mtodes d'Investigaci i Diagnostic en Educaci. Universitat de Valencia (Estudi General).

Avda. Blasco Ibez, 21. 46010-Valencia. Tl. y Fax: 96/3864430. E-mail: Jesus.M.Jornet@uv.es /
Jesus.M.RodriguezUv.es
142 T.M. [ornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento
143
INTRODUCCiN de la confluencia de diversos factores. En ellos, podemos identificar dimensiones de

definicin que afectan a la construccin de las pruebas. Generalmente estas dimensio
La utilizacin de pruebas Estandarizadas en el mbito Educativo es muy frecuente. nes son de carcter bipolar y definen un eje en el cul pueden situarse las caractersti
En la literatura se utilizan cotidianamente trminos que denominan diversos tipos de cas de cada prueba de forma gradual. AS, comentaremos brevemente cada dimensin
instrumentos que aluden a este tipo de pruebas: Tests Referidos al Dominio, Tests identificndola con sus polaridades. En todos los casos, al entenderse que estas di
Referidos a Objetivos, Tests de Competencia, Tests de Certificacin, Tests de Domi mensiones son graduales, cabe establecer un elemento de clasificacin intermedio, que
nio, Tests referidos al Criterio, etc.... No obstante, en nuestro medio sociocultural, su corresponden a "enfoques mixtos", que por no ser reiterativos obviaremos en la
uso es ms bien escaso y, ciertamente, son pocas las pruebas estandarizadas de Rendi exposicin subsiguiente de dimensiones.
miento que se hayan desarrollado en nuestro pas y para nuestro sistema educativo.
Las razones que estn a la base de este fenmeno pueden ser diversas, pero desde Caractersticas del Objeto de Medida. Las caractersticas del Dominio Educaiioo- a que
nuestro punto de vista, los usos equvocos de este tipo de pruebas han arraigado la va dirigido la prueba es un elemento de definicin bsico que condiciona, desde los
concepcin de que son poco tiles a efectos evaluativos y que, en todo caso, su uso elementos de Validez, el conjunto del desarrollo de la prueba. El Dominio Educati
est indefectiblemente ligado a corrientes pedaggicas que atienden poco a las carac vo constituye el Universo de Medida desde el que se extraen los componentes de la
tersticas de los individuos. Obviamente, esta posicin que atribuimos a buena parte prueba y al que se pretende representar desde ella. Sin entrar en los factores
de los detractores de las Pruebas Estandarizadas est simplificada y, probablemente, especficos de los tipos de contenidos educativos, las dimensiones a tener en cuenta
sera matizada de diversas formas, sin embargo quiz es la posicin ms generalizada para orientar el desarrollo de las pruebas son las siguientes:
entre ellos. 1. Amplitud del Dominio Educativo (Dominios amplios vs. reducidos).
Desde nuestro punto de vista, el problema normalmente radica en que se pretende 2. Lmites del Dominio Educativo (Dominios con limites difusos/no-finitos vs.
de las pruebas estandarizadas usos e interpretaciones para los que normalmente no Dominios con lmites concretos / finitos).
han sido construidas y, en ocasiones, se desarrollan con esquemas de elaboracin que 3. Dimensionalidad del Dominio Educativo (Dominios Multidimensionales vs.
han sido diseados metodolgicamente para objetivos evaluativos diferentes. Unidimensionales ).
Generalmente, la inadecuacin de las pruebas est en parte debida a que los crite Caractersticas de la poblacin a que va dirigida la prueba. Afecta fundamentalmente a
rios de construccin de pruebas se presentan de manera indiferencia da. Aunque son la eleccin del Modelo de Medida y la seleccin de indicadores que permitan el
pocos los Modelos de Medida disponibles, las variaciones en su aplicacin pueden ser anlisis adecuado del ajuste de las caractersticas de la prueba a las de la poblacin.
mltiples. En la adaptacin precisa de estos elementos radica buena parte de la cali Las dimensiones ms relevantes son:
dad de las pruebas estandarizadas. Por adaptacin nos referimos en este caso al ajuste 4. Amplitud de la poblacin (Poblacin extensa vs. Reducida).
de los mtodos, procedimientos y tcnicas de elaboracin a las caractersticas concre 5. Grado de diversidad de la poblacin'(Poblacn Heterognea vs. Homognea).
tas de la prueba que se desea construir. Estas caractersticas son, a su vez, consecuen Finalidad y uso de la prueba. La Validez no es en s misma una caracterstica imputa
cia del compromiso de diversos factores como son: el objeto de medida, finalidad / uso ble a una prueba, es ms bien el uso que se pretende realizar de las puntuaciones
de la prueba y las caractersticas de las personas a las que se desea evaluar a travs de de ella derivadas lo que debe analizarse como elemento de validacin (Hambleton;
la prueba. En este contexto, puede ser de inters realizar algunas reflexiones acerca de 1984). AS, la utilizacin que se desee realizar de la prueba tiene consecuencias
los componentes generales de actuacin en la elaboracin de pruebas estandarizadas, desde la definicin del Dominio Educativo hasta el establecimiento de Estndares
que permitan un mayor aprovechamiento de stas para los procesos evaluativos. de puntuacin. Las dimensiones ms importantes que pueden identificarse en este
punto son:
DIMENSIONES DE CLASIFICACiN DE LAS PRUEBAS ESTANDARIZADAS 6. Decisiones asociadas al uso de la prueba (De carcter Formativo vs. Sumativo).
7. Unidades sobre las que se pretenden tomar decisiones (Individuos vs. Grupos).
En la literatura especializada en Medicin y Evaluacin se identifican una gran Caractersticas del tipo de Interpretacin de puntuaciones. Como en el caso anterior,
cantidad de trminos referidos a pruebas estandarizadas. Ante esta diversidad es estos elementos afectan a todo el desarrollo de la prueba. La dimensin central a
conveniente determinar algunas dimensiones que nos permitan abordar su clasifica que pueden reducirse estas caractersticas es:
cin. Entre estas dimensiones nos centraremos en aqullas que estn relacionadas con 8. Tipo de Estndar de referencia (Normativo vs. Criterial).
los componentes mtricos o metodolgicos de su elaboracin. En este caso, el grado de
estandarizacin no entra a formar parte de las dimensiones de clasificacin, dado que
es una caracterstica constante en todas las pruebas a las que aqu nos referiremos.
2 Por Dominio Educativo nos referimos al conjunto de objetivos, contenidos, actividades y tareas que
Como sealamos en la introduccin a este artculo, los tipos de pruebas devienen
constituyen el objeto de la educacin, sea en general sea en un programa concreto (Jomet y Surez, 1989a).
J.M. [ornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 145
144
El cruce de estas dimensiones puede servir para identificar las caractersticas de el Anlisis y / o Evaluaciones de Sistemas Educativos, Centros y Programas, pruebas
diversos tipos de pruebas estandarizadas y orientar los componentes especficos de de Certificacin y pruebas de Admisin.
sus procesos de elaboracin. Una propuesta, aunque no exhaustiva, de tipologa de
pruebas estandarizadas se recoge en el Cuadro 1. Los elementos metodolgicos y los Pruebas Estandarizadas como Indicadores de Resultados.
aspectos que entendemos ms relevantes en su construccin los comentaremos a La actividad evaluativa forma parte de la cultura de gestin de los Estados demo
continuacin. crticos. En el mbito pedaggico pueden observarse diversos modelos y enfoques de
Evaluacin de los sistemas educativos en los que confluyen indicadores de diferente
PRUEBAS DE AMPLIO ESPECTRO ndole.
Para la construccin de indicadores de resultados, parece claro que cuando se
En este apartado revisamos las caractersticas y usos de pruebas de Rendimiento aborda el anlisis de un Sistema Educativo, de un Programa o de un Centro, uno de
que se orientan a la evaluacin de grandes reas o Dominios Educativos. En esta los indicadores a tener en cuenta -auIlque no de forma exclusiva- son los resultados
categora incluimos las pruebas que se utilizan como Indicadores de Resultados para esenciales del programa (De Miguel, et al., 1994;Prez Juste y Martnez Aragn, 1989;
Tejedor et al., 1994).
CUADROl En estos contextos es necesario utilizar pruebas estandarizadas que "traduzcan"
TIPOS FUNDAMENTALES DE PRUEBAS ESTANDARIZADAS VALORADOS los niveles de competencia que en las diferentes disciplinas y materias, una sociedad
RESPECTO A OCHO DIMENSIONES BAsICAS DE CARACTERIZACI6N asume como objetivo educativo.
En este sentido, no es posible abordar un anlisis adecuado de un sistema o un
DL\fENSfONfS DE VALORACIN Programa si no se cuenta con pruebas estandarizadas de probada fiabilidad y validez.
As, buena parte de los modelos de evaluacin de Sistemas Educativos basados en
Tipo de Prueba Amplitud Lmites Dimen- Amplitud Grado de Decisiones Unidades Tipo de indicadores' incorporan indicadores de resultados del aprendizaje de los alumnos
Estandarizada del Dominio del Dominio sionalidad' de la diversidad Asociadas sobre las Estndar
sustentados sobre pruebas estandarizadas, diferencindolos de las calificaciones esco
Edu(avo Edu(vo Poblacin de la que se
Poblacin decide
lares o de otros indicadores de sntesis (como las tasas de egresados) que suelen
identificarse como Resultados del Sistema. En los campos de la evaluacin de centros
DE AMpLIOEsPEmo: Amplio No-finitos Multidimen- Amplia/ Hetero- Formati- Grupos Mixto: y de programas tambin resulta habitual la utilizacin de estas pruebas como indica
Indicadores De Difusos sionales Muy gnea vas/ Normativo dores. Mayor tradicin, si cabe, tiene la utilizacin de pruebas de este tipo como
Resultados amplia Sumativas indicadores para actuaciones evaluativas a la medida en muy diversos niveles educa
Certificacin -- -- --
Individuos Normativo
tivos, mbitos de referencia y objetivos (a partir de los servicios de instituciones como
Admisin Sumativas
Criterial el ETS en USA, el APU para Inglaterra, Gales e Irlanda del Norte; o el CITO en el
contexto holands-alemn).
DE NIVELo DOMINIO Mixto Mixto Multidimen- Intermedia Mixto Sumativas Individuos Criterial Qu componentes estn implicados en la elaboracin de estas pruebas?
sionales / Amplia La definicin del Dominio a que se refieren estas pruebas debe realizarse por un
Comit de Expertos en la Materia objeto de evaluacin, apoyados por especialistas en
DE CLASE Reducido Finitos Unidimen- Reducida / Homog- Format- Individuos Criterial
Concretos sionales Muy nea vas/ Medicin y Evaluacin como asesores metodolgicos. Los problemas que deben en
reducida Sumativas frentar este tipo de Comits son variados y de su adecuada solucin depende en
DE PROPSITO Mixto Finitos Mixtos Amplia/ Heterog- Formati- Individuos Normativo

DIAGNSTICO Concretos Reducida nea vas Criterial
4 Existen sistemas de indicadores que permiten la comparabilidad entre diversos pases y utilizan un
INDIVIDUALIZADAS Reducido Finitos Unidimen- Reducida Homog- Formati- Individuos Criterial nmero relativamente reducido de pruebas como es el caso de la OCDE (CERI/lNES; 1995) o la Comunidad
Concretos sionales nea vas/ y/o Europea (West et al., 1995). A un nivel intermedio se encuentran los programas desarrollados por la lEA
Sumativas Grupos (Postlethwaite, 1987), finalmente existen otros ms completos en cuanto a la informacin que emplean sobre
productos educativos como el sistema federal USA (SSPEI, 1991) o algunos otros sistemas ms recientes que
se estn impulsando en el mbito iberoamericano (por ejemplo la propuesta de Martnez Rizo; 1996). En
nuestro pas, el Instituto Nacional de Calidad y Evaluacin (INCE) est desarrollando pruebas como
3 Hace referencia a las caractersticas originales del Dominio Educativo. Todas las pruebas es preciso
indicadores de resultados del sistema educativo, habindose comenzado a publicar los primeros resultados
adecuarlas a Universos Unidimensionales, por lo que en el caso de universos multidimensionales, se
(Gil, Gonzlez y Surez, 1995; INCE, 1996).
focalizan las pruebas sobre regiones especficas del Dominio.
I.M. [ornei Meli y I.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 147
146
buena medida la validez y utilidad de las pruebas resultantes. Pasamos a revisar importante el trabajo realizado por el Comit de expertos, anticipando la estructura
brevemente los elementos que caracterizan mtricamente el desarrollo de estas prue terica posible del Dominio e identificando regiones en el mismo, de forma que para
bas y, en consecuencia, condicionan su uso. cada uno de los sub dominios se configuren pruebas especficas.
El Dominio Educativo, como Universo de Medida, suele ser muy amplio, referido Junto a los problemas tericos contemplados en lneas anteriores, es preciso consi
generalmente a una materia o disciplina considerada en funcin de los objetivos derar en la definicin del Dominio de estas pruebas, algunos aspectos de orden prc
terminales de todo un perodo educativo (por ejemplo, las Matemticas o el Lenguaje tico ligados a la funcionalidad de las mismas. Si se desea desarrollar pruebas que
en la Primaria, o al final de la Secundaria) o, a lo sumo, se focalizan sobre grandes sirvan como Indicador de Resultados y utilizarlas en evaluaciones sucesivas, no es til
dimensiones de las mismas (Medida o Algebra, Comprensin Lectora ...). Adems, los configurar una sola prueba". La alternativa de elaborar Formas Paralelas es compleja y
limites del Dominio suelen ser difusos, dado que junto a la amplitud del mismo, se difcil de lograr. En este marco, la creacin de Bancos de Reglas de Generacin de
suma como dificultad aadida en la definicin del Dominio el hecho de que suelen ser Elementos? -lo ms deseable- o Bancos de ftems -lo ms frecuente- se configuran
pruebas cuya finalidad es la evaluacin en una gran poblacin de sujetos, afectados como alternativas que nos acercan a la posibilidad de disponer de pruebas aleatoria
por muy diversas aplicaciones de los Diseos Curriculares de referencia, desarrolla mente paralelas o al menos equivalentes.
dos sobre diferentes modelos didcticos. En este contexto de desarrollo es especialmente importante el trabajo que realiza el
Este hecho conlleva que nos encontremos ante Dominios en la prctica no-finitos, Comit de expertos en cuanto a la formulacin y revisin de ftems. As, un aspecto
en los que no es posible establecer una estrategia de muestreo probabilstico desde el crucial en la elaboracin de este tipo de pruebas es el Anlisis Lgico de ftems que se
Universo de Medida para configurar la Prueba". De esta forma, la definicin del centra sobre diferentes elementos.
Dominio debe realizarse sobre productos educativos esenciales, equiprobables a tra En primer lugar, respecto a la seleccin inicial de tems, es conveniente basarla en
vs de diferentes subpoblaciones y que mantengan sus parmetros fundamentales dos dimensiones del contenido: a) la importancia de los tems, y b) su dificultad
invariantes en las subpoblaciones identificables en la poblacin. terica. Esta consideracin de dos dimensiones facilita que los tems sean propuestos
Una dificultad adicional en la definicin de este tipo de Dominios reside en que, y seleccionados desde la idea, antes sealada, de que que representen conocimientos o
por la amplitud del Universo de Medida, generalmente no son unidimensionales y habilidades esenciales, cubriendo a su vez diferentes estratos de dificultad. Desde esta
estn apoyados en constructos tericos dbiles'; con pocas evidencias de validacin. estrategia se evita que la seleccin de tems se contamine con la idea de "mnima
En este tipo de pruebas, los avances mas claros corresponden a estructuraciones competencia", la cual, en ocasiones, es entendida como expresin de la dificultad -y
dimensionales por el nivel cognitivo que implican las tareas-tems. no de la importancia-: este hecho constituye una desviacin frecuente del trabajo de
As, si bien la base de desarrollo de la definicin del Dominio recae sobre el juicio estos comits.
de expertos, tambin es cierto que su comprobacin se sustenta fundamentalmente Otro elemento a tener en cuenta en la formulacin de los tems es su calidad
sobre comprobaciones estructurales basadas en el anlisis emprico de los resultados tcnica, la cual es necesario revisar inicialmente por procedimientos lgicos y, poste
de las pruebas. En este sentido, un problema adicional que encontramos en estos riormente, basndose en resultados de ensayos piloto. En el caso de utilizacin de
desarrollos es que la comprobacin de la Unidimensionalidad" es difcil, pues, aunque tems de Eleccin Mltiple, el anlisis de distractores debe constituir un trabajo central
existan propuestas metodolgicas especficas para este tipo de anlisis con variables de este aspecto. As, es tanto ms importante el control y la anticipacin de la dificul
dicotmicas, ciertamente los resultados son insatisfactorios dado que las dimensiones tad y la adivinacin desde la formulacin de los tems, que desde el anlisis emprico
en muchas ocasiones se identifican por la dificultad de los tems y no son interpreta de resultados.
bles desde los contenidos. Junto a estos elementos, el anlisis del Sesgo supone un aspecto clave para la
Por ello, en las estrategias de desarrollo de este tipo de pruebas es especialmente validez de este tipo de pruebas. Debe tenerse en cuenta que stas son pruebas destina
das a la Medicin y Evaluacin de un Dominio en una amplia poblacin de referencia.
De esta manera, es conveniente anticipar en el anlisis lgico las variables que podran
5 Ante la imposibilidad de concretar todos los miembros del Universo de Medida, se pasa a utilizar
estrategias de representacin fundamentadas en tipologas bsicas o elementos clave en la estructura del
Dominio. 8 Una sola aplicacin de una prueba de estas caractersticas puede inhabilitar su uso. Una vez es
6 Es decir, no suelen estar desarrollados a partir de una teora de aprendizaje que, de manera holsta, conocida una prueba de este tipo puede ser utilizada como objeto directo de aprendizaje.
globalice y de sentido a la estructuracin y funcionalidad de la prueba. 9 Son procedimientos que concretan de forma unvoca al tem de forma que su escritura se torna
7 Siendo este un supuesto bsico sobre el que se sustenta la medida desde cualquiera de los modelos automtica, entre ellos los ms destacados son los que se recogen en Roid y Haladyna (1982). Aunque
actualmente existentes y que se enraiza en la informacin que se extrae en cada elemento de la prueba lentamente, los procedimientos han ido evolucionando para tratar de hacer frente a la evaluacin de la
(Hambleton y Swaminathan, 1985; Osterlind, 1992). Aunque se han planteado algunas alternativas para actuacin en tareas complejas, incrementando el nivel cognitivo de la evaluacin (por ejemplo, los conjuntos
superar este problema, como los trabajos de Reckase (1979) o Samejima (1974), hasta el momento no se de tems -tem sets- desarrollados por Haladyna -1992-, o el modelado de tems desarrollado por
pueden considerar como autnticas opciones disponibles. La Duca -La Duca et al. 1986-).
148 I.M. [ornet Meli y I.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 149
actuar como fuente de sesgo. No vamos a extendemos aqu en estos aspectos, dado el Anlisis de parmetros de los tems y el sesgo, junto a comprobaciones de la
que han sido anteriormente expuestos en esta Revista (lornet y Surez, 1990; Ordea fiabilidad como consistencia global seran suficientes para un planteamiento mtrico
na, 1991);sin embargo, en este tipo de pruebas es bsica la independizacin del sesgo, adecuado de las pruebas.
el cual puede provenir de diferentes fuentes como el Sexo, el mbito territorial, los Sin embargo, el contexto de uso de estas pruebas -aunque no requieran de un
niveles socioculturales o socioeconmicos, la Lengua, etc... Estndar para la interpretacin individual de puntuaciones- lleva a que se necesite
El control de todos estos elementos se basa en dinmicas de juicio bien estableci algn procedimiento global. De este modo, estas pruebas se utilizan en Evaluaciones
das, en las que en la sntesis de resultados se utilizan procedimientos de anlisis de la sobre la Calidad de un Sistema, un Centro o un Programa y, por ello, debe tenerse en
consistencia inter-jueces. cuenta que de no acompaarse de ningn elemento interpretativo la Evaluacin que
En este sentido, hay que destacar la necesidad de los procedimientos de juicio, el dar en el terreno meramente descriptivo.
estudio de las dinmicas ms adecuadas a seguir por parte de los Comits y de los En ste mbito, las informaciones normativas son indudablemente la base de an
tipos de anlisis a realizar, tanto como elementos de sntesis de la opinin de los lisis y la referencia ms clara respecto a las caractersticas del Dominio evaluado. No
Comits, como para detectar jueces que aportan valoraciones extremas, etc. obstante, es conveniente que el Comit de Expertos que desarrolla el Anlisis y Espe
La Validez de las pruebas se asienta sobre procesos de anlisis terico de los cificacin del Dominio establezca adems un Estndar" -basado en juicio- que
componentes de medida y la revisin. lgica de todas las unidades". Es fundamental identifique, al menos, los niveles mnimos de competencia aceptables como indicador
reconocer el valor de los procesos de juicio en este mbito, los cuales debern ser de suficiencia del sistema. El Estndar operativiza la idea de calidad. Este tipo de
atendidos adecuadamente. No obstante, un problema habitual que se contempla en Estndares, son especialmente tiles en estudios Longitudinales, pues es conocido que
este tipo de pruebas es que muchas de ellas se sustentan ms sobre el Modelo de cuando trabajamos con grandes muestras, pequeas diferencias se identifican como
Medida utilizado que sobre el anlisis terico del Dominio Educativo. Por mencionar diferencias estadsticamente significativas, y es necesario algn tipo de criterio que
tan slo uno de los elementos clave en que se asienta la Validez de Constructo. De nos permita valorar la "cualidad de la diferencia".
hecho, el problema estriba en que los principios que se refieren a la validez y que estn Para el desarrollo de este tipo de Estndares se puede trabajar desde Metodologas
recogidos en cualquiera de los modelos de medida no son sino una parte relativamen especficas de Estndares basados en los tems. Son especialmente de inters para este
te reducida de los indicios que definimos como facetas de la Validez de Constructo tipo de pruebas los procedimientos desarrollados para situaciones multivariadas de
(Angoff, 1988). Por ello las aportaciones de los modelos de medida deben entenderse decisin, como por ejemplo las propuestas de modificacin del mtodo de Angoff
en un plano instrumental dentro de la estrategia global de validacin y no a la inversa. (Hambleton y Plake, 1995), el procedimiento de Jaeger (1993) o la sntesis formulada
Qu Modelo de Medida es ms adecuado en este contexto? por Putnam, Pence y Jaeger (1995). Estos procedimientos abordan la toma de decisio
Si se pretende utilizar estas pruebas sobre una poblacin amplia, la base mtrica nes en tareas complejas, partiendo de la base de que lo que se busca es un perfil de
necesariamente se encuentra en la Teora de Respuesta al tem que favorece el desarro ejecucin a travs de un conjunto de dimensiones relevantes; lo que es el caso de una
llo de pruebas sobre parmetros invariantes de los tems y que permiten una gradua buena parte de las situaciones que se encuentran dentro de este tipo de pruebas. En
cin adecuada de los tems asociados con la habilidad general que mide la prueba definitiva, constituyen un avance en la linea de operativizar la idea de calidad a partir
(Hambleton y Swaminathan, 1985; Weiss y Yoes, 1991). No obstante, estos modelos de los contenidos evaluados, reteniendo la complejidad consustancial a la magnitud
han demostrado su adecuacin, hasta el momento, con dos condiciones bastante pre del Dominio a que se refieren este tipo de pruebas.
cisas no existiendo un acuerdo generalizado sobre su utilizacin cuando alguna de
ellas no se cumple. La primera condicin resulta de la unidimensionalidad del cons Pruebas Estandarizadas de Certificacin y de Admisin.
tructo y la segunda del tamao de la poblacin referente para establecer la invarianza Estas pruebas tienen por objeto recoger la informacin que permita certificar que
(Linn, 1990; Osterlind, 1992). una persona ha superado administrativamente un determinado nivel educativo o que
Un elemento adicional, que gua la seleccin de Indicadores tanto para el Anlisis tiene los conocimientos necesarios para ser admitido en un programa de formacin de
de Items, como para la Fiabilidad, es el tipo de interpretacin de las puntuaciones que amplio espectro, por ejemplo, en la enseanza universitaria". Son pruebas que, por
se requiere. AS, la dicotoma Normativa-Criterial est a la base de esta seleccin.
11 Entendemos por Estndar la puntuacin en el Dominio que indica el nivel mnimo de competencia.
Las pruebas estandarizadas de Rendimiento como Indicadores de Resultados no Se trata de la expresin de este nivel en la Escala de puntajes verdaderos, tericos, libres de error (Iornet y
son interpretadas individualmente, por lo que, en principio, no sera necesario ningn Surez, 1989b).
elemento que coadyuve a la interpretacin. As, respecto a la seleccin de indicadores, 12 En nuestro pas existen pocas experiencias an desarrolladas con este tipo de pruebas. Estudios de
inters a este respecto son los de Tourn (1985) y Toca y Tourn (1989), en el mbito universitario, o en
relacin a la Educacin General Bsica los trabajos llevados a cabo por Rivas et al. (1986), que desarrollaron
10 Y debe ser refrendada por la acumulacin de evidencias empricas, tanto desde una base de inves una lnea de investigacin que condujo a la elaboracin de pruebas para los finales de Ciclo en la EGB en
tigacin experimental como correlacional. diversas materias.
150 J.M. lornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 151
tanto, se orientan a un universo instruccional muy amplio, cuya definicin es bsica Punto de Corte" son especialmente relevantes. La determinacin de la puntuacin de
mente emprica --es decir, muy operativizada-, y que se centran muy especialmente corte debe desarrollarse a partir de un proceso iterativo en el que se conjuguen
en el producto educativo. tcnicas de juicio con anlisis empricos y en el que el estudio de las consecuencias de
As, si se pretende establecer un nivel generalizado que certifique unos conoci aplicacin del Estndar moderen las aplicaciones de juicio. En este contexto es bsica
mientos mnimos para superar la Secundaria Obligatoria, obviamente estamos ha la retroalimentacin de informacin al Comit de Expertos que desarrolla las pruebas.
blando de abordar la medicin y evaluacin de un Dominio educativo que se extiende En estos procedimientos se tiende a seleccionar la puntuacin de corte como aque
a lo largo de cuatro aos y que est concretado en un nmero importante de materias lla que maximiza la fiabilidad y minimiza los Errores de Seleccin (tipo 1y tipo U). No
diferenciadas. Adems, parece razonable tener presente que para esta situacin no obstante, atendiendo a la Razn de Pase", si es que est prefijada, el Comit de
existen aportaciones tericas que nos permitan extraer conclusiones cindonos a la Expertos puede valorar la utilidad diferencial de asumir decisiones con Error tipo 1 o
valoracin de unas cuantas dimensiones. Como mucho, podremos efectuar una defini tipo U, de forma que se integren en la determinacin de la puntuacin de corte la
cin bastante pormenorizada del Universo de Medida eligiendo algn punto de refe composicin de aquellos errores evaluativos que resulte menos lesiva para el adecua
rencia como pueden ser los textos legales que reflejan las orientaciones y objetivos do uso del estndar.
necesarios en estos niveles. En relacin directa con esta cuestin, si no se dispone de Como en el caso de las pruebas anteriores estas pruebas deben sustentar su desa
un marco terico slido de referencia y se debe abarcar un universo muy amplio es rrollo como Modelo de Medida sobre la Teora de Respuesta al tem. Sin embargo, en
bsicamente imposible abordar una evaluacin del proceso, por lo que estas pruebas la seleccin de indicadores para el anlisis de tems y para la fiabilidad es preciso tener
se suelen concentrar en la valoracin del producto educativo. Las reglas de conexin en cuenta la existencia del estandar criterial. Por ello, en la determinacin de la
entre el Universo de Medida de referencia y la prueba concreta no se pueden especifi fiabilidad deben contemplarse indicadores de Consistencia de la Decisin, de forma
car de forma exhaustiva, por los mismos motivos que acabamos de apuntar. que pueda valorarse la capacidad de la prueba para diferenciar, al menos, entre
Las referencias a la definicin del Dominio Educativo, que sealamos para las sujetos que tienen y no tiene el nivel mnimo de competencia en el Dominio de
pruebas anteriores, son aplicables aqu. nicamente debe tenerse en cuenta que en la Referencia. Por su parte, en el analisis de tems se atender especialmente a la identi
seleccin de unidades del Dominio prevalecern los juicios acerca de la relevancia de ficacin de indicadores de discriminacin, en los que debern incluirse formulaciones
los tems como expresin de competencia, dado que ello es especialmente importante que tengan en cuenta -adems de la capacidad global de discriminacin- la actua
para poder establecer el Estndar. cin consecuente con el Punto de Corte fijado.
Qu tipo de interpretacin se requiereen estas pruebas? Pruebas de Nivel y de Dominio.

A diferencia de las pruebas descritas anteriormente, hay que considerar que a Las pruebas de Nivel y las de Dominio las podemos considerar como variaciones
partir de estas pruebas se pretende realizar una interpretacin especfica del nivel de de las anteriores, diferencindose en virtud de la amplitud del Dominio Educativo a
competencia de cada persona, por lo que el planteamiento global de desarrollo de las que se refieren -que es ms reducido-- o bien en relacin a la amplitud de la
pruebas vara sustancialmente en la seleccin de indicadores. Precisamente debido a poblacin a la que van dirigidas -que tambien suele ser ms especfica-. Tienen en
esta referencia individual en el objetivo de valoracin, en este contexto, cuando se parte por tanto unos objetivos y caractersticas semejantes a las anteriores. En este
trata de la valoracin de personas pertenecientes a una poblacin muy amplia resulta caso, nos estamos refiriendo a pruebas que aporten informacin, por ejemplo, sobre si
especialmente importante enfatizar el anlisis del sesgo para asegurar la equidad de la un estudiante ha alcanzado el nivel suficiente como para pasar de un curso a otro en
evaluacin. una materia, o bien si ha superado los niveles mnimos exigidos en un programa de
El establecimiento del estndar de superacin es difcil que se refiera exclusiva formacin concreto" -por ejemplo, un programa de reciclaje para docentes sobre
mente a un valor absoluto. En este sentido, hay que tener presente que la propia tcnicas de observacin en el aula-. El hecho de referirse a un programa educativo
amplitud y heterogeneidad del contenido hacen muy difcil poder definir exactamente mucho ms concreto conlleva diferencias sustanciales que se pueden sintetizar en las
cul es el nivel mnimo exigible -mediante objetivos o conocimientos especficos- a siguientes:
un sujeto para alcanzar el nivel de competencia. Adems, estas pruebas afectan al
conjunto de la sociedad y, por ello, deben participar muy directamente en este proceso 13 Entendemos por Punto de Corte aquella puntuacin en la prueba que expresa el nivel mnimo de
de decisin los diversos colectivos implicados. As, es conveniente llevar a cabo un competencia. Proviene del Estndar y constituye el ajuste emprico del mismo, teniendo en cuenta criterios
proceso de determinacin del estndar de tipo mixto, integrando los criterios absolu de fiabilidad (Jomet y Surez, 1989b).
14 % de sujetos que pueden ser admitidos, por ejemplo, en un programa.
tos con las consecuencias que de su aplicacin se derivaran para diferentes colectivos.
15 Se ha informado de algunos desarrollos especficos de pruebas -insertas en Modelos evaluativos
De este modo, es muy importante tener en cuenta en este trabajo la minimizacin que podran ser identificables en esta categora como los trabajos de Rodrguez Lajo (1986), Jomet (1987) y
de los Errores de Seleccin, por lo que las labores de adecuacin del Estndar como Jornet et al. (1993).
-
152 J.M. [ornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 153
a) se puede dar una definicin del universo de referencia tanto emprica como esencialmente las condiciones de objetivacin de la medida. Y ello a veces se olvida
terica - esto ltimo especialmente en los programa ms concretos-, por parte de los detractores de las pruebas, poniendo el nfasis sobre aspectos propios
b) se puede aspirar a la valoracin del proceso y no slo del producto. Al ser de la individualizacin que, sin embargo, podran se atendidos con pruebas estanda
pruebas referidas a dominios ms concretos cabe identificar unidades en el rizadas, sin considerar que los procedimientos no-estandarizados no resuelven ade
Dominio, a partir de las cuales se puedan realizar inferencias acerca de los cuadamente los problemas derivados de la subjetividad del observador o el evalua
procesos, dor.
e) las reglas de conexin entre el universo y la prueba estn mucho ms determi Por otra parte, el marco derivado de la LOGSE ha puesto de manifiesto la necesi
nadas --en numerosas ocasiones completamente determinadas-, dad de individualizar o personalizar los diseos curriculares. Un problema prctico al
d) en el anlisis de tems, junto a los indicadores de los parmetros bsicos resulta que habitualmente aluden los profesores es la falta ,de metodologa adecuada para el
de inters (al ser pruebas de nivelo de evaluacin de un programa especfico) la desarrollo de las Adaptaciones Curriculares Individualizadas. Obviamente, las solu
sensitividad instruccional, como expresin de la capacidad de los tems para ciones no estn slo en la Medida y la Evaluacin, pero stas constituyen un elemento
discriminar las adquisiciones propias del programa, instrumental inicial desde el que abordar la solucin de este problema.
e) la amplitud de las poblaciones de referencia puede condicionar el Modelo de As, debe tenerse en cuenta que el desarrollo de pruebas estandarizadas para la
Medida adecuado a cada caso. As, se debe distinguir entre las pruebas que se evaluacin de una unidad didctica es probablemente el marco donde puede dispo
orientan a poblaciones amplias y las que se destinan a mbitos ms concretos. nerse de pruebas ms vlidas. Esto es as, dado que los Dominios Educativos de
Por ejemplo, hay que diferenciar entre una prueba de Clculo para primero de referencia en estos casos constituyen Universos de Medida finitos, claramente espec
Primaria aplicable a estudiantes valencianos y otra destinada a evaluar la com ficables, concretos.
petencia alcanzada en un programa de formacin para la participacin de Equi Este hecho afecta directamente a la Validez de Contenido, pudiendo aspirar en este
pos Directivos de Centros. El Dominio se concreta en ambos caso, pero la contexto a pruebas ms representativas del Dominio Educativo del que se derivan.
primera situacin va dirigida a una poblacin amplia y le son aplicables los Por otra parte, si se estructura el Dominio Educativo de forma perfectamente asociada
mismos referentes de Medida que los ya comentados en los casos anteriores, al planteamiento metodolgico-didctico, la Validez de Constructo tambin puede
mientras que en la segunda situacin las pruebas se debern sustentar en la verse beneficiada. Esto es as, no slo por el hecho de la asociacin trabajo de aula
Teora Clsica del Test y en indicadores que provienen del mbito de la Evalua sistema de evaluacin (que sera una expresin ms concreta de la Validez de Cons
cin Referida al Criterio". tructo, como Validez Curricular), sino muy especialmente por las caractersticas del
f) el estndar de referencia est normalmente basado en un criterio absoluto desarrollo del aprendizaje, en el que se podr reflejar el constructo terico que est a la
-aunque se den, obviamente, casos en que se utiliza una combinacin con base del diseo curricular y del enfoque metodolgico-didctico del programa.
informacin normativa-. Adems, los Dominios Educativos, en estos casos, se refieren a unidades didcticas
-o lecciones- por lo que incluyen pocas unidades, lo que favorece el micro-anlisis
En cualquier caso, este tipo de pruebas se sita entre las pruebas amplio espectro y de todas las tareas-tems implicados en el Dominio. Pueden permitir, pues, una defini
las de Aula, adoptando caractersticas que les s~n propias a los dos enfoques. cin exhaustiva de la poblacin de conductas que pongan de manifiesto las adquisi
ciones (habilidades, capacidades y destrezas) a que hace referencia un Dominio. De
PRUEBAS DE CLASE O DE USO EN EL AULA esta forma, en la definicin de este tipo de Dominios cabe identificar unidades de
medida, a partir de las cuales se puedan inferir interpretaciones procesuales bastante
Las pruebas de Clase o pruebas de Aula hacen referencia a las que puede utilizar el precisas, as como de productos especficos.
profesor para la evaluacin de sus alumnos. No obstante, es en este mbito donde Ello favorece que este tipo de pruebas pueda estar muy bien adaptado para la
probablemente se aprecia una peor aceptacin de las pruebas estandarizadas. Y ello, medicin y evaluacin de procesos y productos de aprendizaje". De este modo, las
porque se atribuye a la Estandarizacin condiciones que alejan estas pruebas de la posibilidades de interpretacin se abren: no slo se puede interpretar un nivel de
individualizacin. competencia -a partir de la puntuacin total- sino explicar el nivel, informando de
Sin embargo, debe tenerse en cuenta que ambos -Estandarizacin e Individualiza los procesos de adquisicin -a partir de la interpretacin particular de los tems-.
cin- no son conceptos necesariamente contradictorios; ms bien, es el tipo de uso Este hecho se ve favorecido porque la situacin de Medida que puede darse en un
que se realice de las pruebas lo que puede enfrentarlos. La Estandarizacin mejora Aula no tiene por qu limitarse a una situacin de examen habitual tipo test. En este
16 En ambos casos se pueden utilizar aportaciones derivadas de la Teora de la Generalizabilidad para
conseguir indicadores ms consistentes de los parmetros de la prueba, especialmente en aquellos casos en 17 Recientemente se ha venido informando de propuestas de inters en nuestro mbito educativo,
los que no sea adecuado utilizar los modelos TRI (Brennan, 1983; Shavelson y Webb, 1991). como las de Buenda y Salmern (1994) o las de Toboso (1995 a y b).
154 J.M. Jornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 155
marco, pueden formar parte de la "prueba" diversos tipos de elementos: desde tems medida y del uso de la prueba, as como las que devienen de los tipos de distribucin
clsicos de lpiz y papel hasta tems mcro-situacionales en los que la valoracin que podemos encontrar en pequeas muestras", conllevan necesarias modificaciones
provenga de la observacin de la tarea que realiza cada individuo. en la utilizacin e interpretacin de indicadores clsicos. De esta manera, caractersti
La definicin del Dominio, establecimiento de Reglas de generacin de tems y cas bsicas empricas tiles en la seleccin de tems del Modelo Clsico no seran
escritura de tems, la realiza -como en casos anteriores- un comit de expertos, pero deseables aqu. El valor de los parmetros e indicadores radica no tanto como elemen
en esta situacin, est compuesta por los profesores de una materia (o departamento, to de seleccin de los tems (que se sustentar preferentemente sobre procesos de
o equipo de ciclo). juicio) como elemento de informacin para el grupo de profesores -Comit- que
En el trabajo a realizar por el Comit hay que tener en cuenta los siguientes desarrolla la prueba. Su valor como indicadores de seleccin de tems, se circunscribe
aspectos: a la comprobacin de las hiptesis funcionales que el Comit haya anticipado para los
Antes de desarrollar la prueba es esencial definir el rol que sta tendr dentro tems, respecto a la dificultad terica y su capacidad de discriminacin primordial
de los recursos evaluativos de que disponga el profesor. El contexto ideal de mente (Jornet y Surez, 1994 ; Rivas, Jornet y Surez, 1995).
uso es aquel en el que se identifican fuentes mltiples y diversos instrumentos. Qu tipo de interpretaciones se requieren?
En el desarrollo del Anlisis del Dominio la reflexin deber orientarse hacia En este contexto, en donde se deben tomar decisiones acerca de la promocin de
elementos de relevancia de los tems respecto de los objetivos que pretenden cada persona en su aprendizaje, es preciso conocer adecuadamente su posicin res
medir (Congruencia tem-Objetivo) as como respecto a la representatividad de pecto del Dominio Educativo, por lo que la interpretacin necesariamente debe ser
los tems -como situacin evaluativa- en relacin a los planteamientos meto criterial, basada en un estndar absoluto.
dolgico-didcticos seguidos en el Aula. Para el desarrollo del Estndar y su especificacin como puntuacin de corte la
Aunque en este contexto no resulta tan trascendente el anlisis del Sesgo de los aportacin del Comit de Expertos es nuevamente esencial. Entre los mtodos en que
tems, su anticipacin -por procesos de juicio- es una labor de especial inte pueden apoyarse, en este contexto de desarrollo de pruebas, cobran especial relevan
rs. As, junto a variables bsicas como Sexo o Lengua -en Comunidades cia aqullos que utilizan como informacin para retroalimentar al Comit en su proce
bilinges-, dependiendo del nivel educativo, pueden producirse sesgos en so de determinacin, el anlisis de las consecuencias de su aplicacin sobre sujetos
situaciones de apertura del currculum. De esta manera, pueden haber alumnos conocidos (Livingston y Zieky, 1982). Estos usos, en la prctica, se convierten en
reforzados en su aprendizaje de una materia por el efecto del aprendizaje de evidencias de validacin de la puntuacin de corte.
otras opcionales. Este tipo de sesgo sera importante identificarlo a efectos de En cualquier caso, los procesos de evaluacin en el Aula hay que considerar que no
determinar adecuadamente el nivel de competencia a que puede aspirarse en la se debe aspirar a que se sustenten sobre pruebas estandarizadas exclusivamente. La
materia en la que se desarrolla la prueba. oportunidad de su utilizacin depende fundamentalmente de que sean adecuadas al
N o obstante, aunque existan sesgos de los que necesariamente tengamos que tipo de materia que se pretenda evaluar. La defensa del uso de este tipo de pruebas
independizar a las pruebas, otros -como el ltimo mencionado- puede ser para la evaluacin debe realizarse desde el marco en que realmente sean ms tiles
difcil de eliminar, por lo que al menos es importante identificarlos, conocerlos, (fiables y vlidas) que otras alternativas o tcnicas evaluativas. Asimismo, debe tener
y asignarles valor diagnstico o modulador de las decisiones evaluativas. se en cuenta que las pruebas estandarizadas deben derivarse desde un programa
El anlisis del sesgo en este caso se basa ms sobre procesos cualitativos de educativo bien establecido y, como instrumento estn al servicio del mismo. Un peli
juicio que sobre la comprobacin emprica de los resultados obtenidos por las gro genrico que nace del uso de cualquier sistema de evaluacin es que acaben
personas evaluadas. El factor clave para poder llevar a cabo una comprobacin siendo los instrumentos los que constituyan la referencia para el desarrollo del progra
adecuada es el tamao de la muestra, en estos casos muy reducida. ma, acabando por condicionar su uso (De la Orden, 1993).
Respecto a los componentes tcnicos derivados del Modelo de Medida, en este PRUEBAS DE PROPSITO DIAGNSTICO
contexto no puede utilizarse la Teora de Respuesta al tem, dado que el tamao de los
grupos que se trabaja es muy reducido. Las Pruebas de Propsito Diagnstico rompen con el discurso de lo ms general a
No obstante, dentro de la Teora Clsica de los Tests se dispone de indicadores lo ms concreto que relaciona los tres tipos que hemos expuesto. As, mientras en las
suficientes que pueden, realizando las adecuadas adaptaciones en su uso e interpreta pruebas revisadas con anterioridad el objetivo es, en trminos generales, valorar las
cin, operacionalizar los anlisis necesarios. Asimismo, en el marco de la Evaluacin
Referida al Criterio existen mltiples indicadores de fcil utilizacin que racionalizan
18 No sera aceptable anticipar como efecto educativo que el Rendimiento se distribuir como la Curva
la lgica de seleccin criterial.
Normal. Es ms lo habitual -y deseable- sera que los efectos educativos fueran asimilables a distribucio
Sin embargo, hay que tener presente que las caractersticas derivadas del objeto de nes beta, con tendencia asimtrica negativa.
156 I.M. [ornet Meli y I.M. Surez Rodrguez Pruebas estandarizadasy evaluacin del rendimiento 157
adquisiciones sobre un programa educativo, ms o menos amplio, aqu se trata de das en unas reglas de conexin con el universo tan especficas como lo permita las
poder indagar respecto a la posible existencia de determinados problemas de aprendi caractersticas y la amplitud del mismo. Finalmente, el estndar en que se basa la
zaje y cules son sus caractersticas concretas. El objetivo es, pues, delimitar si se da un decisin suele ser una combinacin de indicadores absolutos y normativos. Esto es as
determinado problema en el proceso normal de adquisiciones que desarrolla un sujeto dado que para la determinacin de la existencia de un problema suele ser tan til
y poder extraer informacin sobre la cualidad de tal problema, de modo que se pueda emplear definiciones absolutas que reflejen las claves de su identificacin (nivel en
orientar mejor la subsiguiente intervencin. que se produce un problema, patrn procesual del mismo, etc ...) como la informacin
En este grupo incluimos dos grandes tipos de pruebas: referidas al Currculum y relativa al grupo de pertenencia para situar la dimensin caracterstica del mismo
de diagnstico propiamente dichas. -por ejemplo, un problema de inversiones en la lectura depender tanto de una
Las pruebas estandarizadas referidas a un currculum tienen por objeto indagar determinada frecuencia concreta como de la situacin relativa dependiendo del grupo
acerca de la posicin de un sujeto respecto a un Diseo Curricular dado (que acta de edad al que pertenece el sujeto-.
como Dominio Educativo). Las hemos clasificado aqu porque su propsito general
mente es de tipo diagnstico, dado que se trata de recabar informacin independiente PRUEBAS INDIVIDUALIZADAS
de las calificaciones escolares -y sin finalidad de uso en el contexto del Aula- acerca .....
de si los sujetos tienen adquisiciones bsicas correspondientes con su desarrollo curri En este caso el objeto es proporcionar un sistema de recogida de informacin muy
cular-escolar, o bien presentan disfuncones=-". flexible que se ajuste a las caractersticas de cada sujeto o situacin de medida y que
Generalmente, estas pruebas pretenden abarcar Dominios amplios, correspondien proporcione, por ello, una informacin ms rica y significativa en los puntos crticos.
tes a dimensiones que se identificables a travs de un Diseo Curricular de largo Como se aprecia en el Cuadro 2, no siempre la unidad de referencia es un sujeto
alcance (como por ejemplo, Numeracin, Clculo Mental, Interpretacin de Datos o concreto, pudiendo ser un currculum o programa completo. Adems, la adaptacin
Resolucin de Problemas). Sin embargo, en el anlisis del Dominio prevalece la iden puede realizarse de forma esttica o dinmica. En el primer caso la prueba entera se
tificacin de los elementos clave que se asocian a diferentes etapas de adquisicin. construye en funcin de las caractersticas o directrices del grupo o situacin de
Esta identificacin es la que permite situar al sujeto en su nivel de aprendizaje en el referencia, mientras que en el segundo caso es el propio rendimiento el que proporcio
Dominio. na el patrn de referencia para la adaptacin sucesiva de la prueba.
Por su parte, las pruebas Diagnsticas propiamente dichas tienen como finalidad Estamos hablando de pruebas que precisan de una definicin lo ms exhaustiva
no slo determinar la posicin del sujeto en el Dominio de referencia, sino describir posible del Dominio Instruccional de referencia y de unas reglas sumamente concretas
adecuadamente los elementos deficitarios con el fin de planificar la intervencin. En de relacin entre el Universo Instruccional y la prueba. De no producirse estas condi
este sentido, las unidades del Dominio deben estar claramente definidas y previamen ciones no se podra establecer bien el ajuste para cada situacin o individuo.
te analizadas respecto a su asociacin con unidades de intervencin. En general, las pruebas adaptadas se fundamentan en bancos de objetivos e tems
Es habitual que en estas situaciones se parta de un marco terico que define que ofrecen algunas grandes organizaciones pblicas y privadas. Los dos formatos
dimensiones respecto de las cuales su puede concentrar la informacin significativa esenciales se dan en funcin de que sea la propia empresa u organizacin que facilite
para la toma de decisiones, aunque no siempre tenga la consistencia terico-metodol la adaptacin ya completada al usuario final o que se le suministre la informacin y
gica debida (De la Orden et al. 1994). una herramienta informtica a este ltimo para que pueda hacer esta adaptacin por
Como seala Oosterhof (1994), las pruebas de propsito diagnstico deben ser sus propios medios. As, los sistemas AIMS (Academic Instructional Measurement
utilizadas con cautela, pues la investigacin bsica acerca de los constructos en ellas Systems) de The Psychological Corporation, ORBIT (Objective-Referenced Bak of fte
implicados, todava es escasa'". ms and Tests) de CTB/McGraw-Hill o MULTISCORE de The Riverside Publishing
En relacin directa con esto, el objetivo de la evaluacin con estas pruebas es mixto, Company estn compuestos por unos centenares a miles de objetivos y muchos miles
en el sentido que pueden estar orientadas al proceso educativo, al producto o a de tems que abarcan la mayor parte de los mbitos curriculares de la educacin
cualquier combinacin de ambos objetivos. Esto conlleva que las pruebas estn basa- primaria y secundaria.
La adaptabilidad en el caso de situaciones o programas depender de la cantidad
19 Aunque no son muy frecuentes, existen ya algunas pruebas de inters como por ejemplo la Escala
de opciones disponibles sobre el dominio (objetivos, tems, etc.), de las informaciones
Key-Math R de Connolly (1988), adaptada por Mar (1996) a nuestro contexto educativo o algunas otras sobre la estructura y caractersticas mtricas de los elementos (dificultad, discrimina
desarrolladas directamente en el mismo, como la Batera de Pruebas de Lenguje FCI (Bartolom, et al., cin, eleccin de alternativas, recomendaciones asociadas, etc.) y de la existencia de
1985). mecanismos para integrar variaciones propias de cada situacin en la prueba (herra
20 Sin embargo, se pueden identificar ya desarrollos muy adecuados (como la prueba CRIL de Len mientas que permitan el desarrollo de objetivos, tems con diversas variantes, reco
guaje de Wiig, 1990,de la que parte el desarrollo de la prueba ICL de Puyuelo y Renom -1993- y Puyuelo,
Renom y Solanas -1995-). mendaciones, etc.).
158 J.M. [ornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 159
En el caso de los tests con adaptacin instantnea a la ejecucin por el sujeto CUADRO 2
-como el MicroCAT Testing System (Assessment Systems Corporation, 1988) o los SfNTESIS DE PROCEDIMIENTOS DE PRUEBAS INDIVIDUALIZADAS
WICAT Systems (1986)- sirven esencialmente las ideas que acabamos de apuntar. No
Caractersticas de las TareaslPruebas
obstante, la adaptabilidad en estos casos se incrementa cuando esta pruebas se puede Tipos de Prueba o procedimiento Objetivo
adaptar mejor al sujeto en la situacin especfica de aplicacin que sirve como referen
PRUEBASDEADMINISTRACIN Mejorar la precisin en la estimacin Las tareas estn graduadas, en oca-
cia (sea el programa, el sistema especfico de recuperacin, etc.). Asimismo, la infor
INDIVIDUAL de la habilidad del sujeto siones se basa la administracin en
macin que se puede obtener en estas situaciones es tan rica que difcilmente se puede senderos de decisin.
encarar una prueba de este tipo solamente en funcin de una valoracin del producto.
No obstante, este es el enfoque predominante todava, pues se ha producido una Obtener mltiples medidas paralelas, Pruebas estadsticamente paralelas
PRUEBASDEFORMASMLTIPLES
adaptacin excesivamente mimtica respecto a las pruebas tradicionales. Pinsese que equivalentes -{) al menos rompa-
estamos hablando de pruebas que por su complejidad, normalmente, precisan de un rables- de cada sujeto.
soporte de tecnologa informtica, ya que el nico medio que facilita una gran preci
sin y variedad en la recoleccin de informacin. De hecho, este tipo de medida es el PRUEBASESTANDARIZADAS
DE Simplificar la medida ajustndola .....Items basales; determinaciones del
horizonte natural de los sistemas EAO al incorporar la evaluacin dinmica que se NIVELESMLTIPLES al nivel de habilidad del sujeto nivel inicial de partida de la prueba.
precisa en estos casos. Hoy en da, con todo, la mayora de los sistemas EAO estn
lejos de adoptar las posibilidades de medida inherentes a este tipo de pruebas -de TESTSADAPTATIVOS Maximizar la precisin de la estima- Items clave-caractersticos de niveles.
hecho, tienen serios problemas para cubrir las mnimas directrices que garanticen una DE NIVEL cin de la habilidad de cada sujeto,
valoracin del rendimiento-. Existen, no obstante, algunas excepciones que constitu utilizando el mnimo nmero de tems
yen caminos muy sugerentes, como la experiencia del Cognition Technology Group
DIAGNSTICOS Diagnosticar las dificultades de Seleccin especfica de los tems a
en la Universidad de Vanderbilt (Goldman, Pellegrino y Bransford, 1994),con plantea administrar en funcin del nivel
aprendizaje concretas del sujeto
mientos integrales de enseanza y evaluacin-medida que pueden aportar respuestas inicial demostrado por el sujeto en
a algunas necesidades de transformacin que ya hemos sealado. tems de prueba.
La calidad de la Definicin del Dominio de estas pruebas basadas en bancos de
tems es bastante elevada". En cualquier caso, el nivel de especificacin que requieren SOPORTESTECNOLGICOS
A Automatizar la construccin de Pruebas ajustadas a diseos curricula-
permite una valoracin ajustada y actualizada de estos sistemas que sirva de referen LAINVIDUALIZACIN pruebas a partir de una definicin res y adaptadas a niveles especficos.
cia para nuestra actuacin. Por ejemplo, se realizan revisiones de estos sistemas peri BANCOSDETEMS genrica del Dominio, con tems
dicamente que nos aaden referentes de validez y utilidad de los mismos (Naccarato, TRADICIONALES cerrados e identificados por sus
1988). parmetros.
Los Modelos de Medida asociados a las aplicaciones ms consistentes estn basa
BANCOSDEREGLASDE Automatizar la construccin de Tests paralelos en contenido, dife-
dos en Teora de Respuesta al tem, tanto para la composicin del banco de referencia
GENERACINDEfTEMS tems, y en algunos casos, incluso rentes para cada sujeto y que pueden
como para su gestin en cada situacin de evaluacin concreta (Kingsbury y Zara,
su administracin. Generar mlti- ajustarse a los diversos curricula.
1989). No obstante, como ya hemos sealado, el campo es muy heterogneo y deses
pies pruebas paralelas.
tructurado, hallndose incluso pruebas que no estn soportadas por modelo alguno
de medida. En definitiva, para los proyectos de una cierta envergadura -respaldados
por instituciones o empresas de suficiente solvencia-las herramientas disponibles en
los modelos TRI constituyen la recomendacin universalmente aceptada. Las limita
ciones son las mismas que ya se han descrito respecto a otras pruebas y las ventajas sugerentes, no se han estructurado en ningn planteamiento suficientemente slido
son an mayores, al entramarse los procedimientos con mayor facilidad en una estruc hasta el momento presente.
tura de aplicacin basada en ordenador. Queda por resolver, a pesar de todo, una Por lo que respecta a los estndares, aunque tambin utiliza~ informacin.r~s~ecto
amplia variedad de temticas y situaciones para las que, al igual que en otros contex a criterios diferenciales, lo fundamental de las decisiones consiste en las definiciones
tos de evaluacin, no cesan de proponerse alternativas parciales que, siendo muy absolutas que incorporan. De hecho, en muchos casos los refe~entes difer.enciales ~on
parciales o imposibles, en funcin de l~ ~da~tacin que se ~e~l~~e-por e!emplo, SI s.e
21 Otra cuestin bien diferente la constituyen los sistemas de evaluacin ligados a las aplicaciones aade una cantidad sustancial de modificaciones en la definicin de algun subdomi
EAO, cuya calidad metodolgica general es muy desigual. nio educativo todo referente normativo a este respecto carecera de validez-. En otras
160 J.M. [ornei Meli y I.M. Surez Rodrguez Pruebas estandarizadasy evaluacin del rendimiento 161
situaciones, la informacin normativa solamente puede actuar corno referente marco formacin de estos profesionales en estas reas, dado que son instrumentales para su
relativamente alejado, dado que el propsito de estas pruebas suele ser ms formativo actuacin docente.
u orientado a la recuperacin. Desafortunadamente existe poco trabajo hecho en este Por ltimo, la estandarizacin de la medida, corno base para la evaluacin, si
mbito e incluso las orientaciones reflejadas a este respecto en las "normas y orienta quiera en sus versiones ms "tecnolgicas" --corno las Pruebas Asistidas por Ordena
ciones de actuacin" (APA, 1986) no parecen haber madurado suficientemente la dor-, no implica necesariamente un empobrecimiento de la informacin necesaria en
necesaria adaptacin a estas situaciones de medida-evaluacin. la evaluacin. Existen suficientes vas de trabajo para incorporar definitivamente la
medida de tareas complejas, el proceso de construccin de los conocimientos, el apren
ALGUNAS NOTAS FINALES dizaje cooperativo o el pensamiento crtico. En buena medida, nos tenernos que com
prometer en realizar un esfuerzo por avanzar en esas direcciones y tratar de situarnos
La evolucin de los mtodos de construccin de pruebas aporta una base bastante en lnea con los pases ms desarrollados en estos mbitos disciplinares.
slida para el desarrollo de instrumentos estandarizados de evaluacin. Para nuestro
mbito educativo, los desarrollos son muy escasos, aunque crecientes, en consonancia REFERENCIASBIBLIOGRFICAS
con la progresiva implantacin de actividades de evaluacin. El arraigo de una cultura "-.
evaluativa sin duda conllevar la necesidad de utilizar instrumentos mucho mejor AMERICAN PSYCHOLOGICAL ASSOCIATION (1986) Guidelines for computer-based
construidos y adaptados que los que habitualmente se utilizan. La demanda de cali tests and inierpretation. Washington, D.e.: Autor.
dad tambin afectar a los instrumentos evaluativos. Slo ser posible responder a ANGOFF, W.H. (1988) Validity: An evolving concept. En H. WAINER y H.1. BRAUN
estos retos si abordarnos decididamente el desarrollo de instrumentos de medida (Eds.) Test Validity. Hillsdale, NJ: LEA
educativa, que respondan a las necesidades de los diversos programas y fenmenos a BARTOLOM, M.; BISQUERRA, R; CABRERA, F.; ESPN, J.V.; MATEO, J. Y RODR
evaluar. GUEZ, Ll. (1985) Batera de Pruebas de Lenguaje Final de Ciclo Inicial. Barcelona:
La institucionalizacin de la revisin del sistema educativo y de los diferentes CEAe.
componentes y actores del mismo es una realidad a la que necesariamente se debe BRENNAN, RL. (1983) Elements of Generalizability Theory. Iowa City, lA: American
responder con instrumentos mejor diseados. Incluso, hechos evaluativos que afectan College Testing Programo
muy directamente a nuestra sociedad -corno es la selectividad universitaria- en la BUENDfA, L. Y SALMERN, H. (1994) Construccin de pruebas criteriales de aula.
actualidad an se desarrolla sobre esquemas imprecisos, que hacen que sta no res Revista de Investigacin Educativa, 23, 405-410.
ponda en definitiva al sistema y que no se pueda hablar de equidad evaluativa. CERI/INES (1995) Educaiion at a Glance. OECD Indicators. Pars: OECD.
Actuaciones corno la selectividad estn reclamando respuestas profesionales evaluati CONNOLLY, AJ. (1988) Key Math Reoised: a diagnosiic inventory of eseeniial mathematics.
vas que, al menos, integren las opciones metodolgicas disponibles. Circle Pins, Minnesota: American Guidance Service.
En el campo del Diagnstico Educativo tambin es evidente la carencia de instru DE LA ORDEN, A (1993) Influencia de la evaluacin del aprendizaje en la eficacia de
mentos. De hecho no se dispone de Bateras a lo largo de los diferentes niveles y reas la enseanza. Revista de Investigacin Educativa, 22, 7-42.
educativas que cubran las dimensiones esenciales del Rendimiento. Otro tanto puede DE LA ORDEN, A; GAVIRIA, J.L.; FUENTES, A Y LZARO, A (1994) Modelos de
decirse respecto a las versiones individualizadas, corno las Pruebas Asistidas por construccin y validacin de instrumentos diagnsticos. Revista de Investigacin
Ordenador, que adems deben reivindicar su existencia frente a los exiguos sistemas Educativa, 23, 129-178.
de evaluacin que incorporan las aplicaciones de Enseanza Asistida por Ordenador: DE MIGUEL, M. et al. (1994) Evaluacin para la calidad de los Institutos de Educacin
Respecto a las evaluaciones en el Aula deben estar soportadas sobre una profunda Secundaria. Madrid: Escuela Espaola.
reflexin por parte de los profesores acerca de los componentes de sus diseos curri GIL, G.; GONZLEZ, A Y SUREZ, J.e. (1995) Un modelo de construccin de prue
culares. Un aspecto central de esta reflexin debe ser el sistema de evaluacin. El bas de rendimiento para la evaluacin de las enseanzas mnimas en la Educacin
desarrollo de instrumentos no tiene por qu ser la finalidad, pero s constituye un Primaria. En AIDIPE (Comp.) Estudios de Investigacin Educativa en Intervencin
buen medio de revisin de los componentes de un programa educativo, as corno de Psicopedaggica. Valencia: AIDIPE.
los elementos que inciden en su realizacin. Incorporar elementos propios de las GOLDMAN, S.R, PELLEGRINO, J.W. Y BRANSFORD, j.o. (1994) Assessing progra
pruebas estandarizadas, corno son el anlisis de los Dominios Educativos o el Desarro ms that invite thinking. En E. BAKER Y H.F. O'NEIL Jr. (Eds.) (1994) Technology
llo de Estndares, aunque no se persiga ni se llegue a una estandarizacin completa, Assessment in Education and Training. Hillsdale, NJ: LEA
supone indudablemente integrar elementos de mejora de los procesos evaluativos. HALADYNA, T.M. (1992) Context dependent tem sets. Educational Measurement: Issues
Obviamente, en muchas ocasiones se afirma que el profesorado no ha sido formado and Practce. 11, 11-25.
para abordar este tipo de procesos. La respuesta es clara: es necesario reforzar la HAMBLETON, RK. (1984) Validating the tests scores. En R BERK (De.) A guide to
-
162 J.M. Jornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 163
Criterion-Referenced Tests construction. Baltimore, Mass.: Johns Hopkins University RECKASE, M.D. (1979) Unifactor latent trait models applied to multifactor tests. [our
Press. nal of Educational Statistics. 4, 207-230.
HAMBLETON, RK.; SWAMINATHAN, H. (1985) tem Response Thory: Principles and RIVAS F. et al. (1986): Proyecto Valencia: Objetivos bsicos de aprendizaje en los Ciclos y
Applications. Norwell, MA: Kluwer. Areas de Lenguaje y Matemticas en la EGB. Una aproximacin de Evaluacin Referida al
INCE (1996) Lo que aprenden los alumnos de 12 aos. Evaluacin de la Educacin Primaria. Criterio. Valencia: Servicio de Estudios y Publicaciones Universitarias, S.A
Datos bsicos. 1995. Madrid: Centro de Publicaciones del Ministerios de Educacin RIVAS, F. JORNET, J.M. y SUREZ J.M. (1995) Evaluacin del aprendizaje escolar:
y Cultura. claves conceptuales y metodolgicas bsicas. En F. SILVA (De.): Evaluacin psicol
JORNET, J.M. (1987) Una aproximacin terico-emprica a los mtodos de medicin de gica en nios y adolescentes. Madrid: Sntesis.
referencia criterial. Tesis Doctoral. Valencia: Universitat de Valencia. RODRGUEZ LAJO, M. (1986) Evaluacin del rendimiento criterial vs. Normativo.
JORNET, J.M. y SUREZ, J.M. (1989a): Conceptualizacin del Domnio educativo Modelo de evaluacin FCO. Revista de Investigain Educativa. 3, 6, 304-321.
desde una perspectiva integradora en Evaluacin Referida al Criterio. Bordn. 41, ROID, G.H. y HALADYNA, T.M. (1982) A technology of test-item writing. New York :
2,237-275. Academic Press.
JORNET, J.M. y SUREZ, J.M. (1989b): Revisin de Modelos y Mtodos en ladeter SAMEJIMA, F. (1974) Normal ogive model on the continuous response level in the
minacin de estndares y en el establecimiento de un Punto de corte en Evaluacin multidimensionallatent space. Psychometrika. 39, 111-121.
Referida al Criterio (ERC)>>.Bordn. 41, 2, 277-301. SHAVELSON, RJ. y WEBB, N.M. (1991) Generalizability Theory. A Primer. Newbury
JORNET, J.M. y SUREZ, J.M. (1994) Evaluacin Referida al Criterio. Construccin de Park, CA: SAGE.
un Test Criterial de Clase. En V. GARCA HOZ (Dir.) Problemas y Mtodos de SPECIAL STUDY PANEL ON EDUCATION INDICATORS (SSPEI) (1991) Education
Investigacin en Educacin Personalizada. Madrid: Rialp. counts. An indicator system to monitor the naiion's educational health. Washington:
JORNET, J.M., SUREZ, J.M., GONZLEZ SUCH, J., PREZ CARBONELL, A y National Center for Educational Statistics. USA Department of Education.
FERRNDEZ, M.R (1993) Evaluation Report of the Project: Communicaiion and Pre TEJEDOR, F.J.; GARCA VALCRCEL, A y RODRGUEZ CONDE, M.J. (1994) Pers
sentation Sklls for Technological Transfer Agents. Euro-Innovations-Manager. Valen pectivas metodolgicas en la evaluacin de programas en el mbito educativo.
cia: ADEIT /IMPIVA/CEEI. Revista de Investigacin Educativa. 23, 93-128.
KINGSBURY, G.G. y ZARA, AR (1989) Procedures for selecting tems for computen TOBOSO J. (1995a): Fundamentos tericos del proceso evaluador desde el marco
zed adaptive testing. Applied Measurement in Education 2(4), 359-375. curricular de la LOGSE. En AIDIPE (Comp.): Estudios de Investigacin Educativa en
LADUCA, A, STAPLES, W.I., TEMPLETON, B. y HOLZMAN, G.B. (1986) tem mo Intervencin Psicopedaggica.Valencia: AIDIPE.
delling procedure for constructing content-equivalent multple-choce questions. TOBOSO J. (1995b): Estudio emprico sobre la Evaluacin de componentes cognitivos
Medical Educaiion, 20, 53-56. en la Resolucin de problemas. En AIDIPE (Comp.): Estudios de Investigacin Educa
LINN, RL. (1990) Has tem Response Theory increased the Validity of Achievement tiva en Intervencin Psicopedaggica.Valencia: AIDIPE.
Test scores? Applied Measurement in Educaiion, 3, 2, pp. 115-141. TOCA, M.T. Y TOURON, J. (1989) Factores del Rendimiento Acadmico en los Estu
LIVINGSTON, S.A y ZIEKY, M.J. (1982) Passing Scores. Princeton N.J.: ETS. dios de Arquitectura. Revista de Investigacin Educativa, 7, 14, 31-47.
MARI, R (1996) Evaluacin del Rendimiento en Matemticas: adaptacin de la Escala Key TOURON, J. (1985) La prediccin del rendimiento acadmico: procedimientos, resul
Math-R. Tesis Doctoral (en prensa: microficha). Valencia: Universitat de Valencia. tados e implicaciones. Revista Espaola de Pedagoga, 169-170, 473-495.
MARTNEZ RIZO, F. (1996) La calidad de la educacin en Aguascalientes. Diseo de un WEISS, D.J. y YOES, M.E. (1991) Item Response Theory. En RK. HAMBLETON y J.N.
sistema de monitoreo. Aguascalientes, Mxico: Universidad Autnoma de Aguasca ZAAL (eds.) Advances in Educational and Psychological Testing. Boston, MA: Kluwer
lientes (UAA)-Instituto de Educacin de Aguascalientes (lEA). WEST, A; PENNELL, H.; THOMAS, S. y SAMMONS, P. (1995) Educational perfor
NACCARATO, RW. (1988) A guide to item banking in Education (3a ed.) Portland, O.: mance indicators. EERA Bulletin, 1, 3, 3-11.
Northwest Regional Education Laboratory.
ORDEANA, B. (1991)Funcionamiento diferencial de los terns: una aplicacin al campo
de las diferencias entre sexos. Revista de Investigacin Educativa, 9, 17, 119-128.
OSTERLIND, S.J. (1992) Constructing test items. (2a ed.). Boston: Kluwer.
PREZ JUSTE, R Y MARTNEZ ARAGN, L. (1989) Evaluacin de centros y calidad
educativa. Madrid: Cincel.
POSTLETHW AITE, T.N. (1987) Introduction: Special issue on the Second lEA Study.
Comparative Educational Review. 31(1), 150-158.

Revista Evaluación Educativa

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Revista Evaluación Educativa

Uploaded by

Copyright:

Available Formats

Revista de Investigacin Educativa - Vol. 14, n. o 2, pgs.

PRUEBAS ESTANDARIZADASY'EVALUACIN DEL

j.M. jornet Meli y j.M. Surez Rodrguez'

1 Dpto. Mtodes d'Investigaci i Diagnostic en Educaci. Universitat de Valencia (Estudi General).

INTRODUCCiN de la confluencia de diversos factores. En ellos, podemos identificar dimensiones de

DE PROPSITO Mixto Finitos Mixtos Amplia/ Heterog- Formati- Individuos Normativo

Qu tipo de interpretacin se requiereen estas pruebas? Pruebas de Nivel y de Dominio.

You might also like