You are on page 1of 13

Revista de Investigacin en Educacin, n 5, 2008, pp.

13-25 ISSN: 1697-5200


http://webs.uvigo.es/reined/

ARTCULO ORIGINAL

CONSTRUCCIN DE INSTRUMENTOS DE MEDIDA PARA LA


EVALUACIN UNIVERSITARIA

JOS MUIZ y EDUARDO FONSECA-PEDRERO


CIBERSAM, Universidad de Oviedo

RESUMEN: En el artculo se analizan los problemas metodolgicos implicados en la


evaluacin universitaria. Se trata de analizar todos aquellos aspectos tcnicos y de
procedimiento que son necesarios para llevar a cabo evaluaciones rigurosas en el mbito
universitario, tanto en lo relativo a investigacin, como a la docencia y gestin. Para
ello se repasarn los distintos componentes de un proceso evaluativo integral, a saber,
qu se evala, partes legtimamente implicadas, quin evala, cmo se evala, feedback
a las partes, planes de mejora, y opinin de las partes. Se har especial hincapi en los
requisitos metodolgicos necesarios para que los instrumentos de medida utilizados en
la evaluacin sean fiables y vlidos. Para ello se describen diez pasos necesarios que
hay que seguir para construir y analizar este tipo de instrumentos de medida. Se finaliza
discutiendo las perspectivas de futuro en el mbito de la evaluacin universitaria.

PALABRAS CLAVE: Evaluacin, Universidades. Construccin de tests. Escalas.

ABSTRACT: In this paper, we analyze the methodological problems involved in the


evaluation of universities. We describe the technical and procedural aspects required to
carry out rigorous assessments in the college context, particularly with respect to
research and teaching. We start by reviewing the different components of the integral
evaluation process, such as determining what is assessed, who are the assessors, how to
asses in a technically sound way, providing feedback to all stakeholders, developing
improvement plans derived from the evaluation, and measuring the opinions of those
involved in the evaluation process. Special attention is paid to the technology and the
methodology required for developing reliable and valid assessment instruments. Ten
steps followed to develop rigorous and objective assessment instruments are described
in detail, pointing out the possible difficulties and problems to be found. Finally, we
discuss future directions for college evaluation.

KEY WORDS: Evaluation. University. Test development. Scaling.

Tal vorgine evaluativa tiene como


1. INTRODUCCIN finalidad legtima la elaboracin de un diagnstico
Parafraseando al clsico bien podra decirse riguroso que permita mejorar los tres grandes
que un fantasma recorre la Universidad Espaola, parmetros que determinan la calidad de una
es el fantasma de la evaluacin, de repente todo el Universidad: Investigacin, Docencia y Gestin.
mundo se ha puesto a evaluar a todo el mundo a Ciertamente, sin una evaluacin precisa de esos
todas horas. tres parmetros no se puede hacer un diagnstico
__________________________________________ riguroso y certero que permita generar planes de
Fecha de recepcin 08-10-2008 Fecha de aceptacin 17-12-2008 mejora basados en datos empricos. Los rankings
Correspondencia : Jos Munz
CIBERSAN, Universidad de Oviedo de universidades, tanto nacionales como
internacionales ejercen una fuerte presin y nadie
quiere quedarse atrs (Buela-Casal, Bermdez,
Sierra, Quevedo-Blasco y Castro-Vzquez, 2009).
Desde un punto de vista metodolgico, una
evaluacin integral de cualquier organizacin o
institucin como es la Universidad requiere
Revista de Investigacin en Educacin, ISSN: 1697-5200 13
JOS MUIZ & EDUARDO FONSECA-PEDRERO

disponer de un modelo general de evaluacin que plantearse grandes objetivos que son imposibles de
integre y d sentido a las distintas evaluaciones medir de forma rigurosa, como medir de forma
especficas que necesariamente se llevarn a cabo. muy precisa aquello que es irrelevante pero muy
Ms all de algunas deficiencias y limitaciones medible. La virtud est en el punto medio, hay que
tcnicas de las evaluaciones concretas realizadas, llegar a un compromiso para evaluar lo esencial del
seguramente la limitacin estructural ms constructo, y hacerlo de forma vlida y fiable, lo
importante en la evaluacin actual de las uno sin lo otro conduce a una evaluacin fracasada.
universidades es la carencia de un modelo general En el contexto de la evaluacin universitaria
que integre y gue las evaluaciones sectoriales. Este existen numerosos objetivos de evaluacin, pero
modelo general debe de dar respuesta clara y casi todos ellos se pueden clasificar en tres grandes
operativa al menos a siete cuestiones clave: bloques: individuos, productos y sistemas. En el
- qu se evala caso de los individuos se evalan alumnos,
- cules son las partes legtimamente profesores, personal de administracin y servicios,
implicadas en la evaluacin o gestores (Rectores, Decanos, Directores de
- quin evala Departamento, etc.). La evaluacin de cada uno de
- cmo se evala: qu metodologa utilizar estos aspectos conlleva una problemtica especfica
- qu feedback se ofrece a las partes en la que resulta imposible entrar aqu, vase, por
implicadas ejemplo Centra (1993), Fernndez (2008),
- planes de mejora generados por la Fernndez, Mateo y Muiz (1995, 1996), Aleamoni
evaluacin (1999), Beran y Violato (2005) y Marsh y Roche
- opinin de las partes implicadas sobre la (2000) para todo lo relativo a la evaluacin del
evaluacin. profesorado. Conviene llamar la atencin sobre la
A continuacin se comentan de forma escasa formacin que los profesores universitarios
somera los problemas implicados en cada una de suelen tener sobre la metodologa de la evaluacin
estas facetas, para finalmente centrarnos en lo que educativa, imprescindible para llevar a cabo una
constituye el ncleo central de este artculo, a evaluacin objetiva de los estudiantes (Brennan,
saber, cmo se evala, qu propiedades mtricas 2006; Joint Committee on Standards for
deben de tener los instrumentos de evaluacin Educational Evaluation, 2003). En cuanto a los
universitaria para obtener datos fiables y vlidos productos evaluados la gama es ciertamente
que sirvan para tomar decisiones fundadas. amplia, destacando los proyectos de investigacin,
Conviene dejar claro ya desde el principio que artculos, tesis, libros, curricula, planes de estudios,
disponer de instrumentos de evaluacin etc. En cuanto a los sistemas evaluados pueden
tcnicamente adecuados no garantiza en absoluto citarse los departamentos, facultades, institutos,
un proceso evaluativo global exitoso, es una grupos de investigacin, msters, bibliotecas, y
condicin necesaria, pero no suficiente. Si se universidades como tales.
dispone de excelentes instrumentos de medida Como se puede ver las dimensiones para
desde el punto de vista mtrico, pero se descuida evaluar en el contexto universitario son muchas y
alguno de los siete aspectos citados del modelo variadas, si bien no conviene que los rboles nos
integral de evaluacin habremos fracasado en el impidan ver el bosque, los dos grandes parmetros
proceso de evaluacin. que determinan la calidad de una Universidad son,
por un lado, la calidad de los alumnos, y por otro,
1.1. Qu se evala la calidad de los profesores. La calidad de una
Lo primero y fundamental que hay que hacer Universidad viene dada por el producto de esos dos
cuando se planifica una evaluacin es definir de factores, igual que el rendimiento de un alumno
forma clara, concisa y operativa aquello que se viene dado por el producto de su capacidad por su
desea evaluar. Esto parece obvio y de sentido esfuerzo. Atraer a los mejores alumnos y a los
comn, pero a menudo los objetivos de la mejores profesores es lo que garantiza la calidad de
evaluacin aparecen confusos y pobremente una Universidad, si bien hay otros factores
definidos, con lo cual la evaluacin est condenada complementarios de inters, tales como el nmero
al fracaso, utilcese la metodologa que se utilice. de alumnos por profesor, las bibliotecas, las
Una definicin operativa, es decir, susceptible de facilidades informticas, el tamao de la
ser medida, obliga a buscar un compromiso entre la Universidad, la gestin realizada, la calidad de
riqueza del constructo a medir y la objetividad de aulas, laboratorios, instalaciones deportivas, cultura
los instrumentos de medida utilizados. Tan vano es de empresa, y un largo etctera. La mayora de los
Revista de Investigacin en Educacin, ISSN: 1697-5200 14
CONSTRUCCIN DE INSTRUMENTOS DE MEDIDA PARA LA EVALUACIN UNIVERSITARIA

rankings que se hacen sobre las universidades apenas si cubre un diez por ciento de lo que cuesta
(International Ranking Expert Group, 2006) miden su formacin, siendo aportado el resto por los
de un modo u otro esos dos grandes factores para impuestos de los ciudadanos, tengan o no hijos en
establecer las clasificaciones. As, por ejemplo, el la Universidad. A la hora de llevar a cabo cualquier
popular ranking elaborado por el diario britnico evaluacin debe definirse con precisin qu papel
The Times asigna un 60% a la calidad de la juega cada uno de estos agentes implicados, el cual
investigacin, un 10% a la capacidad de que un variar en funcin de la naturaleza y fines de la
graduado encuentre trabajo, otro 10% a la evaluacin.
presencia internacional, y un 20% a la relacin
nmero de estudiantes-profesores. Por su parte el 1.3. Quin evala
bien conocido ranking de Shanghai (Institute of Segn la relacin de los agentes evaluadores
Higher Education, 2008) pondera con un 10% el con la institucin, suele hablarse de evaluacin
nmero de premios Nobel, con un 20% a los externa, cuando los evaluadores, personas o
ganadores de la Medalla Fields (una especie de agencias, son externos a la institucin, evaluacin
Nobel de Matemticas), 20% a los investigadores interna, cuando pertenecen a la propia institucin
altamente citados, 20% a los artculos publicados evaluada, o mixta, si es una mezcla de ambas. No
en las revistas Nature y Science, 20% al impacto de existe una regla universal, los tres modelos son
los trabajos registrados por Science Citation Index, legtimos y depender de cada caso que se elija un
y finalmente un 10% al tamao de la institucin, modelo u otro. As, es habitual que las propias
que s cuenta. Ni que decir tiene que las universidades evalen la actividad docente de los
universidades espaolas no aparecen entre los cien profesores, si bien en algunos casos se recurre a
primeros puestos de estas clasificaciones, ni estn instancias externas. Sin embargo, para evaluar los
en vas de aparecer. El anlisis del porqu de esta proyectos de investigacin y los curricula suele
situacin nos llevara lejos de los objetivos de este recurrirse a agencias externas, o utilizar modelos
trabajo, pero las causas profundas hay que mixtos. Una evaluacin no es mejor ni peor por ser
buscarlas en un sistema que impide que las realizada externa o internamente, de lo que se trata
universidades seleccionen a los mejores alumnos y es que sea objetiva, rigurosa, independiente, fiable
a los mejores profesores e investigadores, as de y vlida. Cada caso aconsejar si para obtener estos
simple y as de complejo. En un trabajo reciente resultados es mejor recurrir a evaluaciones
Buela-Casal et al. (2009) encuentran que los externas, internas o mixtas.
profesores de Universidad espaoles asignan los
siguientes valores (de 1 a 5) a los criterios para 1.4. Cmo se evala: qu metodologa
evaluar la produccin cientfica: Artculos en utilizar
revistas con Factor de Impacto (4,19), Tramos de Desde un punto de vista mtrico, los
Investigacin (3,95), Proyectos I+D conseguidos instrumentos que se utilicen para la evaluacin han
(3,90), Tesis doctorales dirigidas (3,47), Becas de ser objetivos, claros, comprensibles por las
FPU (3,03), y Doctorados con mencin de calidad partes, preferiblemente cuantitativos, fiables y
(3,02). Estos valores dan una idea bastante clara de vlidos. Ms adelante detallaremos los pasos que
lo que piensa la comunidad universitaria acerca de deben seguirse para desarrollar instrumentos de
la produccin cientfica de los investigadores. evaluacin que cumplan estas condiciones. No
obstante, conviene aclarar desde el principio que un
1.2. Partes legtimamente implicadas en instrumento mtricamente adecuado es condicin
la evaluacin necesaria, pero no suficiente para llevar a cabo una
Si bien en cada caso concreto pueden existir evaluacin exitosa (Muiz y Bartram, 2007).
ligeras variantes, en el contexto universitario los Aspectos como el proceso de aplicacin del
agentes legtimamente implicados en las instrumento, el uso que se hace de los resultados, o
evaluaciones son entre otros: los alumnos, los el feedback dados a las partes, pueden hacer que un
padres de stos, los profesores, el personal de excelente instrumento no genere los resultados
administracin y servicios, los gestores deseados de la evaluacin. En suma, la evaluacin
universitarios, y la propia sociedad, representada es un proceso, uno de cuyos componentes son los
por los polticos elegidos, que subvenciona la instrumentos de evaluacin, pero no los nicos.
Universidad. Se olvida con demasiada frecuencia
que lo aportado por las matrculas del alumno 1.5. Feedback a las partes implicadas

15 Revista de Investigacin en Educacin, ISSN: 1697-5200


JOS MUIZ & EDUARDO FONSECA-PEDRERO

La finalidad de toda evaluacin universitaria un plan de mejora no est consensuado con las
es generar mejoras en la calidad universitaria, y partes es altamente probable que no funcione. Han
para que ello se produzca es fundamental dar el de formularse de forma objetiva, contemplndose
feedback adecuado a las partes implicadas. Una en el diseo la forma de evaluarlos, es decir, la
evaluacin tcnicamente perfecta no cumplira su evaluacin forma parte del propio plan de mejora.
objetivo si no se hiciera llegar la informacin Un plan no evaluable objetivamente en realidad no
correspondiente a las partes legtimamente es un plan, es como mucho un deseo
implicadas. Aparte de los planes de mejora que se bienintencionado. Hay que evitar generalizaciones
elaboren a partir de la evaluacin, el mero hecho de hueras del tipo: el plan propuesto se propone re-
comunicar de forma adecuada los resultados culturalizar la Facultad. Si un plan de mejora no
constituye el agente de cambio ms eficaz y conlleva el diseo de su evaluacin objetiva no
econmico. Meter los resultados de una evaluacin puede considerarse como tal en sentido estricto. Es
en un cajn, o no hacer llegar a quien corresponda recomendable llevar a cabo una evaluacin previa
el feedback pertinente es un error que debe evitarse. al plan, una posterior al plan, y hacer un
La explicacin y difusin de los resultados seguimiento a medio y largo plazo. Siempre que
constituye una parte esencial del proceso sea posible es recomendable utilizar uno o ms
evaluador. Debe de analizarse y estudiarse con grupos de control.
suma precisin y rigor cul es la mejor manera de
dar el feedback a las partes implicadas, buscando la 1.7. Opinin de las partes implicadas en
mxima efectividad, en el sentido de generar la evaluacin
mejoras en el sistema. Por ejemplo, cmo se El proceso de evaluacin termina con la
deben de dar a los profesores los resultados de la recogida de informacin de las partes implicadas a
evaluacin hecha por los estudiantes? Han de los distintos niveles de la evaluacin. Este aspecto
hacerse pblicos en el tabln de anuncios del es fundamental, pues va a permitir llevar a cabo
centro? Han de ser privados? Deben conocerlos reformulaciones y ajustes cara a futuros planes de
el decano y el director del departamento? Qu evaluacin. La informacin puede recogerse de
informacin debe de incluirse? De poco vale que el muy diversas formas, incluyendo encuestas de
cuestionario utilizado sea excelente si luego se falla opinin, cuestionarios, reuniones de grupo,
a la hora de solucionar estas y otras cuestiones entrevistas personales, etc. Se trata de hacer una
(Fernndez, 2008). No hay reglas especficas que recogida de informacin lo ms objetiva, rigurosa,
resuelvan toda la casustica evaluativa fiable y vlida posible. Aparte del valor intrnseco
universitaria, pero s dos pautas generales que hay de la informacin recogida, se fomentar la
que seguir a la hora de generar el feedback. En identificacin e implicacin de los distintos agentes
primer lugar, el feedback ha de ser rpido, cuanto en el proceso, sintindolo ms suyo y cercano.
ms tiempo pase entre la evaluacin y el momento Una vez comentados los siete aspectos
de proporcionar feedback ms ineficaz se vuelve la fundamentales implicados en el proceso de
evaluacin. Esto vale para todo tipo de evaluacin universitaria, vamos a centrarnos ahora
evaluaciones, y en especial para las calificaciones en los distintos pasos y actividades que habra que
de los alumnos. En segundo lugar, el feedback ha seguir para desarrollar instrumentos de medida con
de ser conciso y claro de interpretar, ajustando su unas propiedades mtricas deseables para su
formato e informacin en funcin del destinatario. empleo en la evaluacin universitaria.
Antes de llevar a cabo la evaluacin ha de preverse
exactamente el feedback que se va a proporcionar. 2. CONSTRUCCIN DE INSTRUMENTOS
DE MEDIDA PARA LA EVALUACIN
1.6. Planes de mejora UNIVERSITARIA
Toda evaluacin est destinada a terminar en En el contexto de la evaluacin
un plan de mejora de algn aspecto institucional. universitaria, entendemos por instrumento de
Existen planes de mejora de todo tipo y condicin, medida un procedimiento estandarizado que
si bien todos ellos deben reunir determinados permite obtener un conocimiento objetivo de una
requisitos. En primer lugar, han de estar persona, producto, sistema o institucin. La
fundamentados en datos objetivos de partida y importancia de unos instrumentos de evaluacin
tener tambin metas objetivas de llegada, que sean adecuados radica en la trascendencia de las
evaluables preferiblemente de forma cuantitativa. decisiones y las consecuencias que a partir de ellos
Han de ser acordados por las partes implicadas, si se derivan, tanto personales como sociales
Revista de Investigacin en Educacin, ISSN: 1697-5200 16
CONSTRUCCIN DE INSTRUMENTOS DE MEDIDA PARA LA EVALUACIN UNIVERSITARIA

(Anastasi y Urbina, 1998; Kane, 2006; Messick, 3.1. Marco general del instrumento de medida
1998; Muiz, 1997b; Padilla, Gmez, Hidalgo y Todo proceso de construccin de un
Muiz, 2006; Padilla, Gmez, Hidalgo y Muiz, instrumento de medida comienza por una
2007; Sireci, 2007; Sireci y Parker, 2006; Zumbo, justificacin detallada y precisa de cules son las
2007). Si el proceso de construccin se lleva cabo causas que motivan su construccin. Asimismo,
de forma defectuosa las inferencias que se hay que delimitar con claridad cul es la variable
obtengan a partir de las puntuaciones y la toma de objeto de medicin, cul va a ser el contexto de
decisiones que de ellas se deriven sern totalmente aplicacin o circunstancias en el que se va a
equivocadas e infundadas (Elosa, 2003; Muiz, administrar el instrumento de evaluacin, el tipo de
2004; Muiz, Fidalgo, Garca-Cueto, Martnez y aplicacin (individual, colectiva), el formato de
Moreno, 2005; Schmeiser y Welch, 2006). aplicacin (lpiz y papel, informtica), y qu
Los requisitos tcnicos que debe cumplir decisiones se van a tomar a partir de las
un instrumento de evaluacin aparecen bien puntuaciones. Las causas que pueden llevar a la
documentados en la literatura especializada construccin de un instrumento de evaluacin son
(American Educational Research Association, diversas. Por ejemplo, un profesor universitario
American Psychological Association y National puede decidir construir un nuevo instrumento
Council on Measurement in Education, 1999; porque no existe ningn otro para medir una
Carretero-Dios y Prez, 2005; Clark y Watson, determinada variable, porque imparte docencia en
1995; Downing, 2006; Morales, Urosa y Blanco, una materia nueva y necesita evaluar a sus
2003; Muiz, 1996, 1997a, 2000; Nunnally y estudiantes, o simplemente porque los instrumentos
Bernstein, 1995; Schmeiser y Welch, 2006; Smith, existentes en el mercado presentan unas psimas
Fischer y Fister, 2003; Wilson, 2005). La propiedades mtricas. Los responsables de la
construccin de un instrumento de medida es un construccin del instrumento de medida no slo
proceso complejo que se puede articular en varios deben especificar el motivo por el cual quieren
pasos, si bien stos no son automticos y desarrollar un instrumento nuevo, sino tambin
universales, pudiendo variar en funcin del deben delimitar con claridad cul es el contexto en
propsito del instrumento de medida (seleccin, el que se va a aplicar, lo que incluye
diagnstico, etc.), del tipo de respuesta (seleccin o necesariamente la poblacin objeto de medicin
construccin), del formato de administracin (lpiz (alumnos, profesores, departamentos, etc.) y las
y papel o informatizado), o del contexto de circunstancias de aplicacin (lugar, medios de los
evaluacin (exmenes, evaluacin docente, etc.), que se dispone y condiciones de aplicacin,
por citar slo algunos casos. Todo el proceso de individual o colectiva). Tambin debe de
construccin debe ser definido objetivamente especificarse de antemano con qu propsito van a
siguiendo unos principios tericos y mtricos para ser utilizadas las puntuaciones y qu decisiones se
as maximizar su validez (Downing, 2006; Smith, van a tomar a partir de ellas. En este sentido, las
2005). Puede decirse que el proceso de validacin puntuaciones en un instrumento de evaluacin
ya comienza a fraguarse antes de la propia pueden servir para propsitos varios como por
elaboracin del instrumento, pues todas las ejemplo: seleccionar, diagnosticar, clasificar,
acciones que realicemos antes, durante y despus orientar, evaluar un dominio especfico o incluso
permitirn recoger datos empricos que ayuden a la como mtodo de screening (American Educational
interpretacin de las puntuaciones (Elosa, 2003; Research Association et al., 1999). Se debe dejar
Muiz, 2004; Zumbo, 2007). claro que las inferencias que se extraigan de las
puntuaciones de un instrumento de medida son
3. PASOS PARA LA CONSTRUCCIN DE UN siempre para un uso, contexto y poblacin
INSTRUMENTO DE MEDIDA determinada. As, lo que pueda ser vlido para un
En la Tabla 1 se recogen de forma grupo determinado de personas o poblacin tal vez
esquemtica las principales fases que se deben no lo sea para otra, y lo que pueda ser vlido en un
considerar en el proceso de construccin y contexto de evaluacin no tiene por qu serlo en
validacin de los instrumentos de medida, y a otro diferente (Zumbo, 2007).
continuacin se comenta cada una de ellas.

17 Revista de Investigacin en Educacin, ISSN: 1697-5200


JOS MUIZ & EDUARDO FONSECA-PEDRERO

1. Marco general del instrumento de medida


- Justificacin y motivacin
- Contexto de aplicacin
- Uso e interpretacin de las puntuaciones

2. Definicin operativa de la variable medida


- Definicin operativa
- Definicin sintctica y semntica

3. Especificaciones del instrumento de medida


- Requerimientos de administracin
- Tipo, nmero, longitud, formato, contenido y distribucin de los tems
- Especificaciones e instrucciones en la entrega del material
- Aspectos de seguridad

4. Construccin de los tems


- Directrices para la construccin de tems de eleccin mltiple
- Principios generales para la construccin de tems

5. Produccin, base de datos, normas de puntuacin y correccin


- Composicin
- Edicin
- Puntuacin y correccin

6. Estudio piloto cualitativo y cuantitativo


- Seleccin de la muestra piloto (cualitativo y cuantitativo)
- Anlisis y resultados del estudio piloto (cualitativo y cuantitativo)
- Depuracin, revisin, modificacin o construccin de tems
- Produccin de una nueva versin del instrumento de medida

7. Seleccin de otros instrumentos de medida convergentes


- Obtener informacin convergente
- Utilizar pruebas ya validadas

8. Estudio de campo
- Seleccin y tamao de la muestra y tipo de muestreo
- Administracin del instrumento de medida
- Control de calidad y seguridad de la base de datos

9. Estimacin de las propiedades mtricas


- Anlisis de tems (cualitativo y cuantitativo)
- Dimensionalidad
- Estimacin de la fiabilidad
- Obtencin de evidencias de validez
- Tipificacin

10.Versin definitiva, informe final y manual del instrumento de medida


- Prueba fina propuesta
- Manual
Tabla 1. Fases generales del proceso de construccin de instrumentos de medida

Revista de Investigacin en Educacin, ISSN: 1697-5200 18


CONSTRUCCIN DE INSTRUMENTOS DE MEDIDA PARA LA EVALUACIN UNIVERSITARIA

3.2. Definicin operativa de la variable medida 2005; Muiz, 2004) y validacin de teoras (Smith,
El objetivo esencial de esta segunda fase es 2005).
la definicin operativa, semntica y sintctica de la
variable medida, as como las facetas o 3.3. Especificaciones del instrumento de medida
dimensiones que la componen (American Una vez delimitados el propsito de la
Educational Research Association et al., 1999; evaluacin y la definicin operativa de la variable
Carretero-Dios y Prez, 2005; Lord y Novick, que interesa medir se debe llevar a cabo
1968; Wilson, 2005). determinadas especificaciones relacionadas con el
El constructo evaluado debe definirse en instrumento de medida. En esta fase se debe
trminos operativos, para que pueda ser medido de describir de forma detallada y precisa aspectos
forma emprica (Muiz, 2004). En este sentido, tan concernientes a los requerimientos de
interesante puede ser definir cuidadosamente lo que administracin del instrumento de medida, el tipo,
es el constructo como lo que no es. La facilidad o nmero, longitud, contenido y distribucin de los
dificultad de la definicin operativa depende en tems, especificaciones e instrucciones en la
cierta medida de la naturaleza de variable objeto de entrega del material y aspectos relacionados con la
medicin. seguridad del mismo.
Para llevar a cabo una definicin operativa Los requerimientos de administracin del
de la variable que nos interesa medir es clave instrumento de medida se refieren a cul va a ser el
realizar una revisin exhaustiva de la literatura soporte de administracin (papel o informtico), a
publicada al respecto, as como la consulta a qu tipo de aplicacin se va a realizar (individual o
expertos (Clark y Watson, 1995; Wilson, 2005). colectiva), y cundo y en qu lugar se va a
Ello permite, por un lado, delimitar la variable administrar el instrumento de medida. Igualmente,
objeto de medicin, y considerar todas las se deben especificar los requerimientos cognitivos,
dimensiones relevantes de la misma, y por otro, de vocabulario y de accesibilidad de los
identificar con claridad los comportamientos ms participantes. Es importante llevar a cabo
representativos de la variable de medicin (Dolores adaptaciones de acceso en aquellos participantes
y Padilla, 2004; Smith, 2005). Hay que evitar el que no puedan desempear la tarea en igualdad de
dejar fuera alguna caracterstica o dominio condiciones que el resto, por ejemplo disponer de
relevante del constructo (infraestimacin), as una versin en Braille para una persona con
como ponderar en demasa una faceta o dominio deficiencia visual. Todo sistema universitario que
(sobreestimacin) (Smith et al., 2003). Una se precie debera evaluar en las mismas
definicin operativa y precisa del constructo condiciones y con la misma calidad a todos sus
influye de forma determinante en la posterior integrantes independientemente de su condicin.
obtencin de los diferentes tipos de evidencias, En relacin con los tems se debe
ayuda a especificar las conductas ms especificar el tipo, el nmero, la longitud, el
representativas de la variable objeto de medicin y contenido y el orden (disposicin) de los mismos,
facilita el proceso de construccin de tems as como el formato de respuesta o el tipo de
(Carretero-Dios y Prez, 2005; Elosa, 2003; alternativas que se van a utilizar. Con respecto a
Muiz et al., 2005; Sireci, 1998; Smith, 2005). este tema, no existen normas universales, todo
No slo es importante una definicin depender de las circunstancias de aplicacin, del
operativa de la variable sino que tambin es preciso propsito del constructor y de otras variables.
identificar y definir las facetas o dominios del
mismo (definicin semntica) y la relacin que se 3.4. Construccin de los tems
establece entre ellas as como con otras variables La construccin de los tems constituye una
de inters (definicin sintctica) (Lord y Novick, de las etapas ms cruciales dentro del proceso de
1968). La variable objeto de medicin no se construccin del instrumento de medida (Downing,
encuentra aislada en el mundo, sino que est en 2006; Schmeiser y Welch, 2006). Los tems son la
relacin o interaccin (positiva y/o negativa) con materia prima, los ladrillos, a partir de la cual se
otras variables. Es interesante comprender y forma un instrumento de evaluacin, por lo que una
analizar estas relaciones especificndolas de construccin deficiente de los mismos, como no
antemano con el propsito de llevar a cabo puede ser de otro modo, incidir en las propiedades
posteriores estudios dirigidos a la obtencin de mtricas finales del instrumento de medida y en las
evidencias de validez (Carretero-Dios y Prez, inferencias que se extraigan a partir de las

19 Revista de Investigacin en Educacin, ISSN: 1697-5200


JOSE MUIZ Y EDUARDO FONSECA-PEDRERO

puntuaciones (Muiz et al., 2005). Los principios exhaustiva de las fuentes bibliogrficas, as como a
bsicos que deben regir la construccin de otros instrumentos similares ya existentes. En
cualquier banco de tems son: representatividad, relacin con la valoracin de los tems por parte de
relevancia, diversidad, claridad, sencillez y los expertos y con la finalidad de una evaluacin
comprensibilidad (Muiz et al., 2005). Todos los ms precisa y objetiva del conjunto inicial de
dominios de la variable de inters deben de estar tems, se puede pedir a los expertos que juzguen, a
igualmente representados, aproximadamente con el partir de un cuestionario, si los tems estn bien
mismo nmero de tems, a excepcin de que se redactados para la poblacin de inters, si son o no
haya considerando un dominio ms relevante pertinentes para evaluar una faceta o dominio
dentro de la variable, y que por lo tanto, deba tener determinado y si cada tem representa de forma
un mayor nmero de tems, esto es, una mayor adecuada la variable o dimensin de inters.
representacin. Un muestreo errneo del dominio
objeto de evaluacin sera una clara limitacin a las 3.5. Produccin, base de datos, normas de
inferencias que con posterioridad se dibujen a puntuacin y correccin
partir de los datos. Los tems deben de ser En esta fase se compone, se edita y se lleva
heterogneos y variados para as recoger una mayor a imprimir la primera versin del instrumento de
variabilidad y representatividad de la variable de medida, adems de construir la base de datos con la
medida. Debe primar la claridad y la sencillez, se claves de correccin. Este paso ha sido con
deben evitar tecnicismos, dobles negaciones, o frecuencia injustamente infraestimado y olvidado,
enunciados excesivamente prolijos o ambiguos sin embargo es clave, pues el continente bien
(Muiz et al., 2005). Del mismo modo, los tems podra echar a perder el contenido. Buenos tems
deben ser comprensibles para la poblacin a la cual pobremente editados dan como resultado un mal
va dirigido el instrumento de medida, evitndose en test, igual que las malas barricas pueden echar a
todo momento un lenguaje ofensivo y/o perder los buenos caldos. Podemos haber
discriminatorio. tems con una redaccin construido un buen banco de tems que de nada
defectuosa o excesivamente vagos van a servir si luego stos se presentan de forma
incrementar el porcentaje de varianza explicada desorganizada, con errores tipogrficos, o en un
debido a factores espurios o irrelevantes, con la cuadernillo defectuoso. Uno de los errores ms
consiguiente merma de validez de la prueba. frecuentes entre los constructores de tests
Si los tems provienen de otro instrumento aficionados es utilizar fotocopias malamente
ya existente en otro idioma y cultura, debern grapadas, con la excusa de que slo se trata de una
seguirse las directrices internacionales para la versin experimental de la prueba, olvidndose que
traduccin y adaptacin de tests (Balluerka, para las personas que la responden no existen
Gorostiaga, Alonso-Arbiol y Haranburu, 2007; pruebas experimentales, todas son definitivas. El
Hambleton, Merenda y Spielberger, 2005; Muiz y aspecto fsico de la prueba forma parte de la
Bartram, 2007). En el caso de tems originales han validez aparente. Es importante que el instrumento
de seguirse las directrices elaboradas para el d la impresin de medir de manera objetiva,
desarrollo de tems de eleccin mltiple (Downing rigurosa, fiable y vlida la variable de inters. Por
y Haladyna, 2006; Haladyna, 2004; Haladyna et otra parte, en esta fase tambin se debe construir, si
al., 2002; Moreno et al., 2006; Moreno et al., 2004; fuera el caso, la base de datos donde
Muiz et al., 2005). posteriormente se van a tabular las puntuaciones y
Durante las fases iniciales de la a realizar los anlisis estadsticos pertinentes as
construccin del banco de tems se recomienda que como las normas de correccin y puntuacin, por
el nmero de tems inicial sea como mnimo el ejemplo si existen tems que se deben recodificar,
doble del que finalmente se considera que podran si se va a crear una puntuacin total o varias
formar parte de la versin final del instrumento de puntaciones, etc.
medida. La razn es bien sencilla, muchos de ellos
por motivos diferentes (mtricos, comprensibilidad, 3.6. Estudio piloto cualitativo y cuantitativo
dificultad, etc.) se acabarn desechando, por lo que La finalidad de cualquier estudio piloto es
slo quedarn aquellos que ofrezcan mejores examinar el funcionamiento general del
indicadores o garantas tcnicas (sustantivas y instrumento de medida en una muestra de
mtricas). Finalmente, para garantizar la validez de participantes con caractersticas semejantes a la
contenido de los tems (Sireci, 1998) se ha de poblacin objeto de inters. Esta fase es de suma
recurrir a la consulta de expertos y a la revisin importancia ya que permite detectar, evitar y
Revista de Investigacin en Educacin, ISSN: 1697-5200 20
CONSTRUCCIN DE INSTRUMENTOS DE MEDIDA PARA LA EVALUACIN UNIVERSITARIA

corregir posibles errores as como llevar a cabo una evaluacin es siempre obtener mayores evidencias
primera comprobacin del funcionamiento del de validez. La seleccin adecuada de otras
instrumento de evaluacin en el contexto aplicado. variables de inters permite aglutinar diferentes
El estudio piloto podra verse como una tipos de evidencias que conduzcan a una mejor
representacin en miniatura de lo que interpretacin de las puntuaciones en el
posteriormente va a ser el estudio de campo. instrumento de medida dentro de un contexto y uso
Existen dos tipos de estudio piloto: particular. En este sentido, se pueden establecer
cualitativo y cuantitativo (Wilson, 2005). El relaciones con un criterio externo, con otros
estudio piloto cualitativo permite, a partir de instrumentos de medida que pretendan medir la
grupos de discusin, debatir en voz alta diferentes misma variable u otras diferentes (lo que
aspectos relacionados con el instrumento de anteriormente se haba definido como definicin
medida (p. ej., la deteccin de errores semnticos, sintctica).
gramaticales, el grado de comprensibilidad de los La utilizacin de materiales
tems, las posibles incongruencias semnticas, complementarios se encuentra claramente
etc.). Los participantes en este pilotaje pueden ser o influenciada por cuestiones pragmticas. Una vez
no similares a la poblacin objeto de medicin. Por ms se vuelve a imponer la realidad. La decisin de
su parte, el estudio piloto cuantitativo permite qu instrumentos se deben utilizar
examinar las propiedades mtricas del instrumento complementariamente con el nuestro est
de medida. En ambos casos se deben anotar de influenciada por las exigencias referidas al tiempo
forma detallada todas las posibles incidencias y al lugar. Evidentemente las exigencias de tiempo
acaecidas durante la aplicacin (p. ej., preguntas o y las razones ticas no permiten administrar todos
sugerencias de los participantes, grado de los instrumentos que quisiramos, si bien aqu no
comprensin de los tems as como posibles errores se trata de pasar cuantos ms mejor sino de
o problemas detectados en el instrumento). seleccionar aquellos de mayor calidad cientfica, a
A continuacin, una vez tabulados los partir de los cuales se pueda profundizar en el
datos, se procede a los anlisis de la calidad significado de nuestras puntuaciones. Algunos
mtrica de los tems. En funcin de criterios recomendaciones prcticas en la seleccin de otros
sustantivos y estadsticos algunos tems son instrumentos de medida son: a) que se encuentren
descartados mientras que otros son modificados. Es validados para poblacin objeto de inters y se
importante que el constructor del instrumento de conozcan sus propiedades mtricas; b) que sean
evaluacin deje constancia de qu tems fueron sencillos y de rpida administracin y que
eliminados o modificados y por qu, adems de conlleven un ahorro de tiempo; c) que tengan
explicitar con claridad el criterio (cualitativo o coherencia sustantiva de cara a establecer
cuantitativo) por el cual se eliminaron. En este paso relaciones entre las variables.
si se considera conveniente se pueden incorporar
nuevos tems. Todas las actividades deben ir 3.8. Estudio de campo
destinadas a seleccionar los tems con mayores En la fase del estudio de campo se incluye
garantas mtricas que maximicen las propiedades la seleccin de la muestra (tipo, tamao y
finales del instrumento de evaluacin. Finalmente, procedimiento), la administracin del instrumento
se debe construir una nueva versin del de medida a los participantes y el control de
instrumento de medida que es revisada de nuevo calidad y seguridad de la base de datos.
por el grupo de expertos y que ser la que en ltima La representatividad y generalizabilidad de
instancia se administre en el estudio final de nuestros resultados depende en gran medida de que
campo. la muestra elegida sea realmente representativa de
la poblacin objetivo de estudio. Elegir una
3.7. Seleccin de otros instrumentos de medida muestra pertinente en cuanto a representatividad y
convergentes tamao es esencial, si se falla en esto todo lo dems
La seleccin adecuada de otros instrumentos va a quedar invalidado. El muestreo probabilstico
de evaluacin permite recoger evidencias a favor siempre es preferible al no probabilstico, para la
de la validez de las puntuaciones de los estimacin del tamao muestral requerido para un
participantes (Elosa, 2003). Es interesante que no determinado error de medida ha de acudirse a los
se pierda el norte, la finalidad ltima de todo textos especializados, o consultar los expertos en la
proceso de construccin de instrumentos de tecnologa de muestreo. Es recomendable que por

21 Revista de Investigacin en Educacin, ISSN: 1697-5200


JOSE MUIZ Y EDUARDO FONSECA-PEDRERO

cada tem administrado tengamos al menos 5 10 decisiones que se tomen se deben describir con
personas, si bien determinadas tcnicas estadsticas claridad y deben de estar correctamente razonadas.
pueden reclamar incluso ms de cara a una buena En un primer lugar, se deben analizar los tems
estimacin de los parmetros. tanto a nivel cualitativo como a nivel cuantitativo.
Las actividades relacionadas con la Para seleccionar los mejores tems desde el punto
administracin y el uso del instrumento de medida de vista mtrico se pueden tener en cuenta el ndice
son cruciales durante el proceso de validacin de dificultad (cuando proceda), el ndice de
(Muiz y Bartram, 2007; Muiz et al., 2005). discriminacin, las cargas factoriales y/o el
Cuando administramos cualquier instrumento de funcionamiento diferencial de los tems (Muiz et
medida hay que cuidarse de que las condiciones al., 2005). No se debe perder de vista que la
fsicas de la aplicacin sean las adecuadas (luz, finalidad del anlisis mtrico de los tems no debe
temperatura, ruido, comodidad de los asientos, ser otro que maximizar o potenciar las propiedades
etc.). Igualmente, las personas encargadas de la mtricas del instrumento de medida; no obstante no
administracin del instrumento de medida deben existen reglas universales y las consideraciones
establecer una buena relacin (rapport) con los estadsticas no garantizan unos resultados con
participantes, estar familiarizados con la significacin conceptual, por lo que uno debera
administracin de este tipo de herramientas, dar las tener presente tambin los aspectos sustantivos
instrucciones a los participantes correctamente, (Muiz et al., 2005). Una vez seleccionados los
ejemplificar con claridad como se resuelven las tems, se procede al estudio de la dimensionalidad
preguntas, supervisar la administracin y del instrumento para conocer su estructura interna.
minimizar al mximo las posibles fuentes de error. En el caso de encontrar una solucin esencialmente
Por todo ello es recomendable elaborar unas pautas unidimensional nos podramos plantear la
o directrices que permitan estandarizar la construccin de una puntuacin total, en el caso de
administracin del instrumento de medida. una estructura multidimensional deberamos pensar
El control de calidad de la base de datos es en un conjunto de escalas o perfil de puntuaciones.
otro tema a veces poco valorado en el proceso de El anlisis factorial y el anlisis de componentes
construccin de instrumentos de medida. Por principales son las tcnicas ms utilizadas para
control de calidad nos referimos a una actividad examinar la estructura interna, si bien no son las
que tiene como intencin comprobar que los datos nicas (Cuesta, 1996). Una vez determinada la
introducidos en la base de datos se correspondan, dimensionalidad del instrumento de medida se
de hecho, con las puntuaciones de los participantes lleva a cabo una estimacin de la fiabilidad, para lo
en la prueba. Frecuentemente cuando introducimos cual se pueden seguir diversas estrategias, tanto
las puntuaciones de los participantes en una base de desde el punto de vista de la teora clsica de los
datos se pueden cometer multitud de errores, por tests como de la teora de respuesta a los tems
ello es altamente recomendable comprobar de (Muiz, 1997, 2000). Posteriormente, y de cara a
forma rigurosa que los datos se han introducido obtener evidencias de validez, se debe observar la
correctamente. Una estrategia sencilla a posteriori relacin del instrumento de medida con otros
que se puede utilizar es extraer al azar un cierto instrumentos de evaluacin, y finalmente, se lleva a
porcentaje de los participantes y comprobar la cabo una baremacin del instrumento de medida
correspondencia entre las puntuaciones en la donde se establecen puntos de corte normativos.
prueba y la base de datos. No obstante los mejores Los desarrollos estadsticos y tcnicos en este
errores son los que no se cometen, as que hay que campo son notables, incorporndose cada vez ms
poner todos los medios para minimizar los errores a a menudo los mtodos estadsticos robustos (Erceg-
la hora de construir la base de datos. Hurn y Mirosevich, 2008), el anlisis factorial
confirmatorio (Brown, 2006; Kline, 2005) y el
3.9. Estimacin de las propiedades mtricas funcionamiento diferencial de los tems, por citar
Una vez administrado el instrumento de slo tres casos (Muiz et al., 2005).
medida a la muestra de inters se procede al
estudio de las propiedades mtricas del mismo: 3.10. Versin definitiva, informe final y manual
anlisis de los tems, estudio de la dimensionalidad, del instrumento de medida
estimacin de la fiabilidad, obtencin de evidencias En ltimo lugar, se procede a la
de validez y construccin de baremos. elaboracin de la versin definitiva del instrumento
En esta fase debe primar por encima de de medida, se enva un informe de resultados a las
todo el rigor metodolgico. Todos los pasos y partes interesadas (alumnos, profesores,
Revista de Investigacin en Educacin, ISSN: 1697-5200 22
CONSTRUCCIN DE INSTRUMENTOS DE MEDIDA PARA LA EVALUACIN UNIVERSITARIA

departamentos, etc.) y se elabora el manual del Personnel Evaluation in Education, 13, 153-
mismo que permita su utilizacin a otras personas o 166.
instituciones interesadas. El manual de la prueba
American Educational Research Association,
debe de recoger con todo detalle todas las
American Psychological Association, y
caractersticas relevantes de la prueba. Como se
National Council on Measurement in
coment anteriormente, todo proceso de evaluacin
Education (1999). Standars for Educational
es necesario que concluya en un feedback (rpido,
and Psychological Testing. Washington, DC:
conciso y claro) a las partes implicadas y con una
Author.
propuesta de planes de mejora. Finalmente y
aunque sea la ltima fase, esto no quiere decir que Anastasi, A., y Urbina, S. (1998). Los tests
el proceso de validacin concluya aqu, posteriores psicolgicos. Mxico: Prentice Hall.
estudios debern seguir recogiendo evidencias de Balluerka, N., Gorostiaga, A., Alonso-Arbiol, I., y
validez que permitan tomar decisiones fundadas a Haranburu, M. (2007). La adaptacin de
partir de las puntuaciones de los individuos. instrumentos de medida de unas culturas a
otras: una perspectiva prctica. Psicothema,
4. A MODO DE CONCLUSIN 124-133.
En las lneas precedentes ya se ha indicado
que el proceso de evaluacin universitaria es Beran, T., y Violato, C. (2005). Rating of university
complejo, dada la cantidad de aspectos diferentes teacher instruction: How much do student
susceptibles de ser evaluados. Para llevar a cabo and course characteristics really matter?
una evaluacin universitaria rigurosa no slo es Assessment & Evaluation in Higher
necesario, que lo es, disponer de instrumentos de Education, 30, 593-601.
evaluacin tcnicamente solventes, adems hay que Brennan, R. L. (2006). Educational Measurement.
manejar un modelo de evaluacin integral que d Washington, DC: American Council on
una respuesta a los siguientes interrogantes: qu se Education/Praeger.
evala, cules son las partes legtimamente
implicadas en la evaluacin, quin evala, cmo se Brown, T. A. (2006). Confirmatory factor analysis
evala (qu metodologa utilizar), qu feedback se for applied research. New York: Guilford
ofrece a las partes implicadas, planes de mejora Press.
generados por la evaluacin y qu opinin tienen Buela-Casal, G., Bermdez, M. P., Sierra, J. C.,
las partes implicadas sobre la evaluacin. Tras un Quevedo-Blasco, R., y Castro-Vzquez, A.
breve repaso por esos siete aspectos nos hemos (2009). Ranking de 2008 en productividad
centrado en la descripcin de los diez pasos bsicos en investigacin de las universidades
que habra que seguir para desarrollar un pblicas espaolas. Psicothema, 21.
instrumento de medida objetivo y riguroso. Estos
pasos no se pueden abordar en profundidad desde Centra, J. A. (1993). Reflective faculty evaluation.
un punto de vista tcnico en un breve artculo como San Francisco: Jossey-Bass.
ste, no se trata de eso, sino de poner a disposicin Carretero-Dios, H., y Prez, C. (2005). Normas para
de los gestores y profesionales una gua general el desarrollo y revisin de estudios
que les permita obtener una visin panormica de instrumentales. International Journal of
las actividades implicadas en el desarrollo de los Clinical and Health Psychology, 5, 521-551.
instrumentos de medida. Esperamos haber sido
capaces de transmitir la idea de que el campo de la Clark, L. A., y Watson, D. (1995). Constructing
elaboracin de instrumentos de medida en el Validity: Basic issues in objective scale
contexto de la Evaluacin Universitaria est development. Psychological Assessment 7,
altamente desarrollado y es necesario acudir a 309-319.
personal cualificado para su desarrollo adecuado, Cuesta, M. (1996). Unidimensionalidad. En J. Muiz
constituyendo una temeridad dejarlo en manos de (Ed.), Psicometra. Madrid: Universitas.
aficionados bienintencionados. (pags. 239-292).

5. BIBLIOGRAFA Dolores, M., y Padilla, J. L. (2004). Tcnicas


Aleamoni, L. M. (1999). Student rating myths versus psicomtricas: los tests. En R. Fernndez-
research facts from 1924 to 1998. Journal of Ballesteros (Ed.), Evaluacin psicolgica:

23 Revista de Investigacin en Educacin, ISSN: 1697-5200


JOSE MUIZ Y EDUARDO FONSECA-PEDRERO

Conceptos, mtodos y estudio de casos (pp. http://www.che.de/downloads/Berlin_Princip


323-355). Madrid: Pirmide. les_IREG_534.pdf
Downing, S. M. (2006). Twelve steps for effective Joint Committee on Standards for Educational
test development. En S. M. Downing y T. M. Evaluation. (2003). The student evaluation
Haladyna (Eds.), Handbook of test standards. Thousand Oaks, CA: Corwin
development (pp. 3-25). Mahwah, NJ: Press.
Lawrence Erlbaum Associates.
Kane, M. T. (2006). Validation. En R. L. Brennan
Downing, S. M., y Haladyna, T. M. (2006). (Ed.), Educational measurement (4th ed.)
Handbook of test development. Mahwah, NJ: (pp. 17-64). Westport, CT: American
Lawrence Erlbaum Associates. Council on Education/Praeger.
Elosa, P. (2003). Sobre la validez de los tests. Kline, R. B. (2005). Principles and practice of
Psicothema, 15, 315-321. structural equation modeling (2 ed.). New
York: The Guilford Press.
Erceg-Hurn, D. M., y Mirosevich, V. M. (2008).
Modern robust statistical methods: An easy Lord, F. M., y Novick, M. R. (1968). Statistical
way to maximize the accuracy and power of theories of mental test scores. New York:
your research. American Psychologist, 63, Addison-Wesley.
591-601.
Marsh, H. W., y Roche, L. A. (2000). Effects of
Fernndez, J. (2008). Valoracin de la calidad grading leniency and low workloads on
docente. Madrid: Editorial Complutense. students evaluations of teaching: Popular
myths, bias, validity or innocent bystanders.
Fernndez, J., Mateo, M. A., y Muiz, J. (1995).
Journal of Educational Psychology, 92, 202-
Evaluation of the academic setting in Spain.
228.
European Journal of Psychological
Assessment(11), 133-137. Messick, S. (1998). Test validity: A matter of
consequence. Social Indicators Research 45
Fernndez, J., Mateo, M. A., y Muiz, J. (1996).
35-44.
Valoracin por parte del profesorado de la
evaluacin docente realizada por los Morales, P., Urosa, B., y Blanco, A. B. (2003).
alumnos. Psicothema, 8, 167-172. Construccin de escalas de actitudes tipo
Likert. Madrid: La Muralla.
Haladyna, T. M. (2004). Developing and validating
multiple-choice test item (3 ed.). Hillsdale, Moreno, R., Martnez, R., y Muiz, J. (2006). New
NJ: LEA. guidelines for developing multiple-choice
items. Methodology, 2, 65-72.
Haladyna, T. M., Downing, S. M., y Rodrguez, M.
C. (2002). A review of multiple-choice item- Moreno, R., Martnez, R. J., y Muiz, J. (2004).
writing guidelines. Applied Measurement in Directrices para la construccin de tems de
Education, 15(3), 309-334. eleccin mltiple. Psicothema, 16(3), 490-
497.
Hambleton, R. K., Merenda, P. F., y Spielberger, C.
D. (2005). Adapting educational and Muiz, J. (Ed.) (1996). Psicometra. Madrid:
psychological tests for cross-cultural Universitas.
assessment London: Lawrence Erlbaum
Muiz, J. (1997a) Introduccin a la teora de
Associates
respuesta a los tems. Madrid: Pirmide.
Institute of Higher Education, Shangai Jiao Tong
Muiz, J. (1997b). Aspectos ticos y deontolgicos
University (2008). Academic Ranking of
de la evaluacin psicolgica. En A. Cordero
World Universities.
(ed.), La evaluacin psicolgica en el ao
http://ed.sjtu.edu.cn/rank/2008/2008Main.ht
2000. Madrid: Tea Ediciones.
m
Muiz, J. (2000). Teora Clsica de los Tests.
International Ranking Expert Group (2006). Berlin
Madrid: Pirmide.
Principles on Ranking of Higher Education
Institutions.

Revista de Investigacin en Educacin, ISSN: 1697-5200 24


CONSTRUCCIN DE INSTRUMENTOS DE MEDIDA PARA LA EVALUACIN UNIVERSITARIA

Muiz, J. (2004). La validacin de los tests. Zumbo, B. D. (2007). Validity: Foundational issues
Metodologa de las Ciencias del and statistical methodology. En C. R. Rao y
Comportamiento, 5, 121-141. S. Sinharay (Eds.), Handbook of statistics:
Vol. 26. Psychometrics (pp. 45-79).
Muiz, J., y Bartram, D. (2007). Improving
Amsterdam, Netherlands: Elsevier Science.
international tests and testing. European
Psychologist, 12, 206-219.
Muiz, J., Fidalgo, A. M., Garca-Cueto, E.,
Martnez, R., y Moreno, R. (2005). Anlisis
Nota. Este trabajo ha sido financiado por el
de los tems. Madrid: La Muralla.
Ministerio Espaol de Ciencia e Innovacin,
Nunnally, J. C., y Bernstein, I. J. (1995). Teora referencia PSI2008-03934 y CIBERSAM
psicomtrica. Mxico: McGraw Hill. Universidad de Oviedo.
Padilla, J. L., Gmez, J., Hidalgo, M. D., y Muiz, J.
(2006). La evaluacin de las consecuencias
del uso de los tests en la teora de la validez.
Psicothema, 19, 307-312.
Padilla, J. L., Gmez, J., Hidalgo, M. D., y Muiz, J.
(2007). Esquema conceptual y
procedimientos para analizar la validez de
las consecuencias del uso de los test.
Psicothema, 19, 173-178
Schmeiser, C. B., y Welch, C. (2006). Test
development. En R. L. Brennan (Ed.),
Educational Measurement (4th ed.) (pp.
307-353). Westport, CT: American Council
on Education/Praeger.
Sireci, S. G. (1998). Gathering and analyzing content
validity data. Educational Assessment, 5,
299-321.
Sireci, S. G. (2007). On validity theory and test
validation. Educational Researcher 36, 477-
481.
Sireci, S. G., y Parker, P. (2006). Validity on trial:
Psychometric and legal conceptualizations of
validity Educational Measurement: Issues
and Practice 25, 27-34.
Smith, G. T., Fischer, S., y Fister, S. M. (2003).
Incremental validity principles in test
construction. Psychological Assessment, 15,
467-477.
Smith, S. T. (2005). On construct validity: Issues of
method measurement. Psychological
Assessment, 17, 396-408.
Wilson, M. (2005). Constructing measures: An item
response modeling approach. Mahwah, NJ:
Lawrence Erlbaum Associates.

25 Revista de Investigacin en Educacin, ISSN: 1697-5200

You might also like