You are on page 1of 16

Revista de Investigacin Educativa, 2009, Vol. 27, n. 1, pgs.

89-103

89

CLCULO DE LA FIABILIDAD Y CONCORDANCIA ENTRE CODIFICADORES DE UN SISTEMA DE CATEGORAS PARA EL ESTUDIO DEL FORO ONLINE EN E-LEARNING
Juan Jess Torres Gordillo*
juanj@us.es

Vctor Hugo Perera Rodrguez*


vhperera@us.es

RESUMEN Presentamos los resultados detallados del clculo de la fiabilidad de un sistema de categoras para foros de debate online. Este trabajo se encuadra dentro una investigacin sobre el estudio de la comunicacin asincrnica en la formacin a travs de Internet. Hemos utilizado el coeficiente Kappa de Fleiss para tres codificadores. Nuestro coeficiente Kappa alcanza un valor k=0.77. Tomando varias tablas de interpretacin del ndice de diferentes autores, obtenemos un valor alto o bueno respecto a la fuerza de concordancia. La alta fiabilidad del sistema de categoras acredita que dicha herramienta pueda ser empleada por cualquier investigador en el ejercicio de la codificacin, y en diferentes momentos, con garantas de que pueda aportar resultados que expliquen y faciliten la comprensin de los procesos de comunicacin y enseanza-aprendizaje en e-Learning. Palabras clave: fiabilidad entre codificadores, Kappa de Fleiss, sistema de categoras, foro online, e-Learning.

* Dpto. Mtodos de Investigacin y Diagnstico en Educacin. Facultad de Ciencias de la Educacin. Universidad de Sevilla. C/ Camilo Jos Cela, s/n. 41018 - Sevilla.

RIE, vol. 27-1 (2009)

90 ABSTRACT

Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

We offer detailed results measuring inter-rater reliability of a coding scheme of higher education online discussion boards. This is part of a piece of research on asynchronous communication in e-Learning. We have used Fleiss Kappa coefficient (k) for three raters. Our Kappa coefficient reaches a value of k=0.77. If we consider various authors interpretation tables of this index, this k value can be interpreted as a high or good value regarding the strength of agreement. The high reliability of this coding scheme allows it to be used by any researcher at any time, and guarantees results that explain the roles of communication and teaching-learning processes within e-Learning. Key words: inter-rater reliability, Fleiss Kappa, coding scheme, online discussion board, e-Learning

1. INTRODUCCIN El presente trabajo se enmarca dentro de una investigacin que tuvo como objetivo principal estudiar, indagar y analizar las posibilidades de la comunicacin asincrnica como entorno de formacin en cursos de postgrado desarrollados a travs de Internet. Concretamente utilizamos la plataforma tecnolgica WebCT. Para ello, se construy y valid un sistema de categoras que permitiera analizar a posteriori los procesos comunicativos y de aprendizaje colaborativo a travs del foro online. La tcnica de investigacin aplicada en este proceso fue el anlisis de contenido. En este artculo mostramos cmo se procedi al clculo de la fiabilidad del sistema de categoras para el anlisis del foro online en e-Learning, a travs de la medicin del acuerdo entre los codificadores. Una de las novedades que presentamos es que el clculo se realiza para tres investigadores. Esto nos lleva a servirnos del coeficiente Kappa de Fleiss (Fleiss, 1981), permitindonos ofrecer al lector una perspectiva ms avanzada de la tcnica respecto al uso habitual que se da en muchas investigaciones que emplean Kappa de Cohen para dos codificadores (Cohen, 1960). 2. MARCO TERICO Durante algunos aos, la falta de paradigmas o mtodos de investigacin motiv el escaso nmero de estudios rigurosos centrados en el aprendizaje en entornos de comunicacin asincrnica (Marra, Moore & Klimczak, 2004). sta es una de las razones que nos conduce a examinar en detalle aspectos como la fiabilidad de los instrumentos utilizados. Diversos trabajos preocupados por aclarar los conceptos y procedimientos relacionados con los criterios de rigor cientfico en la investigacin cualitativa han supuesto un aliciente en el modo cmo abordar nuestra investigacin (Sandn, 2000; Donoso, Figuera y Torrado, 2000; Garca, 2004). Rourke et al. (2001a) llamaban la atencin hace unos aos sobre la falta de replicacin de los modelos o sistemas de categoras presentados y publicados por otros autores en
RIE, vol. 27-1 (2009)

Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio

91

torno al anlisis de contenido en la comunicacin mediada por ordenador. La siguiente cita deja clara evidencia de que la replicacin debe ser el ltimo eslabn en el proceso de construccin de un sistema de categoras fiable. La fiabilidad de un sistema de categoras puede ser vista como un continuum, comenzando con la estabilidad de un codificador (un codificador de acuerdo consigo mismo todo el tiempo), la fiabilidad entre codificadores (dos o ms codificadores de acuerdo unos con otros), y, por ltimo, la replicacin (la capacidad de mltiples y distintos grupos de investigadores de aplicar un sistema de categoras de manera fiable). Adems, el test definitivo de un sistema de categoras es la replicacin (Rourke et al., 2001a). Estos autores continan afirmando que el primer test de objetividad en los estudios de contenido pasa por ser la concordancia entre codificadores, entendida como el momento en el que diferentes codificadores, codificando cada uno el mismo contenido, llegan a las mismas decisiones de codificacin. Tradicionalmente, el mtodo ms empleado para medir la concordancia entre codificadores es el estadstico de acuerdo porcentual. Dicho estadstico refleja el nmero de acuerdo en funcin del nmero total de codificaciones realizadas. El coeficiente de fiabilidad de Holsti (1969, citado en Rourke et al., 2001a) proporciona una frmula para calcular el acuerdo porcentual: C.F. = 2m / n1 + n2 donde: m = nmero de codificaciones donde los dos codificadores estn de acuerdo n1 = nmero de codificaciones realizadas por el codificador 1 n2 = nmero de codificaciones realizadas por el codificador 2 No obstante, como afirman algunos estadsticos, el acuerdo entre codificadores puede ser una medida inadecuada porque no tiene en cuenta el acuerdo al azar entre investigadores (Capozzoli, McSweeney & Sinha, 1999). Esto lo corrige el estadstico Kappa de Cohen (k), que se utiliza para dos codificadores, en n casos y para m categoras nominales exhaustivas y exclusivas mutuamente. Archer et al. (2001) emplearon el coeficiente Kappa de Cohen para medir el acuerdo entre codificadores en un sistema de categoras sobre pensamiento crtico en foros online, obteniendo un k=0.74 en su ltima revisin. Otros autores han descrito el foro online como un espacio de aprendizaje cuya comunicacin puede ser estructurada para apoyar la creacin de significados compartidos entre los miembros de grupos colaborativos. En este sentido, la dificultad para lograr niveles aceptables de concordancia entre codificadores ha llevado a que se desarrollen sistemas alternativos para la codificacin de transcripciones. As, Jonassen & Remidez (2005) describieron el modo de cmo codificar las conversaciones de foros online ms estructurados y con opciones limitadas de interaccin (aceptar, rechazar, ampliar, apoyar, hiptesis, punto importante, evidencia, aprendizaje, etc.). De acuerdo con Rourke et al.
RIE, vol. 27-1 (2009)

92

Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

(2001a), esto supone que indirectamente se est facilitando la autocodificacin general de la propia aportacin. 3. SISTEMA DE CATEGORAS PARA ANALIZAR EL FORO ONLINE EN E-LEARNING La primera fase del estudio consisti en construir un sistema de categoras para analizar la comunicacin asncrona en el foro en e-Learning. Dentro de sta, llevamos a cabo la validacin del propio sistema de categoras, realizando un estudio piloto. Partiendo del primer borrador (denominado Sistema completo), el proceso de anlisis de los foros nos llev a realizar continuos cambios de ajuste -fusin, integracin, reestructuracin y eliminacin- en las categoras e indicadores del sistema creado. En cada subfase obtuvimos un nuevo sistema de categoras (llamados Sistema corregido, Sistema corregido 1, Sistema corregido 2, etc.), hasta llegar al ltimo y definitivo (nombrado Sistema corregido 5 o Sistema definitivo). TABLA 1 POBLACIN DE LA INVESTIGACIN NOMBRE del CURSO1 Curso A Curso B TIPO Experto (250 horas, 1 ao) Formacin complementaria (100 horas, 1 ao) Experto (250 horas, 1 ao) Doctorado (dos aos) MODALIDAD Semipresencial A distancia (e-Learning) A distancia (e-Learning) Semipresencial ALUMNOS / TUTORES 18 alumnos 4 tutores 86 alumnos 5 tutores 66 alumnos 8 tutores 23 alumnos (1er ao), 18 alumnos (2 ao) 7 tutores 24 alumnos 5 tutores 217 alumnos / 29 tutores

Curso C Curso D

Curso E

Formacin complementaria (100 horas, 6 meses)

A distancia (e-Learning) TOTAL

1 Con Nombre del Curso nos referimos al nombre que asignamos a cada curso para reconocerlos en el estudio. No es el nombre oficial del curso.

RIE, vol. 27-1 (2009)

Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio

93

El sistema de categoras definitivo, que puede ser consultado en otras publicaciones (Torres y Perera, 2005), se divide en tres dimensiones: cognitiva, social y didctica. Cada una de stas consta de categoras, subcategoras e indicadores. 4. POBLACIN Y MUESTRA DEL ESTUDIO Nuestra seleccin se dirige en torno a la poblacin de la investigacin, es decir, a los foros de debate de los cursos de e-Learning en los cuales hemos participado durante dos cursos acadmicos. En consecuencia, no entendemos la poblacin como los participantes potenciales de un estudio, sino en los trminos que lo expresan Goetz y LeCompte (1988: 88): tambin los fenmenos no humanos y los objetos inanimados pueden constituir poblaciones. Los grupos humanos realizan sus actividades en escenarios y contextos, perodos de tiempo y circunstancias finitos y especificables. Cada uno de estos factores constituye una poblacin limitada, a partir de la cual el investigador puede obtener muestras o seleccionar. En la siguiente tabla se especifica la poblacin final de la investigacin con las caractersticas de cada curso: Debemos aclarar que, en un primer momento, nuestra poblacin la componan solamente los cursos B, C y D. Pero, a medida que avanzaban los anlisis, decidimos ampliar la poblacin con otros cursos en los cuales estbamos trabajando como tutores (curso D) y con otros cursos con los que mantenamos alguna relacin y se desarrollaban en la misma plataforma tecnolgica WebCT (curso A). No obstante, nuestra intencin no fue seleccionar todos los foros de estos cursos, puesto que los datos seran redundantes segn el objetivo de estudio, adems de ser innecesario y costoso en trminos temporales. Nos atenemos, por tanto, a la seleccin basada en criterios, como lo han denominado Goetz y LeComte (1988)2, tanto para identificar la poblacin como para ir determinando la muestra (unidades de anlisis o foros). Consiste en seleccionar casos con abundante informacin para estudios detallados (Patton, 1990) cuando alguien pretende entender algo sobre estos casos sin necesitar o desear generalizar sobre cada uno de los casos (McMillan y Schumacher, 2005). La finalidad de elegir el procedimiento de seleccin basada en criterios es buscar la representatividad de los datos. Segn McMillan y Schumacher (ibdem, p. 407), se realiza para aumentar la utilidad de la informacin obtenida a partir de pequeos modelos, donde la informacin se obtiene sobre variaciones entre las subunidades. El poder y la lgica de este procedimiento consisten en que, con pocos casos estudiados en profundidad, se obtienen muchas aclaraciones sobre el tema (abundante informacin). Con este objetivo, y dentro de las variantes de la seleccin basada en criterios (o muestreo intencionado), sealadas por Goetz y LeComte (1988) o McMillan y Schumacher (2005), llevamos a cabo la seleccin por cuotas, tambin llamada por Patton (1990) muestreo de variacin mxima. Es una estrategia para aclarar diferentes aspectos sobre la cuestin del problema de investigacin. Esta tcnica, a diferencia de la seleccin exhaustiva (que cubre la totalidad de la poblacin), se limita a un subconjunto de la poblacin. As, en el estudio comenzamos identificando los subgrupos relevantes, que en nuestro caso fueron dos grandes conjuntos: los foros de carcter principal (aqullos de seguimiento
2 Otros autores lo llaman, de manera menos apropiada, muestreo intencional.

RIE, vol. 27-1 (2009)

94

Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

general del curso para tutoras, consultas y/o dudas) y los foros especficos (aqullos para dudas de un tema especfico, con una finalidad muy determinada o centrados en algn aspecto concreto). Nuestro inters se centraba en los foros generales, por atender al criterio de ser ms ricos y variados en la informacin que proporcionan. El siguiente paso fue seleccionar la muestra. La muestra definitiva fue de diez foros. La recogida de datos no fue puntual, sino un proceso que fue avanzando conforme obtenamos resultados de los anlisis. Consisti en obtener un nmero arbitrario de unidades de anlisis. En un primer momento, elegimos los foros generales ms representativos, pero conforme se desarrollaban los anlisis, fuimos rehaciendo la muestra (ampliando tambin la poblacin, como decamos ms arriba), para garantizar el criterio de representatividad. Finalmente, llegamos a analizar todos los foros generales, apoyndonos en el criterio de cubrir todas las funciones que cumplan dentro de los cursos, a saber: unos slo para la entrega de actividades y mantener la comunicacin, a modo de dudas, o cuando se trata de cursos semipresenciales; otros sirven para tutorizar a nivel general el curso durante todo su desarrollo; otros ms especializados que se centran en algn tema concreto; u otros sobre aspectos ms tcnicos. 5. LA FIABILIDAD DEL SISTEMA DE CATEGORAS: ACLARACIN DE CONCEPTOS Y ELECCIN DEL ESTADSTICO PARA EL CLCULO DE KAPPA Cabe hacer una importante aclaracin conceptual entre fiabilidad y concordancia entre codificadores. De una parte, la concordancia es un trmino ms global que hace referencia a la medida en que dos o ms codificadores estn de acuerdo entre ellos. La entendemos como la proporcin de acuerdos entre el nmero total de codificadores. Por ejemplo, hallamos la concordancia cuando dos codificadores se comparan entre s. Por otra parte, la fiabilidad es un trmino ms restrictivo que aprecia cun precisa es una medida, esto es, cunto se acerca a la verdad. Por ejemplo, hallamos la fiabilidad cuando un codificador se compara frente a un protocolo estndar asumido como verdadero. En el contexto de nuestro estudio hacemos referencia a la concordancia entre codificadores durante el proceso de construccin del sistema de categoras; mientras que nos referimos a la fiabilidad en el momento en que los codificadores hacen uso del sistema de categoras definitivo sobre los datos textuales. El sentido que adopta todo trabajo de investigacin, as como los resultados a los que se llega, dependern esencialmente del sistema de categoras creado. Es por esto que debe evitarse caer en los peligros que suelen darse cuando se utilizan esquemas de codificacin. Entre ellos se encuentra la posibilidad que tiene el investigador de intentar reflejar su deseo o perspectiva idiosincrsica. Para salvar esta situacin, Bakeman y Gottman (1989) afirman que son necesarios: a) mantener a los investigadores ingenuos respecto a la(s) hiptesis de la investigacin; b) trabajar con ms de un investigador; y, c) evaluar en qu medida concuerdan. Para la comprensin de este ltimo punto, hemos de clarificar los conceptos de precisin, calibracin y deterioro de la fiabilidad:
n

Precisin. Es la razn conceptual que consiste en la codificacin similar que hacen de forma independiente dos o ms investigadores sobre los mismos hechos y
RIE, vol. 27-1 (2009)

Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio

95

eventos. En otras palabras, diferentes investigadores han codificado eventos semejantes de forma similar. Calibracin. Es la razn prctica que consiste en asegurarse que los datos que tienen que registrar distintos investigadores no varan a lo largo del tiempo. Esto se consigue comparando cada codificacin con las dems, o, mejor an, evaluando a todos los codificadores respecto a algn protocolo estndar. Deterioro de la fiabilidad. Consiste en asegurarse que la codificacin de un observador sea consistente a lo largo del tiempo.

Siguiendo las definiciones de la terna anterior, entendimos que debamos interesarnos no slo por la concordancia entre codificadores (esto es, precisin y calibracin), sino tambin por la fiabilidad intra-codificador (o lo que es igual, el deterioro de la fiabilidad). Esto supuso que en el proceso de entrenamiento de los codificadores tuviramos claro dos objetivos con relacin a la evaluacin de la concordancia de los codificadores. El primer objetivo se refera a la preocupacin por entrenar a los codificadores de forma que fuesen altamente precisos y calibrados. Un segundo objetivo consisti en asegurar la consistencia en la codificacin de cada investigador. En definitiva, buscbamos un estadstico que pudiera describir la concordancia respecto a cmo utilizan los investigadores el esquema de codificacin. Este inters nos llev a realizar una revisin de la literatura que nos mostrara la variedad de estadsticos existentes en el campo de la investigacin social para calcular la concordancia segn variables diferentes. Despus de precisar las condiciones de nuestro estudio, nos basamos inicialmente en los trabajos de Cohen (1960) para dar respuesta a los objetivos que nos propusimos. Este autor formul el clculo para la obtencin de la probabilidad en la concordancia entre dos codificadores. Dicha probabilidad es conocida como coeficiente Kappa de Cohen (caracterizado con el smbolo k), que se define como un estadstico de concordancia entre dos investigadores que corrige el azar. Como es obvio, al ser una probabilidad, toma su valor en el intervalo [0, 1]. sta se representa segn la frmula:

Po se define como la proporcin de concordancia observada realmente y se calcula sumando las marcas que representan la concordancia y dividiendo por el nmero total de ellas; Pc es la proporcin esperada por azar y se calcula sumando las probabilidades de acuerdo por azar para cada categora. Fleiss (1981) generaliz la aplicacin del ndice Kappa de Cohen para medir el acuerdo entre ms de dos codificadores u observadores para datos de escala nominal y ordinal. Por tanto, dado que nuestro estudio considera tres investigadores en el proceso de codificacin, empleamos el Kappa de Fleiss, ya que ste parte de la misma frmula
RIE, vol. 27-1 (2009)

96

Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

que propone Cohen, pero generalizada para ms de dos codificadores. El coeficiente Kappa de Fleiss aade el clculo del sesgo del codificador (precisin-error) y el clculo de la concordancia (calibracin). La frmula es la siguiente:

Los smbolos de la frmula vienen identificados por las siguientes correspondencias: n: m: xij: r: p: q: se corresponde con el nmero total de conductas o cdigos a registrar; identifica el nmero de codificaciones; define el nmero de registros de la conducta i en la categora j; indica el nmero de categoras de que se compone el sistema nominal; es la proporcin de acuerdos positivos entre codificadores; es la proporcin de acuerdos negativos (no acuerdos) en codificadores (1 - p)

No obstante, para facilitar el clculo de nuestros coeficientes Kappa de Fleiss hemos empleado un software especfico. Se trata de un programa informtico que funciona bajo el sistema operativo MS-DOS. Fue creado por el francs Bonnardel3. Nosotros hemos utilizado la versin 1.0, y se conoce como Fleiss v.1.0. Nos permite obtener el clculo del coeficiente hasta un mximo de veinticinco codificadores y de dos a veinticinco cdigos. Concretamente, para esta investigacin contbamos con tres investigadores y el nmero de cdigos se introdujo por dimensiones, sin llegar a superar el lmite de esos veinticinco cdigos. Para introducir los datos en el programa, se construy una matriz de doble entrada, donde la fila representaba cada uno de los mensajes, y la columna cada cdigo. De esta forma, cada celda de la matriz podra variar entre 0 y 3. En aquellos casos en los que se dio un 0, signific que dicho cdigo no fue asignado al mensaje en cuestin por ninguno de los tres codificadores. El 1 nos dira que slo un investigador consider dicho cdigo para el mensaje. Y as hasta llegar al nmero 3, que mostrara el acuerdo total entre los codificadores para un mensaje. De aqu se desprende que la suma en cada fila de la matriz es igual al nmero total de codificadores. Por ltimo, respecto a la salida de resultados que obtuvimos del programa, en primer lugar nos mostr la suma de los acuerdos totales por cdigo. Despus, nos ofreci todos los resultados, donde se incluye el valor global del ndice Kappa de Fleiss, as como el p-valor asociado al contraste de hiptesis donde la hiptesis nula (Ho) es k=0. Conocido el modo cmo funciona el software, pasaremos a continuacin a presentar los distintos ndices obtenidos.
3 El programa, conocido como Fleiss v.1.0, y creado por el francs Philippe Bonnadel, puede obtenerse en la direccin http://perso.worldonline.fr/kappa

RIE, vol. 27-1 (2009)

Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio

97

6. EL PROCESO DE CONCORDANCIA ENTRE CODIFICADORES: CLCULO DEL COEFICIENTE KAPPA DE FLEISS Nuestro estudio se basa en un sistema de categoras conformado por tres dimensiones. Cada dimensin comprende a su vez un nmero diferente de cdigos. El clculo de Fleiss tuvo en cuenta la proporcin de posibles acuerdos que ocurrieron en cada dimensin. As, por ejemplo, la dimensin cognitiva tuvo 250 codificaciones sobre un total de 250 mensajes (codificacin excluyente). La pregunta que nos planteamos en ese momento consisti en conocer cuntos desacuerdos y acuerdos se dieron para ese nmero de mensajes. Recordamos que las dimensiones Social y Didctica (excepto Enseanza Directa) incluyen cdigos que pueden formar parte de una codificacin cruzada. Como consideracin importante para el clculo de la concordancia, advertimos que el sistema de categoras empleado comprende varios sistemas nominales. Las dimensiones Social y Didctica presentan sistemas nominales (como, por ejemplo, la categora Afectiva) que lo diferencia del resto de los cdigos que definen cada dimensin. Esto supuso que debiramos considerar Kappas particulares para los subsistemas nominales de cada dimensin, ya que cada sistema nominal incluye una probabilidad de acuerdo distinta. Alcanzar una alta fiabilidad en el sistema de categoras result ser una tarea ardua y repleta de continuas dificultades que debamos salvar. La preocupacin por lograr un elevado acuerdo en las tareas de codificacin requiri de un gran esfuerzo de concentracin y dedicacin, de igual forma que la construccin de las tablas para el clculo del Coeficiente Kappa de Fleiss, en las diferentes versiones que fuimos obteniendo. El conjunto de todo este proceso se realiz de un modo sistematizado. En primer lugar, definimos lo que para el grupo de investigadores constitua un acuerdo. De este modo, identificamos el acuerdo entre codificadores como la coincidencia comn en la identificacin de los cdigos sobre los mismos eventos o hechos. En caso contrario, entrbamos en situaciones de desacuerdo4. Llegados a un consenso sobre cmo debamos los investigadores entender el acuerdo, en un siguiente paso se defini lo que para el grupo de codificadores iba a constituir una unidad de codificacin. En nuestro caso, el lmite de las unidades estaba perfectamente delimitado por cada mensaje, independientemente de la extensin del contenido textual. Por tanto, la concordancia no necesit demostrarse para la determinacin de lmites en las unidades, esto es, establecimiento de unidades, sino para la asignacin de los cdigos, es decir, codificacin de eventos, conductas y pensamientos. Cabe mencionar que la estrategia de codificacin seguida atenda a una codificacin mltiple5, donde los codificadores anotaban los diferentes eventos particulares que ocurran en cada mensaje a partir de las tres dimensiones que conformaban el sistema de categoras. Para este caso concreto, diversos autores afirman que es ms difcil la

4 sin. 5

Tambin denominada por Bakeman y Gottman (1989) como error de omisin o error de comiBakeman y Gottman (1989) utilizan el trmino clasificacin de eventos de forma cruzada.

RIE, vol. 27-1 (2009)

98

Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

TABLA 2 CLCULO DE LOS COEFICIENTES KAPPA DE FLEISS


ndice de Kappa Fleiss6 para el Sistema de Categoras (corregido 2) Foro 3 (30 mensajes y n lneas entre 1681-2359) ~ 3 codificadores Dimensin Cognitiva (19 acuerdos) k=0.64 Dimensin Social (10 acuerdos) k=0.33 Dimensin Didctica (7 acuerdos y 8 acuerdos) Resto de la Dimensin k=0.23 Enseanza Directa k=0.27

k=0.37 (Kappa de Fleiss medio para la codificacin del foro 3) ndice de Kappa Fleiss para el Sistema de Categoras (corregido 3) Foro 5 (58 mensajes y n lneas entre 1-1215) ~ 3 codificadores Dimensin Cognitiva (35 acuerdos) k=0.60 Dimensin Social (31 acuerdos) k=0.53 Dimensin Didctica (20 acuerdos y 22 acuerdos) Resto de la Dimensin Enseanza Directa

k=0.34 k=0.38 k=0.46 (Kappa de Fleiss medio para la codificacin del foro 5)

ndice de Kappa Fleiss para el Sistema de Categoras (corregido 4) Foro 8 (98 mensajes y n lneas entre 1-1279) ~ 3 codificadores Dimensin Cognitiva (87 acuerdos) k=0.67 Dimensin Social (91 acuerdos) k=0.62 Dimensin Didctica (91 acuerdos y 93 acuerdos) Resto de la Dimensin Enseanza Directa

k=0.58 k=0.65 k=0.63 (Kappa de Fleiss medio para la codificacin del foro 8)

ndice de Kappa Fleiss para el Sistema de Categoras (corregido 5, definitivo) Todos los foros (10 foros: 2039 mensajes y n lneas entre 1-41348 lneas) ~ 3 cod. Dimensin Cognitiva (1936 acuerdos) k=0.88 Dimensin Social (1950 acuerdos) k=0.69 Dimensin Didctica (1923 acuerdos y 1944 acuerdos) Resto de la Dimensin Enseanza Directa

k=0.64 k=0.87 k=0.77 (Kappa de Fleiss medio para la codificacin de todos los foros)
6 Las probabilidades que presentamos tras el clculo de Kappa de Fleiss aparecen redondeadas a dos decimales. RIE, vol. 27-1 (2009)

Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio

99

determinacin de la concordancia; circunstancia por la que decidimos centrarnos en el clculo estadstico de la fiabilidad para cada una de las tres dimensiones de forma separada. De este modo obtuvimos una tabla Kappa para cada esquema de clasificacin o dimensin: Cognitiva, Social, y dentro de Didctica consideramos dos opciones, una primera para Enseanza Directa; y una segunda, llamada Resto, que se refera al conjunto de categoras restantes que no inclua la Enseanza Directa. En segundo lugar, identificamos y anotamos en diferentes tablas los acuerdos y desacuerdos. Este procedimiento se llev a cabo mediante una actividad manual donde para cada unidad codificada los tres codificadores fuimos sealando una marca sobre el papel. Una vez finalizada cada una de las sesiones, se contabiliz las marcas que indicaban acuerdos y desacuerdos en los cdigos dentro de cada unidad de registro (mensaje) para facilitar la obtencin del valor de Kappa. A partir de este momento, dichos datos constituyeron las cifras que fueron sustituidas en la frmula que finalmente adoptamos. A continuacin presentamos los clculos y resultados de todos los coeficientes Kappa de Fleiss realizados durante las distintas subfases (estudio piloto y validacin completa). Ms adelante, en el siguiente punto, nos detendremos en la interpretacin de estos resultados. 7. VALORACIN DE LA FIABILIDAD DEL SISTEMA DE CATEGORAS La disposicin para valorar algo implica necesariamente contar con criterios previos que nos permitan enjuiciar aquello que es objeto de evaluacin. As, para interpretar el valor del coeficiente Kappa, es til disponer de alguna escala de valoracin. En nuestra revisin de la literatura hemos encontrado algunas aproximaciones que los autores siempre proponen reconociendo cierta arbitrariedad. Fleiss (1981) ofrece una clasificacin de los Kappas que nos puede ayudar a interpretar los coeficientes obtenidos. Este autor caracteriza como Regulares los Kappas que se hayan entre 0.40 y 0.60, Buenos de 0.61 a 0.75, y Excelentes por encima de 0.75. TABLA 3 INTERPRETACIN DEL NDICE KAPPA DE FLEISS (FLEISS, 1981) Interpretacin del ndice Kappa de Fleiss (Fleiss, 1981) Valor de K 0.40 0.60 0.61 0.75 > 0.75 Fuerza de concordancia Regular Buena Excelente

RIE, vol. 27-1 (2009)

100

Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

Por su parte, Altman (1991) propone una clasificacin algo ms amplia. Los coeficientes registran valores que van desde 0 a 1, siendo 0 el valor donde hay mayor desacuerdo entre investigadores y 1 el punto donde encontramos mayor acuerdo. Su clasificacin indica que los Kappas pueden ser Pobres (0 a 0.20), Dbiles (0.21 a 0.40), Moderados (0.41 a 0.60), Buenos (0.61 a 0.80) y Muy buenos (0.81 a 1.00). Nosotros basaremos nuestras interpretaciones en esta clasificacin, por ser ms completa. La siguiente tabla resume su propuesta: TABLA 4 INTERPRETACIN DEL NDICE KAPPA DE FLEISS (ALTMAN, 1991) Interpretacin del ndice Kappa (Altman, 1991) Valor de K < 0,20 0,21 0,40 0,41 0,60 0,61 0,80 0,81 1,00 Fuerza de concordancia Pobre Dbil Moderada Buena Muy buena

Una de las ventajas que nos proporcionan las tablas Kappa es la representacin grfica del desacuerdo. Una simple inspeccin ocular nos revela de inmediato cules fueron los cdigos que presentaron una mayor confusin y cules casi nunca. Para optimizar el clculo de Kappa de Fleiss, y con ello obtener versiones de los sistemas de categoras ms fiables, pusimos especial atencin sobre los desacuerdos ms graves. De hecho, en

Figura 1 Valoracin de los coeficientes Kappa de Fleiss.


RIE, vol. 27-1 (2009)

Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio

101

nuestra investigacin aparecieron continuos desacuerdos que abrieron diversos espacios de discusin entre los investigadores para alcanzar un consenso comn. Cuando hablamos de fiabilidad entendemos que cualquier investigador que utilice el sistema de categoras tendra que obtener resultados fidedignos y rigurosos. Tambin se refiere a que el sistema pueda ser aplicado a cualquier foro de discusin. Incluso que sea aplicado por un mismo investigador en distintos momentos. Teniendo claro lo anterior, nos disponemos a representar grficamente los distintos Kappas hallados, en funcin de las diferentes reuniones y sistemas de categoras utilizados en cada subfase del proceso de validacin. En la figura 1 describimos todos los Kappas, teniendo en cuenta la clasificacin de la interpretacin de Altman (parte superior de la grfica), y los valores k alcanzados en cada reunin, dependiendo del sistema de categoras empleado en cada caso. Observamos que en la primera validacin del estudio piloto (tercera reunin), donde utilizbamos el Sistema Corregido 2 para codificar una parte seleccionada al azar del foro 3, obtuvimos el Coeficiente Kappa 1 con un valor k=0.37. Segn la clasificacin de Altman, estamos ante un Kappa dbil, que implica poco acuerdo entre codificadores, llevndonos a un concepto bajo de fiabilidad. Esto nos condujo a continuar con un nuevo proceso de validacin en el estudio piloto (segunda validacin). Tomando el Sistema corregido 3 codificamos el foro 5 (cuarta reunin), alcanzando un valor k=0.46 (Coeficiente Kappa 2). Esto se traduce en un Kappa moderado, que aunque supera al valor anterior, no logra un acuerdo satisfactorio para asegurar la fiabilidad. Pasamos a una tercera validacin en el estudio piloto. Fue codificado el foro 8 empleando el Sistema corregido 4. El valor del Coeficiente Kappa 3 fue de k=0.63, que nos llevaba a un nivel bueno en la clasificacin de Altman. Esto proporcion una confianza mayor en el acuerdo entre codificadores al haber logrado un Kappa aceptable. Por ende, se tom la decisin de finalizar el estudio piloto y pasar a la codificacin completa de todos los foros con el sistema de categoras resultante (hechas las oportunas modificaciones). Por ltimo, en la sexta y ltima reunin de codificacin, pusimos en comn todas las codificaciones de la muestra completa de foros. Se realizaron con el Sistema corregido 5 (definitivo). Alcanzamos el nivel bueno en la clasificacin de Altman, con un valor k=0.77 (Coeficiente Kappa 4). Podemos concluir que logramos un acuerdo alto y fiable entre los tres codificadores. 8. CONCLUSIONES En este artculo hemos contribuido a clarificar el modo de cmo realizar el clculo de la fiabilidad y la concordancia entre codificadores en estudios donde se toma el anlisis de contenido y/o anlisis del discurso como tcnicas principales de investigacin. Los estudios revisados nos indican que el clculo de la fiabilidad se ha venido obteniendo a partir del acuerdo entre dos codificadores, utilizando para tal fin el ndice Kappa de Cohen. Es por ello que en este trabajo hayamos querido mostrar en detalle el procedimiento para el clculo de la fiabilidad en aquellos casos en los que el nmero de codificadores que intervienen es mayor que dos.
RIE, vol. 27-1 (2009)

102

Juan Jess Torres Gordillo y Vctor Hugo Perera Rodrguez

Figura 2 Fiabilidad, concordancia y credibilidad de la investigacin. Tomando la valoracin de nuestros coeficientes kappa, mostramos la figura 2 que simplifica la relacin entre los conceptos de fiabilidad, concordancia y credibilidad de nuestra investigacin. La concordancia, que mide el acuerdo entre los investigadores, llega por los distintos coeficientes Kappa que hemos hallado (cuatro en total). El valor ascendente que hemos ido consiguiendo, pasando de un nivel dbil (k=0.37) a uno bueno (k=0.77), nos ofrece adems una fiabilidad alta del sistema de categoras. Esto nos asegura que cualquier investigador puede alcanzar resultados semejantes al aplicarlo a otros foros online en los que tengan lugar procesos de enseanza-aprendizaje mediante e-Learning, as como en diferentes momentos (evitando el deterioro de la fiabilidad). Por su parte, la credibilidad nos viene proporcionada por las continuas revisiones y reuniones mantenidas durante el proceso de construccin del sistema de categoras. De este modo, se garantiza que las interpretaciones puedan ajustarse a la realidad estudiada. 9. REFERENCIAS BIBLIOGRFICAS ALTMAN, D.G. (1991). Practical statistics for medical research. New York: Chapman and Hall. ARCHER, W. et al. (2001). A framework for analysing critical thinking in computer conferences. Paper presented at EURO-CSCL Conference 2001 (21-24 marzo). Maastricht (Holanda). http://www.ll.unimaas.nl/euro-cscl/ programme.htm (25/01/2008). BAKEMAN, R. y GOTTMAN, J.M. (1989). Observacin de la interaccin: introduccin al anlisis secuencial. Madrid: Morata. CAPOZZOLI, M., McSWEENEY, L. & SINHA, D. (1999). Beyond kappa: A review of interrater agreement measures. The Canadian Journal of Statistics, 27(1), 3-23. COHEN, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20, 37-46.
RIE, vol. 27-1 (2009)

Clculo de la fiabilidad y concordancia entre codificadores de un sistema de categoras para el estudio

103

DONOSO, T., FIGUERA, P. y TORRADO, M. (2000). Anlisis y validacin de una escala para medir la conducta exploratoria. Revista de Investigacin Educativa, 18 (1), 201-220. FLEISS, J.L. (1981). Statistical methods for rates and proportions. New York: John Wiley and Sons. GARCIA, R. (2004). Diagnstico de la Teleformacin: construccin y validacin de un escalograma Guttman. Revista de Investigacin Educativa, 22 (1), 277-302. GOETZ, J.P. y LeCOMPTE, M.D. (1988). Etnografa y diseo cualitativo en investigacin cualitativa. Madrid: Morata. JONASSEN, D. & REMIDEZ, Jr., H. (2005). Mapping alternative discourse structures onto computer conferences. International Journal Knowledge and Learning, 1 (1/2), 113-129. MARRA, R.M.; MOORE, J.L. & KLIMCZAK, A.K. (2004). Content analysis of online discussion forums: a comparative analysis of protocols. Educational Technology Research and Development (ETR&D), 52(2), 23-40. McMILLAN, J.H. y SCHUMACHER, S. (2005). Investigacin educativa. 5 ed. Madrid: Pearson Educacin. PATTON, M.Q. (1990). Qualitative evaluation and research methods. 2nd ed. Beverly Hills: Sage Publications. ROURKE, L. et al. (2001a). Methodological issues in the content analysis of computer conference transcripts. International Journal of Artificial Intelligence in Education, 12, 8-22. ROURKE, L. et al. (2001b). Assessing social presence in asynchronous text-based computer conferencing. Journal of Distance Education / Revue de lenseignement distance, 14 (2). http://cade.athabascau.ca/vol14.2/rourke_et_al.html (25/01/2008) SANDIN, M.P. (2000). Criterios de validez en la investigacin cualitativa: de la objetividad a la solidaridad. Revista de Investigacin Educativa, 18 (1), 223-242. TORRES, J.J. & PERERA, V.H. (2005). Studying Collaborative Learning in Online Discussion Forums. In ICTE in Regional Development, 118-121. Valmiera (Latvia): Vidzeme University College.

Fecha de recepcin: 13 de mayo de 2008. Fecha de aceptacin: 16 de diciembre de 2008.

RIE, vol. 27-1 (2009)

You might also like