You are on page 1of 14

El Anlisis de la Semntica Latente y su aportacin a los estudios de Usabilidad

Jorge y Botana, Guillermo de Resumen: Los diseadores web han de tener en cuenta el modelo mental del usuario a la hora de confeccionar cabeceras, ttulos, enlaces, links y dems guas a la navegacin. La relacin semntica entre la representacin mental del usuario y las guas que le ayuden a realizar su bsqueda condicionar el xito de la visita. El anlisis de la semntica latente (LSA) ofrece una forma de evaluar objetivamente la conveniencia de estas guas.

Introduccin
Cada vez es mayor la preocupacin de las grandes entidades por la usabilidad de sus portales. En estos das estamos asistiendo a un ascenso vertiginoso de las operaciones de negocio por medio de la WEB. Podemos realizar infinidad de operaciones por medio de un ordenador y una conexin a red: inversiones burstiles, operaciones bancarias como transferencias, asegurar vehculos, altas en contratos telefnicos y de acceso a Internet, etc. Como no poda ser de otra forma, la captacin de clientes en este mbito viene parejo a la seguridad de las comunicaciones y a la facilidad de uso de los servicios ofrecidos. Al ser amplia la competencia, cualquier esfuerzo en la captacin y fidelizacin de los clientes repercute en las cuentas generales. Una forma de captacin y fidelizacin es hacer que los portales corporativos

sean cmodos, giles, con un uso restringido a cortos periodos de tiempo por operacin. En definitiva, conseguir que el usuario del servicio no abandone por el simple hecho de no comprender el funcionamiento o considerar que invierte un periodo excesivo de su tiempo. El estudio de la usabilidad trata de estudiar todo lo que concierne a las variables de factor humano en el uso de las aplicaciones. En un artculo de New York Times 17-12-2000 encontramos un ejemplo de la evolucin sufrida por la compaa Fidelity Investments y cmo la usabilidad ha contribuido a mejorar estos resultados. Esta empresa opt por invertir en investigacin referente al factor humano en sus aplicaciones WEB y cuenta en su departamento de "human interface design" con un equipo de 14 personas adems de disponer de dos laboratorios para realizar test de usabilidad. Los resultados se podran resumir en que los clientes del broker de Fidelity aumentaron en un 37% sus operaciones por Internet. El 57% de sus altas en planes de pensiones fueron realizadas on-line. Segn remarca la revista Business 2.0 Octubre 2002 en un seguimiento de este hecho, despus de redisear el sitio de nuevo haciendo ms clara la informacin que los usuarios deban tener ms a mano, el nmero de operaciones creci en un mes el 4%. Esto puede darnos una idea de la importancia que tiene la forma de guiar al usuario hacia la informacin. Un estudio de la empresa Usolab (2002) advierte de la existencia de trminos frecuentemente utilizados en las web de banca que no son entendidos por un alto porcentaje de usuarios. Son trminos que por ser muy usados en el lenguaje financiero, acaban por formar parte del lenguaje comn del personal de banca, de tal forma que no se repara en la posibilidad de que los usuarios "no bancarios" no los conozcan. Este estudio evidencia la importancia del diseo de los interfaces y en especial, el diseo de los enlaces y guas con contenido semntico. Los usuarios de la WEB y del software en general estn continuamente aplicando su propio conocimiento semntico cuando navegan. Por ejemplo, para realizar una bsqueda, el usuario encontrar en su camino enlaces o "links" que le indicarn la ruta a seguir. La cantidad de informacin y la forma en que varios enlaces solapen su

significado extensional, es decir, parezcan referirse a los mismos objetivos, har o no que los usuarios dilaten el tiempo invertido en la bsqueda a riesgo de que abandonen finalmente nuestro portal y recalen en otro. La proliferacin de los servicios ofrecidos va WEB hace probable que el tiempo y el numero de "clicks" que un usuario considere aceptable para dar con lo que busca sea relativamente bajo. Por eso, los diseadores de los portales WEB (en especial los de grandes compaas), son cada da ms sensibles a introducir protocolos de usabilidad en los portales que construyen. En otras palabras, hacer un diseo centrado en el usuario.

Modelo Semntico del Usuario


Adems de su diseo visual, copioso es el caudal de razones que inclina a considerar protocolos que contengan como sustrato el modelo mental del usuario, es decir, el modelo semntico que cada usuario posee del mundo que le rodea. Este modelo semntico de los usuarios, expresara cmo las palabras se relacionan unas con otras y de qu manera las agrupaciones de estas palabras (enlaces de ms de un trmino) se parecen entre s. Algunos de los fenmenos empricos que pueden encontrarse son los siguientes: 1. Los usuarios aplican de continuo su conocimiento semntico mientras buscan en la web. (Kaur, Hornof; 2005) 2. Por regla general, los usuarios no evaluan todos los items disponibles (enlaces y cabeceras) antes de seleccionar el que consideran acertado (Brumby, Howes; 2003). En registros oculogrficos se consigna que los sujetos se saltan candidatos. 3. Incluso los factores visuales ms primitivos estn influidos por las propiedades semnticas de los apoyos a la bsqueda (Pierce; 1992). Procesos Arriba-abajo, (top-down). Esto significa que la percepcin del diseo grfico de las aplicaciones o portales estar influido por cmo los usuarios consideren las indicaciones de los enlaces, cabeceras y dems indicaciones lingsticas e icnicas.

4. Segn los datos empricos, los usuarios tienden a elegir los enlaces del men que porten ms informacin (ms pistas hacia sus propsitos) (Brumby, Howes; 2004). Es decir, realizan una bondad de ajuste entre la representacin propia de la meta y las indicaciones proporcionadas por el diseo. 5. La eleccin del tem (enlace) viene afectada por la informacin de los tems que le rodean (Brumby, Howes; 2004). La seleccin entre los tems examinados est afectada no slo por la informacin del tem que nos lleva a la consecucin de la meta propuesta sino por la informacin de los tems distractores. 6. La similitud subjetiva percibida por el usuario entre la informacin deseada y los enlaces es dependiente del valor informativo de los otros enlaces (Brumby, Howes; 2004). La manera en que los usuarios verbalicen que el enlace indica la ruta haca una informacin buscada es dependiente de los dems enlaces. 7. Adems de saltarse candidatos, los usuarios acotan los candidatos a ser elegidos en subconjuntos cada vez ms pequeos (Brumby, Howes; 2004). Fijan su foco atencional en subconjuntos ms pequeos de tems (enlaces), es decir, siguen heursticos que propician la simplificacin de la informacin proporcionada por los propios enlaces en menos candidatos y prescinden de algunos por no considerarlos semnticamente pertinentes en una primera evaluacin. Esto puede considerarse similar al modelo de anlisis racional de solucin de problemas de Anderson (1990). Este modelo se basa en la evaluacin de la utilidad de una reevaluacin medida en costes y beneficios. Los tems son evaluados en la medida en que se supone que evaluando otro se consigue una ganancia adicional que supere el coste de esta ltima evaluacin. Por tanto, los sujetos son conservadores a la hora de buscar nuevos tems que tengan mejores pistas hacia la meta y acotan los candidatos en subconjuntos para realizar reevaluaciones. 8. Cuando el tem que indica la informacin buscada (la meta), lo hace de manera diferenciable (no hay otros enlaces que parezcan indicar esa misma informacin), los usuarios son mucho ms rpidos en seleccionar ese tem y lo hacen con

una mayor seguridad pues fijan su atencin en menos tems despus de la fijacin inicial. (Brumby, Howes; 2004) 9. Controlando los tems (enlaces) confundibles entre ellos, su familiaridad medida en la frecuencia de uso y su representatividad en relacin a la informacin deseada se mejora de forma palpable el porcentaje de aciertos, el nmero de "clicks" empleados y el tiempo invertido. (Blackmon, Kitajima y Polson; 2003) (Blackmon, Mandalia; 2004) Todos estos datos y algunos otros pueden agruparse en un corolario comn: existe una interdependencia de los enlaces, cabeceras y dems guas del men en cuanto a su evaluacin y consiguiente eleccin. En lneas generales, el hecho de que un usuario fije su atencin en uno de los enlaces depende de la recurrencia de la informacin que porta este enlace adems de la recurrencia de la informacin que portan los dems enlaces que han sido evaluados. Adems, los usuarios son sensibles a la familiaridad de los trminos de los enlaces y a como de representativos son esos mismos trminos en relacin con el tpico que es motivo de la bsqueda.

Paseo Cognitivo
Uno de los modelos que se han aplicado para detectar los problemas de representacin semntica que pueden estar interfiriendo en el uso o navegacin de una aplicacin ha sido el llamado "Cognitive Walkthough for the Web" (CWW) o "Paseo Cognitivo para la Web" (Blackmon et al.; 2002) (Blackmon, Mandalia; 2004). Este modelo orientado a su aplicacin trata de detectar los problemas derivados de los trminos utilizados como gua (enlaces, cabeceras, "links") para la consecucin de un objetivo. El modelo CWW es heredero de otro modelo llamado simplemente "Cognitive Walkthough" (CW) o "Paseo Cognitivo" propuesto por Polson et al. (1996). El Paseo Cognitivo trata de pronosticar los problemas que tendrn los usuarios en el uso de una aplicacin. Para ello, simula la navegacin de los usuarios asumiendo que todas las acciones de este irn destinadas a la consecucin de una meta. Este modelo

identifica los problemas de usabilidad simulando paso a paso en una interfaz la conducta del usuario en una tarea dada. El equipo de expertos que lleva a cabo la simulacin ha de contestar a un protocolo de preguntas claves: 1. Est clara para el usuario la accin correcta para la consecucin de las metas? 2. Identificar el usuario la descripcin de la accin correcta con lo que l trata de hacer? 3. Interpretar el usuario correctamente la respuesta del sistema para una accin? El modelo "Cognitive Walkthough for the Web" (CWW) asume como herencia los postulados de este anterior modelo pero introduce mejoras en cuanto a costes y efectividad. Como el anterior, concibe que el usuario siempre tiene un propsito. CWW propone que para generar una accin en busca de este propsito (apretar un botn, un enlace, un "link", etc), el usuario involucra dos procesos: 1. Divide la pgina en regiones y atiende a las regiones correctas (aquellas cuyas descripciones estn de acuerdo con sus propsitos) 2. Elige un enlace y acta sobre l. Fruto de estos dos procesos, el modelo CWW toma el anterior protocolo de preguntas pero introduciendo dos preguntas fundamentales que emanan de la pregunta nmero 2. 2a) Identificar el usuario el ttulo de la subregin correcta con la representacin propia del propsito que desea llevar a cabo? 2b) Usando los enlaces, "links" y otra clase de informaciones en dichas subregiones identificar el usuario las descripciones de estos controles como "pistas" que indican una posible consecucin del propsito de lo que quiere llevar a cabo? Para evaluar estas preguntas, CWW introduce el uso de un modelo de conocimiento de un usuario prototipo. No slo simula este conocimiento con expertos sino que lo hace modelando el conocimiento que el usuario trae consigo a la hora de enfrentarse con nuestra aplicacin. Para evaluar si las descripciones de ttulos y enlaces son identificados por el usuario como la propia senda hasta la consecucin de su propsito, lo que hace este modelo es

analizar si los trminos que se utilizan pueden estar incurriendo en alguno de los problemas que emanan de los hechos empricos anteriormente descritos, a saber: los sesgos en la seleccin provocados por la interdependencia de las descripciones de ttulos y enlaces, la familiaridad de las descripciones y la representatividad que estas tienen del propsito o meta del usuario. Si los trminos de las descripciones incurren en algn tipo de problema, habr que retirarlos y sustituirlos por otros. Para evaluar estos trminos y su conveniencia, hace uso de un modelo de representacin mental de los usuarios. Este modelo mental es una representacin semntica de los trminos en la mente de los usuarios, es decir, cmo los usuarios tienen representados los trminos en su modelo mental y cmo, a consecuencia de esa representacin, se relacionan unos con otros. Si poseemos un modelo de la representacin mental de los usuarios podemos analizar los enlaces que encontramos en una aplicacin y optimizarlos para que haya una navegacin gil y sin los problemas que emanan de los hechos antes descritos. Una forma de disponer de dicho modelo es emplear una tcnica como el Anlisis de la Semntica Latente.

Anlisis de la Semntica Latente


El Anlisis de la Semntica Latente o Latent Semantic Analysis (LSA) es un modelo computacional que aprovecha un fenmeno que se suele cumplir en el lenguaje natural: las palabras del mismo campo semntico suelen aparecer juntas o en similares contextos. Este modelo es susceptible de implementarse como aplicacin informtica. Yo mismo he implementado una aplicacin para este anlisis en la plataforma .NET, pero es famosa por ser de los mismos creadores la de la Universidad de Boulder accesible libremente por WEB. El procedimiento analiza un corpus lingstico de grandes dimensiones. Este corpus ser representativo de un uso general de la lengua en un usuario prototpico (ej: adultos, nios, estudiantes, etc). El producto final de este anlisis es un espacio semnticovectorial en el que estn representados todos los trminos a los que el usuario ha sido expuesto. Estos contextos vendrn en forma de

documentos (ej: frases, prrafos o pginas) en los que esos trminos aparecen y sern los que acotaran el uso de unos trminos en concurrencia con otros y la probabilidad en que otros trminos sean utilizados en estos mismos documentos. De una manera no tcnica, lo que lleva a cabo el anlisis de la semntica latente es eliminar el ruido que est presente en las relaciones entre trminos y documentos y es debido a la gran variabilidad de uso de trminos para expresar un mismo referente (se usan diferentes palabras para designar lo mismo). Esto lo realizar por medio de una variante del anlisis factorial llamada Descomposicin del valor singular (SVD) que por medio de un algoritmo recursivo, descompondr la matriz que representa los trminos y los documentos en que ocurren en dos matrices que representan vectores de trminos y documentos y una matriz diagonal en los que se encuentran en orden descendente los valores singulares que representan las relaciones que mantienen ambas matrices de vectores singulares.

Figura 1: Desglose de la matriz principal en las dos matrices de vectores singulares y una matriz diagonal de valores singulares. Ser a partir de este desglose desde donde se reducirn las dimensiones tomando slo las que ms capacidad tienen para diferenciar diferentes regiones semnticas. (generalmente las 300 primeras). De otra forma, La tcnica SVD devolver un desglose de las relaciones que se mantienen en la matriz original. Para liberar la relacin de ruido, teniendo la matriz desglosada conforme a sus relaciones, podemos reconstruir la matriz inicial pero tomando en

consideracin slo las dimensiones que hacen ms fuerte la relacin entre trminos y documentos. Esto se har tomando los valores singulares ms altos y volviendo a multiplicar las tres matrices pero reduciendo sus dimensiones a las mismas que valores singulares hayamos considerado. Una analoga muy grfica de cmo funciona la tcnica, la proporciona un artculo de Yu et al. (2004): "Imaginemos que tenemos un acuario de peces tropicales y tan orgullosos estamos de tenerlo que qu deseamos fotografiarlo para una revista especializada. Para capturar la mejor foto, elegiremos el mejor ngulo que garantice la mejor toma. Adems, nos aseguraremos de que en ella salgan visibles el mximo nmero de peces sin ser solapados por otros peces. Tampoco queremos que los peces salgan todos juntos en una masa sino que los queremos mostrar bien distribuidos en el agua. Como nuestro acuario es transparente, tomaremos diversas fotos desde diferentes puntos de vista y elegiremos la que mejor se adapte a lo antes descrito". En definitiva, lo que hace la tcnica es mediante la recursividad (hacer varias fotos), buscar las dimensiones que mejor permitan una diferenciacin de las "bolsas semnticas (peces) en las que los trminos participan. Una vez hecho esto, elegiremos slo las dimensiones que mejor caractericen estas bolsas sin restringir el nmero de estas, tanto que la representacin semntica quede muy grosera, ni elegir demasiadas haciendo que las posibles diferencias se difuminen.

Figura 2: Solo los amantes de los acuarios saben la satisfaccin que se experimenta con una imagen as, casi tanta como al agrupar los trminos en torno a conglomerados semnticos mediante LSA y poder comparar trminos, documentos y texto libre. As pues, si poseemos un modelo mental de las relaciones semnticas que manejan los usuarios a la hora de enfrentarse con nuestra interfaz, podramos predecir los tems que resultaran deficientes y sustituirlos por otros. Es decir, si los tem son interdependientes unos de otros y la informacin semntica influye hasta en el mismo diseo, debemos aislar los grupos de tems que son confundibles unos con otros en cuanto a la representacin de la meta, los tems que no son para nada representativos de ninguna meta pues apenas evocan informacin relacionada con ella, los tems poco familiares bajo el modelo mental del usuario, etc. Ah es donde se introduce LSA como simulacin de modelo mental de distintos tipos de usuario (grupos sociales). Una buena explicacin de LSA como modelo la tenemos en Landauer, Foltz y Laham (1998). En definitiva, el modelo mental proporcionado por el anlisis de la semntica latente (LSA) hace algo que ni siquiera los expertos entrenados en usabilidad y psicologa cognitiva pueden hacer: predecir las acciones que llevar a cabo un

grupo de usuarios cuyo modelo mental o sustrato de conocimiento es muy diferente al de estos mismos expertos. De alguna manera, la simulacin del modelo mental de los usuarios enriquece sobremanera la evaluacin (Blackmon; 2004). Una vez que poseemos un modelo mental de la representacin semntica de un determinado perfil de usuario que utilizar nuestra aplicacin, podemos realizar el anlisis de la interfaz.

Anlisis de la Interfaz
El primer paso es formular cuales son los propsitos o metas que desea conseguir el usuario cuando entra en una pgina web como la que se est analizando. Lo ideal es entrevistar a potenciales usuarios y hacer una lista de sus propsitos de tal manera que nos describan que informacin es la que desean encontrar. Hecho esto, el modelo introduce ciertos parmetros a medir: I) SIMILITUD: Al permitir LSA medidas de similitud entre los vectores representados en la matriz, sean estos trminos, documentos o documentos introducidos a posteriori, podemos medir de qu manera se relacionan los ttulos y enlaces entre s (en qu medida se confunden entre s) y cmo se relaciona el ttulo o enlace que se considera correcto con el texto o meta final (en qu medida porta informacin sobre la meta). 1. Se considera que una enlace considerado correcto proporciona pocas "pistas" de la meta a encontrar si la similitud entre los dos medida con el coseno del ngulo que dejan los dos vectores entre si no llega a 0.10 (coseno<0.10) 2. Se considera que dos ttulos o enlaces son confusos entre si, si el ndice de similitud entre ellos medido de la misma forma es mayor que 0.60. (coseno>0.60)

Figura 3. Vectores en un espacio tridimensional. Los vectores del espacio semntico-vectorial que representan trminos y documentos, son susceptibles de comparacin calculando el coseno del ngulo que queda entre dos vectores. II) FAMILIARIDAD: Se consideran dos formas de medir la familiaridad de los trminos. La primera es medir la frecuencia de aparicin de un trmino en un corpus representativo del conocimiento de nuestro usuario prototipo. La segunda es acudiendo otra vez al modelo semntico-vectorial generado por el anlisis de la semntica latente (LSA) y consignando la longitud del vector que representa ese trmino. Esta medida dar cuenta de la cantidad de informacin que porta un trmino. Puede decirnos "cuanta informacin posee el anlisis LSA de ese vector. Los trminos sobre los que el anlisis porta ms informacin tendrn vectores con mayor longitud porque aparecen muy frecuentemente en el corpus en diversos contextos. Lo que muestra esta longitud es que ese trmino est bien representado en los documentos y podra representar bien alguno de los conglomerados que se forman dentro del universo semnticoKintsch (2001). Si un trmino posee un ndice alto de similitud con un tpico, interesa que

sea familiar pues se deduce que los usuarios conocen bien el trmino. 1. Para la primera forma es necesaria una frecuencia de 15 en adelante. 2. Para la segunda forma se hace necesaria una longitud de vector superior a 0.55 para una palabra y mayor de <0.80 para las estructuras complejas de varias palabras (recordemos qu la longitud de un vector frase es mayor que la de un vector trmino y a su vez, ambas longitudes son menores que la del vector prrafo). Toda longitud menor de estos umbrales sern considerados insuficientes.

Un Caso de Estudio
Un caso analizado por Blackmon y Mandalia (2004) utilizando la aplicacin computerizada del CWW que ellos mismos disearon es el anlisis sobre los enlaces y cabeceras del interfaz de la enciclopedia ENCARTA. Para una mayor parsimonia experimental disean una interfaz simplificada en la que se homogeniza el diseo y la ubicacin de enlaces y cabeceras. En una caja de texto en la parte superior se ofreca a los sujetos experimentales un prrafo sobre un tema y la tarea consista en pinchar en donde buscaran sobre l. Los temas podan ser desde razas, tipos de msica, ciberntica, etc, pero ningn texto contena palabras no-familiares. Tanto los modelos de espacio semntico surgidos del anlisis LSA como usuarios reales de distintos niveles escolares son testados en la tarea. Primero se pronostican los problemas con los modelos de usuario LSA y luego pasan los usuarios reales. De los 154 enlaces que conectan con los temas, tomando diferentes espacios semnticos, el modelo pronostica que 79 son no-familiares para los nios de tercer grado, reducindose esta cifra a 27 en el espacio semntico de sexto grado. En definitiva, el pronstico sera que por ejemplo, un nio de tercer grado tendra bastantes problemas de usabilidad a la hora de buscar un artculo en la enciclopedia ENCARTA. Palabras como Paleontologa (0.06), lo oculto(0.08),

arqueologa(0.10) ofreceran dificultades a un nio de tercer grado dado su baja longitud de vector. Seran palabras no-familiares. Para solucionar esta falta de familiariad se puede optar por aadir a la existente otra ms familiar o sustituirla por otra ms familiar. Por ejemplo, sustituir "Paleontologa" por "paleontologa y fsiles". El siguiente anlisis se hace en relacin a la similitud y representatividad que tiene cada enlace de sus respectivos temas a buscar y cada cabecera de sus enlaces adems de la similitud de cada enlace meta con los dems enlaces. Para ello se relaciona mediante el anlisis de similitud de los cosenos cada texto del tema a buscar con un pequeo texto compuesto de las palabras que ms tienen relacin con cada enlace (link) y cada cabecera con sus enlaces. Esto dar cuenta de si hay enlaces y cabeceras compitiendo entre si y si los enlaces representan el texto a buscar. Un ejemplo: bajo la tarea "Buscar un artculo sobre Hmong" compiten las cabeceras "ciencias sociales" con el enlace "pases". En la cabecera "Historia", hay tres enlaces compitiendo por ese misma meta como son "Historia de Asia y Australasia", "Historia de Estados Unidos" y "Gente de los Estados Unidos" , y en "Geografa" los enlaces "pases" y "regiones del mundo" se solapan entre si. Una posible solucin sera hacer enlaces mltiples desde cada una de los enlaces o agrupar pues sino estaramos ante muchos enlaces que resultan confundibles entre ellos. Las correlaciones de los pronsticos con usuarios reales medidas estas antes y despus de corregir los problemas pronosticados por el sistema corroboraron que los pronsticos eran acertados. Los modelos proporcionados por los espacios semnticos surgidos del anlisis LSA (de cada uno de los grupos) parecen ser eficientes a la hora de usarse como usuarios prototipo de cada grupo y detectar sus posibles problemas. - See more at: http://www.nosolousabilidad.com/articulos/analisis_semantica_latent e.htm#sthash.vCiu4bYw.dpuf

You might also like