You are on page 1of 6

Formacin Geogrfica / Curso de IDEs / Manual

Bloque 1. Introduccin:Informacin Geogrfica, Sistemas de Informacin Geogrfica y Web Semntica Captulo C. Las Infraestructuras de Datos Espaciales

Unidad 1.C.7: Introduccin a la Web Semntica


7.1. Introduccin

Dr. Miguel Angel Bernab Poveda (Universidad Politcnica de Madrid)

La web tradcional (si se puede hablar de tradicin en algo que para la mayora de los usuarios tiene menos de 15 aos de antigedad) est pensada para que los humanos se comuniquen. Por ejemplo, generalmente, los buscadores en Internet realizan bsquedas de cadenas de caracteres coincidentes con los trminos solicitados por el usuario. Si en Internet, solicitamos informacin sobre el trmino casa, un buscador normal recorrer la web en busca de esa secuencia de letras colocadas en ese mismo orden. El usuario recibir una mirada de direcciones URL donde la palabra casa est presente. Encontraremos que alguna de las referencias se refieren a la palabra casa como sinnimo del concepto edificio (Est cerca de aquella casa) , en otros casos como sinnimo de hogar (Nos fuimos a casa y nos quedamos dormidos), en otros se referir al tiempo verbal correspondiente del verbo casar (Si ella se casa con otro, yo me suicido) Es ms, si introducimos la secuencia El martes por la maana ir a buscartea (sin las coomillas) los buscadores me darn informacin no slo sobre la palabra maana sino todas las palabras restantes de la oracin. El buscador, (que es muy eficiente), no entiende el significado de la frase al no entender el significado de las palabras. Sin embargo, si a un humano se le formula la frase anterior, no cabe duda de que no confundir la palabra maana con el da despus de hoy pues comprender su significado por el contexto de la frase en la que se encuentra. Los buscadores, generalmente, buscan solo secuencias de letras (o nmeros) pero no entienden de significados. Esto se debe a que la web tradicional est diseada para ser leda por humanos y no por mquinas. El Proyecto de la Web Semntica tiene como fin crear pginas web comprensibles para ordenadores, de manera que puedan buscar sitios web y realizar tareas encadenadas de una manera estandarizada. Sern tareas en las que hoy es imprescindible la implicacin de un humano en su resolucin. .

7.2. La Web Semntica


La Web Semntica es un proyecto que pretende crear un medio universal para el intercambio de informacin mediante la colocacin de documentos en la red de forma que puedan ser procesados por mquinas, al margen del idioma en el que estn redactados. El usuario podr encontrar respuesta a sus preguntas gracias a que la informacin estar bin definida. Para esa posibilidad, la web debe disponer de los significados de los conceptos de manera que las palabras no sean solo una coleccin de letras dispuestas en un cierto rden, sino que sean conceptos bien definidos. Una vez que el concepto de casa o los diferentes conceptos de maana estn bien definidos, el ordenador sabr a qu nos estamos refiriendo en cada caso. Por ejemplo: Se podr encargar al ordenador tareas del tipo: Quiero reservar a mi nombre un ticket de avin para ir a Londres a mediados de mayo, lo ms barato posible. El ordenador debe entender los conceptos: mi nombre (que estar en algn archivo de mi computadora); ticket de avin para ir a (o tambien billete de avin o pasaje areo); mediados de mayo (y saber que puede ser cualquier da entre el 10 y el 20 de mayo) y lo ms barato (teniendo cuidado de no comprar el ms barato que encuentre ese mismo da, sino conocer el rango en el que se mueven los precios y comparalo o no comprarlo hoy, esperando a ver lo que ocurre maana, tal y como hara el humano). Es ms, debe entender esos conceptos, unirlos y debe saber el significado completo de la frase, o lo que es lo mismo,

Formacin Geogrfica / Curso de IDEs / Manual

como resultado a esa orden el ordenador debe reservar a mi nombre un billete barato de avin a mediados de mayo para Londres.

Figura 1 Resultado de bsqueda con un buscador no semntico a la cuestion: Vuelos a Praga para maana por la maana

Figura 2 Resultado de bsqueda con un buscador semntico

http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica (activa el 11/06/2006)

Adicionalmente, si tras cada palabra escrita debe estar su concepto, y existe la forma de identificar el significado de cada palabra aunque existan homografas (haya = rbol y haya = forma del verbo haber), no debe haber problema para que las bsquedas se realicen sobre cualquier idioma, al margen del que se le realice la pregunta. Eso proporcionara una riqueza enorme a los resultados de las bsquedas. Por ejemplo, en la pregunta Quiero un billete de vin para maana por la maana el sistema semntico debe saber que para maana significa para el da despus de hoy y que por la maana significa antes del medioda. Debe tambien saber que los conceptos asociados a maana por la maana equivalen a los asociados a tomorrow morning, demain le matin, morgen frh, domani mattina, amanh manh, etc. Y debe saber que preferimos que los resultados nos los muestre en espaol. En resumen, para disponer de una autntica Web Semntica se debe disponer de datos bien documentados para que las mquinas resuelvan problemas bien definidos que solucionen preguntas bien formuladas. Los datos deben estar rigurosamente documentados y dotados no slo de significados sino de relaciones y de reglas de identificacin para casos de homografas.

7.2.1 Datos bien documentados


Como se ver ms adelante en este Curso, los metadatos son informaciones que describen a los datos. Se dice que los metadatos son datos sobre los datos. Ejemplo: Mi pasaporte contiene los metadatos que la polica de inmigracin requiere acerca de mi persona. Mi historial mdico contiene los metadatos que mi mdico necesita tambin acerca de mi persona. Algunos metadatos de los que quiere el polica y de los que quiere el mdico coinciden: Nombre, apellidos, fecha de nacimiento, pero otros como si pas o no pas la tos ferina o el sarampin cuando era nio, son irrelevantes para el polica. Otro ejemplo: Los descriptores que vienen en los envases de comidas en los que se especifica las cantidades de elementos que la componen (agua, edulcorantes, colorantes, etc) son los metadatos de esa comida. Los metadatos de una pgina web son aquellos datos que informan a los buscadores sobre los contenidos que van a encontrar en cada pgina web. Por ejemplo, los metadatos de esta pgina convertida a pgina web pueden ser <web semntica>, <Informacin geogrfica> <Infraestructura de datos espaciales> <IDE> pero nunca sern <pasajes de avin> <Londres> aunque en ella aparezca estos trminos que hemos utilizado como ejemplo.

7.3. La Web Semntica y la Informacin Geogrfica (IG)


Las IDEs pretenden, como objetivo final, ayudar al asuario a localizar IG, y ponerla a su disposicin, informndole sobre las caractersticas de esa informacin (actualidad, precio, precisiones, propietario,

Formacin Geogrfica / Curso de IDEs / Manual

limitaciones, etc). Responder a esa informacin de manera precisa, exige que la informacin est catalogada y que existan herramientas capaces de dirigir al usuario para el uso que quiera hacer de esa IG. Si adems se pretende que exista un mayor refinamineto en las respuestas, la IDE debe disponer de herramientas de Ingeniera del Conocimiento especializadas en la recuperacin de la informacin. Nos referimos a Nomencltores, Listas Controladas, Tesauros y Ontologas. Veamos una breve descripcin de ellas.

7.3.1 Metadatos
Para lograr ese nivel de informacin, los datos geogrficos deben estar documentados al mximo nivel posible con metadatos estandarizados. Ms adelante se vern los estndares ms relevantes aplicables a la IG (FGDC, Dublin Core e ISO 19115). El concepto de metadatos es familiar a la mayora de aqullos que manejan temas espaciales. La leyenda de un mapa es una representacin de metadatos, que contiene informacin sobre el editor del mapa, la fecha de publicacin, el tipo de mapa, su descripcin, referencias espaciales, su escala y su exactitud, entre otras cosas. Tambin son metadatos la informacin descriptiva que suelen llevar adjuntos los archivos geoespaciales digitales. Son trminos y definiciones usados al documentar y utilizar esos datos. Son del tipo "qu", quin", "dnde", "por qu", "cundo" y cmo" de los datos.. Los metadatos de la IG deben ser documentados por medio de herramientas especiales y son el ingrediente clave para lograr la localizacin de los datos, su evaluacin y acceso. 7.3.1.1 Catlogos de Datos Espaciales Para que los datos geoespaciales puedan localizarse y ser utilizados por medio de aplicaciones externas, deben estar documentados (metadatados, utilizando un trmino que puede ser un neologismo no aceptado). Adems, debe existir un servicio que permita localizar y acceder a la .informacin geoespacial. A ese servicio se le conoce de diferentes maneras. Por ejemplo: El Open Geospatial Consortium (OGC) lo llama "Servicios de catlogo" La Australian Spatial Data Infrastructure se refiere como "Directorio de Datos Espaciales" El FGDC de los EEUU los llama "Clearinghouses" Esta ltima se traduce al castellano como "Agencia o Almacn de Distribucin" y aunque tengan nombre diferentes, el objetivos es el mismo: localizar datos geoespaciales a travs de las propiedades descritas por sus metadatos.

Figura 3 Funcionamiento del Servicio de Catlogo

Como se ver al profundizar en los conceptos de Servidores de Mapas y Servidores de Fenmenos, gracias a la integracin de estos servicios de catlogos con otros, se podr llegar a localizar capas de informacin procedentes de distintas fuentes de datos, fundirlas y solucionar problemas gracias a los datos resultantes.

Formacin Geogrfica / Curso de IDEs / Manual

7.3.2 Nomencltores
Uno de los principales problemas de los metadatos es que no siempre estn descritos con la suficiente precisin como para identificar de manera precisa la informacin que disponen. A veces la informacin de los metadatos puede ser ambigua. En lo que se refiere a la IG, no cabe duda de que las coordenadas geogrficas de un punto, describen el lugar sin ambigedades. Las coordenadas son los metadatos ms importantes de un lugar. El problema es que los humanos no tenemos mucha capacidad para recordar las coordenadas de cada uno de los sitios de los que solicitamos informacin. Recordamos el nombre del sitio, por ejemplo Villaverde pero puede ocurrir que asociado a ese nombre haya una legin de sitios. Hay tambin otros sistemas de referencia espacial no basados en coordenadas, como son, los Cdigos INE, los Registros de Entidades Locales, los Cdigos Postales, los Datos Catastrales, la Cuadrcula del Mapa Topogrfico Nacional. (http://www.idee.es/show.do?to=pideep_sistemas_referencia.ES) Los nomencltores son sistemas para referenciar la IG basados en Identificadores Geogrficos unvocos de localizaciones geogrficas, (de acuerdo con la Norma ISO19112 que los define). Esos sistemas pueden estar basados en jerarquas administrativas (Pases, Provincias, Municipios) y cada una de las instancias que comprenden el conjunto debe disponer al menos de: a.- Un identificador Geogrfico. Ejemplo: Urbanizacin Pinar del Planto b.- Una dscripcin de su extensin geogrfica. Ej.: Conjunto de viviendas del Trmino Municipal de Majadahonda, provincia de Madrid (Espaa), limitadas por las calles Ronda de las Sirenas y Paseo de Paseidn. c.- El nombre de la organizacin responsable de su definicin. Ej. Ayuntamiento de Majadahonda d.- Las coordenadas de un punto representativo en el caso de falta de unicidad de los descriptores anteriores. Ej.: 40 2720 N , 35120 Estos sistemas sustituyen a los antiguos nomencltores de los Atlas en papel en los que aparecan los nombres de los elementos georreferenciables (poblaciones, parajes, accidentes, etc), junto a sus coordenadas y la hoja del Atlas donde se encontraban.

Figura 4 Urbanizacin Pinar del Planto. Majadahonda (Madrid)

7.3.3 Listas Controladas


Una forma de catalogar la informacin sin que aparezcan trminos no esperados es proporcionar al usuario herramientas que dispongan de Listas Controladas. Este concepto corresponde a listados de palabras que son los nicos que el usuario puede utilizar en un cierto entorno. Por ejemplo: si vivo en los Estados Unidos de Amrica y en una pgina web me preguntan Pas donde vive? , si no hubiera listas controladas, se podra contestar: <USA>, <US>, <U.S.>, <Estados Unidos>, <United States>, <EEUU>,

Formacin Geogrfica / Curso de IDEs / Manual

<States> Como vemos, no es fcil acertar con lo que quiere recibir la pgina web. Lo mejor es que el sistema me ofrezca una Lista de pases donde el usuario pueda elegir, sabiendo que eso ser lo que espera el sistema (aunque a mi me fastidie vivir en Spain en vez de en Espaa). En particular, la Norma ISO 19115 define 23 tipos de Listas controladas para la IG, y por ejemplo, para describir el trmino Tipo de datos existe una Lista Controlada que slo dispone de tres elementos: Fecha de creacin (001), Fecha de publicacin (002) y Fecha de revisin (003). Las Listas Controladas dan una enorme estabilidad a los sistemas de informacin, facilitando las bsquedas y el acceso a la informacin.

7.3.4 Tesauros
Se denomina Tesauro a una lista estructurada de descriptores o trminos propios de un mbito cientfico determinado, entre los cuales se establecen una serie de relaciones jerrquicas (grero/especie, todo/parte), de equivalencia (formas de uso, formas preferidas, sinnimos) y asociativas (trminos relacionados). Las palabras que componen un tesauro son el resultado del acuerdo de expertos en el tema, por lo que pueden considerarse como vocabularios controlados. Durante s construccin, se seleccionan y se recomiendan las palabras clave de la temtica que aborda. Las bsquedas utilizando palabras clave se simplifican as como la recuperacin de la informacin, pues ser posible ubicar textos o datos dentro de una gran serie de volmenes dispersos. Adems, los tesauros permiten ampliar el conocimiento acerca de un tema conociendo nuevos temas generales y especficos relacionados con el tpico de inters. Esto conduce a ampliar o a precisar los criterios de bsqueda. Aplicando la definicin de tesauro a las categoras de nombres geogrficos, se puede decir que un Tesauro de nombres geogrficos va a mostrar el conjunto de trminos que representan los conceptos geogrficos clasificados en reas temticas determinadas y sus relaciones, estableciendo relaciones de equivalencia, de jerarqua y de asociacin con el resto de trminos que forman el tesauro. Interesante: visitar este enlace: http://www.visualthesaurus.com/

7.3.5 Ontologas
La descripcin de un cierto dominio de inters, esto es, de sus conceptos y de las relaciones entre ellos, se llama modelo conceptual del dominio o del rea de conocimiento Se define una ontologa como una especificacin de una conceptualizacin*, esto es, un marco comn o una estructura conceptual sistematizada y de consenso no slo para almacenar la informacin, sino tambin para poder buscarla y recuperarla. (*Conceptualizacin: Visin abstracta y simplificada del dominio que se quiera representar. M.A. Abin (2005) Una ontologa define los trminos y las relaciones bsicas para la compresin de un rea del conocimiento, as como las reglas para poder combinar los trminos para definir las extensiones de este tipo de vocabulario controlado.. En el campo de la informtica, los modelos conceptuales deben transformarse para que puedan ser almacenados en un ordenador y sobre los que puedan aplicarse algoritmos. Se trata de convertir la informacin en conocimiento mediante unas estructuras de conocimiento formalizadas (las ontologas) que referencien los datos, por medio de metadatos, bajo un esquema comn normalizado sobre algn rea del conocimiento. Los metadatos no slo especificarn el esquema de datos que debe aparecer en cada instancia, sino que tambin podrn contener informacin adicional de cmo hacer deducciones sobre ellos, es decir, cmo establecer axiomas que podrn, a su vez, aplicarse en los diferentes dominios que trate el conocimiento almacenado. De esta forma, los buscadores podrn obtener informacin al compartir los mismos esquemas de anotaciones web y los agentes de software no slo encontrarn la informacin precisa, sino que podrn realizar inferencias de forma automtica buscando informacin relacionada con la que se encuentra situada en las pginas web y con los requerimientos de las consultas realizadas por los usuarios. Adems, los productores de pginas y servicios web podrn intercambiar sus datos siguiendo estos esquemas comunes consensuados e, incluso, podrn reutilizarlos. (M.J. Lamarca. 2006)

Formacin Geogrfica / Curso de IDEs / Manual

Los beneficios de utilizar antologas se pueden resumir en: proporcionan una forma de representar y compartir el conocimiento utilizando un vocabulario comn permiten usar un formato de intercambio de conocimiento proporcionan un protocolo especfico de comunicacin permiten una reutilizacin del conocimiento

7.4. Componentes de la Web Semntica


Y como no voy a escribir nada mejor que lo que ha escrito Mara Jess Lamarca en su pgina web, no puedo por menos que decir que todo lo que se quiera encontrar, con un lenguaje accesible, se encuentra en: http://www.hipertexto.info/documentos/web_semantica.htm

5.7. Bibliografa y enlaces


Enlaces: Un acercamiento sencillo a la web Semntica y al concepto siempre escurridizo de Ontologas http://www.wshoy.sidar.org/index.php?2005/12/09/30-ontologias-que-son-y-para-que-sirven M.A. Abin (2005). El futuro de la Web. Un acercamiento sencillo y bien documentado (en espaol) sobre la web Semntica y sus contenidos http://www.javahispano.org/tutorials.item.action?id=55 M.J. Lamarca Lapuente (2006) Tesis doctoral: Hipertexto: el nuevo concepto de documento en la cultura de la imagen. http://www.hipertexto.info/documentos/ontologias.htm Metadatos Geogrficos y sus aplicaciones. Un sencillo artculo sobre las posibilidades de los metadatos y Google Earth (todo el siguiente URL va unido) http://www.wshoy.sidar.org/index.php?2005/08/01/24-metadatos-geograficos-1-obteniendoinformacion-geografica-para-la-web-semantica

You might also like