Professional Documents
Culture Documents
gripales a partir de
datos de Twitter
Alex Bartrol Muoz
CC-BY-NC-ND
CC-BY-NC-ND
Tabla de contenido
Introduccin.............................................................................................................................4
1. Anlisis del contexto.........................................................................................................5
1.1. Los stakeholders: actores vinculados a la actividad asistencial del hospital.... 5
1.2. El funcionamiento bsico de las reas de urgencias .................................................. 6
1.3. El funcionamiento bsico de las reas de hospitalizacin ....................................... 9
1.4 Enfermedades Infecciosas...................................................................................................10
1.5 Redes sociales..........................................................................................................................12
2. Motivacin......................................................................................................................... 14
3. Enunciado del caso Prctico........................................................................................ 15
3.1 Trabajo a realizar...................................................................................................................15
3.2 Fuentes de datos suministradas .......................................................................................16
3.3 Notas tcnicas: Recuperacin de datos de Twitter ...................................................16
CC-BY-NC-ND
Introduccin
El contexto del material que presentamos a continuacin est basado en un caso real, la
evolucin del modelo sanitario cataln y la transformacin de sus sistemas de
informacin para adaptarse al entorno y a las nuevas estrategias planteadas, descritas y
desarrolladas en el material docente Los sistemas de informacin en el Institut Catal
de la Salut. Trazando una estrategia BI a partir del Proyecto Argos. Este material,
titulado Sistema de prediccin de brotes virales a partir de la informacin de redes
sociales, es la continuacin de los casos prcticos anteriores Implementando un
cuadro de mando integral en un hospital general bsico y Diseo de un almacn de
datos para la gestin de hospitalizacin de un hospital bsico general y est enfocado a
la definicin de un sistema de prediccin de brotes virales de gripe a partir de la
informacin introducida por los usuarios en las redes sociales.
El objetivo de este trabajo es desarrollar un sistema capaz de predecir la aparicin de
brotes vricos gripales antes de que se produzcan. Para ello se definir un sistema capaz
de recuperar de las redes sociales los mensajes publicados por los usuarios sobre la
gripe y comparar el grado de similitud de la situacin actual con periodos de aos
anteriores que han precedido a un brote gripal.
Con el fin de poder desarrollar un proyecto lo ms especfico posible, el estudiante
deber definir los procesos de recuperacin de informacin de las redes sociales,
elaborar un cuadro de mando para la toma de decisiones, definir una estrategia de
almacenamiento y explotacin de informacin del almacn de datos e indicar posibles
mejoras futuras de la herramienta de prediccin.
Cabe considerar que en circunstancias normales, incluso en los centros lderes en la
adopcin e implantacin de herramientas de minera y explotacin de la informacin, el
desarrollo de estas herramientas supone proyectos de meses o incluso aos, con la
participacin de equipos multidisciplinarios que los van implementando a lo largo del
tiempo, en un proceso de mejora continua.
En este sentido, el objetivo del caso no es tanto desarrollar exhaustivamente el sistema
de prediccin, sino entender el proceso de extraccin de informacin de las redes
sociales, sus limitaciones y aprender como analizar estos datos de forma efectiva,
creando algunos artefactos de BI predictivos que puedan ser integrados en los cuadros
de mandos y almacenes de datos trabajados anteriormente.
CC-BY-NC-ND
CC-BY-NC-ND
4) Los profesionales. Otro de los actores relevantes sern los propios profesionales
que desarrollan su actividad en las diferentes reas, como asistencial,
administrativa, etc. Ser esencial para los responsables de las distintas reas
disponer de mecanismos para el seguimiento y control de sus actividades, as
como de la calidad de los servicios que prestan, tanto desde un punto de vista
cualitativo como cuantitativo. Cabe tener en cuenta que su actividad estar
enormemente condicionada por la oferta que deben generar (de acuerdo a la
compra de servicios pactada con las autoridades sanitarias) y de los recursos de
que dispongan para satisfacerla de acuerdo a unos determinados estndares de
calidad, propios o inducidos por otros actores.
5) El propio entorno sanitario del centro. Es imprescindible tener en cuenta la
interrelacin y colaboracin entre los diferentes actores dentro de un mismo
territorio (rea capitativa).
6) El entorno poltico y social del centro. No debemos olvidar que estamos
trabajando con servicios pblicos y que se establece una estrecha relacin entre
los distintos mbitos sociopolticos locales: gobiernos locales, servicios sociales,
agrupaciones de vecinos, colectivos especficos, etc. Aunque no existe una
relacin directa entre la atencin individualizada y el papel que desempean
estos colectivos, est claro que juegan un papel decisivo en lo referente a
representacin social y, por lo tanto, es necesario tenerlos en cuenta en el
desarrollo de determinadas estrategias.
7) El ciudadano. El ltimo actor a describir, aunque probablemente uno de los ms
relevantes. El ciudadano, entendido como el paciente y su entorno familiar
directo, es el beneficiario directo del servicio prestado. Sobre l ser preciso
desarrollar un seguimiento especfico, y no solo desde el punto de vista
asistencial sino tambin desde el emocional y espiritual. En este sentido, cabe
tener presente que la atencin sanitaria va mucho ms all del acto meramente
clnico y que comporta muchas otras variables, que a menudo pueden tener tanto
o ms peso que la propia curacin (siempre que sea posible) en la percepcin del
paciente: atencin prestada, buen trato, respeto, celeridad, diligencia, cantidad y
calidad de la informacin recibida, soporte emocional, psicolgico, etc.
A menudo veremos que muchos de los objetivos estratgicos pueden estar relacionados
con diferentes actores. Esto lo podemos observar rpidamente en los documentos de
referencia de las autoridades sanitarias:
En ellos podemos ver el grado de detalle y la diversidad de mbitos sobre los que se
recoge informacin, y que, cada vez de forma ms clara, se reflejan en los contratos de
servicios que se establecen entre las autoridades sanitarias y los distintos centros
sanitarios.
CC-BY-NC-ND
Los principales canales de entrada a las reas de urgencias suelen ser los siguientes:
En las unidades de triaje se establece una primera clasificacin de los pacientes en funcin de
su criticidad y patologa. La atencin de los pacientes se priorizar por las decisiones de triaje y
no por orden de llegada. El objetivo es atender rpidamente a los pacientes crticos
CC-BY-NC-ND
Un servicio de urgencias, como el de nuestro caso, generalmente suele contar con una
serie de servicios o especialidades bsicas, ya que dispone de recursos humanos y
tcnicos especializados para el tratamiento de problemas de salud relativos a los
mismos. A modo de ejemplo, los servicios bsicos pueden ser:
Urgencias generales.
Urgencias peditricas.
Urgencias traumatolgicas.
Urgencias oftalmolgicas.
Las unidades de corta estancia, que estn dedicadas a los tratamientos que no
requieren de hospitalizacin, pero que dada su urgencia no suelen tratarse dentro
de las reas de consulta externa.
Defuncin.
CC-BY-NC-ND
Aparte de los servicios de soporte claramente identificados, en los procesos del hospital
hay otros relacionados con la atencin hospitalaria, como son:
CC-BY-NC-ND
Esta actividad programada tiene que ser gestionada por las reas de gestin asistencial
(gestin administrativa) y por los propios servicios clnicos, que deben priorizar y
asignar sus recursos (generalmente basados en ocupacin de camas o quirfanos) segn
la urgencia, criticidad y complejidad de cada caso, y segn la disponibilidad de
recursos. Esta gestin es lo que se conoce como gestin de la lista de espera.
Aparte de la gestin propia de la lista de espera, determinada por el propio servicio y,
por extensin, del propio centro, dependiendo de su funcionamiento y de la
disponibilidad de recursos, las autoridades sanitarias establecen objetivos a cumplir por
parte de cada uno de los centros en sus contratos de compra de servicios, y que afectan
al pago de los servicios adquiridos de acuerdo a los niveles de cumplimiento mnimos
establecidos.
Cabe recordar que en el modelo de compra y facturacin de los servicios establecidos
por Catsalut, no solo se compra una determinada actividad quirrgica sino que esta
tambin debe prestarse de acuerdo a unos determinados indicadores de calidad
(normalmente de tipo temporal). Los centros debern garantizar el cumplimiento de
estos indicadores para asegurar que se satisfacen adecuadamente los contratos de
compra firmados con el Catsalut.
CC-BY-NC-ND
Fiebre con escalofros. La fiebre acostumbra a estar entre los 38 y los 41 grados
centgrados. Suele durar entre uno y siete das, siendo 3 das lo habitual.
CC-BY-NC-ND
repercusiones econmicas, no solo por los costes sanitarios que provoca, sino debido a
la reduccin de la productividad laboral de los afectados. De aqu la necesidad de
utilizar nuevas tcnicas capaces de predecir con mayor antelacin la aparicin de un
nuevo brote.
Total seguidores
Engagement3
o Menciones
CC-BY-NC-ND
o Respuestas
o Retweets
Favoritos
Impresiones de un mensaje
Cada red social genera informacin diferente en funcin de cmo interactan entre s
sus usuarios. A la hora de analizar estos datos, se deben estudiar los datos ofrecidos por
las redes sociales para definir los KPIs que permitan obtener informacin til para la
toma de decisiones. Estos indicadores, pueden ser los KPIs que ofrece la red social, o
indicadores calculados a partir de los KPIs de la red social, como por ejemplo, la
variacin porcentual en un periodo de tiempo en el nmero de mensajes que hablan
sobre un mismo tema/empresa.
CC-BY-NC-ND
2. Motivacin
Actualmente, un gran numero de agentes del sistema sanitario cataln tiene presencia en
las redes sociales: ICS central4, el hospital de la Vall dhebron5, el servicio de Atencin
Primaria de Badalona6, el ayuntamiento de Barcelona mediante Salud Pblica de
Barcelona7, y un largo etctera.
El uso de las redes sociales por los agentes est principalmente enfocado a informar a la
ciudadana. En particular, se informa de las novedades de los centros, de las
investigaciones realizadas, de congresos y seminarios recientes, etc. Pero tambin tienen
como objetivo obtener informacin sobre el grado de satisfaccin de los pacientes.
No obstante, aplicado al sistema sanitario cataln, las redes sociales pueden tener
muchas utilidades, como por ejemplo ayudar a predecir un incremento de personas
afectadas por enfermedades infecciosas, permitiendo informar mejor a la poblacin con
carcter preventivo y gestionar de forma ms eficiente los recursos sanitarios para
atender a los afectados.
En los periodos de auge de una enfermedad vrica, el nmero de bsquedas y
comentarios realizados por personas sobre la enfermedad aumenta de forma muy
significativa, habiendo un incremento inicial moderado en una etapa inicial o pre-vrica
y un gran aumento cuando el virus se encuentra en su periodo de auge. Gracias a esta
informacin, Google ha lanzado el proyecto Google FluTrends8, que mediante el
recuento de consultas realizadas sobre la gripe estima en que medida circula la gripe por
diferentes pases y regiones del mundo.
Dejando de lado lo que puede conseguirse mediante el anlisis de bsquedas en Google,
Twitter permite recuperar aquellos mensajes que contengan las palabras clave de la
bsqueda en el hashtag9, el nombre del usuario o el contenido del mensaje, permitiendo
recuperar solo aquellos mensajes emitidos desde una zona geogrfica y en un intervalo
de tiempo. Esto permitira recuperar los twits de Catalua que traten sobre la gripe. Un
anlisis del nmero de twits (comparndolo con nmero de twits en el pasado) podra
permitir estimar si nos encontramos en una situacin similar a la acontecida otros aos
antes de la aparicin de un brote vrico.
https://twitter.com/icscatcentral y https://www.facebook.com/pages/Institut-Catal%C3%A0-de-laSalut/192220580805451?fref=ts
5
https://twitter.com/hvhebron y https://www.facebook.com/pages/Hospital-Universitario-Vall-
dHebron/202278513140339?ref=ts&fref=ts
6
https://twitter.com/sapbadalona
https://twitter.com/salutpublicabcn
http://www.google.org/flutrends/
9
Un hashtag (o etiqueta) es una cadena de caracteres formada por una o varias palabras concatenadas y
precedidas por una almohadilla(#). Es, por lo tanto, una etiqueta de metadatos con el fin de que tanto el
sistema como el usuario la identifiquen de forma rpida.
8
CC-BY-NC-ND
CC-BY-NC-ND
Para poder contrastar sus indicadores numricamente, el usuario podr hacer uso
de las fuentes de datos disponibles de hospitalizacin, urgencias y mensajes de
Twitter10 para encontrar una relacin entre los mensajes publicados en Twitter,
las visitas a urgencias y las hospitalizaciones por casos de gripe.
3. Carga de datos
Se pide el desarrollo de los procesos de carga de la informacin recuperada de
las redes sociales.
El estudiante deber disear un almacn de datos donde almacenar los datos
recuperados de Twitter. Opcionalmente, el estudiante podr integrar dicha
informacin en el almacn de datos creado en la asignatura de Data Warehouse.
Sea cual sea la eleccin el estudiante, se deber razonar si los KPI definidos en
la segunda parte del ejercicio se incluyen en el datawarehouse existente o en el
de nueva creacin.
A partir del anlisis de las fuentes de datos y de las caractersticas del API de
Twitter, el estudiante deber disear el proceso de recuperacin de nueva
informacin de la red social y su almacenamiento en el datawarehouse escogido,
teniendo en cuenta la periodicidad en la recuperacin de datos y la posible
aplicacin de un filtrado de contenido en los mensajes. Se recomienda estudiar a
fondo la seccin 3.3 (Notas tcnicas: recuperacin de datos de Twitter) antes de
abordar este diseo.
4. Explotacin de los datos
Por ltimo, el estudiante deber indicar como el sistema responde a las preguntas
mnimas de los usuarios y plantear posibles acciones futuras, como la
comparacin con nuevos KPIs o KPIs descartados en la segunda parte del caso
para aumentar la efectividad del sistema.
10
Junto al enunciado se proporcionan 2 ficheros excels con datos sobre la hospitalizacin, urgencias y
mensajes de Twitter.
11
Una API es una Interfaz de Programacin de Aplicaciones (en ingls Application Programming
Interface)
CC-BY-NC-ND
Para recuperar los datos se pueden utilizar bibliotecas que interacten con la API de
Twitter12, ayudarse de alguna herramienta web13 o utilizar la consola de Twitter para
desarrolladores14. Para una primera exploracin se puede utilizar la opcin de bsqueda
avanzada de la interfaz web de Twitter15, aunque las opciones que permite personalizar
la bsqueda son limitadas.
Antes de automatizar la recuperacin de resultados con su API u otros mecanismos,
Twitter recomienda hacer una verificacin manual16 siguiendo los siguientes pasos:
1. Realizar la bsqueda deseada en http://twitter.com/search y copiar la URL
resultante de la bsqueda. Por ejemplo una bsqueda de los twits que contengan
la palabra gripe dara como resultado la siguiente URL:
https://twitter.com/search?q=gripe&src=typd
2. Substituir https://twitter.com/search por
https://api.twitter.com/1.1/search/tweets.json (en nuestro ejemplo la url
resultante sera:
https://api.twitter.com/1.1/search/tweets.json?q=gripe&src=typd). Haciendo esto
creamos una llamada a la API de twitter donde pedimos que se devuelvan los
twits que tengan la palabra gripe en formato JSON.
3. Ejecutar la url obtenida en el segundo paso en la consola de desarrolladores de
twitter17. Para ejecutar la url tendremos que escoger la opcin de autentificacin
Oauth 1 e introducir nuestros los datos de nuestra cuenta de Twitter. Despus
de ejecutar la llamada podremos comprobar el resultado en formato JSON.
Como
podis
ver
en
la
URL
que
ha
generado
Twitter
(https://twitter.com/search?q=gripe&src=typd), el parmetro q se utiliza para indicar la
palabra a buscar. Twitter permite utilizar otros parmetros en la bsqueda18. A
continuacin se muestran los ms relevantes para esta actividad.
Nombre del parmetro
Q ( obligatorio)
Geocode ( opcional )
lang ( opcional )
locale ( opcional )
result_type
12
Significado
La cadena de texto a buscar
Devuelve solo los tweets de los usuarios localizados en un radio X de las
coordenadas geogrficas indicadas.
Devuelve solo los tweets en el idioma indicado.19
Indica el idioma utilizado en la cadena de texto a buscar.
Indica el tipo de resultados que se desean recibir. El valor por defecto es
mixed y las posibilidades son:
recent: los resultados ms recientes
popular: los resultados ms populares
https://dev.twitter.com/
Hay muchas webs que permiten recuperar y analizar datos de twitter y stas estn en continua
evolucin. En el enlace tenis una listado de algunas de ellas: http://noelcarrion.com/2010/44aplicaciones-para-buscar-informacion-en-twitter/
14
https://dev.twitter.com/console
15
https://twitter.com/search-home
16
Los pasos a seguir se explican en para verificar una bsqueda antes de automatizarla con la API se
explican en https://dev.twitter.com/docs/using-search
17
https://dev.twitter.com/console
18
Podis ver todos los parmetros para personalizar las bsquedas en
https://dev.twitter.com/docs/api/1.1/get/search/tweets
19
En https://dev.twitter.com/docs/api/1.1/get/help/languages se pueden encontrar los idiomas con los que
se puede personalizar las bsquedas en Twitter. en para ingls, es para espaol, fr para francs,
etc. En cataln no est disponible.
13
CC-BY-NC-ND
Until
Since
Notad que se usa el parmetro q para indicar que estamos buscando twits que contengan
la palabra gripe y se usa el parmetro geocode para indicar que los twits deben haber
sido hechos en una rea de 50 km de dimetro centrada en las coordenadas 41.4166 N,
2.1846 E. Podis ver dichas coordenadas localizadas en el mapa preguntando a un
servicio de mapas, como Google Maps o OpenStreetMaps, sobre estas coordenadas
41.4166,2.1846.
Por otro lado, si queremos recuperar aquellos mensajes escritos en Barcelona y
alrededores escritos solo en ingls, deberamos aadir a la consulta anterior aadiramos
el parmetro lang i en que es el valor del idioma ingles:
https://api.twitter.com/1.1/search/tweets.json?q=gripe&src=typd&geocode="41.4166,
2.1846,50km"&lang=en
Cuando se realicen consultas usando la API de una red social se deber tener en cuenta
el nmero mximo de peticiones que se pueden realizar y el intervalo de espera entre
peticiones. Esto es necesario porque el nmero de resultados devueltos en cada peticin
est acotado y si no recuperamos la informacin frecuentemente podemos perder una
gran cantidad de datos. De hecho, si excedemos, en un intervalo de tiempo, el nmero
mximo de peticiones que Twitter20, nuestra aplicacin de recuperacin ser bloqueada
por Twitter y esta no podr realizar ms consultas hasta pasado un tiempo21.
20