Matematica 17 2 02

Revista de Matematica: Teor y Aplicaciones 2010 17(2) : 205235 a cimpa ucr issn: 1409-2433
analisis de componentes principales y analisis de regresion para datos categoricos. aplicacion en la hipertension arterial
principal component and regression analysis for categorical data. application to arterial hypertension
Juan M. Navarro Cspedes e Gladys M. Casas Cardoso Emilio Gonzalez Rodr guez Received: 11 Nov 2008; Revised: 16 Oct 2009; Accepted: 6 Apr 2010
Grupo de Estad stica, Facultad de Matemtica, F a sica y Computacin, Universidad o Central Marta Abreu de Las Villas, Santa Clara, Cuba. E-Mail: juanma@uclv.edu.cu Laboratorio de Bioinformtica, Facultad de Matemtica, F a a sica y Computacin, o Universidad Central Marta Abreu de Las Villas, Santa Clara, Cuba. E-Mail: gcasas@uclv.edu.cu Centro de Desarrollo de la Electrnica, Universidad Central Marta Abreu de Las o Villas, La Habana, Cuba. E-Mail: eglez@uclv.edu.cu
205
206 J. Navarro - G. Casas - E. Gonzalez

Resumen
Rev.Mate.Teor.Aplic. (2010) 17(2)
El presente trabajo aborda el tema relacionado con el procesamiento estad stico de variables categricas. Se explican los funo damentos matemticos del anlisis de Componentes Principales y a a del anlisis de Regresin para datos categricos. La unin de estas a o o o tcnicas puede utilizarse para resolver problemas de clasicacin. e o Debido a que estos son mtodos relativamente nuevos, se decide utie lizar otra tcnica ms conocida (rboles de clasicacin siguiendo e a a o criterios chi cuadrado) para realizar comparaciones de sus los resultados, con ayuda de la teor de las curvas ROC. En la aplicacin a o desarrollada se estudiaron pacientes supuestamente sanos del municipio de Santa Clara, Cuba, diagnosticados como hipertensos, pre hipertensos y normotensos por un Comit de Expertos Mdicos altae e mente calicados. La regresin categrica unida al anlisis de Como o a ponentes Principales como mtodo de seleccin de variables, result e o o ser la mejor tcnica ara resolver el problema de clasicacin. e o
Palabras clave: regresin categrica, hipertensin arterial, clasicacin, o o o o curvas ROC.

Abstract The present work is about the statistical processing of categorical data. The mathematical details of the Categorical Principal Components and the Categorical Regression Analysis are explained. The combination of both techniques can be used to solve classication problems. Because these techniques are relatively new, we decided to use another technique (classication trees following the chi squared criteria) to make a comparison of their results, with the help of the theory of ROC curves. In the application, supposedly healthy patients of Santa Clara, Cuba, were diagnosed as hypertensive, pre hypertensive and no hypertensive by a Committee of Medical Experts. Categorical Component Analysis and Categorical Regression Analysis were applied in order to successfully solve the classication problem.
Keywords: categorical regression, arterial hypertension, classiers, ROC curves. Mathematics Subject Classication: 62P10.
Introduccin o
El cambiante mundo moderno est sustentado por un conjunto de ciencias a empleadas por el hombre para, entre otras cosas, controlar y perfeccionar
analisis de componentes principales y analisis de regresion . . . 207 los procesos; tal es el caso de la Estad stica. En los ultimos a os se han n desarrollado varios mtodos que se ocupan de los modelos matemticos en e a general, mtodos que han sido automatizados gracias al desarrollo de la e informtica, por lo que resultan de gran utilidad prctica para solucionar a a problemas presentes en la sociedad. En las investigaciones de corte social, fundamentalmente intervienen conjuntos de datos que reejan alguna cualidad o categor A estos datos a. se les conoce como datos categricos. Dichos datos pueden contener una o mezcla de diferentes tipos de variables, muchas de las cuales estn medidas a en categor ordenadas o desordenadas. Variables como las estaciones del as a o, los tipos de determinado producto en el mercado, o el hecho que un esn tudiante apruebe o no un examen, son ejemplos de variables con categor as desordenadas. Variables como el nivel de educacin o la frecuencia con o que se desarrolla cierta actividad, (poca, regular o mucha) son ejemplos de variables con categor ordenadas. Las variables continuas pueden conas siderarse variables categricas, coincidiendo cada categor o cualidad con o a su valor. Estos tipos de variables requieren diferentes tratamientos en el proceso de anlisis de datos, los cuales no siempre son tan evidentes como a pudieran parecer. En adicin a esto, muchas de estos conjuntos pueden o contener variables que pueden o no estar relacionados linealmente, lo cual tambin tendr que ser reejado en el resultado del anlisis. Por tanto, el e a a anlisis de datos categricos no siempre se realizar tan fcilmente como a o a a el investigador desear a. El mtodo de Componentes Principales ha sido una herramienta ese tad stica ampliamente utilizada en diversas reas del conocimiento, sobre a todo en aquellas donde se tienen un volumen considerable de datos y por tanto aumenta la necesidad de conocer la estructura de los mismos y sus interrelaciones. En muchos casos los supuestos del mtodo no se satisfacen e especialmente los relacionados con el nivel de medicin de las variables y la o relacin lineal entre ellas. El Anlisis de Regresin Lineal, por su parte ha o a o sido una de las herramientas estad sticas ms utilizada para predecir una a variable respuesta o dependiente a partir de una combinacin lineal de vao riables predictoras o independientes. El modelo de regresin se realiza bajo o la suposicin que la variable respuesta est linealmente relacionada con el o e conjunto de variables predictoras. En investigaciones donde intervienen variables categricas no pueden aplicarse dichos mtodos precisamente por o e violar los supuestos de los mismos. Alternativamente se han desarrollados varios mtodos para el anlisis e a de datos categricos. En recientes versiones del paquete estad o stico SPSS
aparecen los denominadas mtodos con escalamiento ptimo como el Ae o nlisis de Componentes Principales y el Anlisis de Regresin. a a o
Anlisis estad a stico de datos categricos o
Numerosas son las pruebas estad sticas que se utilizan en la actualidad para procesar datos categricos [1]. En la medida en la que la sociedad o progresa, van apareciendo y desarrollndose otras tcnicas nuevas. Es por a e ello que surge la necesidad de establecer semejanzas y diferencias entres las tcnicas existentes para determinar su superioridad o para establecer e sus limitaciones y poder saber cul mtodo es correcto aplicar ante una a e nueva situacin. o
2.1
Tablas de contingencia
Cuando se trabaja con variables categricas, los datos suelen organizarse o en tablas de doble entrada en las que cada una representa un criterio de clasicacin (una variable categrica). Como resultado, las frecueno o cias aparecen organizadas en casillas que contienen informacin sobre la o relacin existente entre ambos criterios. A estas tablas de frecuencias se o les denomina Tablas de Contingencia [2]. Las Tablas de Contingencia tienen dos objetivos fundamentales: organizar la informacin contenida en un experimento cuando esta es de o carcter bidimensional, o sea cuando est referida a dos variables categria a o cas y analizar si existe alguna relacin de dependencia e independencia eno tre los niveles de las variables objeto de estudio [3]. La signicacin puede o calcularse de manera asinttica usando el test chi cuadrado de Pearson, o de manera exacta o a travs del mtodo de simulacin de Monte Carlo. e e o
2.2
Arboles de decisin: CHAID o
En un estudio real existen con frecuencia m ltiples variables (predictivas u o independientes) que pueden tener asociacin con una variable depeno diente. La presentacin de muchas tablas de contingencia, no siempre o reeja las asociaciones esenciales, y usualmente se convierte en un listado enorme de tablas que desinforman en lugar de orientar. Un estudio multivariado trata de enfocar el efecto posible de todas las variables conjuntamente incluyendo sus posibles correlaciones; pero puede ser interesante si se considera adems las posibilidades de la interaccin entre las vaa o riables predictivas sobre la variable dependiente. Cuando el n mero de u
analisis de componentes principales y analisis de regresion . . . 209 variables crece, el conjunto de las posibles interacciones crece en demas a, resulta entonces prcticamente imposible analizarlas y por ello adquiere a especial inters una tcnica de deteccin automtica de interacciones fune e o a damentales que construya un rbol de decisin. CHAID es eso: sus siglas a o signican Chi-squared Automatic Interaction Detector [4].
3
3.1
Anlisis de componentes principales y anlisis a a de regresin para datos categricos o o

Componentes principales
El anlisis de componentes principales (ACP) se ha utilizado de manera a creciente en las ultimas dcadas, prcticamente en todas las reas [5]. El e a a anlisis de componentes principales realiza dos acciones fundamentales: a cuantica las variables originales y reduce la dimensionalidad de los datos. Si el anlisis realizado es exitoso, cada variable debe estar muy bien rea presentada (con una correlacin elevada) en una dimensin y pobremente o o representada (con correlaciones bajas) en las dems [6]. a En muchos casos, el anlisis de componentes principales constituye a el objeto de estudio, pero los supuestos del mtodo no se cumplen para e los datos observados. Si el ACP se desarrolla sin chequear los supuestos, nunca se podr estar totalmente seguro de que los resultados sern diga a nos de conanza. En esta situacin, el ACP no lineal o categrico con o o cuanticaciones ptimas es una alternativa util [7]. o
3.2
Componentes principales para datos categricos o
El mtodo de componentes principales categricos (ACPCat), al igual e o que su homlogo para variables continuas, puede considerarse como una o tcnica exploratoria de reduccin de las dimensiones de una base de datos e o incorporando variables nominales y ordinales de la misma manera que las numricas. El mtodo pone al descubierto relaciones existentes entre las e e variables originales, entre los casos y entre ambos: variables y casos [8]. Puede adems analizar variables con su nivel de medicin. Cuando existe a o relacin no lineal entre las variables, pueden especicarse tambin otros o e niveles de anlisis, de manera que estas relaciones pueden manipularse de a manera ms efectiva. a En este apartado se describe matemticamente el anlisis de compoa a nentes principales categrico. Se supone que se tiene una matriz de datos o Hnm , la cual consiste en las puntuaciones observadas de n casos en m
variables. Cada variable puede ser denotada como la j esima columna de H; hj como un vector n 1, con j = 1, . . . , m. Si las variables hj no tienen nivel de medicin numrico, o se espera que la relacin entre o e o ellas no sea lineal, se aplica una transformacin no lineal. Durante el proo ceso de transformacin, cada categor obtiene un valor escalado ptimo, o a o denominado cuanticacin categrica. ACPCat puede ser desarrollado o o minimizando la funcin de perdida m o nima cuadrtica en la que la matriz a de datos observados H es reemplazada por una matriz Qnm , que contiene las variables transformadas qj = j (hj ). En la matriz Q, las puntuaciones observadas de los casos se reemplazan por las cuanticaciones categricas. o El modelo ACPCat es igual al modelo del ACP, capturando las posibles no linealidades de las relaciones entre las variables en las transformaciones de las variables. Se comenzar explicando como el objetivo del ACP se a alcanza por el ACPCat minimizando la funcin de prdida, y por tanto se o e mostrar cmo esta funcin se ampl para acomodar las ponderaciones a o o a de acuerdo con los valores ausentes, ponderaciones por casos, y trasformaciones nominales m ltiples. u A las puntuaciones de los casos en las componentes principales obtenidas a partir del ACP se le denominan puntuaciones de las componentes (puntuaciones de los objetos en ACPCat). ACP intenta mantener la informacin en las variables tanto como sea posible en las puntuaciones de las o componentes. A las puntuaciones de las componentes, multiplicadas por un conjunto de ponderaciones ptimas, se les denominan saturaciones en o componentes, y tienen que aproximar los datos originales tan cerca como sea posible. Usualmente en ACP, las puntuaciones de las componentes y las saturaciones en componentes se obtienen de una descomposicin o en valor singular de la matriz de datos estandarizada, o de una descomposicin en valores propios de la matriz de correlacin. Sin embargo, el o o mismo resultado puede obtenerse a travs de un proceso iterativo en el e que se minimiza la funcin de prdida m o e nima cuadrtica. La prdida que a e se minimiza es la prdida de la informacin debido a la representacin de e o o las variables por un n mero peque o de componentes: en otras palabras, u n la diferencia entre las variables y las puntuaciones de las componentes ponderadas a travs de las saturaciones en componentes. Si Xnp se e considera la matriz de las puntuaciones de las componentes, siendo p el n mero de las componentes, y si Amp es la matriz de las saturaciones en u componentes, siendo su j esima la indicada por aj , la funcin de per o dida que se usa en el ACP para la minimizacin de la diferencia entre los o datos originales y las componentes principales puede ser expresada como
analisis de componentes principales y analisis de regresion . . . 211 L(Q, X, A) = .n1 j n (qij funcin puede escribirse como: o L (Q, X, A) = n1
m s xis ajs ) 2
En notacin matricial, esta o
tr (qj Xaj ) (qj Xaj )

j=1
(1)
donde tr denota la funcin traza que suma los elementos de la diagonal o de una matriz. Puede probarse que la funcin (1) es equivalente a: o L2 (Q, A, X) = n1
m
tr qj aj X
j=1
q j aj X .
(2)
La funcin de prdida (2) se usa en ACPCat en lugar de (1), debido a o e que en (2), la representacin vectorial de las variables as como la repreo sentacin de las categor como un conjunto de puntos agrupados puede o as ser incorporada, comos ser mostrada dentro de poco. a La funcin de prdida (2) est sujeta a un n mero de restricciones. o e a u Primero, las variables transformadas son estandarizadas, a n de que qj qj = n . Tal restriccin se necesita para resolver la indeterminacin o o entre qj y aj en el producto escalar qj aj . Esta normalizacin implica o qj que contenga z-scores y garantice que las saturaciones en componentes en aj estn correlacionadas entre las variables y las componentes. Para e evitar la solucin trivial A = 0 y X = 0, las puntuaciones de los objetos o se limitan y se requiere que: X X = nI (3)
donde I es la matriz identidad. Se necesita tambin que las puntuaciones e de los objetos estn centradas, por lo tanto: e 1X =0 (4)
donde el 1 representa el vector unidad. Las restricciones (3) y (4) implican que las columnas de X (componentes) son z-scores ortonormales: su media es cero, su desviacin estndar es uno, y estn incorrelacionadas. Para el o a a nivel de escala numrica, qj = j (hj ) implica una transformacin lineal, e o o sea, la variable observada hj es simplemente transformada en z-scores. Para los niveles no lineales (nominal, ordinal, spline), qj = j (hj ) denotan una transformacin acorde con el nivel de medicin seleccionado para la o o variable j. La funcin de prdida (2) se minimiza aplicando los m o e nimos cuadrados alternantes, actualizando c clicamente uno de los parmetros X, Q y A, a
mientras que los otros dos se mantienen constantes. Este proceso iterativo se contin a hasta que la mejora en los valores perdidos posteriores est por u e debajo de alg n valor peque o especicado por el usuario. En ACPCat, u n los valores de partida de X son aleatorios. Las ponderaciones por valores perdidos y las ponderaciones por casos pueden incorporarse fcilmente a la funcin de prdida. Para acomodar el a o e tratamiento pasivo de los valores, se introduce una matriz diagonal Mjnn , con la i esima diagonal principal de entrada ii, correspondiente al caso i, igual a 1 para los valores no ausentes y 0 para los valores ausentes de la variable j. Por tanto, para los casos con valores perdidos en la variable j, los elementos de la diagonal correspondiente en Mj son ceros, as que la matriz error premultiplicada por Mj , Mj qj aj X , contiene ceros en las las correspondientes a los casos con valores ausentes en la variable j. Por tanto, para la variable j, los casos con valores perdidos no contribuyen a la solucin de ACPCat, sino que contribuyen a la solucin de o o las variables que tienen una puntuacin vlida. Por otra parte, se permite o a la ponderacin de los casos a travs de la ponderacin del error por una o e o matriz diagonal Wnn con elementos no negativos wii . Generalmente estas ponderaciones son todas igual a uno, pues cada caso contribuye de igual manera a la solucin. Para algunos, sin embargo, puede ser conveniente o tener diferentes ponderaciones para diferentes casos. Incorporando las ponderaciones de los datos ausentes Mj y las ponderaciones de los casos W , la funcin de prdida que se minimiza en ACPo e Cat puede expresarse como: L3 (Q, A, X) = n1
m n p
wii miij
j=1 i=1 s=1
(qij ajs xis )2 ,
o equivalentemente, en notacin matricial como: o L (Q, A, X) = n1 w

m
tr qj aj X Mj W qj aj X .
j=1
(5)
Entonces, la restriccin centrada se torna en 1 M W X = 0, donde o M = m Mj , y la restriccin de estandarizacin en X M W X = mnw I. o o j=1 La funcin de prdida (5) puede ser usada para las transformaciones o e nominales, ordinales y spline, donde los puntos de las categor se restrinas gen para estar en una l nea recta (vector). Si las categor de una variable as estn representadas como un grupo de puntos (utilizando el nivel de escala a nominal m ltiple), con el grupo de puntos en el centro de los puntos de los u casos medidos en una categor particular, las categor no estarn en una a as a
analisis de componentes principales y analisis de regresion . . . 213 l nea recta, sino que cada categor obtendr cuanticaciones m ltiples, a a u una de las cuales es la componente principal. En contraste, si la representacin del vector se usa en lugar de la representacin de los puntos de o o las categor cada categor obtiene una sola cuanticacin categrica, y as, a o o la variable obtiene diferentes saturaciones en componentes por cada componente. Para incorporar las cuanticaciones m ltiples en la funcin de u o prdida, se expresa L3 (Q, A, X) de manera conveniente para introducir e las variables nominales m ltiples. Considerando para cada variable una u matriz indicadora Gj . El n mero de las de Gj es igual al n mero de cau u sos, n, y el n mero de columnas de Gj es igual al n mero de las diferentes u u categor de la variable j. Por cada caso, una columna de Gj contiene as un 1 si el caso tiene una categor particular, y un cero si no la tiene. As a , todas las las de Gj contiene exactamente un 1, excepto cuando los valores ausentes son tratados pasivamente. Si se estuviera en presencia de valores ausentes pasivos, cada la de la matriz indicadora correspondiente a la observacin con valores ausentes contiene solamente ceros. En la funcin o o de prdida, las variables cuanticadas qj pueden ahora ser escritas como e Gj vj , con vj representando las cuanticaciones de las categor de la as variable j. Entonces, la funcin de prdida se torna en: o e L3 (v1 , . . . , vm , A, X) = n1
m
tr Gj vj aj X Mj W Gj vj aj X .
j=1
(6) La matriz vj aj contiene coordenadas p-dimensionales que representan las categor en una l as nea recta a travs del origen, en la direccin dada e o por las saturaciones en componentes aj . Como qj = Gj vj para todas las variables que no son nominales m ltiples, (6) es la misma que (5). u La ventaja de (6) es que la transformacin nominal m ltiple puede o u incorporarse directamente. Si se especica el nivel de escala nominal m ltiple, con las categor representadas como puntos de grupos, vj aj u as se reemplaza por Vj , conteniendo los puntos de grupos, los centroides de los objetos de puntos para los casos en p dimensiones. Entonces, la funcin o de prdida puede escribirse como: e L4 (V1 , . . . , Vm , X) = n1
m
tr (Gj Vj X) Mj W (Gj Vj X)
j=1
(7)
donde Vj contiene las coordenadas de los centroides para las variables dadas con nivel de medicin nominal m ltiple, y Vj = vj aj contiene las o u coordenadas de los puntos categricos localizados en un vector para otros o niveles de medicin [7]. o
3.3
Anlisis de regresin lineal a o
El anlisis de regresin lineal estndar es una tcnica estad a o a e stica ampliamente utilizada desde la segunda mitad del siglo XIX, cuando el cient co britnico Francis Galton introdujo dicho trmino [9]. El anlisis de rea e a gresin lineal clsico minimiza las diferencias de la suma de los cuadrados o a entre una variable de respuesta (dependiente) y una combinacin pono derada de las variables predictoras (independientes). Las variables son normalmente cuantitativas, con los datos categricos (nominales) recodio cados como variables binarias. Los coecientes estimados reejan cmo o los cambios en las variables predictoras afectan a la respuesta. Puede obtenerse un pronstico de la respuesta para cualquier combinacin de los o o valores predictores [10].
3.4
Anlisis de regresin para datos categricos a o o
El anlisis de regresin categrica es un mtodo a travs del cual la rea o o e e gresin se aplica a los datos de la respuesta en forma de categor con o as el propsito de predecir la probabilidad de ocurrencia de una categor o a particular de la respuesta como funcin de una o ms variables indepeno a dientes [11]. La regresin categrica (RegCat) se ha desarrollado como o o un mtodo de regresin lineal para variables categricas. La regresin e o o o categrica cuantica los datos categricos mediante la asignacin de vao o o lores numricos a las categor obtenindose una ecuacin de regresin e as, e o o lineal ptima para las variables transformadas. o 3.4.1 Cuanticaciones categricas o
En el proceso de cuanticacin ciertas propiedades de los datos se presero van en la transformacin. Las propiedades que se seleccionan para ser o preservadas se especican seleccionando un nivel de escalamiento ptimo o para las variables. Es importante para realizarlo, que el nivel de escalamiento ptimo es el nivel en el que una variable se analiza, el que o no necesariamente coincide con el nivel de medicin de la variable. o El nivel de escalamiento, y por tanto la forma de la curva de transformacin, est tambin relacionado con el n mero de grados de libertad o a e u de la transformacin y por tanto al ajuste del modelo. Las transformao ciones con ms libertad resultan transformaciones menos suaves y ajusa tan mejor, mientras que transformaciones ms restrictivas son ms suaves a a pero los resultados ajustan menos. De manera que, existe un equilibrio entre las propiedades de preservacin de los datos y la preservacin de o o
analisis de componentes principales y analisis de regresion . . . 215 la informacin relacional en los datos: restringiendo las transformaciones, o preservando ms propiedades de los datos, se alcanza un costo de ajuste a y se pierde informacin relacional. La transformacin con el mximo de o o a libertad es el resultado a partir del nivel de escalamiento nominal, donde el n mero de grado de libertad es igual al n mero de categor menos u u as uno. El nivel de escalamiento ordinal requiere una restriccin de orden o sobre las cuanticaciones categricas, resultando el n mero de grado de o u libertad igual al n mero de categor con diferentes valores cuanticados u as menos uno. El escalamiento numrico impone una restriccin de intervalo e o adicional a la restriccin de orden y tiene un grado de libertad. o El nivel de escalamiento nominal y el ordinal dan lugar a transformaciones que son funciones paso, la cuales son adecuadas para variables con un n mero peque os de categor u n as. Para variables con un n mero ms u a grande de categor las funciones spline son ms apropiadas, entre estas as, a distinguimos splines no montonos para transformaciones no ordenadas y o splines montonos para transformaciones ordenadas. Las funciones spline o son funciones polinomiales por trozos, ellas son ms restrictivas que las a funciones paso, dando lugar a curvas de transformacin ms suaves, pero o a con un ajuste menor. Para obtener una transformacin spline, el rango de o la variable se divide en un n mero de intervalos, igual al n mero de nodos u u especicado menos uno. Los nodos son los puntos extremos de los intervalos. Entonces las funciones polinomiales de un grado espec co se ajustan en cada intervalo y se empatan en cada nodo. La suavidad y el numero de grados de libertad de una curva de transformacin spline depende del o n mero de nodos y del grado de las funciones polinomiales [12]. u En trminos de restricciones, o sea, de suavidad de la curva de transe formacin y ajuste, la transformacin spline no montona est entre una o o o a nominal y una transformacin lineal. Con n mero de nodos interiores o u igual al n mero de categor menos dos y usando un polinomio de primer u as grado, la transformacin spline es la misma que la transformacin nomio o nal. Con el n mero de nodos interiores igual a cero y con un polinomio de u primer grado, la transformacin spline es la misma que la transformacin o o lineal. De la misma manera, una transformacin spline montona est o o a entre una ordinal y una transformacin lineal. o Lo expresado en el prrafo anterior se ilustra en la gura 1 que se a muestran a continuacin, la que muestra la grca de transformacin de o a o la variable dependiente Diagnstico de Expertos (DiagExp), que tiene o tres categor as: (1-normotenso, 2-pre hipertenso, 3-hipertenso) y cierta variable independiente categrica (X1). A la variable dependiente se le o
j el nivel de medicin ordinal mientras que a la independiente se le o o variaron los niveles de medicin. o Con el nivel de medicin nominal aplicada a la variable independiente o se obtiene una curva bastante dentada (gura 1.1). En el mismo se puede apreciar que ambas variables que a medida que se incrementan alcanzan valores mximos. El R2 que se obtiene es igual a 0.128. Al aplicar una a transformacin spline no montona (2do grado con 10 nodos interiores) o o las irregularidades son ms suaves (gura 1.2), mucho ms si se tienen dos a a nodos interiores (gura 1.3). Los R2 para estos casos son 0.088 y 0.081 respectivamente. Obsrvese que el R2 disminuye en la medida en que el e nivel de escalado utilizado conserva ms propiedades. a Como las transformaciones ordinales se obtienen mediante el average de las cuanticaciones nominales que estn en el orden equivocado, la a aplicacin de niveles de escala ordinales da lugar a transformaciones que o restringen todos los valores cuanticados en forma de mesetas (gura 1.4). El R2 que se obtiene en esta transformacin es 0.094. Cuando se aplica o una transformacin montona (2 grados con 10 nodos interiores) muchas o o de las mesetas desaparecen (gura 1.5) y con 2 grados y 2 nodos interiores la transformacin es casi lineal (gura 1.6). o Los valores de los R2 en estos casos son 0.085 y 0.078 [12]. En la gura 1.7 se muestra la transformacin con nivel de escalado numrico. El R2 o e que se obtiene es 0.073. En todas estas grcas de observa que a medida a que se gana en suavidad se pierde en ajuste. La regresin categrica m ltiple es una tcnica no lineal, donde la no o o u e linealidad radica en las transformaciones de las variables. El modelo de la regresin categrica es el modelo de la regresin lineal clsica, aplicado a o o o a las variables transformadas:
J
r (y) =
j=1
j j (xj ) + e
(8)
con la funcin de prdida: o e

J 2
L r , 1 , . . . , j ; 1 , . . . , j = r (y)
j=1
j j (xj )
(9)
donde J es el n mero de variables predictoras, y representa la variable u respuesta observada o discretizada, xj representa las variables predictoras observadas o discretizadas, j los coecientes de regresin, r las transforo maciones de la variable respuesta, j las transformaciones de las variables predictoras y el vector error.
analisis de componentes principales y analisis de regresion . . . 217
Figura 1: Transformacin de la variable X1. o Todas las variables son centradas y normalizadas para obtener la suma de los cuadrados igual a N , y 2 representa el cuadrado de la norma euclideana. La forma de las transformaciones depende del nivel de escalamiento o ptimo, el cual puede seleccionarse para cada variable por separado y es independiente del nivel de medicin. El nivel de escalamiento dene que o parte de la informacin que est en la variable observada o discretizada o a (seg n sea el nivel de medicin) se retiene en la transformacin de la u o o variable. Con nivel de escalamiento numrico, los valores de la categor de e a una variable se tratan como cuantitativos. Entonces toda la informacin se o retiene y la unica transformacin aplicada es la estandarizacin, resultando o o una transformacin lineal. Luego, cuando para todas las variables se aplica o el nivel de escalamiento numrico, el resultado de la RegCat es igual al e resultado de la regresin lineal m ltiple con las variables estandarizadas. o u Con niveles de escalamiento no numrico, los valores de las categor e as se tratan como cualitativos, y se transforman en valores cuantitativos.
En este caso, alguna parte de la informacin en la variable observada o o discretizada se pierde. Con nivel ordinal o spline montono, la informacin de intervalo se o o pierde y solamente la informacin de grupo y orden se retienen, as se o posibilita una transformacin montona. o o Con nivel nominal y spline no montono solo la informacin de agruo o pacin tiene que conservarse, dando lugar a una transformacin no mono o o tona. Aplicando niveles de escalamiento no lineales, las relaciones no lineales entre la variable respuesta y las variables predictoras se linealizan, por lo tanto el modelo de regresin lineal del trmino es todav aplicable. o e a En RegCat las variables observadas o discretizadas se codican en una matriz indicadora Gm de tama o N Cm , donde N es el n mero de n u observaciones y Cm representa el n mero de categor de la variable m, u as m = 1, . . . , M , donde M es el n mero total de variables. u Una entrada gic(m) de Gm , donde c = 1, . . . , Cm , es 1 si la observacin o i est en la categor c de la variable m y 0 en otro caso. Entonces las a a variables transformadas pueden escribirse como el producto de la matriz indicador Gm y el Cm vector de las cuanticaciones categricas vm : o r (y) = Gr vr j (xj ) = Gj vj (10)
donde vr es el vector de las categor cuanticaciones de la variable resas puesta, y vj el vector de categor cuanticaciones para una variable as predictora. Luego, el modelo de RegCat con las variables transformadas escrito en trminos de matrices indicadoras y categor cuanticadas es: e as
J
G r vr =
j=1
j Gj vj + e.
(11)
Con la funcin de prdida m o e nimos cuadrados asociada:

J 2
L vr ; v1 , . . . , vj ; 1 , . . . , j = Gr vr
j=1
j G j vj
(12)
La funcin de prdida (12) se minimiza por el algoritmo de m o e nimos cuadrados alternantes, que alterna entre la cuanticacin de la variable o respuesta por un lado, y la cuanticacin de las variables predictoras y o estimacin de los coecientes de regresin por el otro. o o
analisis de componentes principales y analisis de regresion . . . 219 Primero se inicializan las cuanticaciones y los coecientes de regresin. o RegCat tiene dos formas de inicializacin: aleatoria y numrica. Una inio e cializacin aleatoria usa valores aleatorios estandarizados para las cuano ticaciones iniciales, y los coecientes de regresin iniciales son las correlao ciones de orden cero de la variable respuesta cuanticada aleatoriamente con las variables predictoras cuanticadas de manera aleatoria. Los valores iniciales con una inicializacin numrica se obtienen a partir de un o e anlisis con nivel de escalamiento numrico para todas las variables. a e En el primer paso del algoritmo, las cuanticaciones de las variables predictoras y los coecientes de regresin se mantienen jos. Con nivel o de escalamiento numrico las cuanticaciones vr de la variable respuesta e son los valores de las categor de la variable observada o discretizada as centrada y normalizada. Con nivel de escalamiento no numrico las cuane ticaciones son actualizadas en la siguiente forma:
1 vr = Dr Gr J
j G j vj
j=1
(13)
donde Dr = Gr Gr . Las cuanticaciones vr son las cuanticaciones no estandarizadas para el nivel de escalamiento nominal. Para los niveles ordinal, no montono o spline montono, se aplica una restriccin para o o o vr , en relacin con el nivel de escalamiento, produciendo vr . Por tanto, o vr = vr para el nivel de escalamiento nominal, y vr = vr (restringida) se estandariza: para los niveles ordinales y spline. Entonces vr
+ vr = N 1/2 vr (vr Dr vr )1/2 .
(14)
En el segundo paso del algoritmo, las cuanticaciones de la variable respuesta mantienen jas, y las cuanticaciones vj de las variables predictoras con nivel de escalamiento no numrico, y los coecientes de regresin e o se actualizan para cada variable al mismo tiempo. El enfoque trabaja como sigue. Primero se calcula el N vector de los valores predictores:
J
z=
j=1
j G j vj .
(15)
Para actualizar las cuanticaciones de la variable j, la contribucin o de la variable j a la prediccin (la combinacin lineal ponderada de los o o predictores transformados) se sustrae de z:
J
zj = z
j=1
j G j vj .
(16)
Las cuanticaciones no restringidas se actualizan de la manera siguiente: 1 + vj = sign( j )Dj Gj (Gj vj zj ). (17) Para variables con nivel de escalamiento no numrico vj se restringe e seg n sea el nivel de escalamiento, y normalizada como en (14), prou + + duciendo vj . Para variables con nivel de escalamiento numrico, vj cone tiene los valores de las categor de los datos observados o discretizados as centrados y estandarizados. Luego los coecientes de regresin j se aco tualizan: + + = N 1 vj Dj vj . (18) j Entonces, la contribucin actualizada de la variable j para la prediccin o o se adiciona a zj : + z = zj + + Gj vj . (19) j y el algoritmo continua con la actualizacin de la cuanticacin para la o o prxima variable predictora, hasta que todos los predictores sean actualio zados. 2 + Los valores perdidos se calculan como Gj vj z . Estos dos pasos se repiten hasta que se alcance el criterio de convergencia especicado por el usuario. Para el nivel de escalamiento ordinal, se usa la regresin montona o o ponderada de las cuanticaciones nominales en la variable observada o discretizada. Para la restriccin en relacin con los niveles de escalamiento o o spline se usa la regresin ponderada de las cuanticaciones nominales en o un I-spline base [13], con restricciones no negativas adicionales para el nivel de escalamiento spline montono. En este punto, pudiera ocurrir una como plicacin adicional. Una restriccin creciente de manera montona puede o o o a veces dar lugar a una variable transformada con valores constantes. Por ejemplo, cuando los valores de v son decrecientes de manera montona, ex o cepto para el primer y el ultimo valor, las cuanticaciones restringidas son la media de v para todas las categor as. En este caso, la transformacin o en una constante puede evitarse dando lugar a una funcin montona o o decreciente [12]. 3.4.2 Relacin con el Anlisis de Discriminante o a
El mtodo de regulacin RegCat puede fcilmente extenderse al Anlisis e o a a de Discriminante tanto lineal como no lineal regularizado para clasicar los casos en los grupos. La RegCat con escalamiento nominal aplicado
analisis de componentes principales y analisis de regresion . . . 221 a una variable categrica dependiente y con transformaciones lineales a o los predictores continuos es equivalente a un Anlisis Discriminante lia neal (unidimensional; solamente resultar una funcin discriminante). Al a o seleccionar una transformacin no lineal, se lograr un Anlisis Discrimio a a nante no lineal. La adaptacin de RegCat en el Anlisis Discriminante o a Categrico no es asunto del algoritmo, sino solamente el resultado: coeo cientes de regresin tienen que ser convertidos en coecientes discrimio nantes, lo cual es sencillo debido a que son proporcionales entre ellos, y el resultado espec co hacia el Anlisis Discriminante necesitan ser suminisa trado. La pertenencia nal de cada caso a una de las clases no puede realizarse a nivel de men en el SPSS, por lo que se necesita auxiliarse de una ventana u de sintaxis. A continuacin se muestran los conjuntos de pasos necesarios o para convertir los valores de la variable dependiente en valores de una clase. Pasos necesarios para convertir los valores de la variable dependiente en valores de una clase. * x = 1 cuanticacin categrica de la variable dependiente o o * y = 2 cuanticacin categrica de la variable dependiente o o * z = 3 cuanticacin categrica de la variable dependiente o o compute dist1= (pre 1 - x )**2. compute dist2= (pre 1 - y)**2. compute dist3= (pre 1 - z)**2. compute mindist = MIN(dist1, dist2, dist3). compute class1 = (mindist = dist1). compute class2 = (mindist = dist2). recode class2 (1 = 2). compute class3 = (mindist = dist3). recode class3 (1 = 3). compute class = class1 + class2 + class3. exe. CROSSTABS /TABLES= depvar BY class.
Estudio de la hipertensin arterial (HTA) o
La hipertensin arterial (HTA) es la elevacin de la presin arterial por o o o encima de un l mite que se considera normal (140/90 mmHg). Es la principal enfermedad crnica degenerativa y la ms com n causa de muerte, o a u afecta aproximadamente al 20% de la poblacin mundial. La elevacin o o
anormal de la presin constituye un importante factor de riesgo coronario o y de padecer accidentes vasculares cerebrales [14]. Se cree que tanto los factores ambientales como los genticos son causas e de la hipertensin. La tensin arterial tiende a elevarse con la edad. Es o o tambin ms frecuente que aparezca si la persona es obesa, tiene una dieta e a rica en sal y pobre en potasio, bebe elevadas cantidades de alcohol, no tiene actividad f sica y sufre de un elevado estrs psicolgico. Aunque est e o a claro que la tendencia a la hipertensin puede ser heredada, se desconocen o en gran medida los factores genticos responsables de la misma [15]. El e conocimiento actual de ste problema de salud p blica a nivel mundial, e u obliga a buscar estrategias certeras de deteccin, control y tratamiento. o En este trabajo se presenta un estudio realizado con los 849 individuos de cinco policl nicos de la ciudad de Santa Clara. Cada caso fue inicialmente clasicado como normotenso, pre hipertenso o hipertenso por un comit de expertos altamente calicado. La tabla 1 muestra las variables e originales que formaron parte de este estudio.
4.1
Arboles de decisin: CHAID o
En este ep grafe se aplica la tcnica de segmentacin CHAID tomando e o como variable dependiente el diagnstico de expertos (DiagExp) y como o posibles variables predictoras el resto de las variables que aparecen en la tabla 1. La gura 2 muestra un esquema que resume el primer rbol a obtenido. En el nodo ra del rbol se encuentran los 849 casos estudiados. De elz a los, 434 personas son normotensas, lo que representa un 51.1% de la muestra, 193 son pre hipertensos (22.7%) y 222 casos son hipertensos (26.1%). La variable que mejor ayuda a diferenciar los grupos es la TAPam, esta es la ms signicativa, acorde con lo reportado por los especialistas [14][15]. a El rbol creado tiene 7 hojas o nodos terminales, veamos su explia cacin: o 1. Subconjunto formado por 208 pacientes caracterizan por presentar valores bajos en la TAPam. Todos los pacientes del grupo son normotensos. Se corresponde con el Nodo 1 del rbol. a 2. Subconjunto formado por 63 pacientes. Estos se caracterizan por tener valores de la TAPam entre baja o media y valores bajos de la TADiastB2. Existe predominio de normotensos (93.7%) y el resto est conformado por pre hipertensos (4.8%) e hipertensos (1.6 %). a Se corresponde con el Nodo 4 del rbol. a
analisis de componentes principales y analisis de regresion . . . 223 Variable Edad TASistB TADiastB TASistB1 TADiastB1 TASistB2 TADiastB2 TAPam Col Tot Col Ldl Col Hdl OImc Etiqueta Edad del paciente Presin Sistlica Basal o o Presin Diastlica Basal o o Presin Sistlica al minuto 1 o o Presin Diastlica al minuto 1 o o Presin Sistlica al minuto 2 o o Presin Diastlica al minuto 2 o o Presin arterial media o Colesterol total Colesterol LDL Colesterol HDL Indice de masa corporal Valores 16-80 a os n Baja, Media, Alta Baja, Media, Alta Baja, Media, Alta Baja, Media, Alta Baja, Media, Alta Baja, Media, Alta Baja, Media, Alta Bajo, Medio, Alto Bajo, Medio, Alto Bajo, Medio, Alto Bajo, Normal, Elevado. Masculino Femenino S No , S No , S No , S No , Blanca, Mestiza Normotenso, Pre hipertenso, Hipertenso.
Sexo Fuma Bebe Diabetes Dislipidemia Raza DiagExp
Sexo del paciente Hbito de fumar a Ingestin de bebidas alcohlicas o o Padecimiento de Diabetes Mellitus Padecimiento de dislipidemia Raza del paciente Diagnstico de HTA o
Tabla 1: Variables consideradas en el anlisis. a 3. Subconjunto formado por 104 pacientes. Se caracterizan por tener valores altos en la TAPam y valores bajos en la TADiastB. Es un grupo donde predominar los pre hipertensos (63.5%) sobre los hipertensos (36.5%). Se corresponde con el Nodo 6 del rbol. a 4. Subconjunto formado por 146 pacientes. Se caracterizan por tener valores entre baja y media de la TAPam, valores entre media y alta en la TADiastB2 y valores bajos de TASistB1. Es un grupo donde predominan los normotensos (72.6%). El 26.7% de los pacientes del grupo son pre hipertensos y uno solo de los pacientes es hipertenso. Se corresponde con el Nodo 8 del rbol. a
5. Subconjunto formado por 138 pacientes. Se caracterizan por tener valores entre baja y media de la TAPam, valores entre media y alta en la TADiastB2 y valores entre media y alta de la TASistB1. En este grupo predominan los pre hipertensos (51.4%). Los normotensos representan un 44.2% del total del grupo mientras que los hipertensos solo representan 4.3%. Se corresponde con el Nodo 9 del a rbol. 6. Subconjunto formado por 66 pacientes. Es caracter stica de este grupo presentar valores altos en la TAPam, valores altos en la TADiastB y valores entre baja y media en la TADiastB2. En este grupo 52 pacientes son hipertensos (78.8%) y 14 son pre hipertensos (21.2%). Es vlido destacar la ausencia de pacientes normotensos en el grupo. a Se corresponde con el Nodo 10 del rbol. a 7. Subconjunto formado por 124 pacientes que se caracterizan por tener valores altos en la TAPam, valores altos en la TADiastB y tambin e valores altos en la TADiastB2. Es un grupo donde los 124 pacientes que lo conforman son hipertensos (100%). Se corresponde con el Nodo 11 del rbol. a El rbol de decisin obtenido, adems de segmentar la poblacin, crea a o a o reglas de clasicacin. La tabla 2 muestra los resultados obtenidos: o Pronosticado pre hipertenso hipertenso 0 14 176 22.4%
Observado
normotenso
normotenso 373 61 pre hipertenso 42 137 hipertenso 2 44 % global 49.1% 28.5% Mtodo de crecimiento: CHAID e Variable dependiente: Diagnstico de Expertos o Tabla 2: Clasicacin. o
% correcto 85.9% 71.0% 79.3% 80.8%
Se clasican adecuadamente un 80.8% de la totalidad de los casos. Debe se alarse que los resultados ms interesantes se encuentran en el n a hecho de que el rbol casi no se equivoca entre pacientes normotensos e a hipertensos. Ning n normotenso fue clasicado como hipertenso y slo u o
Figura 2: Arbol de decisin aplicando la tcnica CHAID. o e dos hipertensos fueron clasicados como normotenso. Las dudas aparecen en el grupo de los pre hipertensos. Esto se corresponde plenamente con el criterio de los expertos, pues este grupo se considera dudoso. A l e pertenecen aquellas personas que no son hipertensas, pero que tienen una probabilidad elevada de serlo en un futuro no muy lejano.
4.2
Regresin categrica con componentes principales como o o mtodo de seleccin de variables e o
En numerosas investigaciones, sobre todo en el campo mdico o social e [16], se tienen variables predictoras categricas. Algunas tienen un oro den entre sus valores, otras son simplemente nominales. En estos casos pudiera pensarse en realizar una regresin de la respuesta con respecto o a los propios valores predictores categricos. Como consecuencia, se eso
tima un coeciente para cada variable. Sin embargo, para las variables discretas, los valores categricos son arbitrarios. La codicacin de las o o categor de diferentes maneras proporciona diferentes coecientes, dias cultando las comparaciones entre los anlisis de las mismas variables. De a manera general, la aplicacin de las tcnicas clsicas de regresin se dio e a o culta notablemente. Para subsanar estas deciencias surge la regresin o categrica. o En este ep grafe se pretende encontrar un modelo de regresin que o permita caracterizar el padecimiento de la HTA en pacientes de cinco policl nicos del municipio de Santa Clara. El problema que se presenta en este trabajo no puede tratarse adecuadamente por una regresin lio neal m ltiple, pues la variable dependiente (DiagExp) es ordinal y todas u las predictoras son categricas (ver tabla 1). Se decide entonces aplicar o la regresin categrica presente en el SPSS en su versin 13 [8]. En la o o o primera corrida se consideraron todas las variables mostradas en la tabla 1. A la variable presin arterial media (TAPam) se le aplic el nivel de o o escalamiento nominal con el objetivo que tuviera mayor grado de libertad y por tanto lograr as un mejor ajuste en el modelo, ya que de todas las variables predictoras sta es la ms importante o signicativa (ver gura e a 2) y por tanto la que mayor inuencia ejerce sobre la variable dependiente (DiagExp) [8][12]. El valor del coeciente de determinacin R2 obtenido o fue igual a 0.828, lo cual indica que el 82.8% de la variable diagnstico o est explicado en el modelo. a R M ltiple R Cuadrado u R Cuadrado Ajustado 0.910 0.828 0.824 Variable dependiente: Diagnstico de Expertos o Predictores: Edad Sexo Raza Bebe Fuma Diabetes mellitus Dislipidemia TASistB TADiastB TASistB1 TADiastB1 TASistB2 TADiastB2 TAPam OIMC Col Tot Col HDL Col LDL Tabla 3: Resumen del modelo. El resultado del anlisis de varianza result signicativo lo que indica a o que el modelo es vlido [17]. Ahora bien el modelo que se obtiene es muy a grande, o sea, est compuesto por numerosas variables predictoras (ver a tabla 4) y algunas de ellas son no signicativas. El mtodo de regresin e o categrica no tiene implementado a n ning n mtodo de seleccin de vao u u e o riables y por consiguiente todas las variables independientes consideradas
analisis de componentes principales y analisis de regresion . . . 227 Coecientes Estandarizados Beta Signicacin o Edad 0.020 0.247 Sexo -0.065 0.000 Raza 0.025 0.090 Bebe -0.012 0.446 Fuma -0.001 0.947 -0.018 0.244 Diabetes mellitus Dislipidemia -0.006 0.699 TASistB 0.005 0.845 TADiastB 0.151 0.000 TASistB1 0.164 0.000 TADiastB1 0.088 0.000 TASistB2 0.088 0.001 TADiastB2 0.215 0.000 TAPam 0.353 0.000 OIMC 0.043 0.005 Col Tot -0.015 0.471 Col HDL -0.011 0.466 Col LDL -0.004 0.859 Variable Dependiente: Diagnstico de Expertos o Tabla 4: Coecientes. pasaron a formar parte de la ecuacin. o Para analizar los supuestos de la regresin se utiliz el test de Kolo o mogorov Smirnov para comprobar si los residuos estaban normalmente distribuidos. La signicacin fue 0.161 indicando la normalidad [17]. Para o vericar la homogeneidad de la varianza y comprobar la ausencia de multicolinealidad se realiz una regresin lineal tomado como datos los valores o o de las variables transformadas [12] ya que la regresin categrica no realiza o o este tipo de anlisis [8]. a El estad stico de Durbin Watson obtenido fue de 1.534 indicando que no hay autocorrelacin y por tanto existe homogeneidad de varianza [18]. o El ndice de condicin rearma la ausencia de multicolinealidad [17]. o En el modelo obtenido aparecen varias variables no signicativas (ver tabla 4), adems que son muchas por lo que el modelo pudiera no ser a
sencillo y por tanto de dif interpretacin. Para realizar la seleccin de cil o o las variables se decidi utilizar el mtodo de componentes principales para o e variables categricas precisamente por la naturaleza de las variables que o intervienen en el estudio. El mtodo de componentes principales ha sido utilizado de manera e creciente en las ultimas dcadas, prcticamente en todas las reas, es el e a a anlisis de componentes principales. En la medida en que aumenta el a n mero de las variables a considerar en una investigacin dada, aumenta u o la necesidad de conocer en profundidad su estructura y sus interrelaciones [5]. Las investigaciones sobre la HTA no constituyen una excepcin. o El nivel de escalamiento aplicado a las variables fue el mismo que el que se utiliz en el anlisis de regresin categrica. El modelo que se obtiene o a o o considerando la totalidad de las variables resulta ser poco satisfactorio ya que el por ciento total de la varianza explicada por los factores es peque o. n Ello puede deberse a que a la mayor de las variables consideradas se le a asign un escalado numrico, que es de todos, el ms restrictivo. o e a La tabla 5 muestra el resumen del modelo obtenido. Como puede apreciarse el porcentaje total de la varianza explicada por los factores es peque o (49.706%), pero en nuestro caso este hecho no es tan importante, n debido a que no se van a sustituir las variables originales por los factores hallados. Varianza explicada Alfa de Total % de la Dimensin Cronbach (Autovalores) varianza o 1 0.872 5.670 31.500 2 0.473 1.807 10.041 3 0.338 1.470 8.165 Total 0.940 8.947 49.706 a. El Alfa de Cronbach Total est basado en los a autovalores totales Tabla 5: Resumen del modelo. La tabla tambin muestra el valor del estad e stico alfa de Cronbach (0.940), que es una medida de conabilidad que se maximiza en el procedimiento. La tabla 6 muestra las variables que intervienen en cada una de las dimensiones. Obsrvese que las variables que miden presiones tienen un e
analisis de componentes principales y analisis de regresion . . . 229 valor elevado (superior a 0.800) en la primera dimensin y valores peque os o n en las dems. El efecto contrario ocurre con dos de las variables que a miden colesteroles, pues ellas tienen un valor muy elevado en la segunda componente y peque o en las otras. La tercera componente por su parte, n se describe fundamentalmente por factores de riesgo: hbito de fumar a (Fuma) y consumo de bebidas alcohlicas (Bebe). o Dimensin o 1 2 3 Edad 0.357 0.451 0.111 Sexo 0.346 -0.223 0.597 Raza 0.078 -0.097 -0.192 Bebe -0.199 0.177 -0.707 Fuma -0.144 -0.116 -0.673 Diabetes mellitus -0.181 -0.280 -0.096 Dislipidemia -0.164 -0.392 -0.131 TASistB 0.806 -0.076 -0.051 TADiastB 0.825 -0.192 -0.087 TASistB1 0.856 -0.020 -0.047 TADiastB1 0.810 -0.219 -0.079 TASistB2 0.830 -0.001 -0.073 TADiastB2 0.827 -0.231 -0.097 TAPam 0.905 -0.118 -0.071 OIMC 0.384 0.098 -0.212 Col Tot 0.359 0.732 0.003 Col HDL -0.113 -0.056 -0.015 Col LDL 0.312 0.749 -0.026 Normalizacin principal variable o Tabla 6: Saturaciones en componentes. Realizando un anlisis detallado de estos resultados, se decide eliminar a las variables que no tributan a ninguna dimensin y que adems no son o a signicativas en el modelo de regresin. o Con estas consideraciones se vuelve a obtener otro modelo de regresin categrica. En l se obtiene un R2 igual a 0.827 [17]. Ntese que o o e o 2 no disminuye, si lo comparamos con el valor anterior, prcticamente el R a que era de 0.828. El anlisis de varianza nuevamente es signicativo. a La tabla 7 reeja los coecientes del modelo encontrado. Evidente-
mente es un modelo ms claro, sencillo y de mejor interpretacin. Adems a o a se rearma la TAPam como la variable ms importante. a Coecientes Estandarizados Beta Signicacin o Sexo -0.064 0.000 Bebe -0.011 0.488 Fuma -0.003 0.854 TASistB 0.000 0.985 0.153 0.000 TADiastB TASistB1 0.174 0.000 TADiastB1 0.090 0.000 TASistB2 0.088 0.001 TADiastB2 0.208 0.000 TAPam 0.359 0.000 OIMC 0.048 0.002 Col Tot -0.013 0.509 Col LDL 0.002 0.928 Variable Dependiente: Diagnstico de Expertos o Tabla 7: Coecientes. Para tener certeza de que este modelo es vlido se estudia nuevamente a en detalle el cumplimiento de los supuestos en el nuevo modelo encontrado siguiendo la misma metodolog que en el primer modelo. Nuevamente a se comprueba que los errores estn normalmente distribuidos, que existe a homogeneidad de varianza y que no hay presencia de multicolinealidad. Hasta aqu estamos satisfechos porque se ha encontrado un modelo de regresin categrico sencillo y que cumple con los supuestos del anlisis o o a de regresin. Pero no debe olvidarse que la variable dependiente, o sea, o el diagnstico de expertos (DiagExp) es una variable categrica, luego o o estamos en presencia de un problema de clasicacin. o La regresin categrica nos proporciona un valor predicho de la vario o able dependiente, sin embargo, lo que realmente se necesita es el pronstico o predicho de la clase a la que cada uno de los pacientes pertenece, seg n el u modelo hallado. Como se explic en uno de los ep o grafes anteriores, a nivel de men u del SPSS no aparecen opciones que brinden estas facilidades, ellos debe
analisis de componentes principales y analisis de regresion . . . 231 hacerse a nivel de sintaxis siguiendo las orientaciones que aparecen en dicho ep grafe. En nuestro estudio y siguiendo las instrucciones anteriormente mencionadas obtuvimos un 84.57% de pacientes bien clasicados. Los resultados se muestran en la tabla 8 . DiagExp normotenso pre hipertenso hipertenso Total Clasicacin o pre hipertenso 37 123 24 184
normotenso 397 51 0 448
hipertenso 0 19 198 217
Total 434 193 222 849
Tabla 8: Recuento DiagExp*Clasicacin. o
4.3
Comparacin de mtodos a travs de las curvas ROC o e e
Las diferentes alternativas de clasicacin de la hipertensin arterial pueo o den ser validadas por diferentes v siguiendo los criterios de evaluacin as, o de los clasicadores clsicos de la Teor Estad a a stica y de la Inteligencia Articial, en particular los grcos ROC [19]. Spackman [20] demostr el a o valor de las curvas ROC en la evaluacin y comparacin de algoritmos. o o Las curvas ROC constituyen otra manera de examinar el desempe o n de un clasicador. Una curva ROC es un grco con la Razn de Falsos a o Positivos (F P = 1 Sp) en el eje X y la Razn de Verdaderos Positivos o (T P ) en el eje Y . Las curvas quedan en el cuadrado [0, 1][0, 1]. El vrtice e superior izquierdo de este cuadrado: (0, 1) representa al clasicador perfecto porque clasica todos los casos positivos y todos los casos negativos correctamente porque F P = 0 y T P = 1. El vrtice inferior izquierdo e (0, 0) representa un clasicador que predice todos los casos como negativos, mientras que el vrtice superior derecho (1, 1) corresponde a un e clasicador que predice todos los casos como positivos. El punto (1, 0) es un clasicador psimo que resulta incorrecto en todas las clasicaciones. e En muchos casos, un clasicador tiene un parmetro que puede ser a ajustado para incrementar T P al costo de incrementar F P o decrecer F P al costo de decrecer T P . Cada parmetro puede suministrar un par a (F P, T P ) o lo que es lo mismo un punto sobre este cuadrado y una serie de tales puntos pueden utilizarse para plotear la curva ROC. Un clasi-
cador que no dependa de parmetros, se representa por un punto simple, a correspondiente a su par (F P, T P ). El rea bajo la curva ROC puede ser usada como una medida de a la exactitud en muchas aplicaciones. Si se comparan dos clasicadores, a travs de sendas curvas ROC podemos decidir en general que la de e mayor rea bajo ella identica al mejor clasicador, o ms precisamente, a a el clasicador para el cual se pueda obtener un punto ms alto en el eje Y a (mayor ordenada) con una punto ms bajo en el eje X (menor abscisa). a Para un clasicador no paramtrico, e identicado por un punto ROC, la e eciencia puede medirse en trminos de la distancia del punto (F P, T P ) e correspondiente al punto (0, 1). En ambos criterios, pueden introducirse pesos en trminos de la importancia relativa de los F P o los T P [21]. e A continuacin se mostrar la comparacin de la tcnica de segmeno a o e tacin CHAID y la regresin categrica, ambos utilizados en el problema o o o de la clasicacin de la hipertensin arterial. Para la realizacin de la o o o comparacin se salvaron las probabilidades de pertenencia a cada clase (1o normotenso, 2-pre hipertenso, 3-normotenso) en el caso del CHAID. Como la regresin categrica no es exactamente una tcnica de clasicacin, en o o e o el SPSS 13 no aparece implementado las probabilidades de pertenencia a las distintas clases. Entonces se decidi calcularlas utilizando la siguiente o sintaxis: compute compute compute compute compute compute dist1 = ABS(YPRONOST + 0.89). dist2 = ABS(YPRONOST - 0.3). dist3 = ABS(YPRONOST - 1.48). RC Prob1 = (dist2 + dist3) / (2*(dist1 + dist2 + dist3)). RC Prob2 = (dist1 + dist3) / (2*(dist1 + dist2 + dist3)). RC Prob3 = (dist1 + dist2) / (2*(dist1 + dist2 + dist3)). exe.
La gura 3 y la tabla 9 muestran los resultados. Pacientes Normotensos 0.957 0.969 Pacientes Pre Hipertensos 0.868 0.904 Pacientes Hipertensos 0.974 0.988
Arbol de decisin o Regresin Categrica o o
Tabla 9: Resultado del rea bajo la curva ROC a Como puede apreciarse en todos los casos la regresin categrica proo o porciona mejores resultados en cuanto a la clasicacin de la hipertensin o o
Figura 3: Resultados de las curvas ROC. arterial si la comparamos con los rboles de decisin. a o
Conclusiones
El anlisis de regresin categrica resulta ser una buena opcin cuando nos a o o o enfrentamos a problemas en los que la mayor de las variables analizadas a son del tipo categricas. Aplicando esta tcnica se puede realizar un estuo e dio para descubrir los modelos que relacionen las variables que intervienen en el anlisis y poder realizar predicciones sobre los datos que intervienen a en el anlisis. Adems se muestra como el Anlisis de Componentes Prina a a cipales para datos categricos puede emplearse como mtodo de seleccin o e o de variables. En el ejemplo que se desarrolla se obtiene un modelo cuyo coeciente de determinacin indica que el 82.7% de la variable respuesta o es explicado por las predictoras, lo cual indica que existen varias variables que inuyen en el riego de padecer hipertensin arterial. o Se realiz una comparacin con otro mtodo de clasicacin: los rboles o o e o a CHAID. Aplicando la teor de las curvas ROC se corrobor que la rea o gresin categrica ofrece mejores resultados en cuanto a la clasicacin de o o o la Hipertensin Arterial. o
Referencias
[1] Agresti, A. (2002) Categorical Data Analysis, Second ed.. John Wiley & Sons, New York. [2] SPSS 10 para Windows. Manual de usuarios. Cap tulo 12, SPSS Soft.
[3] Vicns Otero, J.; Medina Moral, E. (2005) Anlisis de datos e a cualitativos, en: www.uam.es/personal pdi/economicas/eva/pdf/tab conting.pdf, consultado el 22-Sep-2007, 9:30 a.m. [4] Grau, R. (2000) Independencia de variables y medidas de asociacin, Cap o tulo 3. Segunda parte. Preprint, Universidad Central de las Villas, Cuba. [5] Hair, J.F. et al. (1999) Anlisis Multivariante, 5a ed. Prentice Hall, a Madrid. [6] Johnson, R.A.; Wichern, D.W. (2002) Applied Multivariate Statistical Analysis, Fifth edition. Pearson Education International, United States of America. [7] Linting, M. (2007) Nonparametric Inference in Nonlinear Principal Components Analysis: exploration and beyond. Doctoral Thesis, Leiden University. [8] Meulman, J.J.; Heiser, W.J. (2004) SPSS Categories 13.0. [9] Stanton, J.M., et al. (2001) A brief history of linear regression for statistics instructors, Journal of Statistics Education 9(3). [10] Draper, N.R.; Smith, H. (1980) Applied Regression Analysis. Editorial Pueblo y Educacin. o [11] Haber, L. (2001) Categorical regression analysis of toxicity data, Comments on toxicology 7(5-6): 437452. [12] Van der Kooij, A.J. (2007) Prediction Accuracy and Stability of Regression with Optimal Scaling Transformations. Doctoral Thesis, Leiden University. [13] Ramsay, J.O.; Monotone, Wichern. (1988) Regression splines in action, en: http://www.fon.hum.uva.nl/praat/manual/spline.html, consultada 28-Ene-2008, 10:15 a.m. [14] Tuotromedico: Hipertensin Arterial, en: o http://www.tuotromedico.com/temas/hipertension, consultada 20-Mar-2008, 1:18 p.m.
analisis de componentes principales y analisis de regresion . . . 235 [15] Microsoft R Encarta R 2006, c 1993-2005 Microsoft Corporation. Reservados todos los derechos. [16] Aron, A.; Aron, E. (2002) Statistics for the Behavioral and Social Sciences, Second edition. Prentice Hall. [17] Navarro Cspedes, J.M. (2008) Anlisis de Componentes Principales e a y Anlisis de Regresin para datos categricos. Aplicacin en HTA. a o o o Tesis de Maestr Universidad Central de las Villas, Santa Clara, a, Cuba. [18] Calero, A. (1998) Estadstica II. Pueblo y Educacin, La Habana, o Cuba. [19] Swets, A.J. (1988) Measuring the accuracy of diagnostic systems, Science 240: 12851293. [20] Spackman, K.A. (1989) Signal detection theory: Valuable tools for evaluating inductive learning, Sixth International Workshop on Machine Learning, San Mateo, CA. [21] Fawcett, T. (2004) ROC graphs: notes and practical considerations for researchers, en: home.comcast.net/tom.fawcett/public html/papers/ROC101.pdf, consultado 5-May-2008, 3:58 p.m.

Matematica 17 2 02

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Matematica 17 2 02

Uploaded by

Copyright:

Available Formats

Revista de Matematica: Teor y Aplicaciones 2010 17(2) : 205235 a cimpa ucr issn: 1409-2433

206 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

Palabras clave: regresin categrica, hipertensin arterial, clasicacin, o o o o curvas ROC.

208 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

Anlisis estad a stico de datos categricos o

Arboles de decisin: CHAID o

Anlisis de componentes principales y anlisis a a de regresin para datos categricos o o

Componentes principales para datos categricos o

210 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

En notacin matricial, esta o

tr (qj Xaj ) (qj Xaj )

212 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

(qij ajs xis )2 ,

o equivalentemente, en notacin matricial como: o L (Q, A, X) = n1 w

214 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

Anlisis de regresin lineal a o

Anlisis de regresin para datos categricos a o o

216 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

con la funcin de prdida: o e

analisis de componentes principales y analisis de regresion . . . 217

218 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

Con la funcin de prdida m o e nimos cuadrados asociada:

220 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

Estudio de la hipertensin arterial (HTA) o

222 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

Arboles de decisin: CHAID o

Sexo Fuma Bebe Diabetes Dislipidemia Raza DiagExp

224 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

% correcto 85.9% 71.0% 79.3% 80.8%

analisis de componentes principales y analisis de regresion . . . 225

Regresin categrica con componentes principales como o o mtodo de seleccin de variables e o

226 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

228 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

230 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

normotenso 397 51 0 448

hipertenso 0 19 198 217

Total 434 193 222 849

Tabla 8: Recuento DiagExp*Clasicacin. o

Comparacin de mtodos a travs de las curvas ROC o e e

232 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

Arbol de decisin o Regresin Categrica o o

analisis de componentes principales y analisis de regresion . . . 233

234 J. Navarro - G. Casas - E. Gonzalez

Rev.Mate.Teor.Aplic. (2010) 17(2)

You might also like