You are on page 1of 71

MANUAL INTRODUCTORIO DE ANALISIS DE DATOS CON SPSS.

Juan Manuel Garca Torrecillas Herminia Moreno Martos

MANUAL INTRODUCTORIO DE ANALISIS

DE DATOS CON SPSS

Juan Manuel Garca Torrecillas Ldo en Medicina y Ciruga Especialista en Medicina Familiar y Comunitaria Servicio de Cuidados Crticos y Urgencias del C. H. Torrecrdenas.

Para Maru, porque sin su ayuda no habra sido posible acabar este manual...y para el pequeo Juanma, que tantas alegras y nimos infunde a todo cuanto intento...cuando menos, hacer.

INDICE
CAPITULO 1. Primera sesin con SPSS CAPITULO 2. Editar y otros procesos con datos. CAPITULO 3. Anlisis descriptivo. CAPITULO 4. Tablas de contingencia. CAPITULO 5. Comparacin de medias. CAPITULO 6. ANOVA CAPITULO 7. Test no paramtricos. CAPITULO 8. Regresin y Correlacin. CAPITULO 9. Regresin logstica.

CAPITULO 1. PRIMERA SESION CON SPSS


Antes de entrar en detalles concretos referentes a la base de datos que se os va a proporcionar para entrar en la descripcin y anlisis de datos usando el paquete estadstico SPSS, creemos necesario dar un repaso inicial al programa que nos permita familiarizarnos con sus ventanas, mens, opciones y elementos ms generales.

Para entrar en el programa lo primero es....abrirlo, y hasta esto puede realizarse de dos formas distintas; bien partimos del fichero de spss (con la extensin .sav que es la que atribuye el programa al fichero que contiene los datos) y picando dos veces sobre l con el botn izquierdo del ratn abrir el programa estadstico, o bien desde el editor de datos (fig 1.1) abriendo archivo datos y seleccionamos la ubicacin del fichero que queramos abrir. abrir

Fig 1.1

Ms sencillo an si picamos en el icono "abrir" del men superior (Fig. 1). 2) que viene representada con el dibujo de una carpeta abierta con una flecha.

Fig. 1.2

Una vez abierto el editor de datos (fig. 1.1) pasemos a describir las opciones que tenemos en la regin que corresponde a la barra de herramientas de la versin 11 de SPSS (fig1.3)

Fig. 1.3

De izquierda a derecha encontramos los iconos "abrir archivo", "guardar", "imprimir", "recuperar cuadros de dilogo", "deshacer", "rehacer", "ir a grfico", "ir a caso", "variables", "buscar", "insertar caso", "insertar variable", segmentar archivo", etc... y muchas otras ms como las que tenis en la figura que son el resultado de personalizar la barra de herramientas para que podis acceder a las funciones ms tiles de un modo ms rpido. Si volvis a la figura 1.1 y observis el editor de datos, en la parte inferior izquierda existe una doble pestaa que nos permite seleccionar si lo que queremos ver es el propio editor de datos o bien la "vista de variables". Picando en esta pestaa de vista de variables aparece una segunda pantalla, la siguiente (fig. 1.4)

Fig. 1.4

La barra de herramientas de esta pantalla de "vista de variables" es comn a la ventana anterior lo que nos permite operar como si estuviramos en el propio editor de datos y de un modo gil poder intercambiar las vistas entre editor de datos y vista de variables. En esta posicin vemos una fila de descriptores que pasamos a explicar (fig. 1.5)

Fig. 1.5

Nombre: nombre de la variable Tipo: Tipo de variable, se puede elegir entre 8 tipos diferentes (numrico, coma, punto, notacin cientfica, fecha, moneda personalizada y cadena). En spss es altamente recomendable que trabajis siempre que sea posible con variables numricas, convirtiendo incluso a numricas cualquier variable susceptible de hacerlo.

Anchura y Decimales: Para especificar la anchura y el nmero de decimales que contiene en las variables de tipo numrico, coma, punto, notacin cientfica, dlar y moneda personalizada. Para las variables tipo fecha se puede elegir entre otras muchas opciones.

Fig. 1.6

Etiqueta: aqu especificamos de un modo mas claro que significa el nombre atribuido a la variable, mximo 8 caracteres. Cuando la variable es de tipo numrico podemos asignar las llamadas etiquetas de valor, esto es, dar un valor numrico a cada uno de los valores que puede adoptar la variable en cuestin. Fig. 1.7

Columna valores: se pueden dar nombres a los valores numricos de las variables nominales u ordinales. En el archivo de ejemplo se puede dar valores a la variable categrica sexo (por ejemplo 0 para varones y 1 para mujeres)

10

Fig. 1.8

Perdidos: A veces no es posible registrar para cada variable todas las respuestas posibles o simplemente dicha respuesta no existe (ej. : no respuesta), se tratara de un dato que no tendra utilidad a efectos del anlisis estadstico. Bien por defecto, esto es, dejando el dato en blanco, o bien asignndole un valor numrico al dato que nos indique que se trata de un valor perdido, se consigue identificar esta caracterstica de la variable. Veamos el cuadro que nos da spss para identificar los valores perdidos (la otra opcin, menos reglada, es dejar vaca la casilla): Fig. 1.9

Columnas: Para definir el ancho de cada columna, bien mediante la introduccin de un valor numrico o, casi ms sencillo, arrastrando con el ratn en el editor de datos los mrgenes de la columna para hacer sta ms grande. Alineacin: Hace referencia al contenido de la columna, que puede ser centrada, alienada a derecha o izquierda. Medida hace referencia a s se trata de una medida tipo escala (intervalo o razn), nominal u ordinal.

11

Definicin y ejecucin de un procedimiento


Para poder definir cualquier procedimiento de anlisis estadstico lo primero es que tengamos los datos en el editor estadstico, a continuacin selecciono el procedimiento estadstico que quiero emplear (para ello me voy a la opcin elegida en el men principal). Utilizando nuestra base de datos "hipertensin.sav" empezaremos por ver la distribucin de frecuencias de la variable sexo:

Analizar

Estadsticos descriptivos

Frecuencias

Lo primero que obtenemos es la caja de dilogo para frecuencias tras picar en analizar estadsticos descriptivos frecuencias. En la caja de la izquierda se encuentran las variables insertas de nuestro fichero. Ahora hemos de seleccionar aquella variable que queremos analizar, en este caso la variable sexo, e introducirla en la caja de la derecha usando el botn y posteriormente seleccionar las

opciones que deseemos referentes a estadsticos, grficos y formato, que se sealan en la parte inferior lo deseamos en la opcin "mostrar tabla de frecuencias". picando si

12

Picando en la opcin "estadsticos " nos aparecen cualquiera de los que cuantifican los cuatro aspectos bsicos de una distribucin (posicin, tendencia central, variabilidad o dispersin, forma de la distribucin):

Picando en grficos nos aparecen los tres tipos posibles, de entrada mejor no seleccionar esta opcin hasta que desarrollemos el anlisis global detallado:

La ltima de las opciones el botn "formato" que proporciona todas las posibilidades que podis observar en el grfico:

13

Bien, pues seleccionemos la variable sexo y veamos que ocurre:

Como vemos hemos obtenido un resultado en una nueva ventana, la ventana o editor de resultados. Nos detalla en una primera tabla cuantos de los datos son validos y si existen valores perdidos. A continuacin en una segunda tabla obtenemos la frecuencia y porcentaje de cada sexo (porcentaje y valido son los mismos porque no existen valores perdidos, de haberlos, hay que fijarse en la columna de porcentajes vlidos). Finalmente colocamos un grfico de distribucin de sexos. Observis que en la parte izquierda de la ventana que hemos obtenido aparece un men que permite navegar de forma gil por los resultados y operaciones que

14

vayamos realizando, siendo muy til a medida que la informacin de resultados obtenida es cada vez, ms voluminosa.

15

CAPITULO 2. EDITAR Y OTROS PROCESOS CON DATOS. USANDO EL FICHERO HIPERTENSION.SAV

2.1 Usando un fichero de ejemplo.


El presente curso se realiza utilizando como soporte un fichero creado en spss denominado hipertension.sav. Dicho fichero, se os entrega al realizar estas prcticas y va a ser la plantilla de trabajo para que podamos explicarlos procedimientos estadsticos de un modo homogneo.

Si vemos la ventana del editor de datos de dicho fichero, obtenemos algo as:

Fig. 2.1

Observamos la tpica rejilla, anloga a la de cualquier hoja de clculo, donde cada columna corresponde a una variable y cada fila corresponde a un caso. Las variables

16

que se analizan pueden verse de mltiples maneras. Desde el propio editor vemos ya las variables clave, nombre, fecha, sexo, etc.... y picando en la ventana de variables vemos claramente cuales son las que inicialmente estn incluidas en el fichero (fig. 2.2). Fig. 2.2

Segn la vista de variables ya podemos empezar a ver en la primera columna el nombre de cada variable, seguido en cada columna de cada uno de los atributos de ellas. Detallemos cada variable para seguir con nuestro fichero de ejemplo.

Clave: suele introducirse porque nos permite la interconversion entre diferentes bases de datos, y habitualmente se trata de un dato numrico. Nombre: hace referencia al nombre de los pacientes del fichero, en este caso, ya que estn codificados mediante un nmero de caso y un identificador es una

17

variable de la que podramos prescindir. Dado que est escrito con texto sera una variable tipo "cadena". f_nacim: Variable que se refiere a la fecha de nacimiento de los individuos incluidos. Se expresa en formato "fecha" y, como dijimos, existen muchas notaciones distintas para el formato fecha, habiendo utilizado aqu el ms usual en Espaa que es dia-mes-ao. f_inclus: hace referencia a la fecha de inclusin en el estudio. Tambin es una variable tipo fecha con el mismo sistema de notacin. sexo: es una variable categrica a la que se han dado valores numricos para que el anlisis sea adecuado. Se asign el valor 0 a los varones y 1 a las mujeres. Si picamos en la casilla resultante de la interseccin entre la variable sexo y valores se despliega la siguiente caja que aclara y permite modificar las asignaciones:

fig. 2.3

altura: es la altura de los individuos, variable numrica expresada en este caso en centmetros. Vemos cmo est acotada para el nmero de decimales esto es, sin decimales. Lo mismo ocurre con la variable peso. Notemos que para que exista claridad a la hora de conocer de que variables estamos hablando hay una casilla "etiquetas" donde podemos escribir la "chuleta", el qu significa realmente el nombre de la variable. pad_ini: hace referencia a la presin diastlica inicial, al comienzo del estudio. Numrica. pad_fin: es la presin diastlica final, tras tomar el frmaco. Numrica.

18

pas_ini: presin sistlica inicial. Numrica pas_fin: presin sistlica final, tras tomar el frmaco. Numrica frmaco: recoge el tipo de frmaco tomado. Se codificaron mediante nmeros los tres tipos de frmacos del estudio del siguiente modo (fig. 2.4)

Fig. 2.4

Como vemos, se asign el valor 0 a aquellos pacientes a los que se administr placebo, 1 a aquellos que tomaron IECAs y 2 a los que tomaron una asociacin de calcioantagonistas y diurticos.

2.2 Transformando Datos 2.2.1 CALCULAR (COMPUTE)


Con bastante frecuencia a partir de las variables suministradas por el fichero inicial es necesario crear variables nuevas o recodificar las previas en otras distintas para permitir un adecuado anlisis de las mismas. Con SPSS podremos hacer varias cosas distintas.

Puedo crear una variable nueva que sea el resultado de un clculo matemtico utilizando las variables insertas en el fichero. Por ejemplo, a partir de los datos de peso y talla que tenemos en nuestra base podemos calcular una nueva variable como es el ndice de masa corporal (IMC); para ello nos vamos a Transformar Calcular

19

y nos aparece la siguiente caja: Fig. 2.5

Si queremos calcular el IMC debemos saber que ste es el resultado de aplicar la frmula IMC = peso(Kg)/talla(m)2; usando la ventana anterior indicamos en la opcin "variable de destino" el nombre de la nueva variable, en nuestro caso "imc" y en la caja de expresin numrica expresamos la frmula que el programa debe calcular (fig. 2.6)

Fig. 2.6

20

Finalmente damos a "aceptar" y obtendremos una nueva columna en el editor de datos con el nombre de variable "imc" y los datos calculados para cada caso (fig. 2.7). Fig. 2.7

En resumen, las variables hay que elegirlas en la columna de la ventana variables de la caja (fig. 2.6) y se introducen con el ratn en la caja de la derecha siguiendo la expresin numrica/matemtica adecuada haciendo uso de los operadores que tenemos debajo. Es importante notar que cualquier operacin puede ser restringida a casos concretos si indicamos al programa que utilice para calcular slo los casos que cumplan una determinada condicin. Para ello, tenemos que picar en la ventana dentro de la fig. 2.6 lo cual nos da acceso a la posibilidad de restringir los casos a los deseados. Caso de no querer restringir los casos, dejamos marcada la opcin por defecto (incluir todos los casos). Repitamos el procedimiento de clculo del IMC detenendonos en la sintaxis; realizamos el procedimiento Transformar Calcular y obtenemos el cuadro de la

fig. 2.6, ahora en lugar de aceptar directamente seleccionamos "pegar" y nos aparece la siguiente expresin en el editor de sintaxis:
COMPUTE imc = peso / (altura / 100) ** 2 . EXECUTE .

Seleccionando ambas lneas y pulsando el botn

aparecer la variable IMC en el

editor de datos al igual que en el procedimiento anterior, pero con la ventaja de disponer de la sintaxis para futuras operaciones.

21

Calculemos ahora la edad que tienen los pacientes cuando fueron incluidos en el estudio. Disponemos de dos variables con formato fecha, a saber, f_nacim (fecha de naciemiento) y f_inclus (fecha de inclusin); parece lgico pensar que la resta de ambas nos proporcionar la edad de los pacientes. Transformar Calcular y la siguente expresin numrica:

Sealando "pegar" veremos la sintaxis de este procedimiento:

COMPUTE edad = CTIME.DAYS(f_inclus - f_nacim) / 365.25 . EXECUTE .

Picamos en

y aparece la nueva variable edad, pero lo que nosotros necesitamos

es verla de modo que la informacin que nos proporcione sean los aos cumplidos, para ello utilizamos el operador TRUNC antecediendo a la expresin numrica anterior, esto es:
COMPUTE edad = TRUNC (CTIME.DAYS(f_inclus - f_nacim) / 365.25) . EXECUTE .

Y obtengo la variable aos cumplidos, de que he de definir sus propiedades, etiqueta, etc.

22

Veamos otro ejemplo de la utilidad de la opcin "CALCULAR" . Creemos la variable hipertensn partiendo del concepto de que sern tipificados como hipertensos aquellos pacientes con una tensin sistlica mayor de 140 y/o una diastlica mayor de 90. De nuevo Transformar Calcular ...... expresin numrica que permita

excluir a aquellos pacientes que no cumplen la condicin de hipertensos, esto es: NOT (pad_ini < 90 AND pas_ini < 140).

Si pico en "aceptar" ya dispongo de una nueva variable con resultados 0 (no hta) y 1(hta), pero hagmoslo usando sintaxis y marquemos "pegar" primero, obtengo el siguiente comando:

COMPUTE hta = NOT (pad_ini < 90 AND pas_ini < 140) . VARIABLE LABELS hta 'hipertension' . EXECUTE .

Usar LIST pad_ini pas_ini hta. para conseguir un listado donde verificar que la recodificacin est correcta.

Pico en

y me aparece ya la variable hta con estos valores, 0 y 1, no hta y hta

respectivamente. Ir, como siempre, a la vista de variables para colocar la etiqueta y dar valores a la variable.

23

2.2.2 RECODIFICAR (RECODE)


A veces es necesario cambiar los valores que hemos asignado a cada una de las posibilidades que toma una variable, por meras necesidades para el clculo; otras es necesario por ejemplo obtener estratos o categoras dentro de una variable que es de tipo cuantitativo continuo, y se consigue mediante el procedimiento de recodificacin de las variables. Los valores de la nueva variable (la recodificada) han de tener el mismo formato que los de la variable de la que proceden.

Existen varias formas de recodificar, a saber: 1. En la misma variable 2. En distinta variable 3. Recodificacin automtica

En la R. en la misma variable, se sustituye la antigua por la nueva obtenida; si recodifico en distinta variable, conservo la antigua y aado la nueva (esto es lo ms aconsejable porque de haber algn error, no pierdo los datos iniciales). En la R. automtica el programa asigna, l solo, un valor a cada uno de las posibilidades que puede adoptar cada variable. Para acceder al men de recodificacin:

Transformar

Recodificar

En distintas variables

A. Recodificacin de una variable contnua: Supongamos que partiendo de nuestra base de ejemplo, queremos recodificar la variable pas_ini (presin arterial sistlica inicial), que viene expresada de modo continuo, en cinco categoras, las siguientes: pas < 100 pas entre 120 y 130 pas entre 100 y 110 pas > 130 pas entre 110 y 120

24

El procedimiento seria el que sigue: primero Transformar Recodificar En distintas variables, e incluyo en la caja de la izquierda la variable a recodificar (pas_ini). A la derecha la "variable de resultado" que es la nueva que voy a obtener por categoras y que llamare pasini_r y debajo escribo la etiqueta, por si se me olvida que he querido hace "presin sistolica inicial por categoras".

Una vez que la variable est renombrada, pasamos a picar en "valores antiguos y nuevos" apareciendo entonces una nueva ventana que nos permite seleccionar las caractersticas de cada categora a la izquierda (valores antiguos) y le asignamos a cada categora un valor numrico (apntelo en hoja aparte, luego har falta) que introducimos en la casilla "valor". Tras introducir cada valor picamos en "aadir" y se van incorporando las nuevas categoras a la caja que existe abajo en la columna de la derecha.

25

Notad que los intervalos que hemos creado comparten los valores extremos, por ejemplo el valor 110 aparentemente pudiera estar comprendido entre 100-110 o bien entre 110-120; cuando estamos recodificando una variable continua el programa asigna por defecto este valor extremo al primer intervalo que la contiene, por tanto el valor 110 pertenece y es analizado realmente en el estrato 100-110.

Vemos como ahora a cada "estrato" o categora de la variable le corresponde un valor (en este caso de 0 a 4) y hemos de anotarlos porque luego, en la vista de variables de spss podemos decirle con texto, para mayor claridad a que rango de valores de tensin arterial corresponde cada uno de estos valores. Recodificada la variable obtendramos algo as en el editor de datos:

Nos vamos a la vista de variables y con nuestra "chuleta" en la mano acudimos a la variable pasini_r y en concreto picamos en la celda correspondiente a "valores" de modo que aparece esta venta:

26

Introducimos los valores (de 0 a 4 ) en la casilla "valor" y su significado en la zona de "etiqueta de valor", as:

Tras haber hecho esto, vemos como se transforma la columna de la variable pasini_r del siguiente modo:

27

Recurriendo de nuevo a la sintaxis, adems del modo "menus" que es el que hemos usado antes, podra mos haber hecho lo siguiente: 1. Parto de la ventana de recodificacin:

2. Pico en "pegar" y obtengo el editor de sintaxis con los comandos:


RECODE pas_ini (Lowest thru 100=0) (100 thru 110=1) (110 thru 120=2) (120 thru 130=3) (130 thru Highest=4) INTO pasini_r . EXECUTE .

Y ahora, picando en

obtengo la nueva variable, pasini_r, al igual que si lo

hubiera hecho desde los menus, pero con las ventajas de conservar la sintaxis. Para comprobar que se ha codificado bien la variable listamos (desde la ventana de sintaxis) usando el comando LIST pas_fin pasfin_r.

B. Recodificacin de una variable cuantitativa discreta Disponemos de la variable ncigarr que hace referencia al nmero de cigarrillos/da que consume cada paciente de la base de datos y, se trata, bviamente, de una variable discreta que no toma valores entre nmeros enteros. Queremos recodificar la variable cigarrillos (ncigarr) en la variable nivel de tabaquismo (nueva variable, "nivtab") de modo que se establezcan los intervalos siguientes: 0=0; 1-5= 1; 6-10=2; 10-15=3; 16-20=4 ; >21=5.

28

Transformar Recodificar

En distintas variables

Nos vamos a valores antiguos y nuevos y especificamos....

Como vemos, al tratarse de una variable discreta, los intervalos no tienen solapamiento en los extremos, y los valores de dichos extremos quedan contenidos slo en uno de dichos estratos. Picamos en "continuar" "pegar" y obtenemos la sintaxis:

RECODE ncigarr (0=0) (1 thru 5=1) (6 thru 10=2) (11 thru 15=3) (16 thru 20=4) (21 thru Highest=5) INTO nivtab . VARIABLE LABELS nivtab 'tabaquismo'. EXECUTE .

29

Ejecutamos

y obtendremos la nueva variable nivtab que toma valores entre 0 y

5. Nos vamos a la vista de variables y asignamos valores, por ejemplo: 0 4 No fumador. 1 Fumador leve. 2 Fumador moderado. 3 Fumador severo.

Fumador muy severo, quedando as caracterizada la variable.

Como siempre, puedo usar el comando LIST para verificar que la recodificacon ha sido correcta. Si quiero tener una variable que me indique smplemente si son o no fumadores, puedo recoficiar la variable nivtab de modo que aquellos que tomaban el valor 0 sean tipificados como no fumadores y los que tomen el valor >0 como fumadores....

C. Recodficicacin automtica: El procedimiento de recodificacin automtica tambin puede ser bastante til. Supongamos una variable que puede adoptar 12 valores distintos, entonces en lugar de, manualmente, asignar un valor a cada unos de ellos, el programa puede hacer este trabajo por nosotros. Si tenemos una variable como puede ser "provincia de nacimiento" no he de asignar un valor numrico a cada provincia, sino que mediante el procedimiento Transformar Recodificacin automtica entro en la ventana

y no tengo ms que introducir la variable que quiero recodificar en el cajn de la derecha y posteriormente pulsar aceptar. El programa asignar un valor numrico a cada provincia y nos dar una salida de resultados informndonos de cual ha

30

asignado a cada una de ellas. Este procedimiento es til con las variables de tipo cadena (texto libre) como vemos.

2.2.3 ORDENAR CASOS


Para ordenar los casos basndonos en el contenido de alguna variable elegimos la opcin Datos Ordenar casos, apareciendo el cuadro de dilogo siguiente:

A continuacin pulsamos sobre aceptar y los casos quedarn ordenados siguiendo el criterio que hayamos indicado, en nuestro caso, la clave asignada a cada uno de los casos, concretamente en orden ascendente.

2.2.4 SELECCIONAR CASOS


Cuando iniciamos el anlisis, ste puede realizarse sobre el total de datos de la base o bien sobre un subgrupo de la misma mediante el proceso de "seleccionar casos" que indicar al programa realizar los clculos slo sobre los datos seleccionados, siendo el resto, bien eliminados, bien filtrados segn le indiquemos. Por tanto, el procedimiento permite "seleccionar" los casos segn una determinada condicin lgica segn su orden en el archivo o de forma aleatoria. Volviendo al fichero de ejemplo, supongamos que queremos realizar el anlisis estadstico exclusivamente sobre las mujeres de la base de datos. En este caso iramos a "Datos Seleccionar casos aparece la siguiente pantalla: si se satisface la condicin ... y nos

31

En la caja de la izquierda vuelven a encontrarse las variables de que consta nuestra base y, el criterio de seleccin para el filtraje de datos, lo introducimos de acuerdo a nuestra necesidad mediante las opciones que se despliegan en la porcin derecha de la caja. En nuestro caso la variable sexo la habamos codificado de tal modo que asignamos el valor 0 a los varones y 1 a las mujeres. Picamos en "si se satisface la condicin" y explicitamos que se seleccionen aquellos casos en los que la variable sexo toma el valor 1 (seleccionamos pues, solo mujeres).

32

Picamos en "continuar" y observamos que en el editor de datos aparecen "tachados" con una lnea oblicua los datos que corresponden a varones, esto es, aquellos que no sern analizados. Por defecto no se eliminan los datos no seleccionados sino que son filtrados, salvo indicacin expresa de eliminarlos; ahora, cualquier clculo que realicemos se har sobre los datos seleccionados, esto es, slo mujeres. Este es el modo de hacerlo a travs de los mens del programa.

Cada vez que realicemos una seleccin de datos, spss crea una variable nueva (filter_$) que toma dos nicos valores (0 y 1) que corresponden a no seleccionados y seleccionados respectivamente. Podemos cambiar el nombre a esta variable y ms tarde utilizarla incorporndola al campo "usar variable de filtro". Hagmoslo usando la sintaxis: Continuar Pegar

USE ALL. COMPUTE filter_$=(sexo = 1). VARIABLE LABEL filter_$ 'sexo = 1 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .

Y observo el mismo resultado, los hombres filtrados (lneas oblcluas sobre los casos) y el anlisis ulterior se restringir a las mujeres. En la ventana de sintaxis podemos quitar directamente el Filtro, con la expresin: FILTER OFF. O bien usamos el men del editor de datos Datos Seleccionar

casos todos los casos aceptar.

33

CAPITULO 3. ANLISIS DESCRIPTIVO


El anlisis de cualquier fichero suele iniciarse por un estudio descriptivo de las variables contenidas en el mismo. Recordemos que dichas variables pueden ser cuantitativas cualitativas o categricas (los valores que toman estn

restringidos a ciertas opciones) y, dentro de estas ltimas dicotmicas si slo es posible que tomen dos valores (ej. si/no, varn/mujer, etc.). Si pueden tomar ms de dos opciones se habla de variables policotmicas y si adems es posible ordenarlas segn algn criterio se las denominar ordinales. Llamamos variables nominales a aquellas que no tienen ningn orden implcito. Forma de codificar las variables categricas con spss: 1. Variables tipo cadena: Texto. Nada recomendable..... 2. Numricas: Asigno un valor a cada una de las opciones que toma la v.a. Ej. : Variable "cultura". Etiqueta: grado cultural. Opciones: 1: analfabeto. 2: est bsicos. 3: est. medios, etc... Ej. : Variable hipertensin Opciones: 0: no hipertenso; 1: hipertenso.

3.1. MEDIDAS DE FRECUENCIA.


Para estudiar las medidas de frecuencia (variables categricas) seleccionamos "Analizar Estadsticos descriptivos Frecuencias", apareciendo la ventana:

34

Tras introducir en el cajn de la derecha las variables que queremos analizar, picamos en aceptar y se obtiene informacin tabulada consistente en: Nombre de la variable analizada con su etiqueta, Frecuencia absoluta, Porcentaje, Porcentaje vlido (teniendo en cuenta los casos perdidos, esto es, eliminando los casos en que se desconoce el valor que toma la variable), y Porcentaje acumulado. Para la

variable sexo de nuestro trabajo obtendramos esta tabla:

A partir de estos datos de frecuencias puedo obtener una representacin grfica, en este caso podra ser un histograma por ejemplo o un grfico sectorial, seleccionando "Grficos Barras .... .... " O bien puedo recurrir a picar dos veces en la tabla de spss y con el botn derecho del ratn se movilizan recursos grficos a elegir.

Dentro de la opcin de frecuencias vemos que aparecen tres opciones claras para poder picar, a saber: estadsticos, grficos, formato (ver figura ms arriba). Si picamos en estadsticos podemos seleccionar aquellos que queremos que spss nos calcule, teniendo en cuenta que son aplicables cuando trabajamos con datos cuantitativos. Deberamos desactivar la opcin "mostrar tablas de frecuencias" en este caso para no obtener una lista interminable sin mucha utilidad.

35

ESTADISTICOS
1. PERCENTILES: Podemos elegir entre cuartiles, que dividen a la poblacin en cuatro grupos, cada uno de ellos con un 25% de los casos, de modo que los percentiles 25, 50 y 75 corresponden respectivamente a los cuartiles primero, segundo y tercero.

2. MEDIDAS DE TENDENCIA CENTRAL. Nos permite el clculo de la media, mediana, moda y suma. Veamos un ejemplo: para nuestra base de datos podemos calcular respecto de la variable altura, las medidas de tendencia central; para ello Analizar Estadisticos Descriptivos Frecuencias Descriptivos.

36

y pulsando en aceptar obtendramos la siguiente salida en el visor de resultados:

Observamos el valor de las cuatro medidas de tendencia central que hemos comentado previamente. Si usamos la opcin "descriptivos" en lugar de

"frecuencias" podemos obtener tambin el error estndar para las medidas calculadas, lo cual es de extrema importancia a la hora de presentar los datos, si bien esto ya es una medida de dispersin. 3. MEDIDAS DE DISPERSION. Permite obtener la desviacin tpica, varianza, mnimo y mximo, amplitud o rango y el error tpico o estndar de la media. Seguimos los mismos pasos "picando" las casillas que hacen referencia a estas medidas. 4. DISTRIBUCION. Est constituida por dos estadsticos (Asimetra y Curtosis). La asimetra indica el sesgo de la distribucin de modo que un valor positivo indica que los valores ms extremos estn por encima de la media y viceversa. La

curtosis es el ndice que indica el grado en que una distribucin acumula casos en sus colas comparado con los casos que se acumulan en las colas de una distribucin normal. Un valor positivo indica que en las colas se acumulan ms casos que en la normal luego la curva es de distribucin puntiaguda e ndice prximos a cero indican una semejanza con la normal.

37

5. LOS VALORES SON PUNTOS MEDIOS DE GRUPO. Si la variable est agrupada por intervalos, con esta opcin puedo calcular los ndices de posicin, mediana, percentiles etc. interpolando valores (considerando que los casos se distribuyen de forma homognea dentro del intervalo).

GRAFICOS
Cuando estamos calculando frecuencias, podemos obtener algunos grficos tanto para las cuantitativas como cualitativas, picando en el botn "grficos" del cuadro de dilogo "frecuencias".

Para la variable sexo podramos pedir un grfico de tipo sectorial, quedara del siguiente modo:

38

3.2. DESCRIPTIVOS
Vimos que con el procedimiento de "frecuencias" pudimos analizar tanto variables cualitativas como cuantitativas, aunque con ciertas limitaciones para estas ltimas. El procedimiento "descriptivos" nos permite mltiples opciones para procesar variables de tipo cuantitativo.

Para llegar: Analizar Estadsticos Descriptivos Descriptivos

Mediante el botn "opciones" llegamos al mismo sitio que antes en frecuencias, esto es, a las opciones de los estadsticos, sin cambios pues en este aspecto.

39

CAPITULO 4. TABLAS DE CONTINGENCIA.


Es bastante habitual en medicina tener que realizar anlisis de variables cualitativas con pocas categoras y dicotmicas. Variables como el sexo, tratamientos, etc. son variables que se comportan de este modo y a las que se recurre con frecuencia.

Para el anlisis de dos variables categricas nos interesa estudiar como se distribuyen los casos segn las combinaciones de categoras de cada variable. Por ejemplo, si disponemos de la variable angor y la variable tabaquismo, podemos estudiar cual es la distribucin del tabaquismo en el grupo que presenta angor y en aquel que no lo presenta; para todo esto lo ideal es expresarlo mediante una tabla de contingencia donde nos da lo mismo qu variable ocupe las filas y cual las columnas si se trata de variables independientes; para el caso de las v.a dependientes una de otra se suele colocar la v. independiente (ej. factor de riesgo) en las filas y la dependiente en columnas. En spss construimos una tabla de contigencia mediante el procedimiento Analizar Estadsticos descriptivos siguiente ventana: Tablas de contingencia, con lo que llegamos a la

40

Vemos que las variables vuelven a quedar a la izquierda de la caja y que disponemos de dos ubicaciones, dos cajas en las que introducir la/s variables por filas o columnas segn deseemos. Si queremos cruzar las variables de filas y columnas de acuerdo a alguna variable de agrupamiento introduciramos esta ltima en la caja de "capas".

Siguiendo con nuestro fichero de ejemplo, podemos desear ver cual es la distribucin del grado de obesidad segn el sexo. Obviamente habremos de transformar un dato cuantitativo contnuo como es el IMC en una variable categrica (obeso/no obeso) para proceder a este anlisis.

Actualmente se considera que segn el IMC los pacientes pueden ser clasificados como obesos si tienen un IMC mayor de 29, por tanto puedo a partir de la variable IMC (cuantitativa) recodificar a una variable nueva, llamada obesidad, en funcin de este punto de corte para el IMC. Para ello seguir el procedimiento dictado en el apartado de "recodificacin", teniendo en cuenta que IMC 0-29: no obeso y IMC>29 = obeso valor 1. la distribucin de la obesidad por sexos: Analizar Tablas de contingencia valor 0

Ahora quiero saber

Estadsticos descriptivos

Tabla de contingencia obesidad * SEXO Recuento SEXO mujer hombre 35 33 19 13 54 46 Total 68 32 100

obesidad Total

no si

Vemos que se obtiene una tabla 2x2 donde queda claro cuantos varones son o no obesos y cuantas mujeres son o no obesas, segn un sentido de lectura de la tabla. Disponemos de cifras totales por columnas, por filas y el total global.

41

Adems puedo pedir al programa que muestre el grfico asociado picando en la casilla "mostrar grficos de barras agrupadas", con el siguiente resultado:

Las tablas de contigencia nos permiten obtener, an antes de entrar en los estadsticos especficos, muchos mas datos, veamos las opciones que se abren al picar en "casillas":

Podemos obtener las frecuencias de presentacin las variables (observadas y esperadas s se desea); el porcentaje de ocurrencia de los casos mostrado por filas, columnas y el total. Los residuales hacen referencia a la diferencia existente entre los valores observados y los esperados y pueden mostrarse bien de modo estndar (tipificados) o corregidos.

42

Picando en porcentajes por fila, columna y totales la tabla anterior queda ahora as:
Tabla de contingencia SEXO * obesidad obesidad no SEXO mujer Recuento % de SEXO % de obesidad % del total Recuento % de SEXO % de obesidad % del total Recuento % de SEXO % de obesidad % del total 35 64,8% 51,5% 35,0% 33 71,7% 48,5% 33,0% 68 68,0% 100,0% 68,0% si 19 35,2% 59,4% 19,0% 13 28,3% 40,6% 13,0% 32 32,0% 100,0% 32,0% Total 54 100,0% 54,0% 54,0% 46 100,0% 46,0% 46,0% 100 100,0% 100,0% 100,0%

hombre

Total

4.1. ESTADISTICOS
Una vez tenemos la tabla construida podemos empezar a entrever informacin pero no nos permite conocer si existe asociacin entre las variables, para ello necesitaremos una prueba de significacin, a la que se accede mediante el botn estadsticos, que da paso a esta pantalla:

43

Debemos hablar de asociacin pero no de dependencia tras aplicar los estadsticos que veremos a continuacin. Que exista asociacin significa que dos hechos suceden juntos pero no necesariamente que un hecho dependa del otro de un modo directo. Generalmente cuando existe asociacin, debajo suele existir algn elemento que relaciona ambos fenmenos aunque no puedo hablar de causalidad con este tipo de estudios. Ms concretamente diremos que existe dependencia cuando ya somos capaces de decir que las variaciones de una de las variables quedan explicadas o provocadas por un segundo factor.

4.1.1 CHI CUADRADO DE PEARSON.


Es el estadstico ms usual en este tipo de tablas y se utiliza para determinar si hay o no asociacin entre dos variables de carcter categrico. El test se basa en la comparacin de las frecuencias observadas con las esperadas para un determinado fenmeno; la relacin matemtica entre los cuadrados de las diferencias de las frecuencias observadas y esperadas proporciona un valor para un determinado nivel de confianza y para los grados de libertad correspondientes. Si el valor calculado supera el que proporciona de modo terico el Ji cuadrado se rechaza Ho (hiptesis nula) y concluimos que existe una relacin o asociacin entre las variables. El test no informa de cuan intensa es la fuerza de la asociacin y se puede ver afectado por varios factores externos y factores de confusin.

Para aplicar este test es conveniente que: 1. Los datos procedan de muestras aleatorias de una distribucin multinomial. 2. Los valores esperados no sean muy pequeos. Se recomienda que como mnimo existan 5 casos en cada celda (en caso de que haya menos de 5 pero ms de 3 habra que aplicar la correccin por continuidad de Yates). Nota: Algunos autores recomiendan usar la correccin c. Yates siempre porque parece ser ms sensible, de modo que si obtenemos significacin tras aplicarla, es

44

porque de no haberla usado tambin la habramos obtenido. Cuando se comparan proporciones entre dos grupos independientes no hace falta calcularla, porque de ser el nmero de casos menor de 5 en una celda, spss calcula automticamente la prueba exacta de Fisher. Tanto la correccin de Yates como la prueba de Fisher nos las da el programa de modo automtico cuando trabajamos con una tabla de contingencia con dos variables dicotmicas. Veamos como se presenta la tabla de contingencia entre las variables sexo obesidad, variables ambas dicotmicas:
Tabla de contingencia SEXO * obesidad obesidad no SEXO mujer Recuento % de SEXO % de obesidad Residuos corregidos Recuento % de SEXO % de obesidad Residuos corregidos Recuento % de SEXO % de obesidad 35 64,8% 51,5% -,7 33 71,7% 48,5% ,7 68 68,0% 100,0% si 19 35,2% 59,4% ,7 13 28,3% 40,6% -,7 32 32,0% 100,0% Total 54 100,0% 54,0% 46 100,0% 46,0% 100 100,0% 100,0%

hombre

Total

Obtenemos la tabla y hemos seleccionado las casillas de proporcionar % por filas y por columnas, con lo que aumenta el global de informacin obtenida. Bajo esta tabla, si hemos seleccionado "Chi cuadrado" aparece ya la siguiente con los resultados del estadstico y Chi y adems el test de Fisher y Yates que nos vienen datos por defecto al ser variables dicotmicas como se mencion antes. Observando la tabla vemos que el 40.6% de los obesos son varones y el 59.4% de los obesos son mujeres. La cuestin es ambos porcentajes son realmente distintos o la diferencia que observo se debe solo al azar? Para responder a esto deberamos aplicar el estadstico Ji cuadrado.

45

Pruebas de chi-cuadrado Sig. asinttica (bilateral) ,459 ,600 ,458 ,522 ,542 100 1 ,462 ,301 Sig. exacta (bilateral) Sig. exacta (unilateral)

Chi-cuadrado de Pearson Correccin por a continuidad Razn de verosimilitud Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos

Valor ,547b ,275 ,550

gl 1 1 1

a. Calculado slo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 14,72.

Vemos que el Chi cuadrado proporciona una significacin bilateral (dos colas) de 0.459 y como 0.459 > 0.05, entonces concluyo Ho, esto es, no existe asociacin entre las variables sexo y obesidad. Adems se calcul la correccin por continuidad y el exacto de Fisher, que de modo concordante, tampoco proporcionan significacin estadstica. La razn de verosimilitud es un estadstico que tambin se distribuye segn una chi cuadrado y que se aplica para el estudio de variables categricas cuando hay modelos log-lineales.

4.1.2 MEDIDAS DE ASOCIACION


El problema que plantea el test es que la significacin puede variar en funcin del nmero de grados de libertad y del tamao de la muestra (a mayor tamao muestral, ms probabilidad de obtener significacin). Otros estadsticos, conocidos como Medidas de Asociacin, se disearon con la idea de obtener ndices que fueran de 0 a 1 y que nos permitieran cuantificar la asociacin y comparar as muestras diferentes. En resumen, se trata de medidas que pretenden disminuir la influencia que sobre el test de Chi tiene el tamao de la muestra.

46

1. MEDIDAS DE ASOCIACION BASADAS EN EL CHI CUADRADO. A. Coeficiente Phi B. Coeficiente de Contingencia C. V. de Cramer 2. MEDIDAS BASADAS EN LA REDUCCION PROPORCIONAL DEL ERROR A. Lambda de Goodman y Kruskal B. Tau de Goodman y Kruskal C. Coeficiente de concordancia o Kappa de Cohen.

COEFICIENTE PHI En las tablas con dos v.a dicotmicas, toma valores entre 0 y 1. Si una variable tiene ms de dos categoras puede tomar valores mayores de 1.

COEFICIENTE DE CONTINGENCIA Toma valores entre 0 y 1, pero es difcil que llegue a 1. Un valor de 0 indica independencia y cercano a 1 indica asociacin. V. DE KRAMER Nunca excede de 1. En las tablas 2x2 toma el mismo valor que Phi. K es el menor del nmero de filas y columnas. LAMBDA DE GOODMAN Y KRUSKAL Tiene en cuenta la frecuencia de la categora modal ( la ms frecuente). Da valores entre 0 y 1. Segn considere la fila como v.a independiente o dependiente, puedo calcular a partir de ella dos coeficientes (la lambda y la tau). Si no se cual es la independiente o dependiente, usar la versin simtrica del test. Lambda toma valores entre 0 y 1, el valor 0 indica que la va independiente no aporta nada en la reduccin del error de prediccin y 1 indica que el error de prediccin se ha conseguido reducir por completo. TAU DE GOODMAN Y KRUSKAL Tiene en cuenta las proporciones de los marginales para determinar las probabilidades dentro de cada celda. Va de 0 a 1 y se acompaa de un error

47

asinttico luego puedo calcularle un intervalo de confianza. El significado de los valores 0 y 1 es el mismo que en lambda. COEFICIENTE DE CONCORDANCIA O KAPPA DE COHEN Se suele utilizar en los trabajos que pretenden evaluar el acuerdo entre dos observadores, por eso tambin se le llama "ndice de acuerdo kappa". En resumen, dado un mismo fenmeno que es evaluado por dos observadores/jueces distintos, este estadstico me permite conocer la concordancia entre las aseveraciones de cada juez comparadas con las previsibles segn el azar. Toma valores entre 0 (mnima concordancia) y 1 (mxima). El programa da un error estndar (EE) que permite construir un intervalo de confianza (IC).

Valores que toma:


< 0.20: 0.21-0.40: 0.41-0.60: 0.61-0.80: 0.81-1: muy debil dbil moderada buena muy buena

48

4.2 ESTIMACION DE RIESGOS


En ocasiones las variables se comportan como factor de riesgo una y como variable de resultado de fenmeno la otra de tal modo que la presencia de la primera va determine la aparicin del resultado con una mayor frecuencia, es precisamente en este caso cuando decimos que se est comportando como un factor de riesgo. Veamos las medidas de que disponemos para estudiar riesgos: 1. RIESGO RELATIVO. Se utiliza en los estudios de cohortes. RR= IAe/IAo IAe: incidiencia en el grupo con el factor, expuesto IAo: incidencia en el grupo sin el factor, no expuesto El procedimiento de calculo seria: Analizar Estadsticos descriptivos Tablas de contingencia Estadsticos Riesgo.

Es importante saber que el programa calcula el RR interpretando que la primera columna es la enfermedad y proporciona el RR de padecer la "V.A" ubicada en la primera columna de la tabla 2x2. Este detalle es importante a la hora de construir la tabla y, por supuesto, en el momento de interpretar el riesgo.

Valores: >1 indica que se trata de un F. de riesgo. <1 que se comporta como factor protector.

2. ODDS RATIO Se utiliza en los estudios de casos y controles. OR = Odds en grupo casos / Odds en grupo controles Para su clculo, spss interpreta que los casos estn en la primera fila y los controles en la segunda, as como que el factor de riesgo est en la primera columna y su ausencia en la segunda. La interpretacin de sus valores es anloga al Riesgo Relativo. Si calculado el intervalo de confianza, el 1 estuviera incluido en l, nos indica que no existe significacin. 49

50

CAPITULO 5. COMPARACION DE MEDIAS


El estudio de las variables cuantitativas nos es fundamental en ciencias de la salud. La mayor parte de ellas se comportan como cuantitativas continuas y, cumpliendo ciertas condiciones, las variables biolgicas puede decirse que en lneas generales siguen una distribucin normal. Antes de realizar comparaciones entre varias muestras respecto de sus variables cuantitativas es conveniente realizar una anlisis exploratorio, descriptivo, de dichas variables para posteriormente pasar al proceso de comparacin. Bien mediante el procedimiento estudiado ya, o esto es, Analizar Estadisticos el procedimiento

Descriptivos Frecuencias/Descriptivos

bien

mediante

Analizar Estadsticos descriptivos Explorar, podemos obtener unos datos iniciales muy valiosos respecto de las variables.

En nuestra base de datos vamos a iniciar la accin Analizar Estadsticos Descriptivos Explorar para la variables altura y peso:

Vemos como adems de introducir en el cajn de las variables dependientes a analizar, tenemos la posibilidad de controlar por algn factor de riesgo en la caja inferior. En el apartado grficos podemos elegir entre histograma o tallo y hojas.

51

Si picamos en "estadsticos" se nos calculan los estadsticos univariantes fundamentales. Si picamos en el botn de estadsticos se nos ofrece adems esta pantalla que nos permite especificar otros elementos.

Vemos el resultado obtenido para la descripcin de ambas variables:


Descriptivos Estadstico 73,33 70,03 76,63 72,71 73,00 277,334 16,65 39 116 77 23,00 ,469 ,064 167,78 165,72 169,84 167,64 167,00 107,830 10,38 146 194 48 16,00 ,229 -,597 Error tp. 1,67

Peso en Kg.

Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis Media Intervalo de confianza para la media al 95% Media recortada al 5% Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil Asimetra Curtosis

Lmite inferior Lmite superior

Altura (cm)

,241 ,478 1,04

Lmite inferior Lmite superior

,241 ,478

52

Vemos como para ambas variables se nos describen una serie de estadsticos, tanto de tendencia central como de dispersin, adems se nos proporciona el EE para algunos de ellos. Fundamental: nos da el intervalo de confianza para las medias

53

5.1 MEDIAS
Mediante el procedimiento Analizar Comparar Medias Medias... puedo obtener estadsticos descriptivos para una variable independiente teniendo en cuenta los grupos definidos por otra/s variables dependientes. As por ejemplo si quiero ver las medias para el peso en los grupos definidos por el sexo: Analizar Comparar Medias Medias y:

He introducido como variable dependiente el peso pues es la variable que "depende", que puede sufrir variaciones en funcin de otra que acta como independiente, en este caso el "sexo". Se muestra el resultado que da spss para esta comparacin:
Informe Peso en Kg. Sexo Varn Mujer Total Media 75,17 71,17 73,33 N 54 46 100 Desv. tp. 17,11 16,01 16,65

Como vemos nos da el peso medio para cada sexo, con su desviacin tpica, pero no entra an en establecer si ambas medias son realmente diferentes o no de un modo estadstico.

54

Recordar: Dependientes: Las va que quiero analizar Independientes: Los factores que se comportan como v.independiente.

55

5.2 PRUEBA T PARA UNA MUESTRA


Mediante esta prueba puedo contrastar hiptesis sobre la media poblacional, obtenida de la literatura, por ejemplo y ver si la media de mi muestra es o no distinta a ella. Supongamos que quiero saber en mi muestra si la altura media es o no distinta de 162 cm que es la media poblacional segn la literatura. Entonces Analizar Comparar medias Prueba T para una muestra:

La salida de resultados es:


Estadsticos para una muestra Desviacin tp. 10,38 Error tp. de la media 1,04

N Altura (cm) 100

Media 167,78

Prueba para una muestra Valor de prueba = 162 95% Intervalo de confianza para la diferencia Inferior Superior 3,72 7,84

Altura (cm)

t 5,566

gl 99

Sig. (bilateral) ,000

Diferencia de medias 5,78

Por tanto vemos que en nuestra muestra la media para la v.a altura es de 167.78 cm con un EE de 1.04. Sabemos que la media poblacional es de 162 cms y es el valor a compara que introduce en la caja "valor de prueba". En la segunda tabla vemos que la significacin es < 0.05, por tanto hay diferencias significativas. La diferencia

56

entre ambas medias es de 5.78 cm y para esta diferencia se establece un intervalo de confianza al 95% que va desde 3.72 cm a 7.84 cm.

57

5.3 PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES


Con esta prueba contrastamos la hiptesis de que las medias de dos poblaciones independientes son iguales. Generalmente la hiptesis nula que se contrasta es la que suele afirmar que las dos muestran tienen igual media porque proceden de la misma poblacin. Cuando al realizar el contraste obtenemos significacin (p<0.05) entonces rechazamos esta hiptesis nula (Ho) y aceptamos la alternativa (H1); esto es, que las medias son distintas tanto en cuanto que la probabilidad de que la diferencia hallada sea debida al azar es inferior al 5% (error alfa).

Para

comparar

medias

entre

dos

muestras medias

independientes Prueba T

seguimos

el

procedimiento

Anlisis Comparar

para

muestras

independientes, apareciendo el cuadro de dilogo siguiente:

En este caso, tal como vemos, si nos interesa saber si la presin sistlica inicial de nuestra poblacin es igual en varones que en mujeres, procede una T de Student para datos independientes. En la caja "contrastar variables" se introduce la v.a de la cual quiero comparar su media, por tanto, la variable cuantitativa. En la "variable de agrupacin" tengo que introducir una nica variable cualitativa o cuantitativa. Despus pulsamos el botn "definir grupos" e introducimos los valores que puede tomar la variable de agrupacin (en nuestro caso asignamos el 0 a mujeres y 1 a varones). Luego aceptar...y obtenemos una comparacin de medias de presin sistlica en varones y mujeres, tal que as:

58

Estadsticos de grupo Desviacin tp. 14,38 15,88 Error tp. de la media 1,96 2,34

Presin sistlica inicial

Sexo Varn Mujer

N 54 46

Media 150,80 154,54

59

Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas

F Presin sistlica Se inicial han asumido 1,195 varianzas iguales No se han asumido varianzas iguales

Sig.

Prueba T para la igualdad de medias 95% Intervalo de confianza para la Diferencia Error tp. de diferencia gl Sig. (bilateral) de medias la diferenciaInferior Superior 98 ,219 ,223 -3,75 -3,75 3,03 3,05 -9,76 -9,81 2,26 2,31

,277 -1,238

-1,228 91,814

En la primera tabla obtenido encontramos el valor de la media, desviacin tpica y error standard para la v.a presin arterial sistlica en los dos grupos (varones y mujeres). A continuacin encontramos una segunda tabla que consta de dos grandes apartados: 1. Test de Levene: Se trata de conocer en primer lugar si las varianzas en ambos grupos son iguales o distintas, para lo cual se aplica este test. Como vemos la significacin en Levene es 0.277, o sea, mayor de 0.05, por tanto no significativo, luego las varianzas son iguales.

Conocido que las varianzas entre grupos son iguales ya se que en la prueba T (parte derecha de la tabla) tengo que leer slo la columna "se han asumido varianzas iguales" y, leyendo esta columna veo que la significacin p= 0.219 (>0.05) y por tanto no existen diferencias significativas de la pas inicial en ambos grupos. Nos proporciona la tabla, adems un intervalo de confianza para la diferencia de las medias halladas, en este caso el intervalo es [-9.76,2.26] y, como vemos, incluye al cero al no ser significativo el contraste (no incluir al cero cuando el contraste sea significativo).

60

5.4 PRUEBA T PARA DOS MUESTRAS APAREADAS


Se aplica cuando los valores que toma la variable son medidos en la misma muestra pero en dos momentos distintos. En la base de ejemplo tenemos el dato "tensin arterial sistlica inicial" y "tas_final", esto es, tras tomar un tratamiento. Se trata de una misma muestra, pero existen valores antes y despus de la toma del medicamento. La comparacin de medias bajo la premisa de medir la misma variable antes/despus se realiza mediante la T de Student para datos apareados.

El procedimiento es Analizar Comparar medias T para muestras relacionadas, obteniendo el cuadro de dialogo siguiente:

Hemos introducido las variables pas_ini y pas_fin en la caja de la derecha, posteriormente aceptar y se obtiene el resultado siguiente:

Estadsticos de muestras relacionadas Desviacin tp. 15,13 16,63 Error tp. de la media 1,51 1,66

Par 1

Presin sistlica inicial Presin sistlica final

Media 152,52 149,86

N 100 100

61

Prueba de muestras relacionadas Diferencias relacionadas 95% Intervalo de confianza para la diferencia DesviacinError tp. de tp. Media la media Inferior Superior Par 1 Presin sistlica inicial 2,66 9,02 ,90 ,87 4,45 - Presin sistlica final

t 2,948

gl 99

Sig. (bilateral) ,004

En la primera tabla vemos la media de ambas variables con su DT y EE. En la tabla inferior se presenta la significacin para la diferencia (en este caso 0.04, s significativo); la media para el valor de la diferencia [diferencia media] (2.66) acompaada de su EE (0.90) y el intervalo de confianza para la media de las diferencias halladas. Por tanto en este ejemplo podemos decir que existen diferencias significativas en la presin arterial antes y despus de tomar el

frmaco, que la media de las diferencias es de 2.66 mmHg con un EE 0.90, IC al 95% [0.87-4.45]. Notemos que el IC no incluye al valor 0 y de ello se desprende ya que existe significacin.

62

CAPITULO 6. ANALISIS DE LA VARIANZA.


Para la comparacin de medias cuando tenemos ms de dos muestras a analizar hemos de realizar un anlisis de la varianza (ANOVA). Este procedimiento permite comparar las medias de varias muestras para saber si pertenecen o no a la misma poblacin. En este captulo nos referiremos exclusivamente al anlisis univariante. Son requisitos indispensables para aplicar el ANOVA que la distribucin de las muestras a analizar sea normal y que todas tengan la misma varianza.

A la variable categrica u ordinal que define los grupos la llamaremos variable independiente o "factor" y a la variable cuantitativa la llamaremos variable de respuesta o variable dependiente.

V.A. cualitativa/categrica/ordinal V.A. cuantitativa-

V. Independiente = Factor

Variable Dependiente = Variable de respuesta

Segn este procedimiento, la hiptesis nula asumira que las medias de todas las muestras son iguales y la alternativa, que son distintas, y por ende, asumiramos que proceden de poblaciones diferentes.

La variabilidad que se presenta en el ANOVA puede corresponder a dos conceptos distintos; de un lado tenemos la denominada "variabilidad intragrupo" que hace referencia a si existe o no variabilidad dentro de cada grupo con respecto de la media del mismo; de otro lado, la "variabilidad entre grupos" es la variabilidad entre las medias de los distintos grupos a analizar.

63

Para realizar un ANOVA de un factor con SPSS sigamos el procedimiento Analizar siguiente: Comparar Medias Anova de un factor..., obteniendo la ventana

Vemos las dos cajas fundamentales, la superior, donde introduciremos la variable dependiente (la cuantitativa, de respuesta) y ms abajo la caja de "factor" donde introduciremos la variable independiente y cualitativa. Tomando como ejemplo nuestra base de datos hta.sav, podramos realizar un ANOVA para conocer si existen diferencias en la presin arterial sistlica inicial en funcin del nivel de tabaquismo (en 5 categoras este ltimo).

Analicemos las diferentes opciones que nos brinda el cuadro de dilogo para ANOVA en la figura previa: a. Contrastes: Picando en esta opcin podemos especificar el tipo de contraste que queremos se realice entre las medias. 64

b. Post hoc...: Este botn nos permite marcar todos los tests que queremos se realicen para verificar si hay igualdad entre las diferentes medias si bien todos ellos realizan una comparacin mltiple por pares, aunque utilizando mtodos distintos para la correccin del error inherente a la comparacin. Al sealar este botn accedemos a la siguiente pantalla:

Tras seleccionar el/los tests que queremos realizar, podemos indicar de nuevo en la pantalla primera la caja de "opciones", lo que da paso a la siguiente pantalla, donde puedo indicar que calcule los descriptivos, realice un contraste de homogeneidad de varianzas, etc...

65

CAPITULO 7. TEST NO PARAMETRICOS.


En ciencias biolgicas la mayor parte de las variables sigue una distribucin normal, lo cual facilita en extremo el uso de la mayor parte de las tcnicas estadsticas; no obstante es labor nuestra asegurarnos y confirmar que, efectivamente, las variables que vamos a utilizar en nuestros anlisis siguen dicha distribucin normal y, en caso contrario, tendremos que recurrir a los denominados contrastes no paramtricos. En este captulo nos ocuparemos primero de los contrastes que nos permiten conocer si una variable se distribuye o no de un modo normal y, a continuacin, veremos cuales son los principales test no paramtricos que podra utilizar en funcin de las comparaciones que deseemos realizar. En la tabla siguiente representamos los principales test no paramtricos, o cuando menos, los de uso ms frecuente.

1 muestra 2 muestras independientes k muestras independientes 2 muestras relacionadas k muestras relacionadas

V.A. Categrica Chi cuadrado Chi cuadrado Chi cuadrado McNemar (dicotmica) Q de Cochran

V.A.Ordinal/Cuantitativa Kolmogorv Mediana Mann-Whitney Mediana Kruskall-Wallis Signos Wilcoxon Friedman W de Kendall

66

7.1. Test de Kolmogorov-Smirnov


Este test pretende permitirnos conocer si una variable se distribuye de un modo normal, lo cual nos permitir posteriormente elegir adecuadamente los contrastes a utilizar aunque, en sentido estricto, tambin nos dara informacin de si la distribucin de datos se ajusta a otras como una Poisson, uniforme, etc. En primer lugar seleccionamos Analizar Pruebas no paramtricas K-S de 1

muestra lo que nos da paso al cuadro de dilogo que exponemos en la figura

Como vemos se trata de contrastar la distribucin de datos de nuestra variable, con las diferentes opciones que nos brinda SPSS, que abajo y a la izquierda en el cuadro de dilogo, son la Nomral, Poisson, Uniforme o Exponencial. Pasamos a la caja de "contrastar variable" aquella que queremos que sea examinada, en nuestro caso podramos introducir y, de no indicar nada, por defecto el contraste lo realiza sobre la Normal. El contraste que realizamos es H0la variable a examen y la variable normal no difieren en su distribucin vs H1la variable a examen y la variable normal s difieren en su distribucin; por tanto, si en la significacin asinttica (bilateral) que obtendremos en los resulados obtenemos una p<0.05 concluiremos H1 y diremos que no se distribuye siguiendo la normal. Si por el contrario obtenemos para la/s

67

variable/s significaciones > 0.05 entonces s que podemos trabajar con ellas con la tranquilidad de que siguen una distribucin normal. Si queremos saber en nuestro ejemplo si siguen una distribucin normal las variables altura, edad, nmro de cigarrillos e ndice de masa corporal, las incluimos en el cuadro de dilogo de "contrastar variables" como vimos ms arriba, dejando marcada la opcin "normal" que viene por defecto y obtenemos el siguiente resultado:

Prueba de Kolmogorov-Smirnov para una muestra indice masa corporal 100 25,9685 4,92372 ,077 ,067 -,077 ,773 ,588 aos cumplidos 100 43,05 9,680 ,089 ,089 -,081 ,891 ,406

N Parmetros normales a,b

Media Desviacin tpica Absoluta Positiva Negativa

ALTURA 100 167,78 10,384 ,071 ,071 -,041 ,711 ,693

NCIGARR 100 4,71 6,227 ,255 ,255 -,225 2,553 ,000

Diferencias ms extremas Z de Kolmogorov-Smirnov Sig. asintt. (bilateral)

a. La distribucin de contraste es la Normal. b. Se han calculado a partir de los datos.

Observamos que la significacin bilateral para las tres variables es mayor de 0.05, del nivel crtico, por tanto se distribuyen de un modo normal todas excepto la variable "nmero de cigarrillos".

7.2 TEST DE MANN-WHITNEY


Para comparar dos muestras independientes cuando estas no siguen una distribucin normal y estas son de tipo cuantitativo u ordinal, usaremos el test no paramtrico de Mann-Whitney Supongamos que deseamos conocer si hay diferencias en el nmero de cigarrillos fumados en funcin del sexo. Se trata de comparar dos muestras independientes pero donde la variable a contrastar "numero de cigarrillos" sabemos que no sigue una distribucin normal. Para ello Analizar Pruebas no paramtricas 2 muestras

68

independientes, y obtenemos el cuadro de dilogo siguiente, introduciendo las variable nmero de cigarrillos en la caja "contraste de variables" y la variable de agrupacin que en nuestro caso es el sexo, no olvidando definir los grupos, en este caso sexo, segn los valores 0 y 1 que asignamos inicialmente:

Notemos que adems de la U de Mann-Whitney podemos seleccionar otros contrastes no paramtricos como la Z de Kolmogorov Smirnov o el test de Rachas de Wald Wolfowitz, etc. El resultado obtenido al ejecutar el cuadro de dilogo anterior es el siguiente:

Rangos Rango promedio 54,04 46,35 Suma de rangos 2918,00 2132,00

a Estadsticos de contraste

ALTURA

SEXO mujer hombre Total

N 54 46 100

U de Mann-Whitney W de Wilcoxon Z Sig. asintt. (bilateral)

ALTURA 1051,000 2132,000 -1,322 ,186

a. Variable de agrupacin: SEXO

Como el nivel crtico, la significacin asinttica bilateral obtenida (0.186) es mayor de 0.05 concluimos H0, esto es, no hay diferencias en el nmero de cigarrillos en ambos grupos. Como observamos el procedimiento est basado (observemos la tabla de la izquierda) en calcular las medias de los rangos para cada muestra y

69

posteriormente el programa contabiliza el nmero de veces que preceden los rangos de una muestra a los de la otra.

7.3 TEST DE WILCOXON


Si deseamos comparar dos muestras relacionadas o pares de variables cuantitativas u ordinales, realizaremos el test de Wilcoxon. Especificamos la secuencia de orden Analizar Pruebas no paramtricas 2 muestras relacionadas y accedemos al siguiente cuadro de dilogo:

Vemos que tambin nos permite realizar el test de Signos y el McNemar. El Test

de signos bsicamente contabiliza el nmero de diferencias que se dan entre ambas


variables, tanto positivas como negativas, y a partir de su diferencia proporciona la comparacin entre ambas. El Mc Nemar lo estudiaremos en el prximo apartado. Retomando nuestro ejemplo, si deseamos contrastar la presin arterial sistolica inicial y final (suponiendo que fueran variables de distribucin no normal), las introduciramos en la caja de "contrastar pares" y obtendramos el siguiente resultado:

70

Rangos Rango promedio 51,93 38,43 Suma de rangos 2856,00 1422,00

N PAS_FIN - PAS_INI Rangos negativos Rangos positivos Empates Total a. PAS_FIN < PAS_INI b. PAS_FIN > PAS_INI c. PAS_INI = PAS_FIN 55a 37b 8c 100

b Estadsticos de contraste

Z Sig. asintt. (bilateral)

PAS_FIN PAS_INI -2,796a ,005

a. Basado en los rangos positivos. b. Prueba de los rangos con signo de Wilcoxon

En la ventana de resultados podemos ver el nmero de empates y rangos, as como la significacin; en este caso concreto concluimos H1, esto es, hay diferencias entre las variables analizadas por pares en este caso.

7.4. TEST DE McNEMAR


Cuando las variables a contrastar son dicotmicas podemos usar el test de McNemar (slo en este caso), permitindonos pues la comparacin de frecuencias y porcentajes obtenidos de dichas variables. Suponiendo en nuestro ejemplo que la variable obesidad no siguiera una distribucin normal, la comparacin para determinar si la proporcin de obesos antes y despus de un tratamiento difiere, podra hacerse mediante este test.

7.5. TEST DE KRUSKAL-WALLIS


Se utiliza para la comparacin de varias muestras con objeto de determinar si proceden o no de la misma poblacin, cuando se consideran como independientes.

71

You might also like