You are on page 1of 15

PAQUETES ESTADISTICOS

GUIA DE MANEJO DE STATA


_____________________________________________________________________
Maestra en Ciencias de la Salud con rea de Concentracin en Epidemiologa
El presente documento resume los principales comandos utilizados para el anlisis de
bases de datos en STATA
1. ADMINISTRACIN GENERAL DE BASES DE DATOS

COMANDOS PARA ABRIR BASE DE DATOS:

COMANDO
using unidad:/nombre de la base.dta
use a:/ nombre de la base.dta

Click a file - Archivo


Open Abrir
Seleccionar el archivo a ejecutar
Abrir
Icono de carpeta
Seleccionar el archivo a ejecutar
Abrir

COMANDOS PARA GUARDAR INFORMACIN ARCHIVO LOG

COMANDO
Click al icono (pergamino)
Elegir localizacin para guardar el
archivo
Asignar nombre al archivo con
extensin log
Abrir
Para cerrar click en el icono y en
close log file
Log using a:/nombre del archivo.log
Click al icono (pergamino)
Elegir localizacin del archivo
Elegir el archivo
Click a la opcin de append to
existing file
Para cerrar click en el icono y en
close log file

USO
Estos comando se utilizan para abrir una
base de datos. Es importante mencionar que
STATA solo puede ejecutar bases con
extensin dta. Para transformar las bases se
utiliza un paquete anexo denominado STATA
TRANSFER.
Esta opcin hace uso del menu propuesto
por el programa

USO
Para abrir archivo log que permite grabar
automticamente toda la informacin de
comandos y resultados generados en el
anlisis de la base de datos. Puede ser ledo
en el procesador de texto word.

Para abrir un archivo log ya existente en el


cual se quieren anexar nuevos resultados.

COMANDO PARA DESCRIPCIN DE LA BASE DE DATOS

COMANDO (DIFERENTES OPCIONES)


USO
Se utiliza para describir las generalidades de
describe

de
desc
d
codebook

la base de datos (numero de observaciones,


numero de variables y tamao de la base)

Se utiliza para ubicar valores perdidos o


faltantes y observar generalidades de las
variables
list if
Se utiliza para listar cualquier observacin
Ej. list if edad==.
contenida en la base de datos. En este caso
List if edad <.
se ejemplifica la bsqueda de valores
faltantes de la variable edad
COMANDOS PARA EDICIN DE LA BASE DE DATOS
COMANDO
browse
Icono data browser
edit
list
label var variable
Ej. label var edad edad en aos
label define
Ej. label define edad 10/20 221/40
341/max
label value
Ej. label value edad edad
generate
gen
gene
gener
Ej. gen edad2=edad
recode
rec
reco
recod
Ej. recode edad2 min/45=1 45/max=2
replace
rep
repl
Ej. replace edad=1 if edad<=20
Keep
drop
Ej. drop all (borra todas las variables)
drop edad (borra la variable edad)
Sort
Ej. sort folio (ordena numricamente por folio
la base de datos)
order
Ej. order edad talla genero
Move
Ej move peso
save as

USO
Se utiliza para ver la hoja con los datos (tabla)
Para edicin de la base de datos
Para listar observaciones y las variables de cada
individuo
Para etiquetar variables
Para cambiar la codificacin de la variable
Para asignar los valor etiquetados a las variables
Para genera una nueva variable idntica a partir
de una existente en la base de datos. En este caso
se ejemplifica la generacin de una variable
idntica a la edad
Para recodificar los valores o categoras de una
variable. En este caso se ejemplifica la
recategorizacin de variable edad2 generada.

Para reemplazar valores o categoras de una


variable. En este caso se ejemplifica el reemplazo
de las edades menores o iguales a 20 por el valor
1 en la variable edad.
Para guardar variables, principalmente con el fin
de construir una nueva base de datos a partir de
una existente
Para borrar variables
Para ordenar las variables de la base de datos
Para cambiar orden de las variables dentro de la
base de datos
Para mover o ubicar una variable en la hoja de
datos al comienzo
Para guardar los cambios de la base de datos

save, replace
clear

PASO
1
2

Para guardar los cambios de la base de datos


Para cerrar base de datos o limpiar comandos
anteriores
COMANDOS PARA PEGAR BASES DE DATOS
COMANDO

using a:/nombre de la
base principal.dta
sort folio

Keep folio var1 var2....


varp

save as a:/nombre de la
base de datos hija.dta
using a:/nombre de la
base.dta

5
6

Sort folio

7
8

merge folio using a:/


nombre de la base de
datos hija.dta
tab_merge

save, replace

10
11

describe
drop _merge

USO
Para abrir una base genrica localizada en A
Organizar esta base de datos de acuerdo con el
nmero de folio
Seleccin de las variables que se desean conservar
Guardar archivo de las variable seleccionadas en el
punto anterior
Para abrir la base a la cual deseamos pegar las
variables seleccionadas archivo: nombre de la base
de datos hija.dta
Organizar esta base de datos con base en la variable
folio. La variable folio debe ser igual en todos los
archivos
Para unir las variables al archivo en uso. La unin se
evidencia por la creacin automtica de la variable
_merge
Para verificar la unin. Debe observarse una sola
categora (3) con el total de las observaciones
Para guardar los cambios hechos en la base de datos
nombre de la base principal.dta
Para revisar que la nuevas variables fueron incluidas
Para borrar la variable creada _merge, dejando la
posibilidad de nueva uniones

CREACIN DE UN ARCHIVO DO

Es un archivo que construye incluye la relacin de todos los comandos necesarios para
abrir, ejecutar y analizar una base de datos. Es una rutina de comandos.
2. ANALISIS DE BASES DE DATOS

COMANDOS DESCRIPCIN UNIVARIADA


COMANDO

Ej.

summarize
summ
sum
summ edad peso talla

USO
Para estimar de una o ms variables
continuas numero de observaciones, media,
desviacin estndar y rango. En el ejemplo
se describirn las variables edad, peso y talla

summarize
summ
sum
adicionando var, detail
Ej. summ edad,de
tabulate
tab
Ej. tab raza
tabulate1
tab1
Ej. tab1 raza nivelsoc genero
lv
graph var
Graph var, box
graph var, norm
qnorm var
Sktest var

swilk var
ladder var

Para estimar de una o mas variables


continuas
numero
de
observaciones,
medidas de tendencia central, valores
mnimos y mximos, medidas de dispersin,
Percentiles, curtosis y sesgo (mayor detalle).
Para estimar en una variable categrica
nmero de observaciones, porcentaje y
frecuencia acumulada
Para estimar simultneamente en mas de
una
variable
categrica
nmero
de
observaciones, porcentaje y frecuencia
acumulada
Para observar dispersin de los datos y
valores aberrantes
Para ver la distribucin de una variable
continua
Para ver la distribucin en caja de una
variable continua
Para ver la distribucin de una variable
continua comparada con el patrn de
distribucin normal
Para realizar la prueba estadstica de
normalidad de una variable continua (Ho:
distribucin normal). Ofrece los datos de
curtosis y sesgo (la distribucin normal tiene
una curtosis de 3 y un sesgo de cero)
Prueba de Shapiro Wilk para probar
normalidad de una variable continua (Ho: la
variable tiene distribucin normal)
Para comprobar objetivamente la normalidad
de una variable continua y evaluar sus
posibles trasformaciones en bsqueda de
normalidad en su distribucin. Ho: la variable
continua transformada
tiene distribucin
normal

COMADOS PARA ANLISIS BIVARIADO

COMANDO
USO
RELACIN VARIABLE CONTINUA VS. DICOTMICA
sdtest var, by(var)
Se utiliza para comparar las varianzas una
Ej. sdtest edad, by(genero)
variable continua con una dicotmica. Ho: las
varianzas son iguales
ttest var, by(var)
Si las varianzas son iguales. Compara las
medias una variable continua con una
dicotmica. Ho: las medias de las categricas
son iguales.
ttest var, by(var) unequal
Si las varianzas no son iguales. Compara las
medias una variable continua con una
dicotmica. Ho: las medias de las categricas
son iguales.
tab var, summ (var)
Muestra una tabla de contingencia que
Ej. tab genero, summ (edad)
relaciona una variable dicotmica con una
continua

Regresin lineal con un slo regresor


regress
reg
reg vardep varindep
RELACIN VARIABLE DICOTMICA VS. DICOTMICA
tab var var,chi2
Relaciona
dos
variables
dicotmicas
mediante una prueba de chi2
tab var var, row cell exact, all
Relaciona dos variables categricas, calcula
porcentaje dentro de las filas y las columnas,
adems de la prueba exacta de Fisher
cuando se tiene una celda con menos de 5
observaciones.
tabi a b c d
Realiza una tabla de contingencia con los
valores exactos de las celdas, adems de la
prueba de chi2
cc var var
Permite obtener la razn de momios
relacionando dos variables dicotmicas
cci a b c d
Relaciona una tabla de contingencia con los
valores exactos de las celdas, adems de la
prueba de chi2. Ofrece el OR
cs var var
Permite obtener RR relacionando dos
variables dicotmicas
csi a b c d
Para realizar una tabla de contingencia con
los valores de agrupados de la tabla. Calcula
el RR
logit vardep varindep
Permite realizar una regresin logstica con
un slo regresor
Logistic vardep varindep
RELACIN VARIABLE CONTINUA VS. CATEGRICA DE MAS DE DOS CATEGORIAS
tab var, summ (var) anova
Realiza una tabla de contingencia que
Ej. tab genero, summ (edad)
relaciona una variable categrica con una
continua. Ofrece diferencia de medias y
varianza entre las categoras
oneway var var, means bonferroni
Permite comparar medias y varianzas entre
los grupos.
Para medias:
Ho: Las medias son diferentes
H1: Al menos una media es diferente.
Prueba Barttlet (varianzas):
Ho: Las varianzas son iguales
H1: Al menos una varianza es diferente.
RELACIN VARIABLE CONTINUA VS. CONTINUA
Correlacin de Pearsn. Esta correlacin
pwcorr var var, sig
ajusta por el numero de regresores. El calculo
corr var var, sig
toma en cuenta el numero de observaciones
completas.
pcorr var var
Correlacin parcial. El calculo se realiza sin
ponderar por otras variables
plot var1 var2
Permite graficar en diagrama de dispersin
dos variables continuas
ksm var1 var2, lox
Permite graficar en diagrama de dispersin
dos variables continuas con tcnica de
suavizamiento

CONTRUCCIN DE VARIABLES DUMMY PARA VARIABLES DE MAS


DE DOS CATEGORIAS
COMANDO
tab var,gen (var)

USO
Para generar variables indicadoras de una
variable de ms de dos categoras

ANLISIS MULTIVARIADO

COMANDO
pwcorr vardep varindep1 varindep2..
varindepp, sig
pcorr vardep varindep1 varindep2..
varindepp
Opciones: regress/reg
reg vardep varindep1 varindep2
varindep3..........varindepp
logit vardep varindep1 varindep2.
varindepp

Logistic vardep varindep1 varindep2.


Varindepp

glm vardep varindep1 varindep2....


varindepp, family (poisson) link (log)
lnoff(exposure) nolog
Poisson vardep varindep1 varindep2.....
varindepp, exp(exposure) nolog

Poisson vardep varindep1 varindep2.....


varindepp, exp(exposure) nolog irr

USO
Correlacin de Pearsn. Esta correlacin
ajusta por el numero de regresores. Solo se
usa para variables continuas
Correlacin parcial. Sin ponderacin por
otras variables. Solo se usa para variables
continuas
Comando para regresin lineal mltiple para
anlisis multivariado con una variable
dependiente
continua
y
n
variables
independientes de cualquier tipo
Comando para regresin logstica mltiple
con una variable dependiente dicotmica y
n variables independientes de cualquier
tipo. Los resultados estimados estn en
escala logartmica, lo que permite estimar
probabilidades y proporciones ajustadas en
estudios de cohorte y transversales
respectivamente
Comando para regresin logstica mltiple
con una variable dependiente dicotmica y
n variables independientes de cualquier
tipo. Los resultados estimados estn en
escala real (razones de momios en estudios
de casos y controles y razones de momios
de prevalencia en estudios transversales).
Comando para usar el modelo lineal
generalizado
para
una
variable
con
distribucin poisson medida como conteo
(regresin
poisson)
y
n
variables
independientes de cualquier tipo
Comando para regresin poisson mltiple
para anlisis multivariado con una variable
dependiente de conteo y n variables
independientes de cualquier tipo. Los
resultados estn en escala logartmica
Comando para regresin poisson mltiple
para anlisis multivariado con una variable
dependiente de conteo y n variables
independientes de cualquier tipo. Los
resultados estn en escala real (riesgos
relativos)
Nota: la variable exposure se utiliza para
ajustar, cuando los denominadores no son
iguales

sw
Ej. sw logit vardep varindep1
varindep2.... varindepp, pr(0.2)
Forward = pe
Backward = pr

El uso de nolog es opcional, omite las


iteraciones de realiza el paquete estadstico.
El stepwise es un comando que le solicita al
paquete estadstico la bsqueda de un
modelo perfecto estadsticamente. Se ajusta
con los valores de p esperados en las
relaciones. Usado para cualquier tipo de
regresin

3. DIAGNOSTICO DE MODELOS MULTIVARIADOS


REGRESIN LINEAL MULTIPLE
COMANDO
USO
VERIFICACIN DE SUPUESTOS / ANLISIS DE RESIDUOS
predict nombre de la variable de
Una vez corrido el modelo propuesto,
residuos, rstudent
generar residuos estudentizados
rvpplot varind1
Permite graficar los residuos estudentizados
con cada variable independiente
qnorm nombre de la variable de residuos Permite comprobar la normalidad de los
residuos generados
swilk nombre de la variable de residuos
rvfplot, yline(0)
Permite comprobar el supuesto de que la
media de los residuos es cero y la varianza
es constante
Hettest
Esta prueba es la de heterocedasticidad
(Cook-Weisberg), se usa para comprobar el
supuesto de que los residuos tienen varianza
constante. Ho: los residuos no tienen
varianza constante
DETERMINACIN DE PUNTOS INFLUYENTES
predict nombre de la variable, hat
Para predecir los valores de la matriz
sombrero
count nombre de la variable >2*p/n
Para contra los valores mayores a 2p/n
List if nombre de la variable >2*p/n
Para listar los folios de los puntos mayores
de 2p/n
PUNTOS INFLUYENTES EN EL VECTOR BETA (distancia de Cook)
predict nombre del archivo, cooksd
Habiendo corrido el modelo propuesto se
predicen los valores entre cada observacin
y la nube de puntos
Count nombre de la variable >1
Para contar los puntos fuera con una
distancia mayor de 1
PUNTOS INFLUYENTES EN CADA BETA
dfbeta
Permite calcular los dbeta de cada regresor
sum dfvarind1 dfvarind2..... dfvarindp
Permite observar el rango y la media de los
dbeta de cada regresor
for var dfvarind1 dfvarind2.......
Permite identificar los puntos influyentes de
dfvarindp:count if abs(X)>2/sqrt(n)
cada regresor
Nota: Cuando hay una incongruencia de detectar puntos influyentes en cada beta, pero
no en el vector se calculan los puntos influyentes en los valores predichos Dfit
predict nombre de la variable, dfits
Permite predecir los valores predichos
sum nombre de la variable
Permite la observacin de los rangos y la
media de los valores predichos
count if abs(dfit)>2*sqrt(p/n)
Permite contar los valores predichos

mayores de 2sqrt(p/n)
Permite listar los valores predichos mayores
de 2sqrt(p/n)
Nota: luego de omitir los puntos influyentes
debe correrse nuevamente el modelo.
ANLISIS DE MULTICOLINEALIDAD
Una vez corrido el modelo propuesto se
calcula el factor de inflacin de la varianza.
Valores mayores de 10 indican
multicolinealidad

list vardep varind1 varind2.varindp if


abs(dfit)>2**sqrt(p/n)

vif

REGRESIN POISSON
COMANDO
USO
PRUEBAS DE BONDAD DE AJUSTE
poisgof
Una vez corrido el modelo propuesto y
posteriormente el modelo nulo se realiza esta
prueba de bondad de ajuste que compara
estos modelos. Ho: el modelo propuesto
ajusta los datos (los regresores incluidos
explican a Y).
Lrtest, s(0)
Una vez corrido el modelo propuesto se
escribe el comando lrtest, s(0), luego se
corre el modelo nulo y el comando lrtest.
Esta prueba de bondad de ajuste compara los
dos modelos, bajo la Ho: los dos modelos
explican igualmente el comportamiento de Y
ANLISIS DE RESIDUOS
glmpred nombre de la variable de los
Permite generar los residuos de devianza
residuos, dev
sum nombre de la variable de los
Permite la observacin de las caractersticas
residuos
de los residuos de devianza
qnorm nombre de la variable de los
Permite determinar la distribucin de los
residuos
residuos de devianza
swilk var
Prueba de Shapiro Wilk para probar
normalidad de los residuos de devianza (Ho:
los residuos de devianza tiene distribucin
normal)
REGRESIN LOGISTICA
COMANDO
USO
PRUEBAS DE BONDAD DE AJUSTE
lfit
Una vez corrido el modelo propuesto se
utiliza esta prueba para verificar si el modelo
ajusta los datos. Ho: el modelo ajusta los
datos
lfit, group(10)
Modificacin propuesta por Hosmer y
Lemeshow.
Ua vez corrido el modelo propuesto se utiliza
esta prueba para verificar si el modelo ajusta
los datos. Ho: el modelo ajusta los datos
lstat
Permite evaluar sensibilidad y especificidad

del modelo, adems de los falsos positivos y


negativos.
GRAFICAS DIAGNOSTICAS
lroc
Permite evaluar el valor predicitvo del
modelo. Un modelo sin valor predictivo tiene
rea 0.5 y un modelo perfecto tendra rea 1
lsens
A
travs
de
una
grafica,
relaciona
sensibilidad y especificidad del modelo.
ANLISIS DE RESIDUOS
lpredict nombre de la variable de los
Permite generar residuos estandarizados
residuos
graph res nombre de la variable de los
Permite graficar los residuos
residuos
graph res nombre de la variable de los
residuos, yline(0)
sum nombre de la variable de los
Permite la observacin del rango y la media
residuos
de los residuos estandarizados
lpredict dbetas, dbeta
Permite generar dbetas, en bsqueda de
puntos influyentes de cada regresor (beta)
sum dbeta
Permite observar el rango y la media de los
dbetas
graph res nombre de la variable de los
residuos, twoway oneway box border
yline(0)
4. ANALISIS DE SUPERVIVENCIA
la estimacin de supervivencia se hace con mtodos no paramtricos, usaremos
Kaplan Meier.
Anlisis utilizado para estudios longitudinales. Tiene las siguientes caractersticas:
Presencia fundamental de censura
Presencia de fallas (evento)
La variable dependiente o respuesta es el tiempo
El evento esta medido categricamente
COMANDO
stset tiemdd censura1
tab censura1
. sum tiemdd, detail
. sts list

USO
Prepara a STATA para el anlisis de
supervivencia. Se le indica la variable tiempo
y censura
Permite la observacin de la variable censura
Permite la observacin de los valores
mximos y mnimos de la variable tiempo.
Incluye fallas y censuras
La descripcin se hace mediante la
construccin de tablas de vida. Los
principales parmetros son:
Time: tiempo de supervivencia
Begtotal= individuos vivos justo antes de
este tiempo.
fail=Numero de fallas
fail/beg total= probabilidad estimada de
supervivencia en el tiempo
9

. sts list, by(pap)

. sts graph
. sts graph, by(etapa)
. sts test etapa,logrank

S estimada= producto de el No. de


sujetos vivos antes del tiempo - No. de
fallas / No. de individuos que estn vivos
antes del tiempo.
S
estimada
es
la
funcin
de
supervivencia.
Este analisis esta ajustado por el tiempo de
las censuras.
Permite la construccin de una tabla de vida
estratificando por una variable. En este
ejemplo vemos la supervivencia de las
mujeres con antecedente de pap
Nota: No se pueden hacer anlisis de
inferencias en bivariados.
Los anteriores comandos grafican. las rayas
horizontales muestran las censuras y las
verticales las fallas.
Logrank se usa para ver diferencias en las
curvas de supervivencia observadas en
Kapplan M. Ho= no hay diferencia entre las
lneas

NOTA: El anlisis bivariado y multivariado se hace mediante el modelo de riesgos


proporcionales de cox.

10

Comandos y su descripcin:

Ma. Esperanza Lucas Resendiz


Append. Este comando permite unir a las observaciones de dos bases de datos y no a
travs de variables completas.
Browse. Favorece la visualizacin de datos de la base en la hoja de captura sin la
posible opcin de modificacin.
by var: sum var, detail
Como variante del sum condiciona por cualquier variable la
descripcin en detalle de cualquier otra
centile Permite observar los percentiles que se deseen de X variable con
caracterstica de continua para que de esta forma pueda ser poder dividirla en
categoras.
Clear
Este comando oculta la base de datos sin que se salve y sin que sea necesario
salir del programa
Codebook
A travs de este comando se explora una variable X ayudando a recordar sus
valores.
corr var var
A travs de este comando se establece la correlacin entre dos o ms variables
count if abs (cook)>1
Se despliega el valor entre los residuos y beta
count if abs(dfits)>2*sqrt(p/n)
Cuenta los puntos influyentes de los valores predichos mismos que no deben
sobrepasar de 2*sqrt(p/n).
count if abs(DFvar1)>2/sqrt(n)
Cuenta los puntos influyentes en cada una de las variables independientes (X)
del modelo, mostrando el nmero de ellos, que no debe sobrepasar de 2/sqrt(n)
count if abs(resid)>1.96
Presente el conteo de residuales mayores a 1.96
describe
Es la descripcin de una base de datos en general y de una variable (X) en particular
dfbeta
Se generan las distancias de diferentes variables independientes incluidas en el
modelo (X), es decir las distancias entre residuos y el beta-j
display
Este comando sirve para realizar cualquier operacin matemtica.
drop
Borra variables a indicacin del investigador.
drop var-var
Borra desde una variable inicial hasta una variable final.
edit
Este comando permite la visualizacin de los datos de la base en la hoja de captura con
opcin de algn tipo de modificacin.
exit, clear
Este comando se emplea para salir del programa preservando el log pero sin salvar la
base.
fpredict dfits, dfits
A travs de este comando se generan las distancias existentes entre los valores
observados o predichos y los esperados.
gen

11

Se genera una nueva variable que puede ser independiente o bien ser origen de otra.
graph DFvar1 DFvar2, box yline
Permite realizar un grfico de caja condicionado con la finalidad de visualizar puntos
influyentes.
graph res pred
Se grafican los residuos estandarizados
graph res pred, yline twoway onaway box border
Se grafican los residuos estandarizados, con una lnea paralela al eje de las xs
perpendicular al eje de las (y), incluyendo adems, a un box plot paralelo a ambos ejes,
mostrando valores aberrantes.
graph res pred, yline(0)
Esta grafica permite ver los residuos estandarizados, con una lnea paralela al eje de
las X perpendicular al eje de las Y.
graph var
Permite realizar de forma sencilla, un histograma de una variable(X, Y).
graph var var
Permite realizar un grfico de correlacin entre dos variables visualizando la tendencia
graph var var, connect(l)
Se realiza un grfico de correlacin entre dos variables con una lnea que permite unir
todas las observaciones.
graph var, box
Diagrama o grfico de caja.
graph var, box by
Diagrama o grfico de caja condicionado por valores de cualquier otra variable
graph var, box by(var) yline
Presenta una lnea paralela al eje de las (X) y compatible en valores con eje de las (Y)
en diagrama de caja que compara dos variables.
graph var, his
Se realiza un histograma sencillo de la variable solicitada.
graph var, his norm
Permite realizar un histograma con lnea de distribucin visible.
graph var, his norm noaxis
Permite realizar un diagrama de frecuencias con lnea de distribucin visible.
graph var, his ylabel xlabel
Etiqueta un diagrama de frecuencias(histograma) en sus ejes de manera automtica.
Keep
Retiene en la base de datos, solo las variables que se deseen, eliminando
automticamente todas aquellas variables que no se escribieron posterior al comando.
keep if
Retiene los valores de una variable (X) de forma condicionada.
ksm var var
Permite realiza una diagrama de correlacin entre dos variables continuas, presentando
una lnea suavizada que se emplea para hacer un promedio de los valores de ambas
variables, pudiendo observarse una tendencia.
label data
Etiqueta la base de datos completa con el nombre que el investigador asigne.
label define
Este comando permite etiquetar categoras de exposicin o grupos previamente recodificados.
label values
A travs de este comando es posible observar como fueron nombradas las categoras
de exposicin y sus valores despus de haberse etiquetado.
label var
Etiqueta variables.
ladder

12

Permite visualizar los diferentes tipos de transformaciones de una variable para as,
poder elegir la mejor transformacin.
lfit
A travs de este comando se permite evaluar la prueba de Hosmer Lemeshow y ver si
los datos se ajustan al modelo.
lincom var-var
Realiza un prueba de asociacin (OR, p, IC) entre las diferentes categoras de una
variable evaluando su igualdad y de esta forma se agrupen con la condicin de haber
corrido previamente un modelo de regresin.
List
Permite explorar a la variable.
list folio if abs (DFvar1)>2/sqrt(n)
Enlista los folios con puntos influyentes de una variable DF en particular.
list folio if cook>1
Indica folios de valores influyentes.
list folio if dfits>2*sqrt(p/n)
Muestra a los folios con valores influyentes.
list folio if resid>1.96
Muestra folios que contienen los residuos condicionados a >1.96.
list if
Condiciona la observacin a un valor especfico.
list if abs(dfits)>2*sqrt(p/n
Lista puntos influyentes en los valores predichos.
list if abs(DFvar1)>2/sqrt(n)
Lista puntos influyentes de la primera variable DF mostrando los datos de todas las
variables de la base, incluyendo las nuevas variables que recin fueron generadas.
list if abs(resid)>1.96
Lista los residuos mayores a 1.96.
list var-var if
Lista las variables desde una inicial hasta una final (condicional).
log of
Deshabilitar el log.
log on
Habilita el log.
logistic var var
Realiza un modelo de regresin logstica bivariado as como multivariado.
lpredict dbet, dbeta
Sirve para generar residuos generando las distancias de diferentes variables
independientes incluidas en el modelo.
lpredict res, rstandard
Muestra los residuos estandarizados.
lpredict stand
Genera los residuos estandarizados.
lroc
Diagnstico del modelo atravs de la interpretacin del rea bajo la curva condicionado
por puntos de corte en su sensibilidad as como de su especificidad.
lstat
Hace diagnstico del modelo a travs de una prueba de tamiz.
lv var
Grfico de letras, mostrando valores aberrantes.
merge
Permite reunir dos bases de datos que tienen al menos una variable en comn.
predict cook, cooksd
Puntos influyentes en beta por la distancia de cook.
predict r_stu, rstu

13

Genera los residuos estudentizados posterior a correr un modelo de regresin mltiple.


pwcorr var var
Correlacin entre dos o ms variables.
pwcorr var var if
A travs de este comando se puede establecer una correlacin condicionada entre dos
o ms variables por valor(es) de una de ellas con o sin significancia estadstica.
pwcorr var var, sig
Permite establecer correlacin entre dos o ms variables, con valor de significancia
estadstica.
qnorm resid
Grfica de los residuos ajustndolos a una lnea de distribucin normal.
qnorm var
Grficos que muestran el ajuste en una curva de distribucin normal a los datos por
observacion.
recode
Recodifica los valores de una variable (grupos o categoras de exposicin) de acuerdo a
determinados puntos de corte biolgicamente plausibles o por estadstica.
regress
Realiza una regresin lineal simple o mltiple.
regress var var if
Realiza una regresin lineal simple o mltiple de manera condicionada.
rename
Cambia el nombre a una variable.
replace
Reemplaza/modifica categoras de una variable.
replace var if
Reemplaza/modifica categoras de una variable(condicionada) por la misma o por otra
variable.
save, replace
Salva la base de datos por las ltimas modificaciones.
sort
Ordena los datos de una variable que pueden evaluarse con la indicacin "by"
stem var
Diagramas de tallo y hoja.
sum cook
Resumen de datos que permiten observar el tamao de la distancia a la beta siendo
deseable que esta distancia de cook <1.
sum dfit
Visualiza las distancias entre valores predichos y esperados.
sum DFvar1 DFvar2 DFvar3
Visualiza los puntos influyentes en beta-j.
sum var if
Descripcin de la variable acotada a valor(es) considerados por el investigador.
sumarize
A travs de este comando se pueden describir una-mas variables resumiendo medidas
de tendencia central y la distribucin.
sumarize var, detail
Describe una-mas variables resumiendo sus medidas de tendencia central y su
distribucin.
tab var if
Permite a travs de este comando observar datos de una variable acotados a cierto
valor(es).
tab var var
Explora dos variables.
tab var, gen (var)

14

A travs de este comando se producen a las variables indicadoras o dummies para


cada una de las categoras de la variable.
tab var, sum var
Cruza datos descriptivos (medidas de tendencia central de la segunda variable) por
categoras de la primera variable permitiendo hacer un anlisis de las variables por
grupos.
tab_merge
Visualiza la variable generada del comando merge.
tabulate
Explora variable(s).
tabulate var, nolabel
Borra la etiqueta de las categoras que tenga la variable.
ttes var if
Prueba de t de student condicionada por un valor(es).
ttest
Prueba de t de student de comparacin de dos medias muestrales.
ttest var, by(var)
Prueba de t de student condicionada a la variable dependiente
vif
Inflacin de la varianza (multicolinealidad). Para descartar multicolinealidad el vif debe
ser <10.

15

You might also like