Professional Documents
Culture Documents
R. E. De Hoyos*
University of Cambridge
17 de febrero de 2005
1. Introducción
2. Personalizando Stata
1
son visibles en la pantalla “Review”, mientras que “Command” sirve para
utilizar Stata de forma interactiva.1
Al instalar Stata, varios archivos son creados para su uso posterior. El más
utilizado es el archivo “Stata” cuya dirección esta indicada en la parte inferior
izquierda de la pantalla; es aquı́ donde son salvados los datos y resultados si
no se especifica otra ruta. Para visulizar la ruta de todos los archivos creados
por Stata, escriba la palabra sysdir en la barra de comandos.2 La ruta
de estos archivos puede ser modificada utilizando el comando sysdir set
nombre del archivo seguido por la nueva dirección. La ruta del archivo
“Stata” también puede ser modificada escribiendo el comando cd seguido
por la nueva ruta.
Comandos: sysdir
Hay varias formas en que podemos introducir datos en Stata. Una de las
más comunes es utilizando el comando insheet seguido por la ruta del
archivo, este comando premite a Stata leer archivos en formato ASCII3 que
son comúnmente realizados en Excel (separados por comas o bien por tabu-
ladores). Otros comandos que pueden ser utilzados son: infile1, infile2 e
infix. También es posible introducir datos “a mano” utilizando el comando
edit, el cual abre una hoja de cálculo. Aunque no es muy recomendable, los
datos pueden ser introducidos a Stata cortándolos desde Excel y pegandolos
en la hoja de cálculo de Stata.
2
ser cargados al programa utilizando el comando use seguido por la ruta en
donde se encuentra la base de datos. Por ejemplo:
Otro valor que debe ser asignado de acuerdo al tamaño de la base de datos y
el tipo de análisis que se pretende realizar con ella, es el tamaño de la matriz.
El valor asignado por Stata (en su edición especial) es de 400 variables, este
puede ser incrementado hasta 11,000 en el caso de la edición especial (800 en
la versión más pequeña de Stata) usando el comando set matsize.
3
Para ver las observaciones en pantalla, se puede utilizar edit o bien list
seguido por el nombre de la variable o variables que se deseen visualizar.
La diferencia entre edit y list es que el primero despliega toda la hoja
de cálculo mientras el segundo despliega los datos en la ventana de resulta-
dos.
Para guardar los datos use el comando save seguido por la ruta en donde se
quieren salvar. Para borrar una base de datos no deseada utilice el comando
erase seguido por la ruta. El comando clear descarga los datos de la memo-
ria temporal de Stata; notese que al utilizar clear no se realizará ninguna
advertencia antes de descargar los datos y si la base de datos original ha sido
modificada sin ser salvada estos cambios se perderán.
Una vez cargada la base de datos, es muy común modificarla para crear
nuevas variables o bien cambiar el orden o contenido de las mismas. Los
siguientes comandos son muy útiles para estas tareas:
label Este comando sirve para añadir etiquetas tanto a variables (label
variable) como a bases de datos (label data).
4
sort Ordena de forma acendente las observaciones basado en una o más
variables.
generate Genera una nueva variable definida en base a una expresión numéri-
ca la cual puede contener otras variables. Por su flexibilidad, este es uno
de los comandos más importantes de Stata, ya que se pueden utilizar
un gran número de operaciones lógicas, aritméticas y matemáticas para
definir expresión. En el siguiente cuadro tratamos de resumir las expre-
siones más utilizadas con generate.
5
Cuadro 1: Expresiones usadas por generate
egen Es una extención de generate que contiene una gran cantidad de fun-
ciones pre-establecidas con las que se pueden generar nuevas variables.
6
encode Cuando una variable está en formato string (es decir no-numérico) no
se pueden obtener estadı́sticas sobre ella. encode y su opuesto decode
cambian el formato de una variable string a numérico y viceversa. Alete-
nativamente podemos utilizar los comandos tostring y destring los
cuales realizan las mismas funciones pero con más opciones.
reshape wide, long Este comando transforma la base de datos de una for-
mato ancho (wide) a uno largo (long) y viceversa. reshape puede trans-
formar de una base de datos como la siguiente en formato ancho:
i j Xij
7
keep Seguido por una lista de variables mantiene las variables especificadas
eliminando las no incluidas en la lista. Análogamente el comando drop
elimina las variables que le siguen al comando conservando las no-
incluidas.
Muchas veces es necesario combinar dos o más bases de datos para formar
una sola. Para ello se pueden utilizar los comandos merge o append. merge
une dos bases de datos utilizando una variable en común. Las dos bases de
datos deben estar en formato .dta (Stata) y las observaciones deben estar
ordenas (utilizando sort) de acuerdo a la variable que sirve como referencia.
El objetivo de merge es anexar variables no observaciones. Por ejemp-
lo:
use ds2
sort recid
save ds2, replace
use ds1
sort recid
merge recid using ds2
Lo que este pequeño código nos dice es que carguemos la base de datos ds2
(use) y la ordenemos de acuerdo al identificador recid (sort) y guardemos los
cambios reeplasando ds2 (save). Posteriormente abrimos la segunda base de
datos utilizando el comando use, la ordenemos en base a recid y finalmente
la pegamos (merge) de acuerdo a recid utilizando la base de datos ds2.
8
sencilla pues sólo se tiene que nombrar la base da datos que se desea anexar.
Por ejemplo:
Por último, si se desea contruir una nueva base de datos que contenga in-
formación condensada de la base original, esto se puede hacer utilizando el
comando collapse. Supanga que tiene una base de datos sobre hogares y que
cada hogar tiene una observación para cada miembro que lo integra. Si cada
hogar dispone de un identificador único, entonces se puede formar una base
de datos alternativa que contenga una sola observación por hogar (en lugar
de una observación por individuo) para cada una de las variables deseadas.
Esta observación puede contener la media, la desviación estandar, la suma u
otro estadı́stico por hogar. Por ejemplo:
El código anterior crea una base de datos con cuatro variables (hogar, edad,
educación e ingreso) con una observación por hogar, la cual contiene el prome-
dio de cada variable por hogar.
[by lista de var :] comando lista de var [if expresión] [in rango]
[ponderadores] [using nombre del archivo], [opciones]
Sin embargo para la moyor parte del curso sólo necesitaremos una versión
mucho más simple como:
9
El prefijo by permite aplicar el mismo comando separando la base de datos en
subgrupos definidos por lista de var. Posteriormente viene el comando seguido
por una segunda lista de var a las cuales se les aplicará el comando elegido.
Los datos utilizados para evaluar el comando pueden ser limitados con las
opciones if e in. Las opciones especı́ficas al comando tienen que ser precedi-
das por una coma. A lo largo del tutorial se utilizará esta sintaxis de forma
continua de manera que al final del curso el participante estará familiarizado
con ella.
http://www.stata.com/support/
http://www.stata.com/support/faqs/
http://www.ats.ucla.edu/stat/stata/sk/
http://www.ats.ucla.edu/stat/stata/
http://ideas.repec.org/s/boc/bocode.html
10
query le indicará si es necesario hacer actulizaciones.4
7. Resumen
En esta primera sesión aprendimos los puntos más básicos del funcionamien-
to de Stata incluyendo la importación, tranformación y el manejo de bases
de datos. Otros puntos clave consistieron en el procedimiento para cargar las
bases de datos en formatos diferentes a Stata, ası́ como asignar la suficiente
memoria y tamaño de matriz para cargar los datos y llevar al cabo el análi-
sis. La combinación de bases de datos y la generación de nuevas variables
utilizando las expresiones del comando generate fueron entre las tareas más
importantes de la sesión.
4
Para hacer las actualizaciones es necesario que su computadora esté conactada a la
red; si su conexión utiliza un proxy, tiene que configurar Stata, vea help netio.
11