Professional Documents
Culture Documents
B
asico
Aplicado a la Investigaci
on Econ
omica
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
Indice general
Indice general
1. Introducci
on al Stata
1.1. Iniciando Stata . . . . . . . . . . .
1.2. Tipos de Archivos en Stata . . . . .
1.3. Estructura Basica de Stata . . . . .
1.4. Principales Comandos de Trabajo y
1.4.1. Las Bitacoras . . . . . . . .
1.4.2. La Base de Datos . . . . . .
1.4.3. Append, Merge, Collapse . .
. . . . .
. . . . .
. . . . .
Analisis
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
6
7
7
7
9
2. Manejo de Datos
2.1. Cargando los Datos en Stata . . . .
2.2. Etiquetas . . . . . . . . . . . . . .
2.3. Comando IF . . . . . . . . . . . . .
2.4. Comando SUMMARIZE . . . . . .
2.5. Comando SPLIT . . . . . . . . . .
2.6. Creando Variables . . . . . . . . . .
2.7. KEEP y DROP . . . . . . . . . . .
2.8. Reestructurando los Datos . . . . .
2.9. Muestreos Probabilsticos . . . . . .
2.10. Generacion de N
umeros Aleatorios
2.11. Percentiles, Cuartiles, Deciles . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
15
17
18
18
19
22
24
26
26
27
.
.
.
.
.
.
.
.
31
31
33
38
40
40
40
43
47
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. An
alisis Grafico con Stata
3.1. Visualizando Algunos Comandos . . . . . . . . .
3.2. TWOWAY . . . . . . . . . . . . . . . . . . . . . .
3.3. TWOWAY y SCATTERPLOT . . . . . . . . . .
3.4. Combinando TWOWAY Y SCATTERPLOT . . .
3.4.1. Filtro de Graficos . . . . . . . . . . . . . .
3.4.2. Union de Graficos . . . . . . . . . . . . . .
3.5. Opciones para Edicion de Graficos . . . . . . . . .
3.6. Trabajando con Esquemas y Graficos Adicionales
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
4
3.6.1.
3.6.2.
3.6.3.
3.6.4.
3.6.5.
Esquemas . . . . . . . . . . . .
Graficos de Barras Verticales . .
Graficos de Barras Horizontales
Graficos de Cajas . . . . . . . .
Graficos de Pastel . . . . . . . .
4. An
alisis de Regresi
on Lineal
4.1. Regresion Lineal . . . . . . .
4.2. Diagnostico de los Resultados
4.2.1. Efecto Influencia . . .
4.3. Normalidad del Residuo . . .
4.4. Homocedasticidad del Residuo
4.5. Multicolinealidad . . . . . . .
4.6. Linealidad . . . . . . . . . . .
4.7. Especificacion del modelo . .
4.8. Independencia . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5. Variables Categ
oricas
5.1. Estimacion con Variables Categoricas
5.2. El Comando Xi . . . . . . . . . . . .
5.3. Pruebas de Hipotesis . . . . . . . . .
5.4. Creacion de Variables Dummys . . .
5.5. Bucles y Programas . . . . . . . . . .
Bibliografa
Stata B
asico
Aplicado a la Investigaci
on Economica
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
49
49
50
51
.
.
.
.
.
.
.
.
.
55
55
59
59
62
63
64
64
65
66
.
.
.
.
.
69
69
70
72
75
75
79
www.giddea.com
administracion@giddea.com
Sesi
on 1
Introducci
on al Stata
1.1.
Iniciando Stata
Stata es una poderosa herramienta en aplicaciones economicas. Puede ayudarnos a analizar facil y eficientemente, series de tiempo, paneles, y data de
seccion cruzada. Nos dara las herramientas que necesitamos para organizar y
manejar un gran tama
no de data, obteniendo resultados de analisis estadsticos.
En esta sesion introduciremos las nociones basicas del software, para posteriormente realizar un analisis estadstico y familiarizarnos con el manejo y
modificacion de la base de datos.
Veamos como se presenta Stata al iniciarse. (ver Figura 1.1)
1. Introducci
on al Stata
1.2.
1.3.
Estructura B
asica de Stata
www.giddea.com
administracion@giddea.com
1.4.
Ahora veamos los principales comandos de trabajo, los cuales haran que
los futuros analisis econometricos sean simples de realizar.
1.4.1.
Las Bit
acoras
En estos objetos se guardara la informacion tal y cual aparecen en la ventana Result, aunque tambien podramos indicarle al programa que deseamos
solo guardar los comandos y no los resultados.
log using clase1.log
o tambien
cmdlog using clase1.log
1.4.2.
La Base de Datos
use auto.dta
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
1. Introducci
on al Stata
mpg weight
mpg weight if foreign
price if mpg<21.3
price if mpg>=21.3
price, detail
tabulate mpg
table
table
table
table
mpg
rep78, contents(n mpg)
rep78, contents(n mpg mean mpg sd mpg median mpg)
rep78, c(n mpg mean mpg sd mpg median mpg) format(%9.2f)
sort mpg
gsort mpg
gsort -mpg
sort foreign
by foreign: summarize price
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
count
count if foreign==0
count if foreign==1
by foreign: count
generate orden=_n
rename orden num_obs
by foreign: egen prom_mill=mean(mpg)
drop num_obs
keep make price mpg prom_mill
1.4.3.
El comando append y merge nos ayudara a unir bases de datos integrandolas en una sola. Append, pegara hacia abajo o verticalmente y Merge, pegara
hacia el costado o de forma horizontal.
clear
use base1,
list
use base2,
list
use base3,
list
use base4,
list
clear
clear
clear
clear
Vamos a empezar observando cada una de las bases de datos que tenemos,
veamos la figura1.4 Empecemos nuestra tarea en Stata, podemos observar que
www.giddea.com
administracion@giddea.com
10
1. Introducci
on al Stata
la base de datos Base1 tiene los mismos campos (columnas) que la base de
datos Base2, pero diferentes filas, seria u
til, unir ambas bases.
Abramos entonces, la base de datos Base1 y peguemosla con la base de
datos Base2, una union vertical.
use base1.dta, clear
list
append using base2
list
save base12.dta, replace
list
Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos los
resultados:
use base3.dta, clear
list
append using base4
list
save base34.dta, replace
list
Por que la variable la variable sexo se a
nadio 2 veces como columna?por
que no se unio en una sola columna?
use base3.dta, clear
list
rename Sexo sexo
list
save base03.dta, replace
use base03.dta, clear
list
append using base4
list
save base034.dta, replace
Ahora si resulto bien la union vertical. Veamos la base12 que tenamos
antes.
Ahora mi interes es fusionar ambas bases de datos, para ello, primero debemos ordenar ambas bases seg
un la variable con la que vamos a fusionar (la
variable com
un).
use base034.dta, clear
list
sort nombre
list
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
11
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
12
1. Introducci
on al Stata
www.giddea.com
administracion@giddea.com
13
Basado en los WDI, genere una base de datos con los totales de CO2 emitidos por region, para el a
no 2002. Genere tambien una base con la poblacion
mundial a lo largo del tiempo.
use wdi,clear
collapse (sum) co2 if year==2002, by(region)
graph hbar (asis) co2, over(region)
use wdi, clear
collapse (sum) pop, by(year)
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
14
1. Introducci
on al Stata
RETO 1
. La base enaho01-2004-300-oct-nov.dta contiene datos del modulo 300 de
la ENAHO recopilados entre octubre y noviembre de 2004, mientras que
enaho01-2004-300-dic.dta contiene los datos del mismo modulo para diciembre de ese mismo a
no. Ambas bases estan a nivel de individuos. Se pide
juntar estos datos en un solo archivo que debe ser grabado con el nombre:
Personas.dta.
. A la base Personas.dta a
nada las siguientes variables:
Las 5 variables de Necesidades Basicas Insatisfechas (nbi1 al nbi5) desde
la base de datos enaho01-2004-100.dta. Recuerde que esta base fue
recopilada a nivel de hogares en el mismo periodo.
La variable sobre tipo de vivienda (p101).
. Usando el archivo enaho01-2004-300-oct-nov.dta (modulo de educacion a
nivel de individuos) realice las siguiente tarea:
Obtenga una nueva base (colapsada) que contenga para cada hogar:
el promedio de edad de sus miembros (ver p208a), el porcentaje de
hombres en el hogar (ver p207), el maximo nivel educativo aprobado
por alg
un miembro del hogar (ver p301a).
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
Sesi
on 2
Manejo de Datos
2.1.
2.2.
Etiquetas
16
2. Manejo de Datos
define
define
define
define
values
getareow 0 "prematuro"
getareow 1 "rec.nac.", add
getareow 2 "lactante", add
getareow 3 "escolares", add
getareo getareow
www.giddea.com
administracion@giddea.com
2.3. Comando IF
label
label
label
label
define
define
define
values
17
2.3.
Comando IF
price
price
price
price
price
if
if
if
if
if
&
!missing(rep78)
(rep78
(rep78
(rep78
(rep78
(rep78
==
<=
==
>=
>=
1) | (rep78 == 2)
2)
3) | (rep78 == 4) | (rep78 == 5)
3)
3) & !missing(rep78)
www.giddea.com
administracion@giddea.com
18
2. Manejo de Datos
2.4.
Comando SUMMARIZE
use auto
summarize
summarize
summarize
summarize
summarize
price mpg
mpg price if (foreign == 1)
mpg price if (foreign == 1) & (mpg <30)
mpg price if (foreign == 1) & (mpg <30) , detail
2.5.
Comando SPLIT
www.giddea.com
administracion@giddea.com
19
2.6.
Creando Variables
www.giddea.com
administracion@giddea.com
20
2. Manejo de Datos
mpg3
=
mpg3
=
mpg3
=
mpg3
=
mpg mpg3
.
1 if (mpg <= 18)
2 if (mpg >= 19) & (mpg <=23)
3 if (mpg >= 24) & (mpg <.)
www.giddea.com
administracion@giddea.com
21
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
22
2. Manejo de Datos
2.7.
Z="am"
P=real(Z)
KEEP y DROP
www.giddea.com
administracion@giddea.com
23
www.giddea.com
administracion@giddea.com
24
2. Manejo de Datos
clear
use make mpg price rep78 using auto.dta if (rep78 <= 3)
describe
tabulate rep78
clear
use make mpg if (rep78 <= 3) using auto
Que sucedio con esta sentencia?
2.8.
www.giddea.com
administracion@giddea.com
25
reshape wide
list
reshape long
list
Veamos una base de datos que nos brinda informacion sobre los las alturas
de un conjunto de ni
nos de 1 y 2 a
nos de edad
use ni~
noaltpes, clear
list codfam nacimiento alt1 alt2
www.giddea.com
administracion@giddea.com
26
2. Manejo de Datos
2.9.
Muestreos Probabilsticos
En las encuestas, las observaciones son escogidas a partir de un proceso aleatorio. As, las probabilidades de seleccion para distintas observaciones
pueden diferir en funcion a la forma como se lleve a cabo dicho proceso de
seleccion aleatorio.
Las ponderaciones de muestreo son iguales (o proporcionales) al inverso de
la probabilidad de seleccion. En otras palabras, los ponderadores (o factores
de expansion) pueden ser interpretados como el n
umero de elementos de la
poblacion que el elemento muestreado representa. En consecuencia, no tener
en cuenta los ponderadores de la muestra en los procedimientos estadsticos
genera estimaciones sesgadas al valor verdadero de la poblacion. As mismo,
su omision altera las desviaciones estandar de nuestras estimaciones.
Los factores de expansion nos permiten pasar de la muestra al conjunto de
la poblacion. Ellos son necesarios tambien para tener en cuenta las diferentes
tasas de muestreo seg
un dominios geograficos, etc.
La mayora de comandos de stata pueden ponderar datos. Stata proporciona cuatro tipos de ponderaciones, la que mas se emplea es la asociada a los
factores de expansion, que se indica con la opcion pweight que permite identificar los pesos que indican la inversa de la probabilidad de que la observacion
sea incluida debido al dise
no del muestreo.
table x1 x2 [pweight=pesopob]
table x1 x2 [pw=pesopob]
2.10.
Generaci
on de N
umeros Aleatorios
www.giddea.com
administracion@giddea.com
27
gen y = invnorm(uniform())
Para generar una variable con distribucion uniforme U(a,b)
generate y = a + (b-a) * uniform()
Para generar una variable con distribucion normal N(u,o)
generate z = u + o
^ * invnorm(uniform())
Generemos una variable notas, igual a U(0,20) + N(0,1)
gen notas = 20*uniform() + invnorm(uniform())
Trunquemosla en el rango de 0 a 20
replace notas = clip(notas, 0, 20)
format notas %3.1f
Generemos una variable sexo que sea 1 si es hombre y 0 si es mujer
gen sexo = uniform() > 0.5
Generemos una variable ingreso que valla del 2000 al 2007
gen ingreso = 2000 + floor(8*uniform())
2.11.
www.giddea.com
administracion@giddea.com
28
2. Manejo de Datos
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
29
RETO 2
El sostenido crecimiento de la economa peruana en los u
ltimos a
nos ha
provocado que en la actualidad observemos un boom de inversiones a nivel descentralizado. As, diversas actividades economicas que antes se desarrollaban
solo en Lima han empezado a mirar el interior del pas como plazas alternativas
para expandir sus negocios. Con este fin, la recientemente fundada empresa de
consultora Grupo IDDEA S.A.C. le ha pedido su colaboracion para desarrollar
las siguientes tareas en Stata.
. En el modulo sumarias (que contiene variables calculadas de ingreso y
gasto) se le pide identificar cada hogar con el nombre de la localidad que
representa seg
un la variable ubigeo (distrito). Ademas, en este modulo debera crear una nueva variable que indique el departamento al que pertenece
cada hogar (esta variable debe tener un value map con los nombres de los
24 departamentos y el Callao). Para esta tarea usted cuenta con la base de
datos ubigeo.dta.
. Con una sola instruccion (un solo comando) muestre las siguientes estadsticas descriptivas para el gasto per capita en todos los departamentos del pas
(percentil 99, media, desviacion estandar, rango).
. El INEI calcula las estadsticas de pobreza bajo el metodo del gasto, para lo cual utilizara la variable gasto total y la dividira entre el total de
personas en el hogar para calcular el gasto per capita. Luego generara una
variable que valga uno en caso el hogar supere la lnea de pobreza per capita
(linea06) y cero en caso contrario. Finalmente, se le pide estimar para cada
departamento cual es el nivel de pobreza considerando que un individuo es
pobre si pertenece a un hogar pobre.
. Con el modulo de educacion construya una tabla que muestre para cada dominio geografico el porcentaje de personas seg
un nivel educativo alcanzado,
para lo cual considerara solo tres niveles: 1, al menos primaria incompleta,
2, Al menos secundaria completa y 3, superior.
. Al modulo educacion a
nada la variable gasto per capita, calculado en la base
sumaria como el cociente entre gasto total y total de miembros del hogar.
Luego, cree una variable que contenga los cuartiles (1,2,3,4) del gasto per
capita y construya una tabla cruzada entre el nivel educativo y la nueva
variable que ha creado para todas aquellas personas que no residen en Lima
Metropolitana.
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
30
Stata B
asico
Aplicado a la Investigaci
on Economica
2. Manejo de Datos
www.giddea.com
administracion@giddea.com
Sesi
on 3
An
alisis Grafico con Stata
Ahora vamos a trabajar con los principales graficos en Stata. Muchos de
estos graficos son de bastante utilidad para observar los problemas inherentes
al analisis de regresion que observaremos en la proxima seccion.
3.1.
clear
use auto.dta
histogram mpg
31
32
3. An
alisis Grafico con Stata
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
3.2. TWOWAY
3.2.
33
TWOWAY
El S&P 500 es el ndice mas seguido para tener una idea del desempe
no
general de las acciones estadounidenses. Este ndice consiste de las acciones de
500 empresas que fueron seleccionadas por su tama
no, liquidez (que tan facil
es comprar o vender sus ttulos) y representatividad por actividad economica, incluyendo 400 industriales, 20 del sector transporte, 40 de servicios y 40
financieras. Solo se toman en cuenta empresas estadounidenses. Vale la pena
destacar que el peso de cada accion dentro del ndice corresponde a la proporcion que representa el valor de mercado de la empresa dentro del total de las
500 empresas que conforman el ndice. El valor de mercado del capital es igual
al precio por accion multiplicado por el n
umero total de acciones.
Usemos la base de datos S&P 500.(ver figura3.5
clear
use s&p.dta
describe
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
34
3. An
alisis Grafico con Stata
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
3.2. TWOWAY
35
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
36
3. An
alisis Grafico con Stata
Usemos una nueva base de datos:
clear
use highschool.dta
describe
graph
graph
graph
graph
twoway
twoway
twoway
twoway
histogram read
kdensity read
(histogram read) (kdensity read)
function y=normden(x), range(-4 4)
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
3.2. TWOWAY
37
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
38
3.3.
3. An
alisis Grafico con Stata
TWOWAY y SCATTERPLOT
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
39
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
40
3.4.
3.4.1.
3. An
alisis Grafico con Stata
3.4.2.
Uni
on de Gr
aficos
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
41
name(scatter)
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
42
3. An
alisis Grafico con Stata
twoway (scatter read write) (scatter math write) (lfit read ///
write) (lfit math write), legend(label(3 "Ajuste Lineal") ///
label(4 "Ajuste Lineal")) legend(order(1 3 2 4))
twoway (scatter read write) (scatter math write) (lfit read ///
write, pstyle(p1) range(25 80) ) (lfit math write, ///
pstyle(p2) range(25 80) ), legend(label(3 "Ajuste Lineal") ///
label(4 "Ajuste Lineal")) legend(order(1 3 2 4))
www.giddea.com
administracion@giddea.com
43
3.5.
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
44
3. An
alisis Grafico con Stata
www.giddea.com
administracion@giddea.com
45
position(5))
caption(Grupo IDDEA.SAC, size(vsmall) position(5))
graph twoway scatter read write, ///
title("Grafica de Dispersi
on entre Lectura y Escritura ", ///
size(large) color(red) position(12) ring(9) box bcolor(white) ///
blcolor(red) bmargin(medium)) ///
ytitle(Nota del Examen de Escritura, color(white)) ///
xtitle(Nota del Examen de Lectura, color(white)) ///
subtitle("Muestra de 200 Estudiantes", color(white)) ///
note(Datos de Escuela Secundaria y Superior, color(white) ///
size(medium) position(5)) ///
caption(Grupo IDDEA.SAC,color(green) size(small) position(5)) ///
graphregion( color(navy) ) ///
plotregion( fcolor(teal) )
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
46
3. An
alisis Grafico con Stata
use encuesta.dta
graph hbar commute, over(division)
graph hbar commute, over(division) asyvar
graph bar propval100, over(nsw) over(division) nofill asyvars ///
ylabel(0(10)80)
twoway scatter ownhome propval100, xlabel(#10) ylabel(#5)
twoway scatter ownhome propval100, xscale(alt)
twoway scatter propval100 rent700 ownhome, ylabel(0(10)100) ///
yscale(alt)
twoway (scatter propval100 ownhome) (scatter rent700 ownhome, ///
yaxis(2))
twoway scatter ownhome propval100 [aweight=rent700], msize(small) ///
scheme(vg_outm) yscale(alt) xscale(alt)
use s&p.dta
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
volmil date)
tw (rarea
47
3.6.
3.6.1.
use encuesta.dta
scatter propval100 rent700 ownhome, scheme(vg_blue)
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
48
3. An
alisis Grafico con Stata
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
3.6.2.
49
Gr
aficos de Barras Verticales
use nlsw.dta
graph bar ttl_exp
graph bar prev_exp tenure ttl_exp
graph bar (median) prev_exp tenure ttl_exp
graph bar (median) prev_exp tenure (mean )ttl_exp
graph bar (mean) meanwage=wage (median ) medwage=wage
graph bar prev_exp tenure, over(occ5)
graph bar prev_exp tenure, over(occ5) percentages
graph bar prev_exp tenure, over(occ5) percentages stack
use highshool.dta
graph bar write, over( race) over( female) over( ses) ///
legend(rows(1) stack) blabel(bar, format(%4.1f) size(vsmall)) ///
bargap(10) percent scheme(vg_blue)
3.6.3.
Gr
aficos de Barras Horizontales
use nlsw.dta
graph hbar wage, over(occ5)
graph hbar wage, over(occ5) over(collgrad)
graph hbar wage,over(urban2) over(occ5) over(collgrad)
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
50
3. An
alisis Grafico con Stata
3.6.4.
Gr
aficos de Cajas
use nlsw.dta
graph box wage,
graph box wage,
graph box wage,
graph box wage,
over(grade4)
over(grade4) nooutsides
over(grade4) nooutsides over(union)
over(grade4) nooutsides over(union) ///
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
51
asyvars
graph box wage, over(grade4) nooutsides over(union) ///
asyvars over(urban2)
graph hbox tenure, nooutsides over(occ7)
graph hbox tenure, nooutsides over(occ7, sort(1))
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1))
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1)) over(collgrade)
graph hbox prev_exp tenure, nooutsides over(occ7, ///
sort(1)) over(collgrad)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total)
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total row(1))
graph hbox ttl_exp tenure, nooutsides over(urban2) ///
over(married) by(union, total cols(1))
3.6.5.
Gr
aficos de Pastel
use nlsw.dta
graph pie, over(occ7)
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
52
3. An
alisis Grafico con Stata
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
53
RETO 3
DE RIESGOS
CLASIFICACION
La base de datos deudores, tiene informacion acerca de la edad, sexo,
distrito, ingresos, deuda, y calificacion de la deuda, para 19,000 deudores.
. Cual es la edad promedio de la muestra? Analice la distribucion de la edad,
con un histograma.
. Que AFP tiene mas clientes? Realice una grafica sustentando su respuesta.
. Genere una dummy mal pagador, que sea 1 si el deudor esta atrasado con
sus deudas
. Que % de hombres y mujeres son mal pagadores? Quienes ganan mas, en
promedio?
. A que edad las personas se atrasan menos? Realice una grafica sustentando
su respuesta.
. Genere una nueva base de datos a nivel de distrito, con el n
umero de personas, el salario promedio, y el % de deudores atrasados.
. Guarde solo los distritos con al menos 100 personas.
. Que distritos son los mas ricos? En cuales la gente es peor pagadora?
Realice una grafica sustentando sus resultados.
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
54
Stata B
asico
Aplicado a la Investigaci
on Economica
3. An
alisis Grafico con Stata
www.giddea.com
administracion@giddea.com
Sesi
on 4
An
alisis de Regresi
on Lineal
4.1.
Regresi
on Lineal
Ahora vamos a trabajar con las herramientas que hemos aprendido y vamos a generar relaciones econometricas. Empecemos con evaluar una regresion
MCO.
use elemapi.dta
regress api00 acs_k3 meals full
Nuestras expectativas son que un mejor rendimiento academico, este relacionado con un tama
no de clase peque
no, pocos estudiantes recibiendo comida
55
56
4. An
alisis de Regresi
on Lineal
in 1/10
www.giddea.com
administracion@giddea.com
4.1. Regresi
on Lineal
57
www.giddea.com
administracion@giddea.com
58
4. An
alisis de Regresi
on Lineal
www.giddea.com
administracion@giddea.com
59
4.2.
4.2.1.
www.giddea.com
administracion@giddea.com
60
4. An
alisis de Regresi
on Lineal
use crimen.dta
describe
sum crimenes asesinatos pcturb pctblanco pctnivedu pobreza soltero
graph matrix crimenes pcturb pobreza soltero
Que observamos?
regress
predict r, rstudent
stem r
sort r
list estadoid estado r in 1/10
list estadoid estado r in -10/l
findit hilo
hilo r estado
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
list r
61
estado=="dc" |
///
www.giddea.com
administracion@giddea.com
62
4. An
alisis de Regresi
on Lineal
estado !="dc"
4.3.
La normalidad del residuo es requerida por muchas investigaciones si nosotros deseamos validar las pruebas de hipotesis sobre t-value y F-value. Ojo,
la no normalidad del residuo no invalidad la regresion. Una regresion valida
requiere que el residuo sea identica e independientemente distribuida, no requiere que las variables explicativas sean distribuidas de forma normal. Si no
como explicaramos el uso de variables dummys en nuestras regresiones.
use elemapi2,clear
regress api00 meals ell emer
predict r, resid
An
alisis grafico de normalidad
kdensity r, normal
pnorm r
qnorm r
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
63
Test de Normalidad
Test de Lawrence C. Hamilton
findit iqr
iqr r
Test de Shapiro-Wilk W (Ho: Normalidad)
swilk r
4.4.
www.giddea.com
administracion@giddea.com
64
4. An
alisis de Regresi
on Lineal
estat hettest
El analisis grafico no nos muestra un problema serio de heterocedasticidad.
As que no lo corregiremos por ahora.
4.5.
Multicolinealidad
4.6.
Linealidad
Uno de los supuestos del Modelo Lineal General es la linealidad de parametros especificada en mi regresion. Si estamos frente a un ajuste no lineal,
entonces nosotros tendremos problemas dado que estamos forzando una lnea
como ajuste de nuestra relacion no lineal.
Analicemos solo a una variable.
regress api00 enroll
twoway (scatter api00 enroll) (lfit api00 enroll) (lowess api00 enroll)
regress
predict
scatter
scatter
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
4.7. Especificaci
on del modelo
65
4.7.
Especificaci
on del modelo
www.giddea.com
administracion@giddea.com
66
4. An
alisis de Regresi
on Lineal
que sean significativas. El comando crea 2 variables nuevas, una variable estimada, y el cuadrado de dicha estimacion. Se eval
ua el modelo con ambas
variables, la estimacion y hat debera ser significativa pues es el valor estimado, pero su cuadrado no debera serlo, pues de estar bien especificado el
modelo, la estimacion al cuadrado no debera tener mucho poder explicativo.
Linktest
Ovtest
regress api00 acs_k3 full
linktest
ovtest
regress api00
linktest
ovtest
4.8.
Independencia
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
4.8. Independencia
67
RETO 4
. Trabajar con el archivo gobusa5089.dta y contestar las siguientes preguntas:
Identificar las variables y opinar respecto a cada variable, realizar
un analisis grafico y estadstico para comprender la base de datos?.
Identificar las variables de poltica y las variables apolticas?
Elaborar una tabla de correlaciones entre la variable tax y las variables
polticas y comentar los resultados sobresalientes?.
Responder a lo siguiente: Quienes cobran mas impuestos, los estados con gobiernos divididos o los estados con gobiernos unificados?,
que tan seguro estas de su respuesta?.
Marco teorico mnimo. Existen varias teoras respecto del impacto de los
factores polticos y economicos sobre la poltica tributaria en cada estado:
Las teoras apolticas dicen que las variables socioeconomicas y demograficos (ingreso, poblacion, grupos de edad) son los principales determinantes de los impuestos.
Entre las teoras polticas, algunos dicen que los factores polticos partidistas (partido en el gobierno y/o congreso local, mayora democrata
en el congreso o no, etc.) tambien son importantes.
Mientras que otros dicen que son las variables polticas no-partidistas
(gobierno dividido, margen de la primera fuerza en el congreso local,
etc.) las que afectan los impuestos, y no tanto la ideologa o identidad
del partido en el poder (democrata vs. republicano).
Especifica al menos tres regresiones (con errores estandar robustos) para la
variable tax y compara sus resultados. Interpreta brevemente los coeficientes, su bondad de ajuste, etc. y explica cual de ellos es preferible a los otros.
(Tip: no incluyas la variable spend en tu regresion).
Pruebas de hip
otesis
Controlando por otros factores, la relacion entre poblacion e impuestos
es no lineal.
Controlando por otros factores, los gobernadores democratas cobran
mas impuestos que los no democratas.
Manteniendo otros factores constantes, los estados con mayora democrata en el congreso local cobran mas impuestos que los gobiernos sin
mayora democrata.
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
68
4. An
alisis de Regresi
on Lineal
Manteniendo otros factores constantes, los gobiernos divididos cobran
menos impuestos que los gobiernos no divididos.
El impacto del gobierno dividido cambia si solo consideramos el perodo
1975-1989 en la regresion.
Manteniendo otros factores constantes, una vez que controlamos por
quien tiene la mayora en el congreso (demmaj1), el margen de esta
mayora (dem1) no tiene un impacto en los impuestos.
Interpretando regresiones:
Cual es la bondad de ajuste de un modelo sin variables polticas? Cuanto
poder explicativo adicional se consigue al incluir las variables polticas?
Que variables polticas importan mas, las partidistas o las no partidistas?
(ojo, esta pregunta requiere cierta interpretacion de la R2 ajustada de varios
modelos, as como la magnitud y significancia de tus coeficientes).
Predicciones:
Cuanto cambian los impuestos per capita si el ingreso per capita aumenta en
una desviacion estandar? Calcula este cambio en dolares y como proporcion
de los impuestos promedio de la muestra.
Cuanto cambian los impuestos cuando la mayora democrata en el congreso
local pasa de 10 a 30 %? Calcula este cambio en dolares y como proporcion
de los impuestos promedio de la muestra.
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
Sesi
on 5
Variables Categ
oricas
5.1.
Estimaci
on con Variables Categ
oricas
mealcat
70
5. Variables Categ
oricas
Pero esta variable mealcat es una variable intervalo, podramos generar tres
variables a partir de esta, de tal forma que podamos definir a cada sub variable
como un valor cada vez que mealcat pertenezca a cierto intervalo.
tabulate mealcat, gen(mealcat)
list mealcat mealcat1 mealcat2 mealcat3 in 1/10, nolabel
regress api00 mealcat2 mealcat3
La constante es la media para el grupo1. El coeficiente de mealcat2 es la
media del grupo 2 menos la media del grupo1, y el coeficiente de mealcat3 es
la media del grupo3 menos la media del grupo1.
Los resultados nos dicen que los tres grupos difieren de sus medidas de
rendimientos.
test mealcat2 mealcat3
tabulate mealcat, summarize(api00)
5.2.
El Comando Xi
www.giddea.com
administracion@giddea.com
5.2. El Comando Xi
71
www.giddea.com
administracion@giddea.com
72
5. Variables Categ
oricas
5.3.
Pruebas de Hip
otesis
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
73
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
74
5. Variables Categ
oricas
www.giddea.com
administracion@giddea.com
5.4. Creaci
on de Variables Dummys
75
5.4.
Creaci
on de Variables Dummys
5.5.
Bucles y Programas
El uso de bucles en Stata o Eviews, no es muy usual, dado que estos programas implementan una plataforma orientada al usuario en lugar de a un
programador.
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
76
5. Variables Categ
oricas
input famid
1 3281 3413
2 4042 3084
3 6015 6123
end
inc1-inc12
3114 2500 2700 3500 3114 3319 3514 1282 2434 2818
3108 3150 3800 3100 1531 2914 3819 4124 4274 4471
6113 6100 6100 6200 6186 6132 3123 4231 6039 6215
taxinc1 =
taxinc2 =
taxinc3 =
taxinc4 =
taxinc5 =
taxinc6 =
taxinc7 =
taxinc8 =
taxinc9 =
taxinc10=
taxinc11=
taxinc12=
inc1 * .10
inc2 * .10
inc3 * .10
inc4 * .10
inc5 * .10
inc6 * .10
inc7 * .10
inc8 * .10
inc9 * .10
inc10 * .10
inc11 * .10
inc12 * .10
incqtr1
incqtr2
incqtr3
incqtr4
=
=
=
=
inc1 +
inc4 +
inc7 +
inc10+
inc2 +
inc5 +
inc8 +
inc11+
inc3
inc6
inc9
inc12
www.giddea.com
administracion@giddea.com
77
Ejemplo:
Stata B
asico
Aplicado a la Investigaci
on Econ
omica
www.giddea.com
administracion@giddea.com
78
5. Variables Categ
oricas
local i=1
while i <=10 {
display i
local i=i+1
}
Stata provee de la especificacion de programas que el usuario bien podria
crear. Crearemos un programa basico, HOLA MUNDO
program define Super
display "HOLA MUNDO"
end
Si deseamos crear otro programa con el mismo nombre, Stata nos mostrara
un mensaje de error diciendonos que existe un programa con ese nombre por
lo que debemos eliminarlo primero:
program drop Super
y ahora si podemos correr el programa.
Stata B
asico
Aplicado a la Investigaci
on Economica
www.giddea.com
administracion@giddea.com
Bibliografa
[1] Moya, Rufino - Estadstica Descriptiva.
[2] Moya, Rufino; Saravia, Gregorio. -Probabilidad e Inferencia Estadstica.
[3] Wooldridge, Jeffrey M. - Introduccion a la Econometra.
[4] Gujarati, Damodar - Fundamentos de Econometra
79