Professional Documents
Culture Documents
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262897328
CITATIONS READS
0 3,805
3 authors, including:
All content following this page was uploaded by Cindy Carolina Lugo Rozo on 06 June 2014.
Resumen:
Palabras Clave:
JEL:
Abstract:
The use of econometric software in the last decade have transcended for
professionals as a useful tool for statistical analysis and economic, as well,
tasks that took hours are worked in seconds and the professional in their
discipline can issue further analysis quickly and a clear vision of what happens
to the data that works. This document is intended to guide the management of
SAS software (Statistic Analysis Software) in both the technical and on the
applicative.
Keywords:
2
INV- Software de Anlisis Estadstico SAS /2013-I
Estudiantes Auxiliares:
3
INV- Software de Anlisis Estadstico SAS /2013-I
1. Contenido
2. Introduccin............................................................................................................... 6
2.1. Caractersticas generales del software .............................................................. 6
2.1.1. Requerimientos del sistema para Linux(Official Page, Statistical Analysis
Software SAS, 2013) .................................................................................................. 6
2.1.2. Requerimientos del sistema para Windows(Official Page, Statistical
Analysis Software SAS, 2013) ................................................................................... 6
2.1.3. Comparacin del software con otros software estadsticos ........................ 7
2.1.4. Listado de funciones del programa SAS(Universidad Complutense de
Madrid, 2013) ............................................................................................................ 7
2.1.5. Aplicabilidad de SAS ................................................................................... 8
2.2. Lenguaje de programacin ................................................................................. 8
2.2.1. Acerca del lenguaje de programacin(N/A, 2013) ....................................... 8
2.2.2. Uso del software segn la pgina oficial de SAS(Official Page, Statistical
Analysis Software, 2013) ........................................................................................... 8
2.3. Manual SAS ....................................................................................................... 9
2.3.1. Crear una librera ....................................................................................... 9
2.3.2. Leer data sets de SAS ............................................................................... 13
2.3.3. Leer archivos de bases de datos para pc ................................................... 15
2.3.4. Presentar programas de sas para hosts remotos...................................... 18
2.3.5. Crear y definir variables ........................................................................... 21
2.3.6. Usar declaraciones condicionales ............................................................. 21
2.3.7. Subconjunto de datos ................................................................................ 22
2.3.8. Trabajo con Fechas y Horas de SAS ......................................................... 23
2.3.9. Impresin de Datos ................................................................................... 24
2.3.10. Conteo de datos ...................................................................................... 24
2.3.11. Tabular datos ......................................................................................... 25
2.3.12. Consulta de datos .................................................................................. 26
2.3.13. Unir tablas ............................................................................................. 27
2.3.14. Crear grficos......................................................................................... 28
2.3.15. Crear grficos (2) ................................................................................... 29
4
INV- Software de Anlisis Estadstico SAS /2013-I
5
INV- Software de Anlisis Estadstico SAS /2013-I
2. Introduccin
La empresa SAS crea el Statistical Analysis Software (SAS) principalmente como un mtodo
para la organizacin y control de grandes bases de datos. SAS fue diseado de manera tal que
respondiera a una recoleccin, transformacin, anlisis y reporte de datos; de manera adecuada
y eficiente para la organizacin que disponga del software. Sin embargo, pronto el software
comenz a formarse como uno de los paquetes economtricos ms poderosos del mercado.
Adems, el software puede generar muchas soluciones de negocio que permiten soluciones de
software a gran escala para reas como administracin, gestin de recursos humanos, gestin
financiera, inteligencia de negocios y ms. La ltima versin de SAS fue SAS 9.3 y sali al
mercado en diciembre de 2011.
64 Mb de memoria
6
INV- Software de Anlisis Estadstico SAS /2013-I
Intel Pentium II
Memoria de 256 Mb
Acceso a internet
http://en.wikipedia.org/wiki/Comparison_of_statistical_packages
7
INV- Software de Anlisis Estadstico SAS /2013-I
El lenguaje de programacin que utiliza SAS fue diseado por el mismo SAS. Su
sintaxis est inspirada en la de PL/I (lenguaje propuesto por IBM en 1970), este
opera en primera instancia sobre tablas de datos. Estas tablas de datos las puede
leer, transformarlas, combinarlas, resumirlas, crear informes, entre otras cosas. El
ncleo del lenguaje incluye Pasos data que permiten realizar operaciones sobre las
filas de un conjunto de datos, procedimientos de manipulacin de datos que
permiten ordenar tablas, enlazarlas, etc., un intrprete de SQL, un superlenguaje
de macros.
2.2.2. Uso del software segn la pgina oficial de SAS(Official Page, Statistical
Analysis Software, 2013)
8
INV- Software de Anlisis Estadstico SAS /2013-I
Como mtodo de autoexploracin del software SAS se estableci que a partir del
software y su respectivo manual, se iran encontrando las diferentes funciones del
programa y con base en estas se realizara la estructura del curso de acuerdo a los
diferentes tems encontrados y a la experiencia en la unidad sobre estos tipos de
software y el mejor procedimiento para dictar un curso libre. A continuacin se
presenta la primera parte del manual de SAS con los siguientes tems:
Antes de iniciar con SAS file, generalmente se debe definir primero una librera de
SAS, esto con el fin de mostrarle a SAS donde se encuentra el archivo. Usted ha
creado ya una biblioteca SAS interactivamente mediante la ventana de la nueva
biblioteca. Otra forma de definir una biblioteca SAS es utilizando una instruccin
LIBNAME. Esta declaracin LIBNAME permite 4 cosas:
9
INV- Software de Anlisis Estadstico SAS /2013-I
libref.filename
10
INV- Software de Anlisis Estadstico SAS /2013-I
EJEMPLO 1
Suponga que usted quiere definir una librera SAS para referenciar una carpeta en el
entorno operativo de Windows que contiene algunos SAS data sets. Luego usted
quiere crear un nuevo data set, imprimirlo e imprimir un data set existente en la
misma librera. El siguiente programa define la librera Sales y referencia los
archivos SAS con esta librera.
Usted puede copiar y enviar este programa en SAS. Sin embargo, es necesario
editar el directorio en el estado LIBNAME (est en rojo) para referenciar un directorio
existente en su entorno operativo.
/*************************************/
/* define SAS library */
/*************************************/
libname sales 'c:\salesdata\sas\2002';
/*************************************/
/* create new data set from raw data */
/*************************************/
data sales.quarter1;
length Department $ 7 Site $ 8;
input Department Site Quarter Sales;
datalines;
Parts Sydney 1 4043.97
Parts Atlanta 1 6225.26
Parts Paris 1 3543.97
Repairs Sydney 1 5592.82
Repairs Atlanta 1 9210.21
Repairs Paris 1 8591.98
Tools Sydney 1 1775.74
Tools Atlanta 1 2424.19
Tools Paris 1 5914.25
;
run;
/*************************************/
/* print new data set */
/*************************************/
proc print data=sales.quarter1;
run;
/*************************************/
/* print existing data set */
/*************************************/
proc print data=mylib.productsales;
run;
11
INV- Software de Anlisis Estadstico SAS /2013-I
EJEMPLO 2
Ahora suponga que usted quiere imprimir tambin una tabla Oracle y una tabla DB2.
El siguiente programa muestra cmo puede especificar declaraciones LIBNAME con
los motores de SAS/ACESS y opciones apropiadas. Despus de asignar un libref a
DBMS, es posible referenciar estas tablas y vistas como SAS data sets, usando los
nombres estndar two-level SAS.
Mientras usted pueda definir cualquier nmero de librefs in SAS, usted puede
procesar datos desde mltiples recursos DBMS en el mismo programa de SAS.
Debido a que esta es una gua rpida para principiantes, no es posible copiar y correr
este programa como se muestra. Sin embargo es posible modificarlo para trabajar con
tablas DBMS que usted pueda acceder.
/*************************************/
/* define SAS library for Oracle */
/*************************************/
libname myorlib oracle user=scott password=tiger
path="blunzer:v7" schema=hrdept;
/*************************************/
/* define SAS library for DB2 */
/*************************************/
libname mydblib db2
noprompt="user=testuser;
password=testpass;database=testdb";
/*************************************/
/* print Oracle table */
/*************************************/
proc print data=myorlib.all_employees;
where state='CA';
run;
/*************************************/
/* print DB2 table */
/*************************************/
proc print data=mydblib.customers;
where state='CA';
run;
/*************************************/
/* clear librefs */
/*************************************/
libname myorlib clear;
libname mydblib clear;
12
INV- Software de Anlisis Estadstico SAS /2013-I
REFERENCIAS
Tal vez quiera crear un nuevo data set desde un data set existente. En Create an run
SAS programas, haya visto ejemplos de DATA step que lee existiendo data sets usando
una declaracin SET. Leyendo un data set en un DATA step es ms simple que leyendo
los datos en bruto debido a que el trabajo de describir y convertir los datos ya se han
hecho.
Ahora, cuando usted usa un data sets existente o subsets creados desde SAS data sets,
usted puede hacer ms eficiente el uso de los recursos del computador que si usara los
datos en bruto (raw data) o si est trabajando con data sets largos. Leer menos
variables significa que SAS crea un program data vector ms pequeo, y leyendo menos
observaciones significa que existen menos iteraciones para el DATA step que se crean.
Usted puede leer desde uno o ms data set, combinar y modificar datos en diferentes
maneras, por ejemplo usted puede:
En el caso ms simple usted lee datos desde un solo SAS data set:
13
INV- Software de Anlisis Estadstico SAS /2013-I
Como las principales herramientas para leer, combinar y modificar data sets, usted
puede usar cuatro declaraciones: SET, MERGE, MODIFICY y UPDATE. Para procesar
los datos y crear un data set de salida, puede usar una programacin adicional de
declaraciones SAS en el paso DATA.
EJEMPLO
Cuando usted lee data sets de SAS, el gran poder del paso de programacin DATA est
disponible para usted. Los siguientes ejemplos muestran algunos caminos fciles para
usar la declaracin SET para leer una existente data set.
/*************************************/
/* read a data set and subset */
/*************************************/
data canada;
set mylib.productsales;
if country='CANADA';
run;
/*************************************/
/* read a data set, subset, and */
/* create new variables */
/*************************************/
14
INV- Software de Anlisis Estadstico SAS /2013-I
data canada2;
set mylib.productsales;
if country='CANADA';
Total_Variance=actual-predict;
Forecast=actual*1.15;
run;
/*************************************/
/* read a subset using direct access */
/*************************************/
data product_sample;
do obsnum=1 to 100 by 2;
set mylib.productsales point=obsnum;
if _error_ then abort;
output;
end;
stop;
run;
REFERENCIAS
Preguntas en working with SAS data sets en SAS Technical Support's Frequently
Asked Questions
Ejemplos de programas
15
INV- Software de Anlisis Estadstico SAS /2013-I
Si usted tiene un archivo de base de datos ya sea en hojas de clculo de Microsoft Excel,
Lotus o archivos de Microsoft Access, puede usar SAS para importar estos archivos y
crear data sets de SAS. Una vez haya obtenido el archivo en SAS, es posible procesarlos
como usted lo necesite en SAS. Tambin es posible exportar archivos de SAS a un
nmero de formatos diferentes para PC.
Para leer bases de datos de PC, puede usar el procedimiento IMPORT. PROC IMPORT
lee el archivo de entrada y los convierte a un data set de SAS, con las variables SAS
definidas en base a los registros de entrada. Usted puede controlar los resultados con
opciones y declaraciones que estn especificadas en el recurso de entrada de datos
(input data).
PROC IMPORT slo est disponible en Windows, OS/2, OpenVMS, and UNIX
Usted debe tener la interfaz SAS/ACCESS para archivos de PC licenciados para leer
archivos de datos de la PC. Sin embargo, an sin la interfaz SAS/ACCESS para
archivos de PC puede importar y exportar archivos externos limitados (archivos que
contienen columnas de valores de datos que estn separados por un delimitador como
un espacio en blanco o una coma).
Usted puede ver y salvar el cdigo PROC IMPORT que el Import Wizard genera
EJEMPLO
Suponga que usted quiere importar 2 archivos, a ua hoja de clculo de Microsoft Excel y
a una tabla de Access. El siguiente programa le muestra cmo leer datos usando
opciones especficas para el archivo dado, crea data sets e imprime el nuevo data sets.
Debido a que esta es una gua rpida para principiantes, no es posible copiar y correr
este programa como se muestra. Sin embargo usted puede modificarlo para trabajar con
bases de datos de PC a las que pueda acceder.
/*************************************/
/* import the Excel file */
/*************************************/
proc import datafile="c:\myfiles\Accounts.xls"
out=sasuser.accounts sheet="Prices";
getnames=no;
run;
/*************************************/
16
INV- Software de Anlisis Estadstico SAS /2013-I
Mire estos recursos online para aprender ms a cerca de como leer bases de datos de
PC.
Ejemplos de programas
17
INV- Software de Anlisis Estadstico SAS /2013-I
18
INV- Software de Anlisis Estadstico SAS /2013-I
EJEMPLO
Suponga que usted quiere llevar a cabo algn tipo de procesamiento en un host remoto,
descargue lo resultante del data set, cree un data set permanente en el host local, e
imprima un reporte sobre el host local. El siguiente ejemplo ilustra cmo poner todas
estas caractersticas en un solo programa.
Debido a que esta es una gua rpida para principiantes, no es posible copiar y correr
este programa como se muestra. Sin embargo usted puede modificarlo para trabajar con
archivos remotos a los cuales pueda acceder
/*************************************/
/* prepare to sign on */
/*************************************/
options comamid=netbios remote=netpc;
libname lhost 'c:\sales\reg1';
/*************************************/
/* sign on and download data set */
/*************************************/
signon;
rsubmit;
libname rhost 'd:\dept12';
proc sort data=rhost.master
out=rhost.sales;
where gross > 5000;
by lastname dept;
run;
proc download data=rhost.sales
out=lhost.sales;
run;
endrsubmit;
/*************************************/
/* print data set in local session */
/*************************************/
proc print data=lhost.sales;
run;
REFERENCIAS
Vea estor recursos online para aprender ms acerca de cmo presentar programas
remotos de SAS
19
INV- Software de Anlisis Estadstico SAS /2013-I
Ejemplos de programas
programas en SAS help:
20
INV- Software de Anlisis Estadstico SAS /2013-I
A menudo, cuando usted trabaja con data sets, es muy til crear nuevas variables o
variables que estn basadas en los valores de otras variables existentes. Estas nuevas
variables pueden contener los resultados de las funciones de SAS, valores
condicionalmente asignados, o valores totales de valores de otra variable.
Usted puede crear variables en un paso DATA mediante las siguientes maneras:
Cuando usted crea variables usando declaraciones asignada, usted puede tomar
ventaja de SAS functions y SAS expressions.
En los pasos DATA de los programas, usted probablemente querr usar lgica
condicional para procesar algunas observaciones pero otras no.
21
INV- Software de Anlisis Estadstico SAS /2013-I
Para ejecutar una declaracin SAS para observaciones que cumplan condiciones
especificas, usted puede usar:
A menudo usted necesita trabajar slo con subconjuntos de un data set de SAS. Por lo
que necesita seleccionar observaciones, variables o inclusive ambas.
22
INV- Software de Anlisis Estadstico SAS /2013-I
EN los pasos PROC, las declaraciones WHERE son la herramienta ms comn para
seleccionar observaciones que cumplan una condicin especfica.
SAS almacena las fechas y horas como nmeros nicos, exclusivos para que pueda
utilizarlas en programas como cualquier otra variable numrica:
Un SAS date value es un valor que representa el nmero de das entre enero 1 de
1960 y una fecha especificada. SAS puede realizar clculos con fechas que van desde
el ao 1582 a 19.900 AD. Fechas antes de Enero 1 de 1960, son nmeros negativos,
despus de las fechas son nmeros positivos.
Un SAS datetime value es un valor que representa el nmero de segundos entre enero
1 de 1960 y una hora / minuto / segundo dentro de un plazo determinado.
23
INV- Software de Anlisis Estadstico SAS /2013-I
Para trabajar con valores date, time y datetime usted puede utilizar las siguientes
herramientas:
Formats presenta un valor reconocido por SAS, tal como un valor time o date,
como un dato del calendario o un tiempo de reloj de varias longitudes.
Para listar la informacin en un data set, usted puede crear un reporte usando el
procedimiento PRINT. Luego, usted puede mejorar el reporte con declaraciones
adicionales y opciones para crear reportes como se muestra ms abajo. Usted puede
crear una variedad de reportes que van desde una simple lista a un gran reporte de
datos completamente personalizado adems de clculos totales y subtotales de una
variable numrica.
Metodo Point-and-Click
Si usted tiene licensia de SAS/STAT, usted puede crear listas de reportes usando una
interfaz point-and-click.
Usted puede ver y guardar el cdigo PROC PRINT que genera Analyst.
Cuando usted analiza sus datos, es posible que usted necesite determinar qu valores
de una variable estn distribuidos a travs de los datos. Para ello, usted puede crear
tablas de frecuencia, la cual muestra la distribucin de los valores de la variable,
tanto con los porcentajes de un total como el conteo de data.
24
INV- Software de Anlisis Estadstico SAS /2013-I
Esta tarea estar enfocada en usar PROC FREQ para realizar anlisis bsicos de
datos.
Mtodo de Point-and-Click
Si usted tiene licencia de SAS/STAT, usted puede crear tablas de frecuencias usando
una interfaz point-and-click.
Usted puede ver y salvar el cdigo PROC FREQ que genera Analyst.
25
INV- Software de Anlisis Estadstico SAS /2013-I
PROC TABULATE calcula muchas de las mismas estadsticas que son calculadas por
otros procedimientos estadsticos descriptivos tales como MEANS, FREQ, y REPORT
Mtodo de Click-and-Point
Si usted tiene licencia de SAS/STAT, usted puede crear reportes tabulares usando una
interfaz point-and-click.
Usted puede ver y salvar el cdigo PROC TABULATE que genera Analyst.
26
INV- Software de Anlisis Estadstico SAS /2013-I
Usted puede usar elementos del lenguaje SAS como declaraciones globales, opciones
del data set, funciones, y formatos con PROC SQL slo si usted puede con otros
procedimientos SAS. De todas maneras, ya que PROC AQL implementa Lenguaje de
consulta estructurado, funciona de forma diferente a otros procedimientos BASE SAS.
Esta tarea se enfoca en recuperar datos desde una sola tabla (data set).
Mtodo de Point-and-Click
Usted puede ver y salvar el cdigo PROC SQL que la ventana de Consulta SQL
genera
Mtodo Point-and-Click
Usted puede ver y salvar el cdigo PROC SQL que la ventana SQL Query genera
Si usted ley CONSULTA DE DATOS, usted observ maneras para consultar una
sola tabla usando PROC SQL. Sin embargo, usted necesita datos a menudo desde
tablas separadas. Cuando usted especifica mltiples tablas, vistas, o expresiones de
consulta en la clausula FROM, PROC SQL, las procesa para formar una tabla. La
tabla resultante contiene datos de cada una de las tablas contribuyentes. Estas
consultas se les llaman como JOINS.
Conceptualmente, cuando usted especifica dos tablas, PROC SQL compara cada fila
de la tabla A con todas las filas de la tabla B para producir una tabla interna o
intermedia conocida como el CARTESIAN PRODUCT. El producto cartesiano
(CARTESIAN PRODUCT) de tablas largas puede ser enrome, por lo que usted quiere
enviar datos declarando el tipo de unin. A continuacin se muestran dos tipos de
uniones.
27
INV- Software de Anlisis Estadstico SAS /2013-I
Inner joins retorna una tabla resultante por todas las filas en una tabla que
tiene una o mas filas que coincidan en la otra tabla o las otras tablas.
Outer Joins son inner joins que son aumentadas con filas que no
coinciden con cualquier fila de la otra tabla en la unin. ExistenEst 3
tipos de outer joins: left, right, and full.
Una manera efectiva para examinar las relaciones entre variables es graficando sus
valores. Para producir grficos nicos o superpuestos, usted puede usar:
En adicin, usted puede crear una salida PROC GPLOT usando el SAS/GRAPH
Control for ActiveX, el cual que le permite incrustar grficos interactivos en pginas
web y documentos OLE.
La sintaxis para los dos procedimientos es muy similar, aunque PROC GPLOT ofrece
un nmero adicional de funciones de formato. Esta tarea le muestra ambos caminos
para crear varios tipos de grficos.
Usted debe tener la licencia de SAS/GRAPH para crear grficos usando PROC
GPLOT.
28
INV- Software de Anlisis Estadstico SAS /2013-I
Mtodo de Point-and-Click
Usted puede ver y salvar el cdigo de PROC GPLOT que genera Graph-N-Go
Usted puede ver y salvar el cdigo PROC GPLOT que Analyst genera
Estos tipos de graficos muestran valores de una variable estadstica asociada con
sus valores. La variable graficada puede ser numerada o caracterizada.
29
INV- Software de Anlisis Estadstico SAS /2013-I
PROC CHART es una buena herramienta para visualizar datos rpidamente, pero si
usted necesita producir grficos de presentacin con calidad que incluyan varios
colores y fuentes, usted puede usar el software SAS/GRAPH. El procedimiento
GCHART en SAS/GRAPH produce los mismos tipos de grficos que PROC CHART
hace, As como un grfico de dona. En adicin, usted puede crear salidas PROC
GCHART usando el SAS/GRAPH Control for ActiveX, el cual lo conecta con grficos
interactivos en pginas web y documentos OLE.
Como usted puede ver, la sintaxis para PROC CHART y PROC GCHART es muy
similar. Esta tarea le muestra ambos caminos para crear varios tipos de grficos.
Usted debe tener la licencia de SAS/GRAPH para crear grficos usando PROC
GCHART.
Mtodo de Click-and-Point
Si usted tiene licenciado SAS/GRAPH, usted puede crear grficos de presentacin con
calidad usando una interfaz point-and-click.
Usted puede ver y salvar el cdigo PROC GCHART que genera Graph-N-Gos.
30
INV- Software de Anlisis Estadstico SAS /2013-I
Usted puede ver y salvar el cdigo PROC GCHART que genera Analyst.
Siguiendo lo estipulado, se continu con el mtodo de autoexploracin del software SAS. Ya que
en este punto ya no era muy til seguir el manual de SAS (que es bastante extenso) se decidi
proseguir con regresiones simples, mltiples y series de tiempo. Con respecto a series de
tiempo, aun no se ha completado la revisin de literatura puesto que es muy extensa e inclusive
posee ms de un captulo dedicado a esto. A continuacin se encuentra lo referente a Regresin
(Declaracin REG) y lo encontrado de series de tiempo (Declaracin ARIMA
Considere una variable respuesta Y que puede ser predicha por una funcin polinomial
de una variable regresiva X. Usted puede estimarB0, el intercepto B1, la pendiente
debida a X y X2, la pendiente debida a X2 en:
dataUSPopulation;
inputPopulation @@;
retainYear 1780;
Year = Year+10;
YearSq = Year*Year;
Population = Population/1000;
datalines;
3929 5308 7239 9638 12866 17069 23191 31443 39818 50155
62947 75994 91972 105710 122775 131669 151325 179323 203211
226542 248710 281422
;
ods graphics on;
procreg data=USPopulation plots=ResidualByPredicted;
varYearSq;
model Population=Year / r clm cli;
run;
31
INV- Software de Anlisis Estadstico SAS /2013-I
32
INV- Software de Anlisis Estadstico SAS /2013-I
33
INV- Software de Anlisis Estadstico SAS /2013-I
34
INV- Software de Anlisis Estadstico SAS /2013-I
35
INV- Software de Anlisis Estadstico SAS /2013-I
2.3.17. ARIMA
Introduccin
ARIMA es referenciado normalmente como modelos BOX and Jenkins
36
INV- Software de Anlisis Estadstico SAS /2013-I
Estas tres etapas son explicadas e ilustradas a travs de un ejemplo extendido en las
siguientes secciones.
ETAPA DE IDENTIFICACIN
Suponga que usted tiene una variable llamada SALES que quiere pronosticar. El
siguiente ejemplo ilustra el modelamiento ARIMA y su pronosticacin utilizando un
data set simulado TEST que contiene una serie de tiempo SALES generada por el
modelo ARIMA (1,1,1). La salida produce este ejemplo que est explicado en las
prximas secciones. A continuacin se muestra las series de SALES en la figura.
procsgplot data=test;
scatter y=sales x=date;
run;
Primero debe especificar el data set de entrada en la declaracin PROC ARIMA. Luego
debe usar una declaracin IDENTIFY para leer y analizar en las series SALES las
propiedades de correlacin. Para hacer esto se utilizan las siguientes declaraciones.
37
INV- Software de Anlisis Estadstico SAS /2013-I
procarima data=test ;
identifyvar=sales nlag=24;
run;
Estadstica Descriptiva
La declaracin IDENTIFY primero imprime estadsticas descriptivas para las series
SALES. Esta parte de la declaracin IDENTIFY muestra lo siguiente:
38
INV- Software de Anlisis Estadstico SAS /2013-I
La opcin NLAG= controla el numero de lags para los que se muestran las auto-
correlaciones. Por defecto, las funciones de auto-correlacin son graficadas para lag 24.
Para examinar estos grficos, usted puede determinar si las series son estacionarias o
no estacionarias. En este caso una inspeccin visual del grfico de la funcin de auto-
correlacin indica que las series SALES no es estacionaria, desde que ACF decae muy
despacio. Para un test ms formal, use la opcin STATIONARITY= (pgina 207).
Desde que las series no son estacionarias, el siguiente paso es transformarlas a unas
series estacionarias por diferenciacin. Esto quiere decir que en lugar de modelar la
serie SALES a s mismo, se modela el cambio en SALES desde un periodo al siguiente.
Para diferenciar las series SALES, use otra declaracin IDENTIFY y especifique que la
primera diferencia de SALES sea analizada, como se muestra en las siguientes
declaraciones:
procarima data=test;
identifyvar=sales(1);
run;
39
INV- Software de Anlisis Estadstico SAS /2013-I
40
INV- Software de Anlisis Estadstico SAS /2013-I
EJEMPLOS DE ARIMA
Este ejemplo ilustra los resultados de un procedimiento ARIMA para un caso donde los
modelos reales son conocidos. UN modelo de promedio mvil integrado se utiliza para
esta ilustracin.
Los siguientes DATA step generan una muestra pseudo-aleatoria de 100 periodos del
procedimiento ARIMA(0.1.1); :
41
INV- Software de Anlisis Estadstico SAS /2013-I
42
INV- Software de Anlisis Estadstico SAS /2013-I
La declaracin ESTIMATE ajusta un modelo ARIMA (0,1,1) a los datos simulados. Note
que en este caso, el parmetro estimado es razonablemente cercano a los valores usados
para generar la base de datos simulada.
. El grfico de anlisis de los residuos no muestra un modelo inadecuado (son los
correspondientes a lo seguido de lo que aparece a continuacin).
43
INV- Software de Anlisis Estadstico SAS /2013-I
Los modelos de datos panel pueden ser agrupados en diferentes categoras dependiendo
de la estructura del trmino de error. El procedimiento PANEL utiliza las siguientes
estructuras de error y los mtodos correspondientes para analizar datos:
Los modelos son referidos como Modelos de efectos fijos si los efectos no son aleatorios o
modelos de efectos aleatorios si son lo contrario.
Si los efectos son fijos, los modelos son esencialmente modelos de regresiones con
variables Dummy que corresponden a los efectos especficos. Para modelos de efectos
aleatorios, la estimacin por mnimos cuadrados ordinarios es el mejor estimador lineal
(OLS). Los modelos EA (efectos aleatorios) usan un enfoque de dos etapas. En la
primera etapa, los componentes de varianza son calculados usando mtodos descritos
por Fuller y Batteste (1974), Wansbeek and Kapteyn (1984), Wallace and Hussain
(1969), or Nerlove (1971). En la segunda etapa los componentes de varianza son usados
para estandarizar los datos, y se realiza una regresin de mnimos cuadrados ordinarios
(OLS).
Dos tipos de modelos en el procedimiento PANEL se acomodan en una estructura auto-
regresiva: El mtodo Parks estima un modelo auto-regresivo de primer orden con
correlaciones contemporneas, y el estimador panel dinmico estima un modelo auto-
regresivo con variables dependientes retrasadas.
El mtodo Da Silva estima un proceso de error de media mvil de la varianza del
componente mixto. Los parmetros de regresin son estimados usando un estimador de
ltimos cuadrados de dos pasos genralizados (GLS)
En este ejemplo, las ecuaciones para bienes lquidos son estimadas. La funcin de
demanda para los depsitos de demanda es estimada bajo tres estructuras de error
44
INV- Software de Anlisis Estadstico SAS /2013-I
mientras las ecuaciones de demanda para los depsitos de tiempo y acciones de ahorro y
prstamo (S&L) se calculan utilizando el mtodo de Parks. El data para siete estados
(CA, DC, FL, IL, NY, TX, Y WA) son seleccionados de 49 estados. Busque Feige (1964)
para la descripcin de los datos. Todas las variables son transformadas por un
logaritmo natural. El data set A se muestra acontinuacin:
data a;
length state $ 2;
input state $ year d t s y rd rt rs;
label d = 'Per Capita Demand Deposits'
t = 'Per Capita Time Deposits'
s = 'Per Capita S & L Association Shares'
y = 'Permanent Per Capita Personal Income'
rd = 'Service Charge on Demand Deposits'
rt = 'Interest on Time Deposits'
rs = 'Interest on S & L Association Shares';
datalines;
CA 1949 6.2785 6.1924 4.4998 7.2056 -1.0700 0.1080 1.0664
CA 1950 6.4019 6.2106 4.6821 7.2889 -1.0106 0.1501 1.0767
CA 1951 6.5058 6.2729 4.8598 7.3827 -1.0024 0.4008 1.1291
CA 1952 6.4785 6.2729 5.0039 7.4000 -0.9970 0.4492 1.1227
CA 1953 6.4118 6.2538 5.1761 7.4200 -0.8916 0.4662 1.2110
CA 1954 6.4520 6.2971 5.3613 7.4478 -0.6951 0.4756 1.1924
DC 1949 6.6587 6.1879 4.4893 7.1570 -0.9999 0.4545 1.1234
DC 1950 6.6666 6.5555 4.9999 7.2222 -1.0000 0.4897 1.0054
DC 1951 6.5058 6.2729 4.8598 7.3827 -1.0024 0.4008 1.1291
DC 1952 6.4785 6.2729 5.0039 7.4000 -0.9970 0.4492 1.1227
DC 1953 6.4118 6.2538 5.1761 7.4200 -0.8916 0.4662 1.2110
DC 1954 6.4520 6.2971 5.3613 7.4478 -0.6951 0.4756 1.1924
Los ltimos datos me los invent para qu la simulacin corriera
Las elasticidades de ingreso de los activos liquidos son mejores que 1 excepto para el
depsito de la elasticidad de ingreso de la demanda (0,692757) estimada por el mtodo
Da Silva. En las tres primeras salidas, el coeficiente estimado (-0.29094, -0.43591 y -
0.27736) del depsito de demanda (RD) implica que los depsitos de demanda
aumentan significativamente a medida que se reduce el cargo de servicio es reducido.
45
INV- Software de Anlisis Estadstico SAS /2013-I
LA elasticidad del precio (0.227152 y 0.408066) para los depsitos de tiempo (RT) y las
acciones de asociacin S&L tienen el signo esperado Por lo tanto un aumento en la tasa
de inters de los depsitos a plazo o de acciones de S & L incrementar la demanda de
activos lquidos correspondientes. Los depsitos de demanda y las acciones S&L
aparece para ser sustitutos (observe las salidas 2, 3 y 5). Los depsitos a plazo son
tambin sustitutos de acciones S & L en la ecuacin de demanda de depsitos a plazo
(salida 4), mientras estos activos liquidos son independientes el uno al otro en la salida
5 (el coeficiente estimado en RT -0.02705). Los depsitos de demanda y los depsitos a
plazo parecen ser dbiles complementos en la salida 3 y 4, mientras las elasticidades
cruzadas entre depsitos a la vista y depsitos a plazo no son significativos en las
salidas 2 y 5
46
INV- Software de Anlisis Estadstico SAS /2013-I
47
INV- Software de Anlisis Estadstico SAS /2013-I
48
INV- Software de Anlisis Estadstico SAS /2013-I
49
INV- Software de Anlisis Estadstico SAS /2013-I
50
INV- Software de Anlisis Estadstico SAS /2013-I
Esta base de datos es citada constantemente, ya que mide costos, precios de entrada y
las tasas de utilizacin de seis aerolneas por un periodo de 14 aos (1970-1984). Este
ejemplo analiza las transformaciones logartmicas del costo, precio y cantidad, y la
medida de utilizacin de la capacidad en bruto (sin ligaritmo). Se especula el siguiente
modelo:
Donde son los efectos transversales puros y son los efectos de tiempo. El modelo
actual especulado no es lineal en las variables originales. Se podra ver como la
siguiente forma:
51
INV- Software de Anlisis Estadstico SAS /2013-I
data airline;
input Obs I T C Q PF LF;
label obs = "Observation number";
label I = "Firm Number (CSID)";
label T = "Time period (TSID)";
label Q = "Output in revenue passenger miles (index)";
label C = "Total cost, in thousands";
label PF = "Fuel price";
label LF = "Load Factor (utilization index)";
datalines;
1 1 1 1140640 .952757 106650 .534487
2 1 2 1215690 .986757 110307 .532328
3 1 3 1309570 1.091980 110574 .547736
4 1 4 1511530 1.175780 121974 .540846
5 1 5 1676730 1.160170 196606 .591167
6 1 6 1823740 1.173760 265609 .575417
7 1 7 2022890 1.290510 263451 .594495
8 1 8 2314760 1.390670 316411 .597409
9 1 9 2639160 1.612730 384110 .638522
10 1 10 3247620 1.825440 569251 .676287
11 1 11 3787750 1.546040 871636 .605735
12 1 12 3867750 1.527900 997239 .614360
13 1 13 3996020 1.660200 938002 .633366
14 1 14 4282880 1.822310 859572 .650117
15 1 15 4748320 1.936460 823411 .625603
16 2 1 569292 .520635 103795 .490851
17 2 2 640614 .534627 111477 .473449
18 2 3 777655 .655192 118664 .503013
19 2 4 999294 .791575 114797 .512501
20 2 5 1203970 .842945 215322 .566782
21 2 6 1358100 .852892 281704 .558133
22 2 7 1501350 .922843 304818 .558799
23 2 8 1709270 1.000000 348609 .572070
24 2 9 2025400 1.198450 374579 .624763
25 2 10 2548370 1.340670 544109 .628706
26 2 11 3137740 1.326240 853356 .589150
27 2 12 3557700 1.248520 1003200 .532612
28 2 13 3717740 1.254320 941977 .526652
29 2 14 3962370 1.371770 856533 .540163
30 2 15 4209390 1.389740 821361 .528775
31 3 1 286298 .262424 118788 .524334
32 3 2 309290 .266433 123798 .537185
33 3 3 342056 .306043 122882 .582119
34 3 4 374595 .325586 131274 .579489
35 3 5 450037 .345706 222037 .606592
36 3 6 510412 .367517 278721 .607270
37 3 7 575347 .409937 306564 .582425
38 3 8 669331 .448023 356073 .573972
39 3 9 783799 .539595 378311 .654256
52
INV- Software de Anlisis Estadstico SAS /2013-I
53
INV- Software de Anlisis Estadstico SAS /2013-I
data airline;
set airline;
lC = log(C);
lQ = log(Q);
lPF = log(PF);
label lC = "Log transformation of costs";
label lQ = "Log transformation of quantity";
label lPF= "Log transformation of price of fuel";
run;
54
INV- Software de Anlisis Estadstico SAS /2013-I
55
INV- Software de Anlisis Estadstico SAS /2013-I
Parmetros Estimados
56
INV- Software de Anlisis Estadstico SAS /2013-I
GRFICOS ODS
Los grficos ODS pueden obtener un anlisis grfico y tener resultados. Las siguientes
declaraciones muestran cmo se generan estos grficos. Si la opcin PLOTS=ALL es
especificada, todas las grficas disponibles son producidas en dos paneles. Para una
completa lista de opciones consulte la seccin Creating ODS Graphics en la pgina
1413 del manual de SAS.
Panel 1 de Diagnstico
Panel 2 de diagnstico
57
INV- Software de Anlisis Estadstico SAS /2013-I
58
INV- Software de Anlisis Estadstico SAS /2013-I
EJEMPLO 3.
Usando la misma base de datos que el ejemplo anterior, se puede adems investigar el
efecto real de los precios de combustible. Se puede especificar las siguientes
declaraciones en PROC PANEL para correr este modelo:
Estas declaraciones dan como resultado la siguiente salida. El ajuste parece tener un
deterioramiento preocupante. El SSE aumenta desde 0.1768 a 0.2926
59
INV- Software de Anlisis Estadstico SAS /2013-I
Estadsticas Ajustadas
Los parmetros cambian de una manera algo drstica como se muestra en la siguiente
salida. Los efectos de los costos del combustible se vuelven muy fuertes y significantes.
El Coeficiente del factor de carga crece, aunque no es drstico. Esto siguiere que el
efecto de tiempo ajustado puede ser dominado por la crisis de petrleo y la
desregulacin.
Parmetros Estimados.
60
INV- Software de Anlisis Estadstico SAS /2013-I
Los datos para este ejemplo se crean en las declaraciones de PROC PANEL mostrados
en el segundo ejemplo. Las declaraciones PROC PANEL necesarias para generar las
estimaciones son las siguientes:
Los parmetros estimados y los componentes de varianza para ambos modelos son
reportados en las siguientes salidas.
61
INV- Software de Anlisis Estadstico SAS /2013-I
Estimaciones de Parmetros
En el modelo de efectos Random, Los trminos constantes individuales son vistos como
distribuidos al azar en todas las unidades de corte transversal y no como cambios
paramtricos de la funcin de regresin, como en los modelos de efectos mixtos. Esta es
apropiada cuando las unidades de secciones transversales de la muestra son estiradas
por una poblacin grande. Claramente, en este ejemplo, seis Aerolneas son una
muestra de todas las aerolneas en la industria y no una exhaustiva lista.
62
INV- Software de Anlisis Estadstico SAS /2013-I
(WK) usa los verdaderos disturbios, mientras que el mtodo de Wallace y Hussain (WH)
utiliza residuos mnimos cuadrados ordinarios.
Las cuatro tcnicas producen diferentes componentes devarianzas para las secciones
cruzadas. Estas estimaciones son luego usadas para estimar los valores de los
parmetros en la penltima salida anterior. Todos los parmetros aparentar tener
estimaciones similares e igualmente pausibles. Tanto el ndice de la produccin en
millas-pasajero (CL) como el precio del combustible (LPF) tienen efectos pequeos y
positivos en los costos totales que se pueden esperar. El factor de carga (LF) tiene un
efecto algo ms grande y negativo en los costos totales, lo que sugiere que a medida que
aumenta la utilizacin, los costos disminuyen.
Las estimaciones agrupadas dieron algo para comparar las estimaciones de efectos
random. Se puede ver que los signos y las magnitudes de salida y el precio del
combustible son similares, pero con la magnitud del coeficiente de factor de carga es un
poco ms grande debajo de la agrupacin. Mientras el modelo aparece para tener
efectos de tiempo y efectos de secciones cruzadas, los modelos agrupados no deberan
ser usados.
63
INV- Software de Anlisis Estadstico SAS /2013-I
perodo de tiempo. En este caso, la estimacin de parmetros son del mismo signo y
cercanos en la magnitud en comparacin con las previas estimaciones calculadas. Tanto
la produccin como los efectos de los factores de carga parecen tener ms que ver con los
costos totales.
64
INV- Software de Anlisis Estadstico SAS /2013-I
Primero, las 6 observaciones del data set descomprimido y los resultados del modelo de
efectos mixtos de un camino ajustados se muestran en la segunda salida.
65
INV- Software de Anlisis Estadstico SAS /2013-I
Como se puede ver la interfaz est divida en dos partes: EL grfico los Elementos.
Existe una parte adicional que se llama Cdigo que genera el grfico, sin embargo esta
no es tan importante como las dems. A continuacin se muestra un ejemplo de un
grfico con su cdigo.
66
INV- Software de Anlisis Estadstico SAS /2013-I
Fichero: Se pueden encontrar las funciones bsicas de todo software como Nuevo, Abrir,
Guardar, Imprimir, etc.
Editar: Al igual que fichero, esta pestaa contiene las funciones bsicas de edicin de
cualquier software: Deshacer, Rehacer, Seleccionar todo
67
INV- Software de Anlisis Estadstico SAS /2013-I
Ver: permite las opciones de ver o no la galera de grficos, los elementos y el cdigo
Insertar: Permite insertar en un grfico un ttulo, una nota a pie, una leyenda. Adems
de insertar filas y columnas
Formato: En esta pestaa se permite editar cualquier propiedad de cada elemento del
grfico. Tambin se permite cambiar el estilo del grfico
68
INV- Software de Anlisis Estadstico SAS /2013-I
Herramientas: en esta pestaa se puede editar el estilo y ver las preferencias del
grfico
Por ltimo se indicaran en el orden que aparecen en la barra de los botones del
diseador de grficos ODS:
69
INV- Software de Anlisis Estadstico SAS /2013-I
Abrir
Guardar
Guardar como
Imprimir
Vista preliminar
Deshacer y Rehacer
70
INV- Software de Anlisis Estadstico SAS /2013-I
2.4. Clases
A continuacin se muestran los documentos escritos relacionados con cada clase preparada
para el curso libre de SAS.
Presentacin
El lenguaje de programacin que utiliza SAS fue diseado por el mismo SAS. Su
sintaxis est inspirada en la de PL/I (lenguaje propuesto por IBM en 1970), este opera
en primera instancia sobre tablas de datos. Estas tablas de datos las puede leer,
transformarlas, combinarlas, resumirlas, crear informes, entre otras cosas. El ncleo
del lenguaje incluye Pasos data que permiten realizar operaciones sobre las filas de un
conjunto de datos, procedimientos de manipulacin de datos que permiten ordenar
tablas, enlazarlas, etc., un intrprete de SQL, un superlenguaje de macros.(Official
Page, Statistical Analysis Software, 2013)
- Se explican adems los requerimientos para el uso del software en Linux y Windows
- Se fomenta el uso del software libre como poltica de la UIFCE
71
INV- Software de Anlisis Estadstico SAS /2013-I
SAS como software, a pesar de su carcter privativo, cuenta con muchas ms opciones
en comparacin con los software estadsticos ms utilizados, y que son enunciados a
continuacin en la tabla 1:
72
INV- Software de Anlisis Estadstico SAS /2013-I
Ejemplo: Suponga usted que desea comenzar a trabajar con una base de datos
de 10 observaciones que contempla el sexo de la persona, el ingreso que recibe
mensualmente en miles de pesos, la edad, y el estrato.
Programacin:
/*INSERCION DE VARIABLES*/
DATA variables; /*NOMBRE DE LA NUEVA BASE DE DATOS SAS*/
INPUT sexo $ ingreso edad estrato; /*VARIABLES*/
CARDS; /*COMANDO PARA INSERTAR DATOS*/
H 1500 20 3
H 3000 40 4
M 2000 30 4
H 800 25 2
M 500 18 3
H 9000 45 6
M 4000 30 3
M 5000 32 4
H 700 18 3
H 1000 23 3
;
RUN; /*CORRER PROCEDIMIENTO*/
4Hacer la claridad de que existen ms tipos de variables (dummys, dicotmicas, etc.) que se
tratarn ms adelante.
5 Exgenas lleva comillas porque hay variables que si bien son exgenas en un modelo,
73
INV- Software de Anlisis Estadstico SAS /2013-I
Finalmente se observa que en la ventana LOG hay una confirmacin donde nos
muestra que efectivamente se ha creado un archivo SAS de 10 observaciones y 4
variables que se llama variables y est dentro de la librera WORK.
El segundo ejemplo consiste en aadir un archivo externo, para ello SAS admite:
El conferencista apoyado por las diapositivas del repositorio (si as lo desea) sigue el
procedimiento ah descrito y crea una nueva librera con un archivo (en el manual de
SAS y el ejemplo de Power Point se usa un archivo llamado Libro2 ubicado en el
repositorio).
Estadstica descriptiva
Programacin:
74
INV- Software de Anlisis Estadstico SAS /2013-I
75
INV- Software de Anlisis Estadstico SAS /2013-I
2. Aclare que este procedimiento puede realizarse tanto para las variables
cuantitativas como las cualitativas y que en el caso del ejemplo se realiza
para las variables cualitativas del ejemplo.
76
INV- Software de Anlisis Estadstico SAS /2013-I
Luego, se muestran las siguientes tablas con los principales operadores lgicos, todos
manejados por SAS:
Es importante resaltar que los procedimientos sobre los que se programa la lgica
condicional en SAS, son los mismos usados cuando comnmente se impone una
condicin (si esto ocurre y adems esto ocurre entonces pasar esto) es importante
inculcar en los estudiantes que SAS aunque tenga lenguaje de programacin, no es ms
que un software con un mtodo de redaccin.
Condicionales:
77
INV- Software de Anlisis Estadstico SAS /2013-I
Luego de ello se pasa al ejemplo, es importante aclarar que ste ser el ltimo ejercicio
realizado con importacin directa de datos pues los prximos ejercicios deben contener una base
de datos amplia, si el conferencista lo desea en la evaluacin de los estudiantes puede incluir
ms ejercicios de importacin directa de datos.
Ejemplo:
Suponga usted que cuenta con una base de datos de 10 observaciones que contempla
una nmina de trabajadores del Aeropuerto Internacional ElDorado. La base contiene
la identificacin del trabajador, el sexo, el cargo, el nombre, el salario (en miles de
pesos) y la fecha de nacimiento.
Sin embargo se desea clasificar los trabajadores segn el cargo en grupos, as que segn
el cdigo del cargo que maneja el Aeropuerto, los trabajadores pueden clasificarse en
Mecnicos, Pilotos, Tcnicos de aviacin, Tecnlogos de aviacin y Contadores.
Ahora haciendo uso de SAS se crearn estos grupos.
Programacin6:
data nomina;
input Identificacion $ 1-4 Sexo $ 6 Cargo $ 8-10 Nombre $ 12-20 Salario 22-26
7
@28 Cumple date7. ;
if cargo='ME2'then
Grupo='Mecanicos';
elseif cargo='PT1'then
Grupo='Pilotos';
elseif cargo='TA1'then
Grupo='Tecnicos de aviacin';
elseif cargo='TA3'then
Grupo='Tecnlogos de aviacin';
elseif cargo='CON'then
Grupo='Contadores';
format cumple mmddyy8.;
CARDS;
1009 F TA1 AndreaVar 01000 12JUL59
1017 F TA3 DanielaMu 00800 23JAN57
1036 F TA3 Alejandra 05000 27MAY65
1037 M TA1 Jhonathan 07000 27AUG64
1038 M TA1 DavidAndr 08000 28DEC69
1050 M ME2 RicardoCa 01000 20FEB63
6 Debe mencionar que todas las condiciones deben importarse antes de importar los datos para
as los resultados sean efectivos.
7 Si resultan dudas respecto a estos formatos anuncie que durante la clase se solucionar la
78
INV- Software de Anlisis Estadstico SAS /2013-I
Identificacion $ 1-4 por ejemplo, tiene despus del signo $ (que identifica a la variable
como una caracterstica) la indicacin 1-4, esto se puede interpretar como una especie
de organizacin de la tabla que se pretende introducir con los datos, la primera variable
es Identificacin que es un nmero de 4 dgitos para cada trabajador, es decir cada
carcter ocupa desde la columna 1 hasta la columna 4 de la tabla que formaremos con
los datos. Asimismo, por ejemplo, Sexo $ 6 ocupa solo la columna 6 de la futura tabla (el
5 no se cuenta porque es el espacio que divide la tabla).8
Algunos nombres tienen caracteres adicionales, y ahora hay ceros a la izquierda de los
salarios. Esto tiene que ver con el tem anterior para la organizacin de los datos, como
todos los espacios que se establezcan deben ser ocupados, para que los salarios se ajusten se
colocan uno o dos ceros a la izquierda, y los nombres simplemente se complementan con los
caracteres del apellido, hasta que se ajusten al nombre ms largo de la base de datos (en este caso
Alejandra o Jhonathan que tienen 8 caracteres)
@28 Cumple date7. es un comando de indicacin nuevo, el @ indica que es la ltima variable de la
base de datos y el 28 indica la columna en la que inician, Cumple es el nombre de la variable (no se
puede poner cumpleaos ya que la letra no es leda por SAS) y date7. es el formato que se desea
para la fecha, ste comando debe ser completado con el comandoformat cumple mmddyy8. al final de
las indicaciones de los condicionales, de lo contrario la fecha no ser leda.
Se muestra entonces la confirmacin de la ventana LOG que muestra que los datos han sido subidos
correctamente:
79
INV- Software de Anlisis Estadstico SAS /2013-I
Y los resultados, para ello nos dirigimos al explorador, buscamos la librera WORK y abrimos la database
nomina donde los datos ya estn organizados por grupos:
Contina el ejemplo:
el Aeropuerto desea analizar si sus trabajadores ganan un sueldo Alto, Medio o Bajo, para ello
establecen unos rangos de salario: Si el empleado gana igual o ms de 6000.000 de pesos mensuales
entonces tiene un salario alto, si gana entre 1500.000 pesos y 5999.999 pesos entonces tiene un
salario Medio y si gana menos o igual de 1.499.999 pesos, entonces el empleado tiene un salario
Bajo usando los condicionales para las variables numricas programamos adicionalmente:
Programacin:
data salarios;
set nomina (drop=Identificacion Sexo Cargo Cumple);
if salario>=06000then
Categoria="Alto";
elseif salario<=05999&salario>=01500then
Categoria="Medio";
elseif salario<=01499then
Categoria="Bajo";
run;
DROP: Es un comando usado para suprimir filas de una nueva base de datos a partir de una base de
datos anterior. En este caso deseamos quitar las filas identificacin, sexo, cargo y cumple para
as crear una nueva database llamada salarios a partir de la base de datos nomina.
SET: Comando usado para crear una nueva base de datos a partir de otra ya existente, el comando set
recoge la base de datos ya creada.
Y se muestran la confirmacin de la ventana LOG y los resultados, sta vez buscando en WORK.salarios:
80
INV- Software de Anlisis Estadstico SAS /2013-I
Esta seccin se inicia explicando un poco ms el uso de subconjuntos de datos, sobre todo cuando se
desea trabajar con solo una parte de una gran base de datos. Recuerde adems que los subconjuntos
de datos se crearn con base en lo anteriormente explicado de lgica condicional as que es prioritario
que los estudiantes hayan entendido bien la primera parte.
Ejemplo:
Suponga usted que tiene una lista de pases con su respectivo PIB y tasa de inters, sin
embargo como usted desea solo realizar un modelo con pases que tengan una tasa de inters
y un PIB por encima de la tasa de inters de Colombia para el primer trimestre del 2013
(3,75%) y el PIB del ao 2011 (333.371937.902,966), entonces desea separar estos datos de
la lista completa.
81
INV- Software de Anlisis Estadstico SAS /2013-I
Programacin:
data subconjunto1;
set interes;
if PIB>=333371937902.966&Tasa>=3.75;
keep Pais Codigo PIB Tasa;
run;
Resultados WORK.subconjunto1
Contina el ejemplo:
Suponga ahora que no desea ser tan estricto y solo quiere separar de la lista los pases con una
tasa de inters estrictamente mayor a Colombia (3,75%), adems, ya no le interesa observar el
cdigo del pas.
82
INV- Software de Anlisis Estadstico SAS /2013-I
Programacin:
data subconjunto2;
set interes (drop= Codigo);
if Tasa>3.75;
keep Pais PIB;
9
run;
Resultados:
Luego de esto es importante otorgarle una interpretacin econmica al ejercicio, ya que el objetivo del
curso es encaminar el uso de SAS a las ciencias econmicas. Este es un ejemplo de un rpido anlisis
econmico dispuesto en el Manual de SAS:
por ejemplo la ausencia de los pases europeos y de Estados Unidos debido a la crisis
financiera de 2008, pues los pases que se muestran son de Amrica Latina y frica, tambin
se puede observar la notoria diferencia del PIB de Brasil respecto a los otros pases,
posicionando a ste pas como uno de los pases emergentes del siglo XXI.
Fechar los documentos que se trabajen con SAS puede llegar a ser sumamente importante en toda
base de datos. Recuerde mencionar en primera medida que SAS inicia su fecha y hora en enero 1 de
1960 a las 00:00:00 a.m. lo cual numricamente corresponde al nmero cero; esto no quiere decir que
no se puedan programar fechas anteriores, si desea hacerlo solo debe insertar nmeros negativos. Esto
se puede explicar ms profundamente mencionando los tres tipos de procedimientos con datos de
fecha:
83
INV- Software de Anlisis Estadstico SAS /2013-I
Un SAS date value es un valor que representa el nmero de das entre enero 1 de 1960 y una
fecha especificada. SAS puede realizar clculos con fechas que van desde el ao 1582 a 19.900
AD. Fechas antes de enero 1 de 1960, son nmeros negativos, despus de las fechas son nmeros
positivos.
Un SAS time value es un valor que representa el nmero de segundos transcurridos desde la
medianoche del da actual. Los valores SAS time value son entre 0 y 86400.
Un SAS datetime value es un valor que representa el nmero de segundos entre enero 1 de 1960
y una hora / minuto / segundo dentro de un plazo determinado.
Se mencionan adems las herramientas que tiene SAS en sus formatos de fecha y hora. Formatos
como mmddyy8. date9. y otros que se han presentado a menudo en las programaciones anteriores,
sirven para mostrar la fecha como se desee, si se muestran ciertos dgitos del ao, en que orden se
muestra la fecha, etctera.
Informats lee un valor, tal como un reloj de tiempo o un calendario, el cual puede ser de
varias longitudes, y luego convierte los datos o un valor data, time datetime.
Formats presenta un valor reconocido por SAS, tal como un valor time o date, como un dato
del calendario o un tiempo de reloj de varias longitudes.
Functions realize operaciones sobre valores date, time, y datetime de SAS.
Ejemplo:
Suponga primero que usted quiere probar los formatos de fecha en SAS y elige una serie de
nmeros aleatorios para distintos formatos de SAS, as que programa lo siguiente en la
ventana Editor:
Programacin:
84
INV- Software de Anlisis Estadstico SAS /2013-I
data test;
Time1=80009;
format Time1 datetime.;
Date1=86399;
format Date1 date.;
Time2=1500;
format Time2 timeampm.;
Date1Month=month(Date1);
run;
/*************************************/
/* Pie de pagina */
/*************************************/
procprintdata=test noobs;
title'Same Number, Different SAS Values';
footnote1'Time1 is a SAS DATETIME value.';
footnote2'Date1 is a SAS DATE value.';
footnote3'Time2 is a SAS TIME value.';
footnote4'Date1Month is the numeric month for Date1.';
run;
/*************************************/
/* mostrar titulo y pie de pagina */
/*************************************/
title;
footnote;
Note por ejemplo que a cada nmero se le ha asignado un ejemplo para observar rpidamente los
casos, tambin que se ha includo un nuevo comando footnote para insertar notas al pie de pgina,
los resultados en el output son:
Ejemplo 2:
Suponemos que tenemos una serie de pases que de acuerdo a la fecha en que enviaron unos
documentos, se les enviar la respuesta. Tenemos entonces en la base de datos, el cdigo del
pas, la fecha del envo y la que sera la fecha de respuesta (que por polticas de la
organizacin ser 30 das despus de la fecha del envo del correo.
Programacin:
/*************************************/
/* Opciones de reporte */
/*************************************/
85
INV- Software de Anlisis Estadstico SAS /2013-I
/*************************************/
/* Crear Data Set */
/*************************************/
data correos;
input codigo $ fecha : mmddyy10.;
respuesta=fecha+30;
datalines;
N 11-24-10
S 12-28-11
E 12-03-12
W 10-04-12
;
run;
/*************************************/
/* print data set */
/*************************************/
title;
N 24NOV2010 24DEC2010
S 28DEC2011 27JAN2012
E 03DEC2012 02JAN2013
W 04OCT2012 03NOV2012
Comandos:
86
INV- Software de Anlisis Estadstico SAS /2013-I
Ejemplo
Suponga usted que desea crear un modelo de regresin simple en el cual que explica el
Producto Interno Bruto (PIB) de Colombia a travs del cambio en su Gasto Pblico en
el perodo de 1970-2009. Ante el aumento de una unidad en el Gasto Pblico como
cambian las unidades del PIB?
87
INV- Software de Anlisis Estadstico SAS /2013-I
Luego se encuentra la media de los errores al cuadrado que nos permite estimar que
tan grandes son los errores dentro del modelo, se observa que son bastante grandes,
esto debido a que el comportamiento del gasto por s solo no logra explicar el
comportamiento del PIB; encontramos adems la media de la variable dependiente
(en este caso del PIB) y el coeficiente de varianza que es 14,36, lo que indica que tanto
varan los datos con respecto a la media. Una varianza baja como sta nos indica que
aunque tiene grandes errores hay una prediccin cercana del valor real.
11Ms abajo se encuentra que significa la prueba F y el p-valor, el conferencista si desea puede
explicarlo en el momento o seguir el orden de la clase aqu expuesta.
88
INV- Software de Anlisis Estadstico SAS /2013-I
El modelo nos indica entonces que ante un cambio de una unidad en el Gasto Pblico
de la nacin, habr un aumento de 6,21409 unidades en el PIB , interpretaciones de
este tipo sugieren que aumentar el gasto pblico a largo plazo implica una mayor
acumulacin de riqueza para la nacin lo cual es bastante positivo.
Hay que resaltar tambin que si se ha puesto desde el principio una relacin positiva
del gasto pblico con el PIB en el modelo, es porque para plantear un modelo es
necesario tener un soporte terico. En el caso del ejemplo, la ecuacin keynesiana del
ingreso a nivel macroeconmico es un soporte para plantear una forma funcional para
el modelo en el que el aumento del gasto pblico evidentemente aumentar el PIB.
C es el consumo de la sociedad
89
INV- Software de Anlisis Estadstico SAS /2013-I
I es la inversin y
G el gasto pblico
La regresin mltiple nos permite ampliar los anlisis realizados en regresin simple,
entendiendo que un modelo de regresin mltiple es simplemente una ampliacin del
modelo simple, con la inclusin de ms variables exgenas y ms parmetros. Algunos
comandos nuevos surgen para poder hacer la regresin:
Ejemplo:
Suponga usted que desea predecir el comportamiento del PIB de Brasil por medio del
consumo, las exportaciones, la Inversin Extranjera Directa (IED) neta, importaciones
e impuestos de bienes y servicios. Los datos se han tomado con periodicidad anual de
1975 al 2011.
Primero, establecemos la estructura del modelo y se explica que dado que el gasto y el
PIB estn expresados en pesos, es decir unidades monetarias, por eso los cambios que
los parmetros reflejarn sern interpretados en pesos tambin.
odsgraphicson;
procregdata=regmul;
model PIB = Consumo XporIEDMporImpu;
run;
90
INV- Software de Anlisis Estadstico SAS /2013-I
91
INV- Software de Anlisis Estadstico SAS /2013-I
12
12Es bueno que el conferencista aclare que estos grficos sirven para el anlisis visual. Por
ejemplo que los residuales por variable nos permiten observar sobre qu valores oscila ms una
variable.
92
INV- Software de Anlisis Estadstico SAS /2013-I
El F-value con un p-value menor a 0.0001 nos permite afirmar que las variables
exgenas en su conjunto logran explicar el comportamiento de la variable endgena,
adems el R-cuadrado es bastante alto, por lo que podramos decir que es un buen
modelo.
93
INV- Software de Anlisis Estadstico SAS /2013-I
94
INV- Software de Anlisis Estadstico SAS /2013-I
Dado que al retirar las importaciones del modelo, ste no sigui respondiendo como
nosotros deseamos, retiraremos esta vez los impuestos que era la otra variable no
significativa, sin antes incorporar de nuevo Mpor, ya que puede que solo sean los
impuestos los causantes del problema:
95
INV- Software de Anlisis Estadstico SAS /2013-I
El F-value con un p-value menor a 0.0001 nos permite afirmar que las variables
exgenas en su conjunto logran explicar el comportamiento de la variable endgena,
adems el R-cuadrado es bastante alto, por lo que podramos decir que es un buen
modelo.
En cuanto a la estimacin por parmetros SAS nos muestra que las importaciones y las
exportaciones no son significativas para el modelo. Grficamente de nuevo se muestra
el comportamiento de los residuales que esta vez son ms cercanos a la media, segn el
grfico de distribucin.
96
INV- Software de Anlisis Estadstico SAS /2013-I
97
INV- Software de Anlisis Estadstico SAS /2013-I
Ya que al eliminar las variables por separado no se lleg a ninguna solucin del modelo,
se retirarn las importaciones y los impuestos, acto seguido se correr la regresin
nuevamente:
98
INV- Software de Anlisis Estadstico SAS /2013-I
Luego de eliminar las dos variables, encontramos que la significancia individual de los
parmetros ha sido corregida, aunque el intercepto tiene un p-value de 0,0496 no
seremos tan estrictos y aceptaremos este parmetro.
99
INV- Software de Anlisis Estadstico SAS /2013-I
procautoregdata = regmul;
model PIB = ConsumoXporIED /archtestdwprob;
run;
100
INV- Software de Anlisis Estadstico SAS /2013-I
Adems de los estadsticos que ya hemos visto con anterioridad, aparecen otros nuevo que sirven para
la comparacin de modelos, pero dado que en esta clase se trabaja con un solo modelo, no se usarn.
Estos estadsticos tienen el mismo criterio. S al comparar el estadstico que se arroja en un modelo
con el que se arroja en otro existe una diferencia menor a uno, no hay gran diferencia entre los
modelos, caso contrario hay que evaluar cual de los dos modelos es el mejor. Los estadsticos son:
Por otro lado, las siglas MAE y MAPE corresponden a media absoluta de los errores y porcentaje
de la media absoluta de los errores que son dos criterios que igualmente nos permiten evaluar que
tanto los errores se alejan de la media, es decir, tienen una mayor varianza.
Puede notar que aqu aparece ya el coeficiente del estadstico Durbin Watson, sin embargo se ejecut
el comando de dicha prueba en la programacin para tener informacin ms detallada al respecto.
101
INV- Software de Anlisis Estadstico SAS /2013-I
Aparecen nuevos grficos tambin, por ejemplo los grficos ACF y PACF que corresponden a los
grficos de correlacin simple y parcial de los rdenes MA y AR respectivamente, estos grficon
surgen en el caso que estemos trabajando con series de tiempo, tema que se ver ms adelante; pero
como no es el caso no sern tomados en cuenta.
102
INV- Software de Anlisis Estadstico SAS /2013-I
Se tienen los datos de la poblacin total de Colombia desde enero del 2001 hasta abril
del 2008 en una periodicidad mensual. Se quiere analizar el comportamiento de la
variable en estas fechas.
Se procede a insertar los datos que usted encuentra en el repositorio (recuerde que SAS
admite formatos de Excel solo hasta .xls) por el mtodo de importacin y llamaremos a
los datos pob.
103
INV- Software de Anlisis Estadstico SAS /2013-I
run;
Se puede observar que la poblacin a lo largo del tiempo ha aumentado de forma lineal
del 2001 al 2008 y no hay mayor variacin.
run;
104
INV- Software de Anlisis Estadstico SAS /2013-I
105
INV- Software de Anlisis Estadstico SAS /2013-I
Dado que la serie no es estacionaria, se debe aplicar una diferencia para que esta se
vuelva estacionaria. La razn de la caminata aleatoria de la variable es porque esta es
una variable en constante crecimiento que jams lograr mantener su media constante,
por ello hay que diferenciarla. Se aplica la siguiente programacin:
identify var=poblacion(1);
run;
106
INV- Software de Anlisis Estadstico SAS /2013-I
Teniendo en cuenta lo anterior, por el mtodo grfico (es decir, observando las columnas
azules que salen del intervalo de confianza que est en azul claro) se determina qu
rdenes de AR y MA son convenientes y modelarlos. Se puede observar que basta con
agregar un orden en MA y uno en AR para corregir la serie, as que la programacin se
plantea:
identify var=poblacion(1);
run;
107
INV- Software de Anlisis Estadstico SAS /2013-I
108
INV- Software de Anlisis Estadstico SAS /2013-I
109
INV- Software de Anlisis Estadstico SAS /2013-I
Sin embargo puede notarse que los residuos siguen una distribucin normal y los
residuales oscilan alrededor de la media.
110
INV- Software de Anlisis Estadstico SAS /2013-I
En cambio AR muestra bajas correlaciones al aplicar estos rezagos, lo cual quiere decir
que se est solucionando el problema.
111
INV- Software de Anlisis Estadstico SAS /2013-I
112
INV- Software de Anlisis Estadstico SAS /2013-I
En cuanto a los residuales, se observa que estos tienden ms a la media igual a cero, sin
embargo se desvan ms de la media de los datos.
identify var=poblacion(2);
run;
113
INV- Software de Anlisis Estadstico SAS /2013-I
114
INV- Software de Anlisis Estadstico SAS /2013-I
Observe que las correlaciones han bajado un poco, aunque se siguen manteniendo altas,
en comparacin, por ejemplo, con las correlaciones que muestra la parte autorregresiva
del modelo.
115
INV- Software de Anlisis Estadstico SAS /2013-I
Como se puede ver, grficos nos sugieren por ejemplo agregar el orden 2 a MA, cuando
ste ya est agregado, as que este tipo de avisos del modelo no son tenidos en cuenta.
116
INV- Software de Anlisis Estadstico SAS /2013-I
Vease que el grado de autocorrelacin ha disminudo en una gran cantidad frente a los
rezagos.
117
INV- Software de Anlisis Estadstico SAS /2013-I
En cuanto a los residuales, observe que siguen una distribucin normal y que el 75% de
los datos oscila alrededor de la media.
118
INV- Software de Anlisis Estadstico SAS /2013-I
2.4.7.1. Definicin:
Los Datos Panel son un mtodo de estimacin economtrica que recopilan las series de
tiempo con una combinacin de datos de corte transversal, es decir, permite analizar el
comportamiento de diferentes variables exgenas en diferentes perodos de tiempo.
Ejemplo
Se tienen datos de diferentes indicadores para los aos 1990-1997 en periodicidad
anual. Los datos son: PIB per cpita en pesos colombianos, nmero de habitantes en
millones, porcentaje de inflacin e ndice de alfabetizacin (ndice que va de cero a uno,
donde cero es poblacin analfabeta y uno poblacin completamente alfabetizada). El
estudio se realiz para los siguientes pases: Colombia, Brasil, Ecuador, Venezuela,
Argentina, Bolivia, Per, Uruguay, Paraguay y Chile. Se desea simplemente realizar
una visin conjunta de estos indicadores en estos pases de Latinoamrica para as
mismo observar factores comunes a lo largo del tiempo, teniendo en cuenta que se
supone que el PIB pr capita es explicado por el nmero de habitantes, la inflacin y el
ndice de alfabetizacin.13
Programacin
Proc panel data=datos;
Id c y;
Model PIBper= NumHab Infl Alfab / fixonefixtworanonerantwo pooled;
Run;
13Estos datos, a diferencia de las dems clases, son datos aleatorios creados por los
desarrolladores de sta investigacin, y no corresponden a los datos reales de los pases.
119
INV- Software de Anlisis Estadstico SAS /2013-I
120
INV- Software de Anlisis Estadstico SAS /2013-I
121
INV- Software de Anlisis Estadstico SAS /2013-I
122
INV- Software de Anlisis Estadstico SAS /2013-I
Teniendo en cuenta las descripciones de los cuadros anteriores se observa que el R cuadrado es
apenas de 5,26%, lo cual nos dice que las variables no logran explicar el comportamiento de la
variable endgena.
Aparecen dos cuadros adicionales para el mtodo de efectos aleatorios, uno que nos indica la
varianza de las variables cruzadas, temporales (es decir las dummys que representan cada pas
y cada ao) y la varianza de los errores de estas variables; y otro que nos arroja el Test de
Hausman. Contrastado con una prueba , el Test de Hausman arroja un nivel de significancia
de 0.0138 lo cual rechaza la hiptesis nula, es decir, existe correlacin entre los efectos
aleatorios y las variables regresoras, luego no es recomendable hacer uso del mtodo de
efectos aleatorios para estimar el modelo.
En cuanto a la significancia individual de los parmetros ahora todas las variables resultan
insignificantes, a un nivel de significancia del 10% el nmero de habitantes resultara
significativo.
123
INV- Software de Anlisis Estadstico SAS /2013-I
En cuanto a los grficos de la variable endgena encontramos que los valores predichos
rondan el valor real de la variable y esta vez s se not el punto de quiebre en 1994.
124
INV- Software de Anlisis Estadstico SAS /2013-I
125
INV- Software de Anlisis Estadstico SAS /2013-I
En los grficos se observa nuevamente una gran variabilidad de los errores, esta vez un
poco menos que en el mtodo de estimacin aleatoria con dos diferencias.
En cuanto a los grficos de la variable endgena se observa que se logr captar el punto
de quiebre de 1994 y el aumento a partir de 1996.
126
INV- Software de Anlisis Estadstico SAS /2013-I
En ste mtodo observamos por ejemplo que el R cuadrado nos indica que las variables
exgenas logran explicar en un 93% el comportamiento de la variable endgena, esto se
complementa con el resultado de la prueba F que nos indica que el modelo es
globalmente significativo. Sin embargo en la estimacin de parmetros individual
encontramos que si bien casi todas las dummys que corresponden a las series cruzadas
y temporales son significativas, nuevamente los parmetros del modelo no lo son, en
este caso solo el intercepto es significativo.
127
INV- Software de Anlisis Estadstico SAS /2013-I
128
INV- Software de Anlisis Estadstico SAS /2013-I
Mtodo Pooled:
El mtodo Pooled nos muestra una desviacin de la media menos a los anteriores
mtodos utilizados, un R cuadrado de 0.42 que implica que las variables endgenas
explican en un 42% el comportamiento de la variable exgena. En cuanto a la
estimacin individual de los parmetros encontramos que sta vez es solo el intercepto
la variable poco significativa en el modelo.
129
INV- Software de Anlisis Estadstico SAS /2013-I
La grfica nos permite observar que los errores tienen una gran variabilidad y aunque
siguen una distribucin normal, superan los lineamientos de la misma.
130
INV- Software de Anlisis Estadstico SAS /2013-I
Se ha observado hasta el momento que ningn mtodo ha logrado reunir todas las
caractersticas propias para ser el mtodo escogido, el principal problema observado es
la estimacin individual de parmetros, as que como primera medida se retirar el
intercepto del modelo, buscando que ste se ajuste ms y podamos elegir algn mtodo,
teniendo en cuenta que no podemos determinar entre todos los mtodos cual es la peor
variable exgena para retirar, ya que los resultados son muy variables.
Sin el intercepto observamos entonces que segn el R cuadrado las variables exgenas
explican en un 87% el comportamiento de la endgena y se corrobora con la
significancia de la prueba F. Sin embargo esta vez las dummys que los efectos fijos
agregan para las series cruzadas y las series temporales no resultan significativas en
su mayora, as mismo solo el ndice de alfabetizacin resulta significativo en este caso.
131
INV- Software de Anlisis Estadstico SAS /2013-I
En cuanto a los grficos de los errores, se muestra una distribucin normal de los
errores que rondan alrededor de la media.
En cuanto a los grficos del PIB per cpita si bien se acerca ms el crecimiento predicho
al real, no se muestra el punto de quiebre de 1994.
132
INV- Software de Anlisis Estadstico SAS /2013-I
Al usar el mtodo de efectos fijos, observamos que segn el R cuadrado las variables
exgenas explican en un 53,86% el comportamiento de la variable endgena, el Test de
Hausman, a un nivel de significancia del 5% nos arroja un p-valor de 0.30 con lo que
podemos asumir que elegir entre efectos fijos y aleatorios no representa una mayor
diferencia. En cuanto a la significancia individual de los parmetros encontramos que
aunque ahora son un poco ms significativos no se encuentran dentro del nivel de
aceptacin, salvo nuevamente por el ndice de alfabetizacin.
133
INV- Software de Anlisis Estadstico SAS /2013-I
Respecto a los grficos de los errores, observamos que los errores tienen una gran
variabilidad respecto a la observacin de la variable, y aunque sobrepasan un poco los
lmites de la distribucin, sta es normal.
134
INV- Software de Anlisis Estadstico SAS /2013-I
Al realizar el mtodo de efectos fijos con dos diferencias se tiene que el modelo explica
en un 93% el comportamiento de la variable endgena, adicional a ello para
corroborarlo se observa con la prueba F que el modelo es globalmente significativo. En
cuanto a la estimacin de parmetros individual observamos que todas las series
cruzadas y casi todas las series temporales son significativas, aun as las variables no
resultan ser significativas.
135
INV- Software de Anlisis Estadstico SAS /2013-I
Observando los grficos de los errores se tiene que estos no se desvan mucho de lo
observado con el PIB per cpita y aunque sobrepasan un poco los lmites de la
distribucin que siguen, estos se comportan de forma normal.
136
INV- Software de Anlisis Estadstico SAS /2013-I
Bajo este mtodo, se observa que las variables endgenas del modelo logran explicar en
un 40% el comportamiento de la variable endgena segn el R cuadrado, adems de ello
el Test de Hausman arroja un p-valor de 0,03 al 5% de significancia con lo que no se
rechaza la hiptesis nula y se tiene que estimar el modelo por efectos fijos o por efectos
aleatorios de dos diferencias no afecta mucho la estimacin como tal. En la significancia
individual se observa que el ndice de alfabetizacin es la nica variable significativa,
ya que el nmero de habitantes apenas alcanza un nivel de aceptacin.
137
INV- Software de Anlisis Estadstico SAS /2013-I
Respecto a los grficos del PIB per cpita s se observa que los residuales siguen el
comportamiento de la variable, aunque no se logr percatar completamente el punto de
quiebre que hay en el modelo.
138
INV- Software de Anlisis Estadstico SAS /2013-I
139
INV- Software de Anlisis Estadstico SAS /2013-I
En cuanto a los grficos que le corresponden al PIB per cpita, se observa que los
residuales logran seguir el mismo patrn que los datos observados, en el valor predicho
de la variable se tiene que se reconoce el punto del 94, pero no se reconoce el
crecimiento que en realidad presentan los pases.
A modo de conclusin, el mejor mtodo para estimar este modelo es el mtodo Pooled
sin intercepto, pues el modelo logr reunir todas las caractersticas para estimar datos
panel como la base de datos del ejemplo, aunque segn lo visto en la ltima grfica, el
modelo no es muy adecuado para la prediccin; sin embargo, si se fuera un poco ms
flexible con el nivel de aceptacin, al 10% de significancia puede escogerse adems de
los Datos Pooled, el mtodo de efectos aleatorios en dos diferencias.
Ejercicio 1
140
INV- Software de Anlisis Estadstico SAS /2013-I
En el panel izquierdo del programa, se busca la librera WORK y el nombre de los datos
que en este caso es grafico1, haciendo doble clic sobre l se desplegar una ventana
aparte que permitir observar los datos del archivo de Excel, es recomendable hacer
esto para saber qu tipo de grfico usar.
Luego de ver los datos, se hace clic en Herramientas y vamos a ODS Graphics
Designer:
141
INV- Software de Anlisis Estadstico SAS /2013-I
Esta es la interfaz inicial del diseador de grficos, dado que queremos realizar un
grfico comparativo entre dos variables, se opt por usar el grfico de Trazado de
dispersin.
Luego de ello aparece la ventana que permite asignar los datos y las variables para
graficar:
142
INV- Software de Anlisis Estadstico SAS /2013-I
Se selecciona la librera de los datos (en este caso WORK), el conjunto de datos a
utilizar (GRAFICO1) y las variables a utilizar, en este caso como los ttulos de cada
conjunto de datos son X y Y, las seleccionaremos as. Los dems parmetros ya estn
seleccionados por defecto para el propsito de este primer ejercicio sencillo, as que
finalmente se hace clic en Aceptar.
143
INV- Software de Anlisis Estadstico SAS /2013-I
Con Leyenda discreta aparecer una pequea leyenda sobre el eje X, se aplica si se
quiere hacer un comentario sobre el grfico.
144
INV- Software de Anlisis Estadstico SAS /2013-I
Si se desea cambiar el estilo del grfico, se hace clic en Formato > Estilo > Ms estilos...
Con esto aparecer la ventana que se observa en el grfico de abajo, existen diferentes
estilos personalizados, en este caso se elegir Science para este primer grfico.
Si se desea editar los estilos predeterminados del paquete, se hace clic en Herramientas
> Editor de Estilos, as al hacer clic sobre el grfico que se encuentra en la parte
derecha del editor se mostrarn las opciones para cada componente de los grficos:
145
INV- Software de Anlisis Estadstico SAS /2013-I
Luego de hacer los ajustes que el conferencista desee en la clase, en este caso no se
realizaron cambios en los colores, as que el grfico finalmente queda:
Ejemplo 2:
Se tienen datos de una regresin mltiple, donde el empleo (Emp) busca ser
explicado por el PIB (GNP), el PIB per cpita (GNPdf), el ndice de desempleo
(Unemp), cantidad de fuerzas armadas disponibles (ArmFor) y Poblacin en
miles (Pop).
146
INV- Software de Anlisis Estadstico SAS /2013-I
147
INV- Software de Anlisis Estadstico SAS /2013-I
Luego de ello fcilmente puede arrastrarse del panel izquierdo el grfico que
necesitemos para comenzar a trabajar, en este caso se dividir el panel de grficos en 4
con los botones Aadir Fila y Aadir columna, sealados en el siguiente recuadro con
los crculos rojo y azul.
148
INV- Software de Anlisis Estadstico SAS /2013-I
149
INV- Software de Anlisis Estadstico SAS /2013-I
Ejemplo 3:
Nuevamente se importan los datos y la ventana LOG nos indica que se han cargado
correctamente:
150
INV- Software de Anlisis Estadstico SAS /2013-I
151
INV- Software de Anlisis Estadstico SAS /2013-I
Adems de la opcin para escoger variables se observan dos cuadros CLM que permite
visualizar la lnea de trazado, y CLI que permite visualizar las bandas, en este caso
seleccionaremos los dos para observar el grfico completo.
Luego se agregar otra fila y se har un grfico de regresin para contrastar LnY
contra LnL, esta vez no seleccionaremos ninguna de las dos casillas.
152
INV- Software de Anlisis Estadstico SAS /2013-I
Como aparece tambin en esta imagen, al pasar el mouse sobre la lnea nos
encontraremos con que esta se resalta un poco y arroja el valor de los ejes en el punto
sobre el que est el mouse. Se observa que esto pasa con las dos lneas:
153
INV- Software de Anlisis Estadstico SAS /2013-I
Al hacer clic derecho sobre uno de los grficos, seleccionamos Asignar datos para
modificar en cualquier momento nuestro grfico, se observa por ejemplo que para el
grfico de arriba que tiene aplicado el grfico de regresin 2 regression2 se retirarn
las bandas para poder apreciar mejor este grfico combinado.
154
INV- Software de Anlisis Estadstico SAS /2013-I
Al pasar el mouse sobre las lneas tambin se observan los valores en el punto en que
nos ubiquemos. Se puede observar gracias a esto que por ejemplo, el ingreso aumenta
en una mayor proporcin cuando aumenta el empleo que cuando aumenta la inversin
del capital, esto se observa porque la pendiente de la recta con LnL es ms inclinada
que la recta que corresponde a LnK.
3. Conclusiones
A medida que vamos avanzando en el programa, nos damos cuenta que este se vuelve cada
vez ms completo y ms complejo, sin embargo, sus resultados son mejores cada vez por lo
que es muy importante continuar con el proceso de bsqueda de manuales nuevos va
internet.
155
INV- Software de Anlisis Estadstico SAS /2013-I
El mtodo de trabajo en un principio funcion bien, sin embargo al encontrar los nuevos
temas del software, este mtodo no funcion por lo que ahora se trabajar esta investigacin
de otra forma, la cual es una reunin semanal entre los investigadores con el fin de aprender
uno del otro lo que se encuentra en la semana y poder realizar el material de clase del
software.
Debido a que existieron numerosos problemas con la licencia del software de SAS en la
Universidad, no fue posible avanzar como se tena planeado en la investigacin, de hecho,
hasta hace un par de semanas se logr probar algunos cdigos de programas de SAS para
regresiones simples y mltiples. Esperamos que se pueda trabajar en la investigacin y en el
software en la Universidad de aqu en adelante con mayor facilidad que antes.
ANEXOS
14
Anexo 1. PIB y Gasto Pblico en Colombia desde 1970 hasta 2009
Ao PIB Gasto
1970 1,3277E+11 1,2E+10
1971 1,5589E+11 1,7E+10
1972 1,8961E+11 1,8E+10
1973 2,4316E+11 2,3E+10
1974 3,2238E+11 2,8E+10
1975 4,0511E+11 3,6E+10
1976 5,3227E+11 4,4E+10
1977 7,1603E+11 5,5E+10
1978 9,0949E+11 7,8E+10
1979 1,1888E+12 1,11E+11
1980 1,5791E+12 1,59E+11
1981 1,9828E+12 2,07E+11
1982 2,4973E+12 2,73E+11
1983 3,0541E+12 3,35E+11
1984 3,8566E+12 4,26E+11
1985 4,9659E+12 5,31E+11
1986 6,788E+12 6,6581E+11
1987 8,8244E+12 7,68E+11
1988 1,1731E+13 1,013E+12
1989 1,5127E+13 1,396E+12
1990 2,0228E+13 1,9E+12
156
INV- Software de Anlisis Estadstico SAS /2013-I
4. Referencias
N/A. (19 de Febrero de 2013). Wikipedia, enciclopedia libre. Obtenido de
http://es.wikipedia.org/wiki/SAS_%28lenguaje_de_programaci%C3%B3n%29
Official Page, S. (18 de Febrero de 2013). Statistical Analysis Software SAS. Obtenido de
http://support.sas.com/documentation/installcenter/92/sasinstall/9.2/unx/lnx/sreq.pdf
Official Page, S. (18 de Febrero de 2013). Statistical Analysis Software SAS. Obtenido de
http://www.sas.com/offices/latinamerica/mexico/technologies/analytics/forecasting/ets/index.html
Universidad Complutense de Madrid. (19 de Febrero de 2013). Servicios Informtico de Apoyo a Docencia e
Investigacin. Obtenido de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Categor/CursoSAS9.pdf
Universidad Nacional de Colombia, sede Medelln (28 de Febrero de 2013). Breve Manual de Induccin al
SAS, uso de la parte interactiva ANALYST. Obtenido de
http://www.unalmed.edu.co/~estadist/INDUCCION%20SAS.pdf
157
INV- Software de Anlisis Estadstico SAS /2013-I
http://onlinelibrary.wiley.com/doi/10.1111/j.1540-6261.1964.tb00754.x/abstract (2013)
158