Professional Documents
Culture Documents
Una vez descargada la base de datos, tenemos que instalar las siguientes libreras en RStudio,
una por una:
install.packages(openxlsx)
install.packages(gmodels)
install.packages(dplyr)
La primera sirve para cargar bases de excel a R, la segunda para construir las tablas cruzadas o
de contingencia, la tercer para manipular bases de datos. En este caso, utilizar una base de
datos de la Superintendencia de Bancos del Ecuador; base bastante grande (ms de 67 mil datos
con 12 variables).
Luego de haber seteado el directorio de trabajo con el comando setwd(mi ruta), donde mi
ruta debe estar definido como la ruta donde se encuentra su archivo, por ejemplo:
Note que el directorio es la carpeta donde se encuentra el archivo y tiene doble \\.
Luego el siguiente paso es cargar la base de excel a RStudio con los siguientes comandos:
Note que la funcin que utiliza RStudio mediante la librera openxlsx es read.xlsx;
adicionalmente, note que estoy colocando un comando que detecta automaticamente las
fechas que pueda tener su base de datos, para evitarnos configura ese campo manualmente
(recomiendo que lo configuren manualmente, pero esto sirve para un ejemplo rpido).
El siguiente paso tiene que ver con la manipulacin de la base de datos; uno de los pasos ms
importantes y el que ms me gusta porque la librera dplyr es sumamente sencilla de entender:
filter, select, group-by, etc., son los comandos ms sencillos e intuitivos.
data %>%
filter(FECHA==2016-01-31,
( TIPO.DE.DEPOSITO==De 1 a 30 das |
TIPO.DE.DEPOSITO==De 31 a 90 das |
TIPO.DE.DEPOSITO==De 181 a 360 das|
TIPO.DE.DEPOSITO==De ms de 361 das))
table(data$TIPO.DE.DEPOSITO)
Puede observar que el filtro (filter) que estoy aplicando, selecciona solo las observaciones que
corresponden a la fecha 2016-01-31, y que el tipo de depsito es de 1 a 30 das, o de 31 a 90
das (), donde | coresponde al operador lgico or y va a seleccionar o lo uno o lo otro o
ambos, por lo que primero selecciono por fecha, Y, luego selecciono por tipo de depsito.
Construyendo la tabla
Una vez que hemos filtrado la informacin segn nuestro inters, la construccin de la tabla es
sencilla:
ct <- CrossTable(data$TIPO.DE.DEPOSITO,
data$REGION,
prop.test=FALSE, prop.r=TRUE,
prop.chisq=FALSE, useNA=no)
Ejemplos:
De los 650 choferes de la cooperativa A de taxis, 400 estn en contra de la capacitacin sobre la
calidad y servicio del transporte impartida por la ESPOCH y el resto a favor, mientras que de los
260 choferes de la cooperativa B de taxis, 100 estn a favor de la capacitacin sobre la calidad y
servicio del transporte y el resto en contra. Dispuestas las observaciones en una tabla de
contingencia de 2 x 2 tenemos:
Favor Contra
Para evaluar si el sueo incide de algn modo en los accidentes de trnsito, se tomaron 60
choferes que lo haban sufrido y otros 180 choferes (sin accidentes). Tambin fue clasificada la
incidencia como bajo, medio y alto, dependiendo de los accidentes. Los datos se presentan a
continuacin:
En RStudio