You are on page 1of 5

ESCUELA SUPERIOR POLITCNICA DE CHIMBORAZO

SEMESTRE OCTUBRE 2017 MARZO 2018


TAREA No. 01
IDENTIFICACION
Facultad: Administracin de Empresas

Carrera: Ingeniera en Gestin de Transporte

Materia: Estadstica Inferencial


Semestre: Cuarto Paralelo 2

Docente: Ing. Fabin Londo

Alumno: Santiago Israel Peafiel Villa


563

Fecha: 26 de noviembre de 2017


Cmo hacer una tabla cruzada con RStudio?
Lo primero que tenemos que hacer es descargarnos la base de datos con la que voy a realizar
este ejemplo aqu, colocarla en alguna carpeta de su gusto en su computador.

Una vez descargada la base de datos, tenemos que instalar las siguientes libreras en RStudio,
una por una:

install.packages(openxlsx)
install.packages(gmodels)
install.packages(dplyr)

La primera sirve para cargar bases de excel a R, la segunda para construir las tablas cruzadas o
de contingencia, la tercer para manipular bases de datos. En este caso, utilizar una base de
datos de la Superintendencia de Bancos del Ecuador; base bastante grande (ms de 67 mil datos
con 12 variables).

Luego de haber seteado el directorio de trabajo con el comando setwd(mi ruta), donde mi
ruta debe estar definido como la ruta donde se encuentra su archivo, por ejemplo:

setwd(C:\\Users\\JUANITO\\Desktop\\Document\\ejemplo tabla cruzada)

Note que el directorio es la carpeta donde se encuentra el archivo y tiene doble \\.

Luego el siguiente paso es cargar la base de excel a RStudio con los siguientes comandos:

data_banco <- read.xlsx(xlsxFile = DEP_2016_BP.xlsx,


detectDates = T)

Note que la funcin que utiliza RStudio mediante la librera openxlsx es read.xlsx;
adicionalmente, note que estoy colocando un comando que detecta automaticamente las
fechas que pueda tener su base de datos, para evitarnos configura ese campo manualmente
(recomiendo que lo configuren manualmente, pero esto sirve para un ejemplo rpido).

El siguiente paso tiene que ver con la manipulacin de la base de datos; uno de los pasos ms
importantes y el que ms me gusta porque la librera dplyr es sumamente sencilla de entender:
filter, select, group-by, etc., son los comandos ms sencillos e intuitivos.

data %>%
filter(FECHA==2016-01-31,
( TIPO.DE.DEPOSITO==De 1 a 30 das |
TIPO.DE.DEPOSITO==De 31 a 90 das |
TIPO.DE.DEPOSITO==De 181 a 360 das|
TIPO.DE.DEPOSITO==De ms de 361 das))
table(data$TIPO.DE.DEPOSITO)

Puede observar que el filtro (filter) que estoy aplicando, selecciona solo las observaciones que
corresponden a la fecha 2016-01-31, y que el tipo de depsito es de 1 a 30 das, o de 31 a 90
das (), donde | coresponde al operador lgico or y va a seleccionar o lo uno o lo otro o
ambos, por lo que primero selecciono por fecha, Y, luego selecciono por tipo de depsito.
Construyendo la tabla
Una vez que hemos filtrado la informacin segn nuestro inters, la construccin de la tabla es
sencilla:

ct <- CrossTable(data$TIPO.DE.DEPOSITO,
data$REGION,
prop.test=FALSE, prop.r=TRUE,
prop.chisq=FALSE, useNA=no)

Ejemplos:

De los 650 choferes de la cooperativa A de taxis, 400 estn en contra de la capacitacin sobre la
calidad y servicio del transporte impartida por la ESPOCH y el resto a favor, mientras que de los
260 choferes de la cooperativa B de taxis, 100 estn a favor de la capacitacin sobre la calidad y
servicio del transporte y el resto en contra. Dispuestas las observaciones en una tabla de
contingencia de 2 x 2 tenemos:

Muestras Opinin Total

Favor Contra

Cooperativa A 250 400 650

Cooperativa B 100 160 260

Total 350 560 910


Para saber si la congestin de vehculos en la ciudad de Riobamba est asociada con la
experiencia del uso del vehculo privado provocado por los estudiantes de la ESPOCH, se
tomaron 700 muestras de la poblacin de entre 18 a 25 aos de edad y entre 26 a 40 aos y se
les clasific segn el uso del vehculo privado (Baja, Normal y Alta), obtenindose los datos de
la tabla siguiente

PERSONAS BAJO MEDIO ALTO TOTAL


EDAD 18-25 50 75 100 225
EDAD 26-45 100 125 200 475
TOTAL 150 250 300 700

Para evaluar si el sueo incide de algn modo en los accidentes de trnsito, se tomaron 60
choferes que lo haban sufrido y otros 180 choferes (sin accidentes). Tambin fue clasificada la
incidencia como bajo, medio y alto, dependiendo de los accidentes. Los datos se presentan a
continuacin:

CHOFERES BAJO MEDIO ALTO TOTAL


Choferes con 25 45 80 150
accidentes
Choferes sin 15 30 45 90
accidentes
TOTAL 40 75 125 240

En RStudio

You might also like