You are on page 1of 6

ESCUELA SUPERIOR POLITECNICA DEL LITORAL.

MATERIA
METODOS DE ANALITICA PARA LA INDUSTRIA

INTEGRANTES:
ALVARADO LAVANDA STEVEN.
HENRIQUEZ SAMANIEGO DANIEL.
VERA CALDERON HOMERO.
MANOBANDA DURAN DENISSE.
NAVARRETE GARCIA ANNABELLE.
EXAMEN PRIMER PARCIAL FECHA: 07/07/2018

Descripción del dataset: Para este tema se utilizará el conjunto de datos


cuentas_por_cobrar.csv. El conjunto de datos consiste en 2466 registros de ventas a
crédito en una compañía. Se incluyen 12 características sobre cada registro: CodigoPais,
IDCliente, FechaElectronica, NumeroFactura, FechaFactura, FechaVencimiento,
MontoFactura, Disputa, FechaPago, FacturaElectronica, DiasPago, y DiasTarde. La
columna Disputa corresponde a una variable binaria ({yes, no}); disputas sobre una
factura ocurren por causas como las siguientes: error en fechas; cantidad superior o
inferior al correcto; precio superior o inferior al correcto; error en descripción del artículo;
firmas no adecuadas; entre otras. Como variables predictoras no puede utilizar:
FechaPago, DiasPago, y DiasTarde, ya que estas variables no están disponibles al
momento de querer realizar la predicción.
Se requiere encontrar un modelo que pueda predecir si una factura será pagada a tiempo.
Específicamente, se requiere:

1. Prepare los datos convirtiendo correctamente las variables en categóricas y en


numéricas (10 puntos)

En esta etapa realizamos la llamada de datos y adicionalmente eliminamos las columnas


que pensamos no eran necesarias para el modelo y que no deberían ser analizadas, estas
columnas son FechaElectronica y FacturaElectronica.

Los datos quedan de la siguiente manera:


2. Si considera necesario: cree variables adicionales a partir de los datos (tanto variables
predictoras o variable respuesta). (10 puntos)

La variable que podríamos agregar después de analizar los datos ofrecidos por la base es
el de DiasPlazo que corresponde a los días que hay entre la fecha de facturación y la fecha
de vencimiento así podríamos obtener un valor para comparar directamente con DiasPago

3. Particionar los datos en 70% para entrenamiento del modelo y 30% para prueba.
Hacerlo aleatoriamente, utilizando la función sample. (10 puntos)

Aquí dividimos los datos para entrenamiento y para prueba para ser utilizados en las
corridas posteriores.

4. Ajuste un modelo de regresión logística. Presente la precisión del modelo y su matriz


de confusión (utilizando datos de prueba). (15 puntos)
5. Ajuste un modelo de árbol de clasificación. Presente la precisión del modelo y su
matriz de confusión (utilizando datos de prueba). (15 puntos)
6. Grafique el árbol de clasificación obtenido y describa las reglas de clasificación
obtenidas. (20 puntos)

Las reglas de clasificación no se pueden apreciar claramente en el gráfico, pero podemos


identificar que el árbol de decisión en sus últimas ramas tiene la variable de días pago,
fecha de vencimiento y fecha pago que son las que se desea predecir de una u otra manera.

Y la el orden en el que se van subdividiendo las ramas que tienen esos 3 datos claros es :
fecha de pago, si la respuesta es SI consulta la fecha de vencimiento, si en la rama de
fecha de vencimiento dice SI consulta los Días pago y al final entrega la probabilidad de
acuerdo a el factor inicial de análisis que no se ve por las Z.
7. Haga un análisis comparativo de los resultados de los modelos obtenidos en los
literales 4 y 5; recomiende cuál de los dos modelos utilizar (20 puntos)

Realizando un análisis de los datos obtenidos se identifica que al trabajar con un modelo
de regresión logística se obtiene un error superior al de árbol, por lo que se recomienda
que para el pronóstico se utilice un árbol de decisión.

REGRESIÓN LOGISTICA

ARBOL DE DECISIONES

You might also like