Analisis Multivariado

ANALISIS MULTIVARIADO
ANALISIS FACTORIAL
Previamente al hacer el análisis factorial se determinó el número de missings que presentaban cada
una de las 111 variables, si alguna de estas tenía 30% en sus registros se omitía del análisis, tal
depuración se realizó en Excel
Las variables omitidas fueron:
V_AVG_CSH_3
V_MED_CSH_3
V_RATIO_CSH_BAL_3
V_AVG_CSH_6
V_MED_CSH_6
V_RATIO_CSH_BAL_6
V_AVG_CSH_9
V_MED_CSH_9
V_RATIO_CSH_BAL_9
V_AVG_CSH_12
V_MED_CSH_12
V_RATIO_CSH_BAL_12
Podemos observar que tenemos la mayor parte de missings en las variables que controlan alguna
medida de la disposición de efectivo de los clientes en su cuenta
Se quedaron 100 variables para el análisis factorial, tenemos los siguientes resultados:
Eigenvalues of the Correlation Matrix: Total = 100 Average = 1
17 1.0920763 0.0712438 0.0109 0.8632
18 1.0208325 0.0483573 0.0102 0.8734
19 0.9724753 0.0492404 0.0097 0.8832
Observamos que con 18 factores explicamos la mayor parte de la varianza al tratar de explicar las
variables mediante estos factores, en la matriz rotada de los factores se observaron las cargas del
modelo factorial y pudimos observar que cada variable si tributaba por lo menos en 0.3 a cada factor
por lo que no obtuvimos una reducción de las variables.
ANALISIS DE MUTICOLINEALIDAD
CLUSTERING DE VARIABLES
Una vez determinado el número de variables a utilizar procedemos a agruparlas en conjuntos de tal
manera que en cada conjunto tengamos variables homogéneas y los conjuntos entre si sean
heterogéneos entre sí, el resumen clustering de variables arroja que las variables se pueden agrupar
en 39 clusters , sin embargo con 25 clusters explicamos el 90% de la varianza esto lo observamos en lo
siguiente:
Total Proportion Minimum Maximum Maximum

Variation of Proportion Second Minimum 1-R**2
Number Explained Variation Explained Eigenvalue R-squared Ratio
of by Explained by a in a for a for a
Clusters Clusters by Clusters Cluster Cluster Variable Variable
24 89.784829 0.8978 0.8085 0.982763 0.6300 0.5233
25 90.245382 0.9025 0.8115 0.982763 0.6600 0.5233
26 90.909199 0.9091 0.8121 0.982763 0.6600 0.5233
Procedemos a hacer un segundo clustering entre variables pero esta vez para obtener las
características de cada uno de los 25 clusters, después nos fijamos en cada cluster ,en la variable
representativa , esto es , la que tenga mayor correlación con las demás variables de ese cluster, esto lo
podemos identificar mediante el coeficiente r-squared tal coeficiente lo podemos definir
coloquialmente como la razón de cuanta varianza del modelo es explicada por esa variable con
respecto a la varianza que aportan todas las variables del modelo(esta varianza considera errores
ajenos a la obtención de la medición de las cargas de cada variable al modelo) obvio dentro del cluster.
En la siguiente tabla se muestran las variables que tienen mayor correlación dentro de cada cluster,
esto tendrá sentido en el siguiente análisis:
Cluster Variable R-squared Cluster Variable R-squared

1 V_AVG_ME_9 0.9568 13 V_RATIO_PAY_ME_9 0.9475
2 V_N_DEC_US_6 0.8884 14 V_RATIO_PAY_BAL_9 0.9983
3 V_AVG_US_9 0.9778 15 V_RATIO_PAY_BAL_6 0.9997
4 V_TIMES_PD_1_6 0.8811 16 V_RATIO_PAY_BAL_12 0.9811
5 V_N_DEC_PAY_9 0.9261 17 V_N_INC_US_3 0.9872
6 V_N_DEC_ME_9 0.939 18 V_N_INC_PAY_3 0.8438
7 V_N_DEC_CSH_9 0.9189 19 V_N_INC_ME_3 0.9024
8 V_TIMES_PD_3_9 0.892 20 V_TIMES_PD_0_9 0.968
9 V_N_INC_PAY_9 0.9138 21 V_TIMES_PD_2_3 0.8416
10 V_N_INC_ME_9 0.9233 22 V_RATIO_PAY_BAL_3 0.9674
11 V_AVG_BAL_6 0.9906 23 V_N_INC_CSH_6 0.9288
12 V_TIMES_PD_2_12 0.9437 24 V_N_INC_BAL_12 0.9279
25 V_RATIO_PAY_ME_3 1
Una vez logrado esto se pretende realizar una limpieza de la tabla de datos para posteriormente
realizar el análisis cluster .
ANALISIS CLUSTER
A continuación notaremos el resultado de nuestro análisis cluster, en el cual se introdujeron las 25

variables resultantes anteriormente. Al probar con varios métodos logramos la mejor segmentación
con el método de Ward, el cual nos arrojó una segmentación de 8 clusters resultantes, con el grafico
resultante siguiente:
Notamos que mediante este número de clusters, logramos una segmentación correcta, ya que es un
buen número de grupos, ni muy bajo, ni muy grande, todas están distribuidas de una manera
deseable, ni muy concentradas en un solo cluster, o muy poco concentradas en uno; entre todos los
clusters.
A continuación queremos averiguar cuanto significado tiene cada variable dentro de cada cluster,
medir su nivel de “importancia” dentro del mismo. Para esto recurrimos a la técnica del ANOVA y
medir las medias de cada variable dentro del cluster, con cierto nivel de “confianza”. Mediante esta
técnica lograremos entender el nivel de significancia de cada cluster por cada variable, esto quiere
decir, lo que opinan o como se sienten los integrantes de cada cluster con respecto a cada variable; lo
explicamos de la siguiente manera:
CLUSTER VARIABLE 1 VARIABLE 2
1 BAJA ALTA
2 MEDIA BAJA
3 MEDIA ALTA
Gracias a esto pudimos perfilar a cada cluster, descubrir el comportamiento de cada uno y así poder
actuar de diferente manera para cada uno, buscando siempre el beneficio de la empresa. Esto nos
permitirá implementar diferentes estrategias para cada uno, con el objetivo de lograr los mejores
resultados dentro de los miembros de cada cluster.
Nuestro perfilamiento, realizado con 17 variables y 8 clusters, resultante es el siguiente:
1. “En rehabilitación”: Son aquellos clientes que están amortizando cierta deuda pendiente, ya
que paga más de lo que compra, notamos que ya no compra tanto nuestros productos y
siempre paga más o menos la misma cantidad. Por esto concluimos que su objetivo es el de
dejar de debernos.
2. “Constante”: Aquel cliente que va al corriente con sus pagos, paga aquello que compra,
sospechamos que no está amortizando una deuda específica, sino que paga lo que compra.
También dedujimos que compra por temporadas y no se endeuda más.
3. “El bueno”: Es nuestro buen cliente, no amortiza una deuda importante, como el grupo 1,
consume mucho de nuestros productos y paga lo que compra.
4. “Rehabilitado”: Notamos que es un cliente que sus pagos en sus deudas han ido
disminuyendo, pero que no se encuentra en morosidad, por lo que concluimos que está
terminando de pagar una deuda, a pesar de esto no nos deja de comprar, aunque en menor
cantidad, pensamos que los del grupo 1 pueden llegar a terminar dentro de este grupo.
5. “Responsable”: Es un cliente sin mucha deuda, no usa mucho su tarjeta y paga todo aquello
que compra por lo que va al corriente con sus pagos, por esto pensamos que se puede tratar
de clientes primerizos y de responsables, tendremos grandes oportunidades con ellos.
6. “Por temporada”: Notamos que últimamente ha comprado mucho, a la larga o deja de usarnos
y sin grandes incrementos, pero no se endeuda pues paga casi lo que compra y es un
consumidor constante.
7. “Olvidándonos”: Este cliente ha estado dejando de usar nuestros servicios, no se encuentra
tan al corriente con sus pagos y casi no compra, por lo que pensamos que algo lo hizo alejarse
de nosotros y como no se nota una gran reducción en su deuda pensamos que solo se
encuentra pagando intereses.
8. “Comprador no deudor”: Aquel que no nos deja de comprar, aumento en el uso de sus
créditos y sus deudas han ido bajando, por lo que es un cliente que nos consume pero no
quiere endeudarse.

Analisis Multivariado

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis Multivariado

Uploaded by

Copyright:

Available Formats

ANALISIS MULTIVARIADO

Las variables omitidas fueron:

Eigenvalues of the Correlation Matrix: Total = 100 Average = 1

17 1.0920763 0.0712438 0.0109 0.8632

18 1.0208325 0.0483573 0.0102 0.8734

19 0.9724753 0.0492404 0.0097 0.8832

Total Proportion Minimum Maximum Maximum

24 89.784829 0.8978 0.8085 0.982763 0.6300 0.5233

25 90.245382 0.9025 0.8115 0.982763 0.6600 0.5233

26 90.909199 0.9091 0.8121 0.982763 0.6600 0.5233

Cluster Variable R-squared Cluster Variable R-squared

A continuación notaremos el resultado de nuestro análisis cluster, en el cual se introdujeron las 25

Nuestro perfilamiento, realizado con 17 variables y 8 clusters, resultante es el siguiente:

You might also like