Métodos para estimar el riesgo de pérdida de clientes

Las empresas siempre están interesadas en estudiar los comportamientos de abandono de sus clientes. Comprender el Churn puede identificar factores que potencialmente se correlacionan con la partida de los clientes, pero también se puede utilizar como una fuerza predictiva para identificar a los clientes en riesgo e involucrarlos de manera proactiva y tomar acciones para evitar el Churn. 

Existen varios métodos para modelar el Churn, según su dominio y caso de uso. A continuación, se presentarán 3 enfoques para estimar el riesgo de pérdida de clientes:


Segmentación RFM

Identificar el valor que tiene un cliente es muy importante ya que nos ayudará a determinar el esfuerzo que debemos hacer con él y el beneficio que nos aporta. Con este objetivo, podemos definir diferentes maneras para determinar dicho valor; y no tan sólo el valor de un usuario en concreto, sino también, para determinar una agrupación de clientes que, por sus características, los podríamos considerar de una manera similar por su comportamiento, aficiones y beneficio similares. A ésta técnica de clasificación de usuarios la llamamos segmentación, y consiste en hacer agrupaciones de clientes, según las variables identificadoras previamente fijadas, según los indicadores que consideremos más importantes.

En marketing, una de las segmentaciones más utilizadas es el análisis RFM que consiste en clasificar a los usuarios mediante tres variables indicadoras: Recency, Frecuency y Money. Para su mejor comprensión, vamos a definir cada una de estas variables:

Adicionalmente, y según las características de nuestro negocio, deberemos marcarnos el espacio temporal del cual queremos hacer la segmentación. Podemos tener guardada información de usuarios desde hace mucho tiempo, pero debemos valorar desde cuando ya no nos interesa dicha información.

A nivel estadístico, y para fijar los rangos de cada una de las variables, deberemos tener en cuenta que los grupos sean homogéneos entre ellos, y además, si lo asociamos a una estrategia de comunicación, deberán ser segmentos uniformes, de un valor estadísticamente significativos, y grandes como para que sea rentable definir una estrategia para cada uno de ellos.

Finalmente, una vez, hemos detectado los 3 KPI influyentes en nuestra segmentación RFM y generado los rangos significativos para cada una de las variables, deberemos marcar los objetivos de negocio.

Establecer clasificaciones

La siguiente fase es donde ocurre la magia. El objetivo es agrupar valores para cada una de estas dimensiones. Tenga en cuenta que cuanto más cubos, más combinaciones y, por lo tanto, mayor granularidad en los segmentos.

La siguiente imagen refleja una puntuación simple de 1 a 2 a 3 niveles. Una puntuación de “1” en cualquiera de las dimensiones de RFM es el nivel más alto y una puntuación de “3” es el nivel más bajo.

Nota: El propósito de la agrupación 1–2–3 es simplificar la segmentación. Puede modificar tanto el número de niveles como el tamaño de los niveles con diferentes percentiles.

Interpretación de los segmentos

Los valores RFM codificados numéricamente son un buen truco para ayudar a desarrollar personas en función de sus niveles:

Observe que la fila con texto en rojo suele ser sus segmentos de alto riesgo. Los clientes con una puntuación de ‘3–1–1’ son aquellos que no han comprado en un tiempo (de ahí el ‘3’), pero que suelen comprar con frecuencia y compras bastante grandes. 

El siguiente enfoque demostrará cómo un modelo tradicional de aprendizaje automático puede proporcionar el nivel de granularidad al tiempo que incluye características adicionales.


Predicción basada en clasificador

El segundo enfoque, que suele ser el más común, es predecir el abandono entrenando un algoritmo supervisado (por ejemplo, random forest, regresión logística, etc.). Este enfoque proporciona una mayor granularidad que el método RFM en el sentido de que cada cliente tendrá un valor único para ellos en función de sus datos.

Preparación de los Datos

Es fundamental que sus datos estén preparados correctamente antes del modelamiento. La variable objetivo, por supuesto, es binaria y las características deben ser una foto en algún momento del tiempo.

Por ejemplo, puede extraer los detalles del cliente a partir del 1 de enero de 2020, digamos, para los clientes que estaban activos en ese momento. Estos detalles pueden incluir datos demográficos / firmográficos, antigüedad del cliente, niveles de compromiso con su producto y atributos de marketing. 

Una vez que se preparan los datos como se muestra arriba, el entrenamiento del modelo se vuelve bastante sencillo. Entrena / prueba el modelo como lo haría con cualquier clasificador.


Modelos basados en supervivencia

Los modelos basados en la supervivencia se desarrollaron originalmente para estudiar la esperanza de vida, como la esperanza de vida de poblaciones y naciones. Los modelos de supervivencia nos permiten estudiar el tiempo transcurrido hasta los eventos en poblaciones donde los eventos aún no se han observado. Una empresa no debería tener que esperar a que todos sus clientes abandonen hasta que puedan estimar y modelar el comportamiento de abandono. Esta noción de tratar con datos no observados se conoce como censura.

Para desarrollar algo de intuición sobre la importancia de la censura, supongamos que desea estimar el tiempo promedio de rotación entre todos sus clientes.

Las líneas rojas son cliente o suscriptores que dejan de utilizar los servicios y las líneas azules son cliente activos.

Entonces, ¿Cuál es el tiempo medio de abandono?

A continuación estudiaremos el modelo más adecuado.

Modelos de regresión de supervivencia

El modelo de regresión más simple es la función de supervivencia de Kaplan-Meier. Este modelo solo requiere dos parámetros; la duración y el evento. La duración simplemente identifica el tiempo total que un cliente ha estado activo (días, meses, etc.). El evento es binario e indica si el cliente ha abandonado o todavía está activo. La duración indica la edad actual de los clientes (si todavía están activos) o la edad a la que abandonaron.

Sin embargo, en la mayoría de los casos, tenemos características adicionales sobre nuestros clientes que queremos utilizar además de su duración. Los modelos de regresión de supervivencia permiten el uso para hacer una regresión de características adicionales (por ejemplo, datos demográficos, uso de productos, etc.), de manera muy similar a como lo hacemos con un modelo basado en clasificadores. Hay varios tipos, pero un modelo de regresión simple es el modelo de riesgo proporcional de Cox.

El modelo mencionado, se obtiene utilizando la estimación de Breslow de la función de riesgo de línea de base, conectándose a la probabilidad total y luego observando que el resultado es un producto de dos factores. El primer factor es la probabilidad parcial, en la que el peligro de referencia se ha “anulado”. El segundo factor está libre de los coeficientes de regresión y depende de los datos sólo a través del patrón de censura . El efecto de las covariables estimadas por cualquier modelo de riesgos proporcionales puede, por tanto, interpretarse como cocientes de riesgo .

Los diferentes enfoques para la rotación de modelos pueden adaptarse mejor a su negocio en función de sus necesidades y recursos. En muchos casos, se puede lograr un estudio estático y único de abandono, destinado a informar al liderazgo, con un enfoque descendente más simple como el modelo RFM. Con modelos de supervivencia se puede lograr una puntuación más dinámica y en tiempo real de los clientes, que pueda dar cuenta de la censura.

SobreMaría Alexandra Lizardo

Agregar un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *