Cómo el Machine Learning está aumentando las ventas en las empresas

La predicción de ventas empresariales puede ser un desafío. La predicción de las ventas requiere que los equipos de ventas comprendan lo que viene a continuación y cómo deben trabajar para cerrar el trato, que es un trabajo que puede llevar semanas o meses. El Machine Learning proporciona una solución a este problema mediante el uso de datos de comportamiento de clientes anteriores para pronosticar resultados futuros. 

A continuación, se muestran algunos algoritmos de Machine Learning que se utilizan para predecir las ventas:

Regresión lineal 

Es un enfoque estadístico en el que las relaciones entre las variables se exploran utilizando una línea de mejor ajuste, donde la línea intenta minimizar las desviaciones verticales de los puntos de datos, proporcionando así una idea de las relaciones que existen entre las variables.

Se utiliza un modelo de regresión lineal para predecir los valores futuros de una variable en función de otras variables relacionadas, es decir, predecir las ventas trimestrales del producto A en función de las ventas diarias de los productos B y C. Los modelos de regresión lineal también se utilizan para medir cómo cambia uno o las variables más independientes afectan una variable dependiente, es decir, ¿cuál sería el impacto en las ventas trimestrales si los precios de los productos B y C aumentaran?.

Regresión logística 

Se utiliza cuando desea predecir si se producirá un evento (resultado binario) mediante el uso de variables de entrada numéricas existentes que actúan como variables predictoras. Por ejemplo, ¿cuál es la probabilidad de que el cliente X compre el producto Y?.

La regresión logística se utiliza para realizar evaluación de riesgos y detección de fraude, es decir, evaluar la probabilidad de fraude con tarjeta de crédito mediante el análisis de las transacciones realizadas en la tarjeta, evaluar cuál es la probabilidad de incumplimiento del préstamo al observar las finanzas de los clientes.

Árbol de decisión 

Es un conjunto de reglas que se determinan dividiendo los datos en varios segmentos para que una categoría forme cada segmento. Los atributos clave actúan como filtros en cada proceso de toma de decisiones, donde todos los segmentos comienzan con el nodo raíz y terminan en los nodos hoja (nodos terminales). Un ejemplo simple sería determinar si el cliente X comprará o no el producto Y verificando primero si posee el producto Z y, si lo hace, la probabilidad es del 70% y del 30% si no es así.

Los árboles de decisión se pueden utilizar para determinar qué clientes tienen más probabilidades de comprar un producto, es decir, identificar el 20% de los clientes que tienen más probabilidades de comprar el producto Z el próximo mes.

Agrupamiento de K-medias

Permite dividir “n” observaciones en “k” grupos en los que cada observación pertenece a un grupo y tiene la media de ese grupo como valor representativo. El número de clústeres, “k”, debe especificarse antes de ejecutar este algoritmo y tiende a no converger o funcionar bien cuando tiene clústeres no convexos. Por ejemplo, digamos que queremos identificar qué tipo de cliente compra mejor nuestro producto: los que tienen una gran cantidad de ingresos disponibles y los que tienen una cantidad moderada de ingresos disponibles.

La agrupación de K-medias se utiliza para identificar segmentos de clientes, es decir, identificar 2 grupos diferentes que tienen comportamientos de compra únicos que requerirían mensajes u ofertas diferentes.

Naïve Bayes 

Es un algoritmo eficiente basado en la aplicación del Teorema de Bayes con el supuesto de que cada dimensión en su conjunto de datos no está relacionada con ninguna otra dimensión como probabilidad condicional. En la práctica, esto funciona bien siempre que no tenga problemas con la escasez de datos (falta de datos). Por ejemplo, podríamos usarlo para predecir qué productos se adaptan mejor a los clientes a los que les gustan los productos A y B y compararlo con otro grupo de clientes a los que les gustan los productos C y D: ¿qué productos son los más adecuados para cada segmento de clientes?.

Naïve Bayes ayuda a predecir qué clientes tienen más probabilidades de responder a un mensaje en particular, es decir, identificar el 20% de clientes que tienen más probabilidades de realizar una compra en el próximo mes en función de su comportamiento en los meses anteriores. Los datos se analizarían segmentando a los clientes en usuarios “ligeros”, “medianos” e “intensos” en función de cuánto gastan por mes.

Máquinas de vectores de soporte (Support Vector Machines, SVM)

Es un algoritmo que optimiza los algoritmos de clasificación binaria al encontrar un hiperplano que tenga la mayor distancia de cualquier observación en cualquier clase, por lo que se puede utilizar para la clasificación de varias clases. Lo hace minimizando los errores cometidos al clasificar las observaciones en cada clase. Por ejemplo, digamos que tenemos dos segmentos de clientes que tienen más probabilidades de comprar el producto Y, los que poseen el producto X y los que no. Support Vector Machine podría usarse para identificar cómo se deben segmentar los clientes para maximizar la posibilidad de vender el producto Y para ambos segmentos.

Support Vector Machine se puede utilizar para identificar qué productos son los más adecuados para un segmento de clientes en particular en función de su comportamiento en los meses anteriores, es decir, identificando si existe alguna interacción entre la compra de un producto y otro (¿existe una asociación o dependencia?) observando qué otros productos compran los clientes durante el mismo período de tiempo que la primera compra. Esto nos permitiría ver si recibir la oferta A aumenta/disminuye la posibilidad de comprar la oferta B.

Aprendizaje con reglas de asociación (Association Rule Learning, AL)

Analiza todas las reglas posibles entre elementos y luego calcula el soporte (cuántas veces se ha observado una regla), la confianza (la proporción de transacciones en las que un elemento coexiste con otro) y la elevación (una regla de asociación).

Este método se puede utilizar para identificar qué productos se compran a menudo juntos con el fin de encontrar nuevas relaciones entre ellos.

También puede utilizar este algoritmo para identificar segmentos de clientes en función de lo que compran otros clientes. Por ejemplo, si queremos identificar el 20% de los clientes que tienen más probabilidades de comprar productos tanto del grupo 1 como del grupo 2, examinaríamos todas las reglas posibles entre los elementos de cada grupo y calcularíamos la frecuencia de cada regla. Este algoritmo se utiliza para el análisis de la cesta de la compra, es decir, encontrar grupos de productos que aparecen juntos con frecuencia en una sola transacción. 

Modelos gráficos (Graphical Models, GM) 

Se utilizan cuando tiene una variable de resultado (por ejemplo, compra o no compra), una o más variables predictoras (por ejemplo, edad, nivel de ingresos, etc.) y varias interacciones potenciales entre las dos. Se pueden utilizar en situaciones en las que puede haber múltiples factores causales que influyan en un proceso de decisión; por ejemplo, ¿qué clientes tienen más probabilidades de responder a una campaña de correo? Los modelos gráficos utilizan la teoría de la probabilidad para modelar las dependencias entre diferentes eventos en una red mediante la construcción de un gráfico.

Métodos de conjunto (Ensemble Methods)

Crean una predicción agregada al combinar las predicciones de varios modelos de Machine Learning, cada uno de los cuales puede haber utilizado diferentes algoritmos para generar sus resultados. Por lo general, se crean mediante árboles de decisión, Boosting o Bagging (ver más abajo). La precisión de los métodos de conjunto tiende a ser mayor que la de los modelos individuales porque tienen más puntos de datos y varianza del modelo; si un modelo predice que alguien comprará pero otro predice que no lo hará, hay menos posibilidades de que ambos se equivoquen. Sin embargo, la tasa de error aún puede ser alta si todos los conjuntos no están entrenados adecuadamente. 

Boosting 

Es un meta-algoritmo de Machine Learning, consiste en combinar los resultados de varios clasificadores débiles para obtener un clasificador robusto. Cuando se añaden estos clasificadores débiles, se lo hace de modo que estos tengan diferente peso en función de la exactitud de sus predicciones. Luego de que se añade un clasificador débil, los datos cambian su estructura de pesos: los casos que son mal clasificados ganan peso y los que son clasificados correctamente pierden peso. Así, los clasificadores débiles se centran de mayor manera en los casos que fueron mal clasificados por los clasificadores débiles.

Bagging

Es un método de conjunto similar al Boosting que implica la construcción de un modelo promedio mediante la creación de múltiples muestras (o remuestreo) de datos de entrenamiento con reemplazo, la construcción de una serie de modelos individuales a partir de estas muestras y luego la elaboración de su predicción agregada usando votaciones o promedios. Al igual que el Boosting, el Bagging se puede usar para reducir la variación del modelo y mejorar las predicciones, pero también puede sufrir un sobreajuste si hay mucho ruido en los datos de entrenamiento.

SobreMaría Alexandra Lizardo