Debido a la creciente sofisticación y complejidad de los fraudes que se cometen en la actualidad, estos superan las medidas antifraude tradicionales. En sectores regulados como son los financieros, salud, seguros, retail y seguridad social, la detección de fraudes es un proceso de negocio esencial.
Empresas grandes procesan miles de transacciones todos los días y necesitan un equipo de científicos de datos, ingenieros y gerentes de productos para construir, implementar y mantener algoritmos de detección de fraude, los programas tradicionales de cumplimiento y prevención de fraude en las organizaciones siguen siendo susceptibles al fraude, la colusión, la mala gestión y el abuso de activos.
La clave está en establecer mecanismos preventivos y proactivos, para identificar las transacciones o situaciones que pudiesen desencadenar pérdidas financieras y dañar la reputación.
Para dar respuesta a este desafío, la captura y análisis de datos utilizando técnicas de Analytics, se ha convertido en la piedra angular de los programas de gestión de riesgo, cumplimiento y prevención de fraude.

¿Por dónde se debe Iniciar?
Los volúmenes de datos a nivel global siguen creciendo de manera exponencial. Se pueden aprovechar estos datos para identificar patrones inusuales o señales de alerta.
Desde el punto de vista del producto, una solución perfecta de detección de fraude debe lograr lo siguiente:
- Permitir una experiencia de cliente sin fricciones y aceptar todas las transacciones de clientes legítimos.
- Detener todas las transacciones fraudulentas.
- Medir el éxito para alinearse con las expectativas del negocio.
Este es el objetivo final de la detección de fraudes, pero no podemos saber con certeza quién es un estafador: por lo tanto, lo segundo que podemos hacer es adivinar quién es un estafador con una probabilidad muy alta. Aquí es cuando los datos llegan a la mesa. Para las organizaciones o los grupos que están comenzando a usar el análisis de datos con el propósito de prevenir o detectar el fraude, podría parecer que esto consume demasiado tiempo o incluso que es algo imposible, pero no es así.
A continuación, se detalla el plan de trabajo Inflow en cinco pasos que le servirá para implementar el análisis de datos como parte de su programa antifraude.

1. Identificar factores de riesgo
Los servicios de Inflow te permitirán:
- Identificar todos los riesgos de fraude relevantes para la organización.
- Clasificación de los riesgos de fraude según su relevancia.
- Establecer controles o procesos de negocios para priorizar estos riesgos de fraude.
- Conocer en qué ocasiones fallaron los controles de prevención de fraude en el pasado.
- Una vez identificado, analizado y clasificado los riesgos de fraude, la organización podrá responder las siguientes interrogantes ¿Actualmente existen controles para mitigarlos? ¿Son efectivos?.
2. Identificar áreas susceptibles de verse afectadas por fraude
Esto le permitirá tener posibles esquemas o situaciones de fraude con el propósito de diseñar un plan efectivo.
3. Comprender cuáles son las fuentes de datos relevantes
Una vez identificadas las posibles áreas afectadas por riesgos de fraude y actividades fraudulentas, se procede a trabajar con las partes interesadas de toda la empresa para comprender dónde y cuándo se obtienen los datos.
- Determinar cuáles son las fuentes de datos adecuadas que puedan servir para obtener información de análisis sobre posibles actividades fraudulentas.

4. Mezclar, combinar y analizar los datos
En general, la revisión aislada de conjuntos de datos no es una tarea muy productiva. La eficacia radica en combinar los conjuntos de datos y emplear un análisis efectivo sobre diferentes conjuntos a fin de detectar casos de fraude.

Las empresas tiene grandes cantidades de datos, donde se almacenan tanto aquellas transacciones “normales” como las clasificadas como riesgosas. Entre estas transacciones se encuentran escondidos patrones. Identificando estos patrones se pueden detectar aquellos casos de riesgo, para informarlos a quienes deben tomar las acciones que correspondan.
Desde el punto de vista estadístico, la detección de fraude se puede modelar como un problema de clasificación binaria, donde cada registro es una transacción y la variable de respuesta es fraude versus no fraude.
5. Compartir información y programar alertas
Identifica casos de fraude y lagunas en el control e informe al equipo directivo y determine cómo implementar medidas de análisis para una supervisión continua y escalable. Esto ayudará a la organización a:
- Prevenir el fraude en el futuro.
- Ayudar a las partes interesadas a detectar intentos de fraude.
- Implementar procesos destinados a que las personas puedan informar sobre casos de fraude.
Te Brindamos Solución…
Las soluciones de Inflow tienen la capacidad de procesar el 100% de los datos de la compañía, lo que permite dar seguimiento y reconstruir transacciones históricas, utilizando millones de datos para detectar fraudes, errores e inconsistencias.
En entornos de negocio que no tienen un perfil de fraude predeterminado podemos utilizar técnicas avanzadas de Analytics, como inteligencia artificial, para identificar patrones e interrelaciones complejas.
Mediante el uso de aplicaciones analíticas predictivas, podemos mejorar la capacidad de nuestros clientes, tanto para identificar actividades potencialmente fraudulentas como monitorear las áreas, personas y procesos de mayor riesgo. Nos basamos en el proceso Descubrimiento de conocimiento en bases de datos (KDD, del inglés Knowledge Discovery in Databases) es básicamente un proceso automático en el que se combinan descubrimiento y análisis. El proceso consiste en extraer patrones en forma de reglas o funciones, a partir de los datos. Esta tarea implica generalmente preprocesar los datos, hacer minería de datos (data mining) y presentar resultados.

En la etapa de selección, una vez identificado el conocimiento relevante y prioritario y definidas las metas del proceso KDD, desde el punto de vista del usuario final, se crea un conjunto de datos objetivo. La selección de los datos varía de acuerdo con los objetivos del negocio.
En la etapa de preprocesamiento/limpieza (data cleaning) se analiza la calidad de los datos, se aplican operaciones básicas como la remoción de datos ruidosos (valores fuera del rango esperados), se seleccionan estrategias para el manejo de datos desconocidos (missing y empty), datos nulos, datos duplicados y técnicas estadísticas para su reemplazo.
En la etapa de transformación/reducción de datos, se buscan características útiles para representar los datos dependiendo de la meta del proceso. Se utilizan métodos de reducción de dimensiones o de transformación para disminuir el número efectivo de variables bajo consideración o para encontrar representaciones invariantes de los datos. Se utilizan técnicas de reducción como agregaciones, compresión de datos, histogramas, segmentación, discretización basada en entropía, muestreo, entre otras.
Etapa de minería de datos El objetivo de la etapa minería de datos es la búsqueda y descubrimiento de patrones insospechados y de interés. Las técnicas de minería de datos crean modelos que son predictivos o descriptivos. Los modelos predictivos pretenden estimar valores futuros o desconocidos como por ejemplo predecir para nuevos clientes si son buenos o malos basados en su estado civil, edad, género y profesión, o determinar para nuevos estudiantes si desertan o no en función de su zona de procedencia, facultad, estrato, género, edad y promedio de notas. Los modelos descriptivos identifican patrones que explican o resumen los datos; sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos, cómo identificar grupos de personas con gustos similares o identificar patrones de compra de clientes en una determinada zona de la ciudad.
Generalmente al plantear la detección de fraudes como un problema de clasificación se presentan dificultades con la distribución de datos. Esta dificultad puede ser solucionada de varias maneras mediante tecnologías que serán explicadas más adelante. Por lo tanto, la escogencia de un algoritmo de minería de datos incluye la selección de los métodos por aplicar en la búsqueda de patrones en los datos, así como la decisión sobre los modelos y los parámetros más apropiados, dependiendo del tipo de datos.
En la etapa de evaluación/interpretación se interpretan los patrones descubiertos y posiblemente se retorna a las anteriores etapas para posteriores iteraciones. Esta etapa puede incluir la visualización de los patrones extraídos, la remoción de los patrones redundantes o irrelevantes y la traducción de los patrones útiles en términos que sean entendibles para el usuario.
Mediante esta estrategia, puede mejorar la primera y segunda línea de defensa de la organización. Como resultado, optimizará los controles destinados a prevenir y detectar el fraude. Con una plataforma de análisis eficaz y la implementación de este plan de detección de fraude, el proceso de comprender, identificar y prevenir el fraude no solo es posible, sino también más rápido y escalable en toda la empresa.
Apoyamos la generación de modelos utilizando tecnologías de última generación como son Support Vector Machine o redes neuronales. Ambas han demostrado ser exitosas en tareas de detección de fraudes en diferentes aplicaciones.
Tecnologías Aplicadas
Como hemos mencionado las técnicas de implementación para la detección de fraudes, puede verse como un problema de clasificación. Como primera opción cada nueva transacción debe clasificarse como fraudulenta o normal, la segunda opción se encarga de modelarlo como un problema de detección de anomalías. En este segundo caso, se debe determinar si una nueva transacción es diferente a aquellas consideradas normales (según datos históricos).
La opción más conveniente dependerá de la disponibilidad de datos, de la estructura de estos y de los objetivos específicos de la organización.
Si bien es cierto plantear la detección de fraudes como un problema de clasificación se presentan dificultades con la distribución de datos, ya que el porcentaje de fraudes es mucho menor que el de transacciones normales. Esta dificultad puede ser solucionada de varias maneras, las cuales explicaremos a continuación.
Redes Neuronales Artificiales

Las redes neuronales artificiales, RNA son modelos matemáticos que pueden ser entrenados para aprender relaciones no lineales entre un conjunto de datos de entrada y un conjunto de datos de salida. Como su nombre lo indica las RNA tratan de imitar el funcionamiento de las redes neuronales de los organismos vivos, que son un conjunto de neuronas que no tienen ninguna tarea concreta por separado, pero con la experiencia van creando sinapsis y reforzando ciertas conexiones para “aprender” algo útil.
Bueno, para esto primero hay que “entrenar” nuestra red neuronal para que arroje los resultados que esperamos, para esto le introducimos datos de entrada que luego al pasar por la red darán ciertos resultados. Posteriormente iremos ajustando la red para que nos dé la respuesta esperada en base a ciertos datos de entrada, con esto en mente, una red ya entrenada se puede usar para procesar información y hacer predicciones de datos.
Por su capacidad de aprendizaje su uso se ha extendido a diversos lugares en los que existen problemas de clasificación y reconocimiento de patrones. Ejemplo: voz como el asistente “Siri” de iOS, en el buscador de imágenes de Google y reconocimiento de rostros en Facebook, etc.
Support vector machine

En machine learning, Support Vector Machine (SVM) son modelos de aprendizaje supervisados con algoritmos de aprendizaje que analizan los datos utilizados para la clasificación y el análisis de regresión. Dado un conjunto de ejemplos de entrenamiento, cada uno marcado como pertenecientes a una u otra de las dos categorías, un algoritmo de entrenamiento de SVM construye un modelo que asigna nuevos ejemplos a una categoría u otra, convirtiéndolo en un clasificador lineal binario no probabilístico.
Un modelo SVM es una representación de los ejemplos como puntos en el espacio, mapeados de modo que los ejemplos de las categorías separadas se dividan por una brecha clara que sea lo más amplia posible. Nuevos ejemplos se mapean en ese mismo espacio y se predice que pertenecen a una categoría basada en qué lado de la brecha caen.
El truco del kernel en SVM

Hay veces en las que no hay forma de encontrar una hiperplano que permita separar dos clases. En estos casos decimos que las clases no son linealmente separables. Para resolver este problema podemos usar el truco del kernel.
El truco del kernel consiste en inventar una dimensión nueva en la que podamos encontrar un hiperplano para separar las clases. En la siguiente figura vemos cómo al añadir una dimensión nueva, podemos separar fácilmente las dos clases con una superficie de decisión.
Support vector machine es una tecnología que soluciona alguno de los problemas que tienen las redes neuronales y que es la tendencia actual en la minería de datos. La gran deficiencia de las redes neuronales es que sus métodos de entrenamiento no aseguran la obtención de un óptimo global. Este problema no lo tienen los Support Vector Machine. Esta tecnología ya ha sido utilizada en la detección de fraudes con excelentes resultados.