Entrada de datos, salida de predicciones

Un flujo de trabajo estándar para proyectos de Data Science garantiza que los diversos equipos dentro de una organización estén sincronizados, de modo que se puedan evitar más retrasos.

El objetivo final de cualquier proyecto empresarial de Data Science consiste en producir un producto de datos eficaz. Los resultados utilizables producidos al final de un proyecto de Data Science se denominan producto de datos. Un producto de datos puede ser cualquier cosa (un panel, un motor de recomendaciones o cualquier cosa que facilite la toma de decisiones) para resolver un problema empresarial. 

Sin embargo, para alcanzar el objetivo final de producir productos de datos, los científicos de datos deben seguir un proceso formalizado bajo un flujo de trabajo (en donde se indique el paso a paso a seguir). 

A continuación, se describe el proceso de flujo de trabajo estándar de los proyectos de Data Science. 

1. Comprensión empresarial

¿Qué resolverás si no tienes un problema concreto? 

Es extremadamente importante comprender claramente el objetivo comercial porque ese será el objetivo final del análisis. Después de una comprensión adecuada, sólo podemos establecer el objetivo específico de análisis que esté sincronizado con el objetivo comercial, para ello necesita saber si el cliente quiere reducir la pérdida crediticia, o si quiere predecir el precio de un producto básico, etc.

2. Comprensión de datos

Después de la comprensión empresarial, el siguiente paso es la comprensión de los datos. Esto implica la recopilación de todos los datos disponibles. Aquí se debe trabajar en estrecha colaboración con el equipo comercial, ya que saben qué datos están presentes, qué datos podrían usarse para este problema comercial y mucha información adicional que puede ser de utilidad. 

Este paso implica describir los datos, su estructura, su relevancia, su tipo de datos. Explorar los datos utilizando diagramas gráficos y extrayendo cualquier información que pueda obtener sobre los datos.

3. Preparación de datos

Luego viene la etapa de preparación de datos. Esto incluye los pasos de cómo seleccionar los datos relevantes, integrar los datos fusionando los conjuntos de datos, limpiarlos, tratar los valores faltantes eliminandolos o imputándolos, tratando los datos erróneos eliminandolos y también verificando los valores atípicos usando diagramas de caja. 

Con la construcción nuevos datos, puede obtener nuevas características de los existentes. La preparación de datos es el paso más lento pero posiblemente el más importante de todo el ciclo de vida. El modelo final será tan bueno como tus datos.

4. Análisis de datos exploratorios

Este paso implica hacerse una idea de la solución y los factores que la afectan, antes de construir el modelo real. La distribución de datos dentro de diferentes variables de una característica se explora gráficamente usando gráficos de barras. Las relaciones entre diferentes características se capturan a través de representaciones gráficas como diagramas de dispersión y mapas de calor. Muchas otras técnicas de visualización de datos se utilizan ampliamente para explorar cada característica individualmente.

5. Modelado de datos

El modelado de datos es el corazón del análisis de datos. Un modelo toma los datos preparados como entrada y proporciona la salida deseada. Este paso incluye elegir el tipo apropiado de modelo, ya sea que el problema sea un problema de clasificación, un problema de regresión o un problema de agrupamiento. Después de elegir la familia de modelos, entre los distintos algoritmos de esa familia, debemos elegir cuidadosamente los algoritmos para implementarlos. Se necesita ir ajustando los hiperparámetros de cada modelo para lograr el rendimiento deseado. 

6. Evaluación del modelo

Aquí, el modelo se evalúa para verificar si está listo para implementarse. El modelo se prueba con datos invisibles, evaluados con un conjunto de “métricas de evaluación” cuidadosamente pensadas. 

También debemos asegurarnos de que el modelo se ajuste a la realidad. Si no obtenemos un resultado satisfactorio en la evaluación, debemos repetir todo el proceso de modelado hasta lograr el nivel de métricas deseado. Cualquier solución de Data Science, un modelo de Machine Learning , al igual que un humano, debería evolucionar, debería poder mejorarse con nuevos datos y adaptarse a una nueva métrica de evaluación. La evaluación del modelo nos ayuda a elegir y construir un modelo perfecto.

7. Despliegue del modelo

El modelo, después de una evaluación rigurosa, finalmente se implementa en el formato y canales deseados. Este es el paso final en el ciclo de vida de Data Science.

El ciclo de vida de Data Science debe trabajarse con cuidado. Si algún paso se ejecuta incorrectamente, afectará al siguiente paso y todo el esfuerzo se desperdiciará. Por ejemplo, si los datos no se recopilan correctamente, perderá información y no estará construyendo un modelo perfecto. Si los datos no se limpian correctamente, el modelo no funcionará. Si el modelo no se evalúa correctamente, fallará en el mundo real. Desde la comprensión del negocio hasta la implementación del modelo, cada paso debe recibir la atención, el tiempo y el esfuerzo adecuados.

Las personas a menudo confunden el ciclo de vida de un proyecto de Data Science con el de un proyecto de ingeniería de software. Ese no debería ser el caso, ya que el Data Science es más ciencia y menos ingeniería. No existe un proceso de flujo de trabajo único para todos los proyectos de Data Science y los científicos de datos tienen que determinar qué flujo de trabajo se adapta mejor a los requisitos comerciales. 

SobreMaría Alexandra Lizardo