¿Cómo llevar un proyecto de ciencia de datos de la idea a la producción?

Un científico de datos es responsable de su trabajo, desde la concepción de la idea hasta el lanzamiento de un producto de datos. Como tal, los científicos de datos deben participar en cada paso del camino. 

Los pasos para llevar un proyecto de ciencia de datos desde el inicio hasta el lanzamiento son:

1. Obtenga los datos

Obtener los datos correctos para su proyecto en el formato correcto puede tener varios pasos secundarios y dificultades potenciales. En general, obtener los datos generalmente implicaría escribir una o más consultas en SQL o en un lenguaje relacionado como Hive. De esa manera, podría extraer los datos que necesita de cualquier sistema de base de datos que utilice su empresa.

Diferentes compañías usan diferentes tipos de datos. Su empresa puede generar sus propios datos a través de los usuarios en su sitio web o hardware que contiene sensores. 

De donde sea que obtenga sus datos, es importante tener las habilidades para extraerlos con éxito.

2. Investigación

A menos que haya realizado muchos análisis similares antes, siempre tendrá que investigar un poco al comenzar un nuevo proyecto de ciencia de datos.

Este paso también puede ocurrir antes de obtener los datos, realmente depende del proyecto. Es posible que necesite investigar qué tipo de datos está disponible y qué tipo necesita. Sin embargo, si tiene muchos conocimientos de dominio, es posible que ya sepa qué tipo de datos necesita y dónde acceder al conjunto de datos correcto. En este caso, podría pasar a investigar cómo otras personas se han acercado al tipo de problema que tiene. 

Siempre debe evaluar de manera independiente y crítica lo que otros han hecho y decidir si algo similar funcionará para usted. El trabajo de ciencia de datos no se trata solo de seguir ciegamente la receta que otros antes han usado. Dependiendo de su experiencia estadística, también puede necesitar investigar un poco sobre qué metodología elegir y cómo implementarla en la pila de tecnología que tiene disponible. 

Podría haber algún nuevo algoritmo brillante de aprendizaje automático que se adapte perfectamente a su problema y conjunto de datos, pero si no ha hecho ninguna investigación, nunca lo sabrá.

3. Exploración de datos

Es una buena idea utilizar estas investigaciones como una oportunidad para confirmar que los datos que obtuvo del primer paso son realmente los que esperaba. Puede haber errores al extraer datos de una base de datos, así que asegúrese de verificar sus datos y confirme que tiene lo que desea. También puede realizar algunas estadísticas de resumen para describir el conjunto de datos, según la forma que adopte.

4. Limpieza de datos

Liderando desde el paso anterior de exploración de datos es la limpieza de datos. Algunos algoritmos de aprendizaje automático son bastante delicados y no requieren valores faltantes. Si está utilizando uno de estos algoritmos, deberá decidir cómo obtener un buen conjunto de datos.

Hay muchas metodologías diferentes que puede usar para imputar datos cuando le faltan valores. Sin embargo, el objetivo de su análisis le informará cuál elige. Es posible que no sea apropiado imputar datos, en cuyo caso es posible que deba eliminar las entradas en su conjunto de datos que contienen valores faltantes. Solo tenga en cuenta que las entradas con valores faltantes pueden no estar distribuidas uniformemente entre sus datos y pueden sesgar sus resultados. 

Como suele ser el caso, hay ventajas y desventajas de cada método de limpieza, sólo debe elegir el que mejor se adapte a su proyecto y lo que es importante para su empresa.

5. Consultar a los interesados

Hay muchas personas diferentes que pueden ser partes interesadas en un proyecto de ciencia de datos:

  • Equipo de producto : Responsable de diseñar e implementar la hoja de ruta del producto. Trabaja con científicos de datos para asegurarse de que los elementos de datos cumplan con el diseño y el resumen del producto y se entreguen a tiempo.
  • Equipo de diseño : Responsable de diseñar los productos de las empresas para que sean deseables para los usuarios o clientes. Trabaja con el científico de datos para asegurarse de que el diseño del producto sea compatible con los datos disponibles.
  • Equipo de ingeniería de datos : Mantenga la tubería ETL (extracción, transformación, carga) para que los datos estén disponibles y puedan ser utilizados por los miembros del equipo. Trabaja muy de cerca con los científicos de datos para asegurarse de que los datos estén en un formato que tenga sentido para el trabajo que está haciendo la empresa. 
  • Equipo de ingeniería de producto : Escriben el código que construye el producto. Trabaja con los científicos de datos para asegurarse de que los elementos de datos se entreguen en un formato que puedan utilizar para incorporar al producto.
  • Equipo de marketing : Promueve la publicidad de productos y diseño de las empresas que hará que los usuarios y el público vean la marca de la manera deseada. Trabaja con el científico de datos en historias relacionadas con elementos de datos y cómo se explica al público el trabajo de la ciencia de datos.
  • Equipo de desarrollo empresarial : Cree valor para la empresa, a menudo valor monetario. Trabaja con los científicos de datos para obtener los datos que necesitan para desarrollar asociaciones, vender el producto, negociar, etc.
  • Expertos de dominio : Expertos en un área particular importante para los objetivos de la empresa o el producto. Trabaja con el equipo de ciencia de datos si tienen experiencia relacionada con los datos y cualquier experimento que realice el equipo de ciencia de datos.
  • Equipo de experiencia del usuario : Responsable de medir la experiencia que los usuarios tienen con el producto que la compañía está produciendo. Trabaja con científicos de datos para proporcionar comentarios de los usuarios sobre productos de datos. 

Es importante asegurarse de tocar la base con todos los diferentes interesados en su proyecto. No subestimes lo importante que es ser un buen comunicador como científico de datos. Asegurarse de que entiendan las técnicas que está utilizando y cuáles son sus limitaciones es de vital importancia.

6. Definir el éxito

El éxito de un proyecto de ciencia de datos dependerá de los objetivos de ese proyecto. Sin embargo, es vital que defina cómo será el éxito antes de comenzar a construir su análisis. Es muy importante saber de antemano cuáles son los requisitos mínimos para un análisis o modelo para saber cuándo su primera versión es lo suficientemente buena como para compartirla. Es posible que necesite involucrar a otras partes interesadas en la definición de su métrica de éxito, dependiendo del tipo de proyecto de ciencia de datos. 

7. Crea un V1

Esta es la parte del proceso que la mayoría de la gente piensa cómo “hacer ciencia de datos”. Escribir el código para crear un modelo y realizar un análisis es la parte más rápida del proceso. Se invierte mucho más tiempo limpiando datos e investigando qué construyendo modelos de aprendizaje automático. El proceso de crear un V1 es muy diferente para cada proyecto que realice.

8. Comentarios

Estar abierto a críticas constructivas puede mejorar enormemente su proyecto. Una buena idea es hacer una revisión estadística al menos una vez para cada proyecto de ciencia de datos, donde obtenga comentarios del resto del equipo de ciencia de datos. 

9. Hacer ajustes

Según los comentarios que reciba, es posible que desee hacer algunos ajustes. Estos cambios pueden ser grandes o pequeños. Puede valer la pena investigar un poco más para ver si se pueden incorporar algunas ideas. 

10. Obtenga la firma final

Una vez que haya incorporado los comentarios del equipo de ciencia de datos y otras partes interesadas, es posible que deba obtener una aprobación final. Depende de qué tipo de proyecto de ciencia de datos esté trabajando en cuanto a quién podría necesitar darle la autorización final.

10. Complete V1 y entregue en el formato requerido

Una vez que haya completado todos los controles y saldos, estará listo para completar sus elementos de datos en el formato requerido.

Nuevamente, depende del tipo de proyecto en el que esté trabajando en cuanto a lo que podría necesitar enviar. Puede ser tan fácil como crear una tabla de datos a la que pueda apuntar el equipo de ingeniería del producto. Alternativamente, puede implicar trabajar con los equipos de ingeniería de datos y productos para implementar un modelo de aprendizaje automático en tiempo real en el sitio web de la compañía. Además, es posible que deba trabajar con el equipo de marketing para crear elementos de datos adicionales que necesitan para el lanzamiento de su proyecto.

11. Lanzamiento

Esta es la parte fácil, aunque a veces es la parte más estresante, consiste en sacar producto y ver cómo se recibe.  

12. Comentarios del usuario

 Aunque técnicamente obtener comentarios de los usuarios ocurre después del lanzamiento, es de vital importancia que los científicos de datos participen. La retroalimentación se puede filtrar a través de analistas de datos, el equipo de producto o el equipo de experiencia del usuario, dependiendo del flujo de trabajo en su empresa.

Y como recomendación… Comienza a trabajar en V2

El trabajo de un científico de datos nunca se realiza. Los proyectos son generalmente un proceso iterativo. Es poco probable que su producto o análisis de datos sea perfecto la primera vez. Sin embargo, las cosas no necesitan ser perfectas para la producción, solo necesitan que sus imperfecciones sean reconocidas y documentadas. 

La ciencia de datos se usa para describir el mundo en el que vivimos, aprende a sacarle provecho

SobreMaría Alexandra Lizardo

Agregar un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *