Comprender qué son los repositorio de características y por qué son importantes es crucial, especialmente en el mundo actual en el que los modelos de aprendizaje automático resuelven cada vez más la gobernanza de datos y los problemas comerciales. De hecho, los repositorios de características deberían ser una parte fundamental de toda la operación de aprendizaje automático de su empresa.
Entre otros beneficios que ofrecen, tres ventajas específicas de los repositorios de características las hacen invaluables:
Permiten la simple reutilización de características en toda la empresa; facilitan la estandarización de las definiciones de características y las convenciones de nomenclatura; permiten que las empresas logren coherencia entre los modelos que un científico de datos desarrolla fuera de línea y los modelos cuando se implementan en línea.
¿Qué es un repositorio de características?
El repositorio es en realidad una biblioteca de software centralizada que contiene muchas funciones, donde cada función crea una característica única a partir de una entrada estandarizada (datos). Estas características se pueden incorporar posteriormente a algoritmos de aprendizaje automático destinados a resolver diferentes problemas.
Cuando operan sistemas de aprendizaje automático a escala, los profesionales de datos generalmente necesitan diseñar una gran cantidad de funciones para entrenar sus modelos. Si el modelo logra resolver el problema para el que se creó y se implementa en producción, las mismas características exactas deben crearse más tarde en el entorno de producción para alimentar el modelo que se ejecuta en producción. Un repositorio de características se convierte en un recurso invaluable para los científicos de datos durante este proceso.
Los repositorios de características también permiten a los científicos de datos optimizar la forma en que se mantienen las características, obteniendo procesos más eficientes al tiempo que aseguran que las características se almacenen, documenten y prueben correctamente.
Muchos proyectos y asignaciones de investigación en una empresa utilizan las mismas funciones. Con un repositorio de características, los científicos de datos pueden acceder rápidamente a las características que necesitan y evitar repetir el trabajo.
¿Por qué necesitamos un repositorio de características?
Hay algunos desafíos específicos de funciones que enfrentan los científicos de datos que el uso de los repositorios de funciones ayuda a aliviar. Éstos incluyen:
- Las funciones no se reutilizan. Un obstáculo común al que se enfrentan los científicos de datos es dedicar tiempo a volver a desarrollar funciones cuando hubiera sido suficiente utilizar funciones desarrolladas previamente o desarrolladas por otros equipos.
- Las definiciones de las funciones varían. Los diferentes equipos de cualquier empresa pueden definir y nombrar características de manera diferente. Además, acceder a la documentación de una función específica (si existe) a menudo es un desafío. Los repositorios de características abordan este problema manteniendo las características y sus definiciones organizadas y coherentes. La documentación del repositorio de características le ayuda a crear un lenguaje estandarizado en torno a todas las características de la empresa.
- Existe una incoherencia entre las funciones de entrenamiento y producción. Los entornos de producción e investigación suelen utilizar diferentes tecnologías y lenguajes de programación. Los datos que ingresan al sistema de producción deben procesarse en funciones en tiempo real e incorporarse a un modelo de aprendizaje automático. Para que el esfuerzo de modelado sea efectivo, el modelo desarrollado fuera de línea en la investigación debe proporcionar exactamente la misma predicción que el modelo implementado en línea con los mismos datos de entrada. Tener un repositorio de características que sea independiente del entorno (en línea y fuera de línea) sugiere que dados los mismos datos, el modelo se alimentará exactamente con la misma característica.
Beneficios del repositorio de características
Seguir el mismo flujo de trabajo
Cuando una empresa adopta los repositorios de características, permite a los profesionales de datos de todos los equipos seguir el mismo flujo de trabajo general para cualquier caso de uso de aprendizaje automático, independientemente de los desafíos que están abordando actualmente (como clasificación y regresión, pronóstico de series de tiempo, etc.). Este flujo de trabajo generalmente es independiente de la implementación, lo que significa que se puede adoptar fácilmente para su uso con nuevos tipos de algoritmos, como el algoritmo ML clásico junto con los marcos de aprendizaje profundo más nuevos.
Ahorro de tiempo
Otro beneficio importante de utilizar los repositorios de características es el ahorro de tiempo que genera. La etapa en cualquier esfuerzo de modelado donde se crean características tiende a ser la que consume más tiempo; Este proceso sensible requiere que las características se calculen correctamente, con miles de características que se crean a la vez y se calculan en un entorno de producción exactamente de la misma manera en que se calcularon sin conexión durante la investigación.
Recomendación: Un repositorio de funciones centralizada
Crear y mantener un repositorio de características centralizada donde diferentes profesionales de datos en toda la empresa puedan crear y administrar características para ser utilizadas por otros miembros del equipo. Esto permite a los científicos de datos agregar fácilmente funciones que han integrado en un repositorio de funciones compartidas. Una vez que las características están ahí, son fáciles de consumir tanto en línea (en producción) como fuera de línea (en investigación), simplemente haciendo referencia al nombre canónico simple de una característica.
Esto le permitirá a los miembros de nuestro equipo evitar la repetición del trabajo y acceder fácilmente a una gran cantidad de datos que necesitan para fines de modelado e investigación.