7 desafíos claves de las arquitecturas de datos modernas

Ahora estamos comenzando a ver el surgimiento de sistemas masivos y complejos construidos alrededor de datos, donde el valor comercial principal del sistema proviene del análisis de datos, en lugar del software directamente. Los datos generados por varias aplicaciones se combinan y mejoran en gran medida para brindar una mejor experiencia al cliente. 

Obtener valor de los datos incluye la construcción de una arquitectura de datos unificada y un esfuerzo colaborativo de los equipos de ingeniería y ciencia de datos. La ingeniería de datos implica la construcción, mantenimiento de la infraestructura, y las canalizaciones de datos, y el equipo de ciencia de datos se encarga de la transformación de datos crudos en algo útil y la obtención de conocimientos a través de la analítica y machine learning.

Aprovechar una arquitectura de datos moderna ayuda a las empresas a ser competitivas en la nueva economía. Los datos precisos son un componente importante para el planeamiento estratégico y gestión de presupuestos. Hoy en día la disponibilidad de los datos y visualización deben ser:

  • En tiempo real, considerando una única verdad de toda la empresa
  • Amigable para los usuarios
  • Unificada y totalmente integrada con los sistemas empresariales
  • Basada en la nube para un almacenamiento eficiente
  • Sumamente precisa y confiable, con definiciones claras y con lógica bien documentada.

Estas cualidades son esenciales para desarrollar una cultura empresarial equipada para reaccionar con gran velocidad y para proactivamente ocuparse de los temas cambiantes. Para llevarlo a cabo es importante tener la separación de la ingesta, procesamiento, almacenamiento, modelado de ML y los consumidores de datos, para luego estudiarse en componentes aislados con la finalidad de reparar, escalar o reemplazar recursos de forma independiente en cada etapa, sin afectar a las demás.

A continuación, presentamos 7 desafíos claves de las arquitecturas de datos modernas:

1. Variedad:

  • Productores de datos

Los datos llegan en una variedad de formatos, estructuras, protocolos y tamaños de fuentes diferentes. Los productores de datos pueden ser aplicaciones transaccionales y sistemas operativos que generan datos relacionales, o pueden ser aplicaciones móviles de redes sociales, dispositivos IOT, flujos de clics o archivos de registro que generan datos no relacionales.

La arquitectura debe gestionar la diversificación de datos y al mismo tiempo proporcionar un acceso constante a ellos. Debe ofrecer flexibilidad y hacer cumplir las restricciones a las variaciones de esquema.

2. Velocidad:

La arquitectura debe gestionar los datos que se mueven rápidamente para generar resultados en periodos de tiempo más cortos, así como los datos que se mueven lentamente para generar resultados de forma periódica o bajo demanda. Debe poder ajustarse de forma eficaz a medida que varía la velocidad de los datos.

  • Ingestión de datos

El enorme volumen de datos generados por los proveedores se ingiere en el sistema de Big Data a través de diversas técnicas, como la ingestión de lotes, micro lotes, captura de datos modificados, publicación-suscripción, sincronización-asincrónica e ingestión de transmisiones. La arquitectura de datos debe manejar de manera efectiva los requisitos de rendimiento, tasa de fallas y evitar el estrangulamiento en el sistema. 

  • Procesamiento de datos

El procesamiento de datos implica varios métodos, como la limpieza, la creación de perfiles, la validación, el enriquecimiento y la agregación de conjuntos de datos; implica modelado de datos y mapeo de esquemas de origen y destino. 

A medida que cambia la velocidad de los datos, los trabajos de procesamiento deben escalar elásticamente para manejar ráfagas de datos y aceleraciones de datos debido a un aumento repentino en el uso o la demanda.

3. Volumen:

La arquitectura debe manejar la cantidad de datos que ingresan ya sean pequeños, grandes o en ráfagas. Debe gestionar de forma eficaz los datos entrantes, así como los datos históricos, y ofrecer las opciones adecuadas para casos de uso analíticos y transaccionales.

  • Almacenamiento de datos

La arquitectura de datos debe gestionar eficazmente las enormes cantidades de datos procesados ​​y almacenados en el sistema, a través del almacenamiento distribuido, almacenes de objetos y opciones de almacenamiento especialmente diseñadas (nosql db, columnar db, timeseries db, etc.). El almacenamiento centralizado evita la duplicación de copias de datos distribuidas en varios sistemas y proporciona un mejor control de acceso a los usuarios.

4. Visibilidad:

La arquitectura debe gestionar la visibilidad y accesibilidad de todos los datos junto con su relación y detalles. Debería habilitar el control de versiones de datos para ver cómo los conjuntos de datos han cambiado con el tiempo y retroceder a una versión o tiempo específico.

  • Gestión de metadatos

La gestión de metadatos incluye técnicas de catalogación de datos y relación de datos. La arquitectura de datos debe permitir a los usuarios agregar etiquetas y palabras clave para buscar fácilmente los activos de datos. La arquitectura de datos puede proporcionar características mejoradas, como la exposición automática de correlaciones, corrupción de datos, uniones, relaciones y predicciones dentro de los datos. 

5. Veracidad:

  • Calidad e integridad de los datos

La veracidad es el grado en que los datos son precisos, completos y confiables. Los datos deben limpiarse, deducirse, enriquecerse, ser verificables y coherentes durante todo su flujo a través de las diferentes etapas del pipeline, así como su ciclo de vida. Esto garantiza que los datos sean fiables para la planificación, toma de decisiones y las operaciones.

Para garantizar la integridad de los datos, necesitamos tener información completa de la trazabilidad cuando los datos ingresan al sistema y en todas las etapas hasta que los datos llegan a los puntos finales del consumidor. 

6. Vulnerabilidad:

Los datos deben protegerse del acceso no autorizado donde quiera que residan y restringirse en función de los cambios en la política de cumplimiento. Los datos se deben observar a lo largo de su flujo y ciclo de vida para rastrear cómo y quién los usa.

  • Seguridad de datos

La arquitectura de datos debe proporcionar estrictos mecanismos de seguridad, cumplimiento, privacidad y protección para los datos en todas las diferentes capas. 

Los principales proveedores de la nube (AWS, Azure y Google) ofrecen soluciones de seguridad extremo a extremo para construir una arquitectura de datos integrada unificada. 

7. Valor:

El resultado final de la arquitectura de datos es permitir el análisis basado en datos para la toma de decisiones comerciales o crear productos basados ​​en datos para mejorar la experiencia del cliente.

  • Modelado Machine Learning (ML)

Una vez entrenados los modelos ML, se implementan a escala en varios nodos y se generan los puntos finales de inferencia para proporcionar predicciones. Los modelos se deben monitorear continuamente para detectar cualquier variación en los datos y la precisión del modelo. Cuando se detecta una disminución en la calidad del modelo, los datos recibidos por el modelo se capturan y se comparan con los conjuntos de datos de entrenamiento.  Los modelos se vuelven a capacitar, se vuelven a implementar en producción y los puntos finales de inferencia se actualizan nuevamente, y este proceso continúa durante el ciclo de vida de ML.

  • Consumidores de datos

Después de realizar todo el procesamiento y extracción de datos, el objetivo es proporcionar información valiosa procesable a través de análisis exploratorios interactivos, informes, visualización, ciencia de datos y modelado estadístico, para que las empresas puedan tomar decisiones basadas en datos basados ​​en evidencia. Dependiendo de la madurez analítica de los casos de uso, se realizan análisis descriptivos, predictivos y prescriptivos. 

Las empresas en la actualidad necesitan unificar datos complejos dentro de sus organizaciones y tener una vista unificada del negocio. Los reportes deben ser rápidos y fáciles para que la organización pueda gestionar las necesidades cambiantes de la industria y de los clientes. La agilidad resulta esencial hoy en día, y la resiliencia es también importante. Solo una arquitectura moderna de los datos puede brindar a las empresas los datos que necesitan para adaptarse y ser relevantes.

SobreMaría Alexandra Lizardo