Herramientas para análisis de datos utilizadas en Data Science, ML y Big Data

Las herramientas de análisis de datos en la actualidad tienen una gran demanda. Los datos se convirtieron en un activo para las empresas, solo si es posible extraer conocimientos e ideas de éstos.

Hay muchas herramientas de análisis de datos, desde los lenguajes de programación más utilizados como Python y R, herramientas orientadas a soluciones estadísticas o matemáticas, herramientas que han evolucionado desde BI, herramientas comerciales de grandes empresas como Amazon, Microsoft, Google, IBM, hasta las que nacieron en el era de Big Data.

De las docenas de herramientas existentes, enumeramos aquí algunas de ellas, utilizadas en Analytics, Data Science, Machine Learning y Big Data.

Herramientas claves para el análisis de datos

1. Microsoft Excel

Excel es una de las herramientas analíticas más utilizadas en el mundo, dada su amplia base instalada. Es una excelente manera de aprender los conceptos básicos de la analítica porque proporciona características esenciales para disfrutar manipulando, resumiendo y visualizando datos.

2. Lenguajes: R y Python

Orientado a proyectos de Data Science y Big Data. De instalación gratuita y con el apoyo de una gran comunidad.

R es un lenguaje más antiguo desarrollado, para la computación estadística y gráfica y popularizado en la era de Big Data, debido a su uso intenso por parte de la comunidad científica para resolver problemas de Data Science Es recomendable usar RStudio para el desarrollo en R.

Python es un lenguaje de desarrollo, más moderno, y se ha hecho famoso por ser adoptado por Google para muchos proyectos.

3. Herramientas estadísticas: SAS y SPSS

Las herramientas estadísticas de análisis de datos han ganado poder en la era de Big Data, que contienen métodos y modelos estadísticos necesarios para resolver problemas de datos.

SAS es una empresa que brinda soluciones de BI utilizando una plataforma de programación para el análisis estadístico y se movió para ofrecer al mercado soluciones completas de análisis de datos para Big Data. 

SPSS es un software de análisis estadístico de IBM mejorado para ofrecer más allá de los informes estadísticos, el modelado predictivo, la minería de datos y el análisis de Big Data.

4. Visualización de datos: Tableau y Qlik

Una de las áreas de más rápido crecimiento en analítica de datos, es lo que llamamos visualización de datos, dirigida a la creación rápida de prototipos, análisis gráfico y presentación visual de análisis.

Los tableros son paneles de gestión, también disponibles para dispositivos móviles, que facilitan a los usuarios leer y probar los indicadores críticos de desempeño empresarial (KPI).

Tableau es una herramienta de visualización de datos que se integra con bases de datos relacionales, hojas de cálculo y sistemas de Big Data.

Qlik es una empresa que comenzó con BI y ofrece varias herramientas para el análisis y visualización de datos. 

5. Análisis y Data Science: KNIME

KNIME es una plataforma de minería y análisis de datos para resolver problemas avanzados de Data Science utilizando Machine Learning.

Una interfaz gráfica permite la construcción de análisis, desde ETL (extraer, transformar y cargar), modelado, análisis y visualización de datos. Se utiliza para resolver problemas en diversas áreas cómo genómica, industrial, salud, comercial, entre otras.

6. Data Wrangling (Preparación de Datos): Trifacta

“Data Wrangling” se refiere a transformar los datos, haciéndolos más apropiados para el análisis. La “preparación de datos” consiste en recopilar, limpiar, normalizar, combinar y estructurar datos para su análisis.

Trifacta es una herramienta para ahorrar tiempo en la preparación de datos y, aún así, tener una vista previa de la transformación de datos. Se conecta a Hadoop, Spark y otras tecnologías de Big Data para facilitar el proceso de preparación.

7. Análisis predictivo: H20

H2O es un software de código abierto, en memoria, distribuido, rápido y escalable. Una plataforma de análisis predictivo que permite la construcción de modelos de Big Data Machine Learning y facilita la producción de estos modelos en entornos empresariales.

8. Análisis de datos generados por computadoras y/o dispositivos: Splunk

Splunk ofrece una plataforma de inteligencia operativa para buscar, monitorear, analizar y ver datos de máquinas generados por computadoras, dispositivos móviles, automóviles e Internet de las cosas.

Splunk también ofrece análisis predictivo utilizando técnicas de Machine Learning basadas en los patrones de datos generados en los sistemas corporativos.

9.Plataformas colaborativas: Rapid Miner e Dataiku

Con el aumento de proyectos de Data Science y Big Data y la necesidad de trabajo en grupo, han surgido plataformas colaborativas de Data Science.

Dataiku es una plataforma colaborativa para trabajar con equipos de Data Science para explorar, crear prototipos, construir y entregar productos de datos.

RapidMiner es una plataforma de software colaborativa para equipos de Data Science que unifica la preparación de datos, el Machine Learning y la implementación de modelos predictivos.

10. Plataforma científica: MATLAB

MATLAB es una plataforma de software interactiva para el área científica, dirigida a ingenieros, docentes e investigadores. Orientado al cálculo numérico, cálculo matricial, procesamiento de señales y gráficos de construcción. Para entornos donde las soluciones se expresan como las escribimos en matemáticas.

11. Spark

Apache Spark es un marco para Hadoop, que le permite usar Python, Scala, Java y R como lenguajes y paquetes para SQL, Machine Learning, Streaming y gráficos.

12. Plataforma Machine Learning (ML): Apache Mahout, Tensor Flow y Caffee

Cuando los Data Scientists utilizan Machine Learning (ML), deben elegir una plataforma de trabajo. Existe una gran cantidad de ellas, junto con bibliotecas, aplicaciones y herramientas que pueden ser útiles en proyectos.

Apache Mahout desarrollado para admitir el uso de algoritmos de agrupación, clasificación y colaboración utilizados en el Machine Learning.

Tensorflow desarrollado por el equipo de Google Brain y se está utilizando para aplicaciones que utilizan las técnicas de las redes neuronales y el Machine Learning.

Caffee es un marco para machine learning, que utiliza la clasificación de imágenes en redes neuronales, con el objetivo final de cumplir con proyectos que utilizan la visión por computadora como un controlador, por ejemplo.

Fuente: José Antonio Ribeiro Neto (Zezinho)-Medium

SobreMaría Alexandra Lizardo