La visualización de datos es un paso esencial en el proceso de Data Science. Es donde presenta sus hallazgos y comunica los resultados de su análisis en un formato gráfico que es intuitivo y fácil de entender.
A continuación, presentamos 6 principios claves para la creación de gráficos útiles e informativos, ya que estos nos ayudan a resumir información, presentarla de una forma más organizada y evidenciar los problemas con mayor claridad. Es una manera dinámica a través del componente visual de ver resultados.
1. Mostrar comparaciones (grupo de control frente a grupo de tratamiento)
Mostrar comparaciones es la base de un buen estudio científico. La evidencia de una hipótesis siempre es relativa a otra cosa.
Por ello al momento de hacer afirmaciones sobre un escenario en específico, debemos tener muy claro y preguntarnos lo siguiente, “¿Comparado con qué?”. Sin una comparación (hipótesis relativa), la afirmación será inútil.
Una forma de mostrar la comparación es tener un grupo de control y un grupo de experimento. El experimento divide a los sujetos de estudio en dos grupos. En uno de ellos, el grupo experimental se aplica el tratamiento o factor testeado, mientras que en el otro grupo no se aplica el factor testeado, luego se procede a comparar ambos resultados.
Al crear sus gráficos para presentar su estudio, lo que puede hacer es trazar el grupo de control y tratamiento con un diagrama de caja (Histograma visto por encima). De esta manera, los lectores tienen una idea clara de los efectos del experimento.
2. Mostrar la causalidad y la explicación
Lo siguiente es proporcionar una explicación que muestre un marco causal para pensar sobre la pregunta que está tratando de responder.
Si ha demostrado que el grupo de tratamiento experimentó un efecto diferente al del control, debe formular una hipótesis a partir de la evidencia de ¿por qué es así?.
Hacer esta pregunta es importante porque ayuda a generar nuevas preguntas que pueden reforzar la hipótesis a lo largo del estudio.
3. Mostrar datos multivariados (Mayor a 2 variables)
El mundo real es complejo y las relaciones entre dos eventos no suelen ser lineales. Es por eso que en los estudios tienes varios atributos o variables que puedes medir.
Todas estas variables interactúan entre sí de diversas formas. Algunos de ellos pueden ser factores de confusión, mientras que otros pueden ser atributos importantes que expliquen la relación de eventos.
La correlación no implica causalidad. Por lo tanto, no es ideal restringir su estudio a solo usar dos variables, ya que eso lleva a conclusiones erróneas. Por lo tanto, debe mostrar la mayor cantidad de datos posible en sus gráficos. Esto puede ayudarlo a identificar cualquier factor de confusión en sus datos.
Para detallar un poco mas, explicaremos brevemente la paradoja de Simpson, una paradoja en las estadísticas de probabilidad, en la que “una tendencia que aparece en diferentes grupos de datos, desaparece cuando se combinan los grupos”. Por ejemplo:
- Dos variables da como resultado una relación negativa.
- Tres variables da como resultado una relación positiva (x, y, z) (existen variables de confusión).
4. No permitir que las herramientas dirijan el análisis
Un buen visualizador de datos no se limita a las herramientas de visualización de datos disponibles. Tienen la capacidad de expandirse desde una sola forma de expresión (líneas o círculos) hasta usar múltiples modos de presentación.
Por ejemplo, en lugar de producir informes que solo tengan textos y líneas, utilice gráficos informativos que incluyan imágenes, diagramas, palabras, números, etc., todo ello haciéndolo rico en información.
Con una gran cantidad de información y gráficos, los lectores pueden observar muchas correlaciones diferentes de la evidencia, todo en un solo lugar.
Estas herramientas no deben limitar su capacidad analítica. El secreto está, en dejar que el análisis impulse las herramientas y cree paneles de visualización ricos en evidencia que sean útiles y eficaces para la toma de decisiones.
5. Documentar los gráficos con etiquetas, escalas y fuentes de datos adecuadas
Cuando mira por primera vez un gráfico, primero ve cuál es el título, luego las etiquetas, para conocer el contexto detrás de él. Sin ellos, el gráfico no contará una historia en absoluto.
Los buenos informes y gráficos están debidamente documentados, cada gráfico con las escalas y etiquetas adecuadas, al igual que las fuentes de datos utilizadas.
Por lo tanto, una buena práctica es preservar el código utilizado para generar los datos y gráficos, ya que esto permite la reproducibilidad lo que también agrega credibilidad a sus gráficos.
6. Contenido por encima de todo
En última instancia, independientemente de todos los principios anteriores, sin contenido que tenga calidad, relevancia e integridad, sus gráficos le ayudarán muy poco o simplemente se visualizarán resultados engañosos.
Antes de informar cualquier resultado, asegúrese de que sea algo interesante e importante.
La visualización de datos es una habilidad increíble. Puedes tomar datos y convertirlos en hermosos gráficos. En esta era en la que los datos crecen exponencialmente, saber cómo contar una historia con datos es cada vez más importante.