Moltes empreses prenen decisions rellevants a partir de dashboards ben dissenyats, informes clars i KPIs aparentment sòlids.
El problema és que, amb massa freqüència, ningú ha validat prèviament si les dades sobre les quals es construeix tot això són realment fiables. És molt habitual la distorsió de l’anàlisi per la presència d’outliers, dades imprecises o fins i tot la manca de dades.
L’EDA s’ha convertit en un diagnòstic imprescindible abans de prendre decisions basades en dades.
Què és realment l’Exploratory Data Analysis (EDA)
L’EDA no consisteix a fer gràfics ràpids ni a “donar un cop d’ull” a les dades. Tampoc és una fase opcional dins d’un projecte d’analítica: és una manera d’entendre l’estructura de les dades, la seva qualitat, les seves incoherències i, sobretot, de determinar si són adequades per a la presa de decisions.
És el pas que permet saber si les dades són una base sòlida o un risc ocult.
Problemes habituals que l’EDA detecta (i que sovint passen desapercebuts)
Quan es realitza un EDA amb criteri, apareixen patrons que es repeteixen en empreses de qualsevol sector:
Definicions diferents del mateix KPI segons l’equip
- Valors absents que afecten resultats clau
- Duplicats que inflen les mètriques
- Canvis històrics en la manera de calcular les mètriques
- Outliers que distorsionen les tendències
- Discrepàncies entre fonts de dades (absència d’una única font de veritat)
Molts d’aquests problemes no són visibles en un dashboard final.
De fet, els dashboards sovint els oculten en lloc de resoldre’ls.
Per què fer EDA abans d’un dashboard canvia completament el resultat
Construir dashboards sense un EDA previ és una de les principals causes de la desconfiança en els informes. Sovint deriva en un qüestionament constant de les dades, discussions internes en reunions interminables i una successió de correccions contínues que entorpeixen el treball de diferents departaments.
L’EDA permet disposar de mètriques consistents i confiança en els resultats, cosa que facilita una presa de decisions més àgil. És important tenir en compte que l’EDA no allarga els projectes: és una petita inversió que evita retraballs, errors i pèrdues de temps posteriors.
Eines i llenguatges per realitzar Exploratory Data Analysis (EDA)
L’Exploratory Data Analysis no depèn d’una única eina, sinó d’utilitzar les més adequades segons el context, el volum de dades i els objectius de l’anàlisi.
Tot i així, hi ha llenguatges i eines que s’han convertit en estàndards per fer EDA amb rigor.
Llenguatges de programació
Python
És un dels llenguatges més utilitzats per a EDA gràcies a la seva flexibilitat i al seu ampli ecosistema. Disposa d’un gran ventall de llibreries que permeten analitzar, netejar i visualitzar dades estructurades, com ara Pandas, Matplotlib i Plotly.
R
Aquest llenguatge està orientat a l’anàlisi estadística i continua sent molt potent en contextos on:
- L’exploració estadística és clau
- Es requereixen visualitzacions detallades
- La interpretació dels resultats té un pes central
És utilitzat sobretot en l’àmbit acadèmic, en anàlisi avançada i en entorns on l’estadística és prioritària.
SQL
Tot i que no és un llenguatge d’anàlisi exploratòria en sentit estricte, SQL és fonamental en les primeres fases de l’EDA per comprendre l’estructura i els esquemes de les taules, detectar duplicats i valors nuls. Un EDA sòlid acostuma a començar directament a la base de dades.
Eines de visualització i suport a l’EDA
A més dels llenguatges de programació, existeixen eines que complementen l’EDA:
- Notebooks (Jupyter, R Markdown) per documentar l’anàlisi i facilitar la traçabilitat.
- Eines de BI (com Power BI, Qlik o Tableau) utilitzades també en fases exploratòries, no només finals. És possible validar dades simplement visualitzant-les en una taula i aplicant filtres adequats.
- Fulls de càlcul com Excel o Google Sheets, útils per a revisions ràpides o validacions puntuals, tot i que limitats per a anàlisis complexes.
Conclusió
Treballar amb dades no va només d’eines ni de visualitzacions.
Va de criteri, comprensió i confiança en la informació.
L’Exploratory Data Analysis és la base sobre la qual es construeixen decisions sòlides. La qualitat de les dades i la seva comprensió són crucials per establir els fonaments de qualsevol ecosistema de dades. Tot el que ve després en depèn.