En los últimos años los datos se han convertido en uno de los valores más importantes para las empresas. Tanto es así que, según un estudio de Cap Gemini, el 83% de los negocios que confían en datos son capaces de monetizar sus activos de datos. Por eso, no es de extrañar que los científicos de datos se hayan convertido en uno de los perfiles profesionales más demandados por las empresas.
Desde Shapelets, plataforma española de análisis de datos de series temporales en el ámbito del Big Data, explican que “de nada sirve que las empresas recopilen datos si luego no pueden extraer conclusiones de ellos. Por eso, la figura del científico de datos es clave para los negocios, pues gracias a estos profesionales las empresas pueden aprovechar al máximo la información que recogen, analizando y procesando los datos para extraer las conclusiones y resultados que necesitan los negocios para avanzar”.
No obstante, la ciencia de datos es un área relativamente nueva por lo que a la hora de trabajar con la información que extraen las empresas a través del Big Data, los profesionales siguen encontrando algunos problemas que dificultan su labor. Por ello, y con el objetivo de solucionar estas dificultades, Shapelets ha recogido los principales escollos que se encuentran los científicos de datos en las empresas a la hora de realizar su trabajo:
- Silos de datos independientes. Son aquellos datos que maneja una empresa pero que no comparten entre sí sus distintos departamentos. Es decir, cada área del negocio tiene su propio silo, lo que genera ineficiencias y problemas de comunicación internos. Uno de los ejemplos más comunes se da entre los equipos de marketing y ventas, que pueden estar ejecutando programas diferentes como HubSpot desde marketing, y Salesforce en ventas. Para evitarlo, es necesario desarrollar una gestión de datos global dentro del negocio que permita interconectar todos los datos que se recaban.
- Datos de poca calidad. La calidad de los datos se compone de varias dimensiones: puntualidad, precisión, consistencia, conformidad, singularidad e integridad. Si alguna de ellas falla, los datos perderán calidad, lo que afectará a la precisión, visualización y aprovechamiento para realizar un análisis predictivo. Por ello, es fundamental que los datos que recoja la empresa tengan en cuenta todas estas dimensiones ya que la mala calidad de los datos reduce el valor potencial de éstos y su impacto en la cuenta de resultados.
- Demasiados datos. Son muchas las empresas que se afanan en recopilar de forma masiva todo tipo de datos, lo que genera un volumen de información que puede llegar a ser imposible de analizar por algunos negocios. De hecho, en muchas ocasiones las empresas recogen más información de la que son capaces de procesar, e incluso, de la que realmente necesitan conocer. Ante esto es importante que a la hora de seleccionar los datos que se quieren recoger se tenga en cuenta los objetivos de la empresa. Solo así se podrán obtener datos estructurados y se podrá aprovechar la información de forma rápida y eficiente ya que, cuanto más tiempo se guarden los datos sin extraer conclusiones, más errores podemos estar cometiendo.
- Datos duplicados. Tener datos duplicados reduce la capacidad de almacenamiento de las empresas y las opciones de realizar el mejor análisis. Es decir, si tenemos varias copias de los mismos datos, no podremos añadir nueva información que mejoraría su análisis, lo que, además, reduce la calidad de los datos de la empresa. Para evitarlo lo mejor es deduplicar los datos lo que minimiza los errores, reduce coste y favorece su correcto uso.
- Falta de coherencia y de transparencia en los datos. La elección de las variables debe ser coherente con los objetivos de la empresa. Por ello, hay que elegir bien qué conjuntos de datos se quieren extraer y hacer un trabajo de limpieza de datos que permita estructurar la información. Para ello es recomendable hacer un diccionario de datos que recoja los tipos de datos, campos, dimensiones y métricas. Además, otro problema es la falta de transparencia, es decir, las dificultades que tienen los empleados para acceder a los datos y trabajar con ellos.