Big Data: Definición y características#

Big Data y el análisis de datos#

  • ¿Cómo puede el análisis de datos y Big Data ayudar a mi organización?

  • ¿Cómo extraigo información valiosa e insights sobre las tendencias, correlaciones y patrones que existen en Big Data?

  • En el pasado solo las grandes organizaciones podían aprovecharse de Big Data:

    • Walmart, Google, agentes financieros especializados.

  • Actualmente con Hadoop, hardware de bajo coste (commodity) con el kernel de Linux y el cloud computing, casi cualquier organización se lo puede permitir.

  • En 2025, cada persona conectada en el mundo interactuará dejando su huella digital unas 4900 veces por día - eso significa una interacción cada 18 segundos.

  • “El mundo guiado por los datos va a estar siempre activo, siempre haciendo el seguimiento de todo, siempre monitorando, siempre escuchando y siempre viendo - porque va a estar siempre aprendiendo.”

    • Fuente: The Digitization of the World – From Edge to Core. IDC White Paper. Doc# US44413318. Noviembre 2018.

  • Con base en estadísticas del mercado, se cree que los datos generados en el mundo aumentan a un ritmo del 40% anualmente. Para 2025 se crearán más de 180 zetabytes según la plataforma global de datos y business intelligence Statista https://www.statista.com/statistics/871513/worldwide-data-created/.

  • Statista aumentó estos valores luego de la pandemia de COVID-19 ya que hubo un enorme cambio de costumbres en el mercado laboral y social al llevar varias de las interacciones humanas al ámbito virtual; aumentando en consecuencia la cantidad de datos disponibles.

  • Por su parte IDC predijo en 2018 que la Global Datasphere crecerá desde los 33 Zettabytes en 2018 hasta los 175 Zettabytes en 2025.

    • Fuente: The Digitization of the World – From Edge to Core. IDC White Paper. Doc# US44413318. Noviembre 2018.

  • Vivimos en la era del zettabyte: https://es.wikipedia.org/wiki/Era_del_zettabyte.

Definición de Big Data#

  • Según la norma ISO/IEC DIS 20546(en) Information technology — Big data — Overview and vocabulary, la definición de Big data es la siguiente:

    “conjuntos de datos extensos, principalmente en las características de los datos de volumen, variedad, velocidad y/o variabilidad, que requieren una tecnología escalable para un almacenamiento, manipulación, gestión y análisis eficientes.”

  • De forma similar la consultora Gartner lo define como:

    “activos de datos de gran volumen, alta velocidad y/o gran variedad que exigen formas innovadoras y rentables de procesamiento de la información que permiten una mejor comprensión, toma de decisiones y automatización de procesos.”

    Fuente: Gartner’s Glossary. https://www.gartner.com/en/information-technology/glossary/big-data.

El mercado del Big Data#

  • El mercado global de Big Data y análisis de negocios ha crecido saludablemente durante los últimos años.

  • 122 billones de dolares estadounidenses de ingresos a nivel global en 2015, hasta los estimados 189 billones de dólares estadounidenses en 2019.

  • La proyección de IDC para los ingresos en 2022 ha sido de 274 billones de dólares estadounidenses en 2022.

  • Snowflake tiene una capitalización de mercado de 69 billones de dólares estadounidenses.

  • Palantir a su vez alcanzó los 22 billones de dólares estadounidenses en 2019 (40 B. en 2022).

  • Datadog era una empresa valuada en 12 billones de dólares estadounidenses (25 B. en 2022).

  • Algunos ejemplos de la evolución del mercado de Big Data desde el 2012 hasta la actualidad:

Big Data en España#

  • El 11,1% de las empresas españolas de más de 10 empleados hizo análisis basado en Big Data en el último año y nueve meses o “período pandémico” (2020/2021). Son 2 puntos porcentuales más que en el período previo, de relativa calma económica (2018/2019).

  • Fuente: IT User.

  • El salto más fuerte ha sido el del porcentaje de empresas españolas que han pasado a emplear Internet de las Cosas (IoT) en 2018/2019 (16,8%) al período actual 2020/2021 (27,7%): un salto de +10,9% a favor de IoT.

  • La tecnología menos utilizada es la Inteligencia Artificial (IA), por un 8,3% de empresas en el período pandémico de 2020/2021.

Tendencias en Big Data#

  • De Hadoop a servicios cloud a Kubernetes + Snowflake.

  • Gobernanza de Datos, catalogación, y la cada vez más importante gestión de datos.

  • El aumento de stacks específicos para la infraestructura de AI (“MLOps”, “AIOps”).

  • ETL vs ELT.

  • Automación de la ingeniería de datos.

  • Alza de la importancia del analista de datos.

  • Unión de los Data lakes y los data warehouses.

  • Boom de plataformas para ciencia de datos y machine learning (DSML).

  • GAFAM, Uber, Lyft, etc. se han convertido completamente en organizaciones AI.

  • Alza de NLP, una rama de la AI focalizada en entender el lenguaje natural.

2021 Machine Learning, AI and Data (MAD) Landscape#

  • Real time (Confluent/Kafka, Storm, Flink, Materialize, AWS Kinesis).

  • Capa de métricas (Metric stores).

  • Reverse ETL.

  • Compartir datos con partners, proveedores y clientes.

  • Predicciones ML e inteligencia artificial:

    • Feature Stores (variables o atributos en ML).

    • ModelOps: modelos de operaciones para AI incluyendo ML.

    • Generación de contenido por AI (Synthesia, Sonantic).

    • https://www.messimessages.com/.

  • Stack chino de AI: plan de supremacía para el 2030.

  • Wu Dao 2.0 es una IA multimodal que tiene 1,75 billones de parámetros, 10 veces la cantidad de GPT-3, lo que lo convierte en el sistema de lenguaje de IA más grande hasta la fecha. Sus capacidades incluyen el manejo de NLP y reconocimiento de imágenes.

MAD 2024#

  • En el informe de 2024 el autor mueve el objetivo del landscape Big Data hacia la IA resaltando como tendencia la interacción de los datos no estructurados, utilizados en los modelos LLM, para entrenar los datos internos de las organizaciones.

  • En este sentido comenta el rápido crecimiento de las empresas OpenAI, Anthropic, Palantir, Midjourney y Perplexity AI, entre otras; y el aumento de la valoración de las 7 magníficas (Nvidia, Meta, Amazon, Microsoft, Alphabet, Apple and Tesla) en la bolsa de Nueva York (2023).

  • Por último, la lista de Inside Big Data IMPACT 50 LIST for Q1 2024 https://insidebigdata.com/2024/01/18/the-insidebigdata-impact-50-list-for-q1-2024/ muestra, listando a las empresas más importantes, cómo el mercado ha evolucionado hacia la IA. Ellas son: OpenAI, Microsoft AI, NVIDIA, Hugging Face (Pre-trained ML models), Google AI y DeepMind, Amazon Web Services, Snowflake, Databricks, Intel AI, e IBM, en este orden.

Gobierno de datos / Data governance#

  • El gobierno de datos es una serie de principios, estándares y prácticas que se aplican de punta a punta en el ciclo de vida de los datos (recolección, almacenamiento, uso, protección, archivo y eliminación) para asegurar que los mismos sean confiables y consistentes.

  • Para ello establece estructuras organizacionales, confirma responsables de datos, Hace cumplir reglas y políticas, documenta procesos y registra métricas y términos de negocio comunes.

Apache Atlas#

  • Apache Atlas ofrece un conjunto de servicios escalables y extensibles de gobernanza para que las organizaciones puedan cumplir sus objetivos de compliance en Hadoop, permitiendo además su integración con el resto del ecosistema de datos de la organización.

  • Gestiona los metadatos abiertos y permite construir un catálogo de todos los activos de datos, clasificando, gobernando y facilitando la colaboración entre los cientistas de datos, analistas de negocios, y el equipo de gobernanza.

Serie de normas ISO/IEC 20547#

  • La serie ISO/IEC 20547 está destinada a proporcionar a los usuarios un enfoque estandarizado para desarrollar e implementar arquitecturas de Big Data y proporcionar referencias para enfoques.

  • El vocabulario y los conceptos comunes están descritos en la ISO/IEC 20546.

    Fuente: Getting big on data https://www.iso.org/news/ref2578.html.

  • Otras normas que se pueden considerar a la hora de implementar una solución de Big data son:

    • ISO/IEC 55000 | Asset Management

    • ISO/IEC 9001 | Quality Management

    • ISO/IEC 20000 | IT Service Management

    • ISO/IEC 31000 | Risk Management

    • ISO/IEC 27000 | Security Management

NIST Big Data Interoperability Framework#

Gestión de la calidad de los datos#

  • En este escenario, la Organización Internacional de Normalización o Estandarización (ISO) ha desarrollado una serie de normas técnicas que se centran en el Gobierno de Datos, Gestión de Calidad de Datos, y la Calidad de productos de software (Datos) teniendo también en cuenta los aspectos de Seguridad y Privacidad de los Datos.

  • Las normas relacionadas con la gestión y calidad de los datos son:

    • ISO/IEC 8000 | Data Quality Management.

    • ISO/IEC 33000 | SPICE – Software Process Improvement and Capability dEtermination.

    • ISO/IEC 38505 | Governance of IT — Governance of data.

    • ISO/IEC 25024 | Systems and software Quality Requirements and Evaluation (SQuaRE).

  • ISO/IEC 11179 | metadata management.

  • ISO/IEC 25012 | Data quality model*.

    • *La Norma ISO/IEC 25012 enumera las características de la calidad de los datos de la siguiente manera: exactitud, completitud, consistencia, credibilidad, actualidad, accesibilidad, conformidad, confidencialidad, eficiencia, precisión, trazabilidad, comprensibilidad, disponibilidad, portabilidad y recuperabilidad.

Benificios aportados por el Big Data#

  • La importancia de la analítica de Big Data ha aumentado junto con la variedad de datos no estructurados que pueden ser analizados para obtener información:

    • Contenido de las redes sociales, textos, clickstream data.

    • Sensores del Internet de las cosas (IoT).

  • Esto permite:

    • Reducir costes.

    • Descubrir maneras más eficientes de hacer negocios.

    • Crear nuevos productos y servicios que el cliente quiere y necesita.

    • Mejorar la toma de decisiones.

El paradigma Big Data#

  • En 2005, la cantidad de datos que generaban Facebook, Google, y otros servicos online era enorme.

  • Para analizarlos, en 2006 algunos ingenieros de Yahoo crearon Hadoop lanzándolo como un projecto Apache open source.

  • El framework de procesamiento distribuído hizo posible ejecutar aplicaciones Big Data en una plataforma clusterizada con harware de bajo coste.

  • Por ese entonces las bases de datos NoSQL también comenzaron a popularizarse.

  • Esto generó un nuevo paradigma para la gestión y el tratamiento de los datos: Big Data.

El paradigma Big Data consiste en la distribución de sistemas de datos a través de recursos independientes acoplados horizontalmente para lograr la escalabilidad necesaria para el procesamiento eficiente de extensos conjuntos de datos. Con el nuevo paradigma de Big Data, las funciones analíticas se pueden ejecutar en todo el conjunto de datos o incluso en tiempo real en un flujo continuo de datos. El análisis puede incluso integrar múltiples fuentes de datos de diferentes organizaciones.

  • Fuente: ISO/IEC JTC 1 Information technology, Big data Preliminary Report 2014. Pág.6.

Características del Big Data#

  • Curry et Al. [CMZ+21] enumeran tres “v” como características utilizadas para definir los desafíos que enfrenta una solución de Big Data:

  • Volumen:

    • Procesamiento de grandes volúmenes de baja densidad de datos no estructurados.

    • Datos de valor desconocido algunas veces, pero que pueden llegar a ser cientos de terabytes o petabytes de tamaño.

  • Velocidad:

    • Velocidad es la tasa por la cual los datos son recibidos y (tal vez) manipulados.

  • Variedad:

    • Varios tipos de datos no estructurados y semiestructurados que están disponibles para ser tratados como texto, audio, video, IoT data, etc.

  • A su vez el NIST Big Data interoperability Framework (NBDIF) - Version 3.0 Final [CG19] agrega otra “v”:

  • Variabilidad:

    • Los cambios en el dataset (formato/estructura, volumen, flujo de datos) impactan en su procesamiento.

Otras V del Big Data#

  • Valor:

    • Los datos tienen un valor intrínseco. Pero no tienen ninguna utilidad hasta que ese valor no sea descubierto.

  • Veracidad:

    • Si los datos son confiables y hasta que punto.

Tipos de datos#

  • Los tipos de datos se pueden dividir en:

  • Datos estructurados (modelo relacional de datos):

    • Datos que están guardados en bases de datos relacionales.

  • Datos no estructurados (no tienen un modelo predefinido de datos):

    • Ejemplos incluyen texto, video, audio, actividad en el smartphone, actividad en las redes sociales, imágenes satelitales, imágenes de vigilancia.

  • Datos semiestructurados (datasets en formato XML o JSON):

    • Los documentos de bases de datos NoSQL también son considerados semiestructurados porque contienen palabras claves que pueden ser usadas para procesarlos.

Fuente: [Ski17].

  • Para mayor información sobre los tipos de datos existe la norma ISO/IEC 11404:2007 (International Organization for Standardization / International Electrotechnical Commission) General Purpose Datatypes.

Historia del Big Data#

  • Los grandes data sets comenzaron en los ‘60 y ‘70 del siglo pasado con los primeros centros de datos y el desarrollo de las bases de datos relacionales (lenguaje SQL).

  • Inmon acuñó el término data warehousing promoviendo la construcción, uso y mantenimiento de data warehouses para el almacenamiento de datos.

  • Escribió el libro “Building the Data Warehouse” (1992, con ediciones posteriores) y “DW 2.0: The Architecture for the Next Generation of Data Warehousing” (2008).

  • Hoy se cuenta con la escalabilidad y elasticidad de cloud data warehouses y data lakes:

    • Snowflake (cloud data warehouse).

    • Databricks (data lake).

    • Amazon Redshift / EMR.

    • Google BigQuery / Dataproc.

    • Azure SQL Data Warehouse (SQL DW) / HD Insights.

Data Warehouses / Data Lakes / Lakehouses#

  • La diferencia a grandes rasgos entre los lagos de datos y los almacenes de datos es:

  • Los Lagos de datos (Data lakes) son grandes repositorios de datos sin procesar en una variedad de formatos, que son de bajo coste y escalables pero que en principio no soportan transacciones, calidad de datos, etc. (ML).

  • Los Almacenes de datos (Data warehouses) por otro lado, contienen datos estructurados y capacidad de realizar transacciones y gobernanza. (BI).

  • Delta Lake https://delta.io/ por otro lado, es un framework de almacenamiento de código abierto que permite crear una arquitectura Lakehouse sobre un lago de datos para proporcionar procesamiento de datos en tiempo real y por lotes.

Apache Hadoop y Apache Spark#

  • El desarrollo de frameworks open-source, como Hadoop y Spark, fue esencial para el crecimiento de Big Data ya que facilitaron formas de trabajo más dinámicas y almacenamiento de grandes volúmenes de datos de forma más económica.

  • Actualmente los proveedores de plataformas en la nube permiten a cualquier organización montar una estructura para análisis con Hadoop o con herramientas propias, e utilizarla bajo demanda.

Casos de uso de Big Data#

  • Agricultura

    • Seguimiento de cultivos.

    • Optimización de equipamiento.

    • Agricultura de precisión.

  • Telecomunicaciones

    • Predicción del churn.

    • Optimización de la red.

    • Segmentación.

  • Utilidad pública (utilities)

    • Predicción del churn.

    • Optimización de la red.

    • Personalización de tarifas.

  • Industria de la aviación

    • Las líneas aéreas colectan una gran cantidad de datos como preferencias de vuelos de los clientes, control del tráfico aéreo, gestión de equipajes, mantenimiento de las aeronaves, rutas de vuelo, y más.

    • Big Data provee nuevas perspectivas para optimizar las operaciones y brindar un mejor servicio al cliente.

  • Sector bancario

    • La inmensa cantidad de datos estructurados y no estructurados que las instituciones financieras obtienen les permiten tomar decisiones más certeras.

    • Ellas también pueden prevenir fraudes utilizando Big Data analytics.

  • Sector de la salud

    • Investigadores intercambian gran cantidad de datos de manera nunca antes vista y cooperan para entender COVID-19 y desarrollar un modelo para tratar las enfermedades más allá de la pandemia del coronavirus.

  • Sector manufacturero

    • Big Data analytics le permite a la industria entender mejor como su propia cadena de valor funciona.

    • Es usado también para el mantenimiento preventivo del equipamiento industrial.

    • La industria 4.0 tiende al uso intensivo de IA en todos sus procesos.

  • Venta minorista

    • Con Big Data analytics, los vendedores minoristas pueden entender mejor las preferencias y el comportamiento de sus clientes, sus hábitos de compra; y predecir tendencias.

  • Ciencia

    • Los investigadores de todas las disciplinas consideran que la capacidad recién descubierta de vincular y cruzar datos de diversas fuentes mejora la precisión y el poder predictivo de los hallazgos científicos y ayuda a identificar futuras direcciones de investigación, lo que en última instancia proporciona un punto de partida novedoso para la investigación empírica.

  • Cuando comencé a contratar Ph.D. estudiantes hace 15 años, eran completamente laboratorios húmedos, dice Corcoran. Ahora, cuando los reclutamos, lo primero que buscamos es si pueden hacer frente a análisis bioinformáticos complejos.

  • Para ser un biólogo, hoy en día, se necesita tener conocimientos de estadística y programación.

  • Se necesita saber trabajar con algoritmos.

Buenas prácticas para Big Data#

  • Big Data analytics utiliza datos tanto de fuentes internas como externas.

  • Los datos deben ser estar organizados y gestionados para obtener un óptimo rendimiento.

  • Bases de datos basadas en columnas están optimizadas para los trabajos analíticos intensivos de lectura.

    • Online Analytical Processing (OLAP).

  • Bases de datos basadas en filas son mejores para trabajos intensivos de escritura transaccional.

    • Online Transactional Processing (OLTP).

  • Para el análisis de Big Data en tiempo real, se utiliza un motor de procesamiento de flujo de datos como Spark a través de un almacén de datos (data warehouse).

  • Para los datos sin procesar (data lake) se utiliza Hadoop y su HDFS (Hadoop Distributed File System).

  • Alinear Big Data con los objetivos específicos del negocio.

  • Aliviar la escasez de habilidades con estándares y gobernanza.

  • Optimizar la transferencia de conocimiento mediante un centro de excelencia.

  • Lo mejor es alinear datos no estructurados con estructurados.

  • Planificar su estructura de Big Data para el rendimiento.

  • Alinear con el modelo de operaciones en la nube.

Tipos de análisis de datos en Big Data#

  • Análisis descriptivo: Provee nuevas perspectivas en datos históricos.

  • Análisis predictivo: Provee nuevas perspectivas en datos futuros.

  • Análisis prescriptivo: Provee informes analíticos con recomendaciones para el futuro.

Análisis descriptivo#

  • Minería de datos (Data mining): Se utiliza para filtrar conjuntos de datos en busca de patrones y relaciones.

  • ¿Qué hay en los datos?

    • Asociación.

    • Análisis exploratorio.

    • Segmentación.

    • Clustering (no supervisado): agrupar los datos en categorías basadas en alguna medida de similitud o distancia.

    • Reducción de la dimensión: proceso de reducción del número de variables aleatorias que se tratan.

Análisis predictivo#

  • Construir modelos para prever el comportamiento del cliente.

  • ¿Cuál será la salida de una nueva entrada?

    • Regresión logística: predice el resultado de una variable categórica en función de las variables independientes.

    • Análisis de varianza y covarianza.

    • Métodos bayesianos.

    • Elección de un modelos: Comparar, validar y elegir modelos.

  • Clasificación estadística (aprendizaje supervisado): identificar a que conjunto de categorías pertenece una nueva observación.

    • Discriminante.

    • Redes neuronales.

    • Árboles de decisión.

Análisis prescriptivo#

  • ¿Qué acción se debe tomar en base a estos datos?

    • Optimización: estudio de desafíos en los que es posible construir modelos matemáticos para representarlos.

    • Inferencia causal: estudio de sistemas donde se sospecha que la medida de una variable afecta la medida de otra.

  • Machine learning:

    • Programación de algoritmos para analizar grandes volúmenes de datos.

  • Deep learning:

    • Algorimos que pueden determinar la precisión de una predicción por sí mismos.

Big Data analytics y Business Intelligence#

  • Business Intelligence se basa en datos estructurados en un datawarehouse y puede mostrar qué y dónde ocurrió un evento.

  • El análisis de Big Data utiliza conjuntos de datos estructurados y no estructurados encontrando relaciones mientras explica por qué sucedieron los eventos.

  • También puede predecir si un evento volverá a ocurrir.

Fuentes libres de datos#

ASF: Herramientas para Big Data#

  • La ASF (Apache Software Foundation) https://apache.org/ desarrolla, administra e incuba cientos de proyectos de código de fuente abierta (open source) de nivel empresarial utilizados mundialmente.

  • Actualmente administra más de 70 proyectos relacionados con Big Data https://projects.apache.org/projects.html?category#big-data.

  • Entre ellos, se pueden mencionar Hadoop para el procesamientos en lotes (batch processing) de grandes conjuntos de datos, Spark para procesamiento in-memory de datos y analítica, Kafka para la ingesta de datos en tiempo real y streaming; y Cassandra o HBase para el almacenamiento NoSQL escalable de datos.

  • El blog de la ASF se encuentra en https://news.apache.org/.

Apache Hadoop#

  • El proyecto Apache™ Hadoop® desarrolla software de código abierto para computación distribuida, escalable y confiable.

  • Es un framework para el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras que utilizan modelos de programación simples.

  • Diseñado para escalar desde servidores individuales a miles de máquinas, cada una de las cuales ofrece computación y almacenamiento locales.

  • En lugar de depender del hardware para brindar alta disponibilidad, la biblioteca en sí está diseñada para detectar y manejar fallas en la capa de la aplicación, por lo que brinda un servicio de alta disponibilidad sobre un grupo de computadoras, cada una de las cuales puede ser propensa a fallas.

Fuente: [Tur13]

Módulos de Apache Hadoop#

  • Apache Hadoop cuenta con una serie de módulos que le permiten extender sus funcionalidades.

  • Los más utilizados son Hadoop Common, HDFS, YARN y MapReduce.