Introducción a Big Data

Introducción a Big Data#

Apuntes de análisis de datos, AI, ML y DL#

Introducción a Big Data. Apuntes de análisis de datos, AI, ML y DL por Marcelo Horacio Fortino. Versión 3.1.4. Julio 2026.

Esta obra está sujeta a la licencia Reconocimiento-CompartirIgual 4.0 Internacional de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/4.0/. Puede hallar permisos más allá de los concedidos con esta licencia en https://fortinux.com. Sugerencias y comentarios a info@fortinux.com.

Todas las marcas son propiedad de sus respectivos dueños. Apache Hadoop, Hadoop, Apache, the Apache feather logo, y el Apache Hadoop project logo son marcas registradas o marcas de la Apache Software Foundation en los Estados Unidos y otros países. Copyright © 2006-2026 The Apache Software Foundation.

Versión	Autor	Fecha	Observaciones
1.0	Marcelo Horacio Fortino	2020/Nov	Fundamentals of Big Data
1.1	Marcelo Horacio Fortino	2022/Feb	Traducido al castellano, actualizado y convertido a markdown - ipynb
1.2	Marcelo Horacio Fortino	2022/Mar	Convertido en Jupyter Book
2.0	Marcelo Horacio Fortino	2023/Oct	Actualizados contenidos. Agregado Data Science
3.0	Marcelo Horacio Fortino	2026/Mar	Ampliados contenidos de AI, ML y DL

Esta obra se distribuye con la esperanza de que sea útil, pero SIN NINGUNA GARANTÍA, incluso sin la garantía MERCANTIL implícita o sin garantizar la CONVENIENCIA PARA UN PROPÓSITO PARTICULAR. El autor no asume ninguna responsabilidad si el lector hace un mal uso de la misma.

Estos apuntes se basan en:
- La bibliografía presentada al final de este documento, y
- Documentación propia recogida a lo largo de los años de diversas fuentes.

Introducción#

En el pasado solamente las grandes organizaciones como Walmart, Google, y/o agentes financieros especializados podían aprovecharse de Big Data. Actualmente con Hadoop, hardware de bajo coste (commodity) que utiliza el kernel de Linux, y el cloud computing, casi cualquier organización se lo puede permitir.

Basta considerar que hay una revolución de datos: los datos que se generan en el mundo aumentan anualmente un 40%. Se estimaba que para el 2025 se iban a crear más de 180 zetabytes (https://es.statista.com/), y para 2028 las estimaciones predicen 394 zettabytes según la consultora IDC (https://www.idc.com/). Por lo tanto, es necesario tratar los datos que obtenemos para convertirlos en información y poder así tomar mejores decisiones estratégicas.

Objetivos del curso#

Conocer las soluciones de Big Data presentes en el mercado como Apache Hadoop y Spark.
Adquirir conocimientos para diseñar estrategias de business intelligence integrando data lakes, data warehouses, y lake houses.
Desarrollar ML - Machine Learning (IA - Inteligencia Artificial) utilizando Spark MLlib y TensorFlow.

Temario#

Big Data: Definición y características: Big Data y el análisis de datos, Definición, Mercado, Big Data en España, Tendencias, 2021 Machine Learning, AI and Data (MAD) Landscape, MAD 2024, MAD 2025, Gobierno de datos/Data governance, Apache Atlas, Catálogo de datos, OpenMetadata, Serie de normas ISO/IEC 20547, NIST Big Data Interoperability Framework, Gestión de la calidad de los datos, RGPD/GDPR - Privacidad y protección de datos, Marco regulatorio europeo, Ética en IA y sesgos algorítmicos, Beneficios, Paradigma, Características: Las V de Big Data, Tipos de datos, Historia, Data warehouses / Data lakes / Lake houses, Arquitectura Data Mesh, Casos de uso y Buenas prácticas en Big Data, Tipos de análisis de datos en Big Data: descriptivo, predictivo y prescriptivo, Big Data analytics y Business Intelligence, Fuentes libres de datos, ASF: Herramientas para Big Data, Apache Hadoop, Módulos de Apache Hadoop.
Ingesta y almacenamiento de datos: Procesos en Big Data, Ingestión de datos, Medallion architecture, Cuestiones a considerar, Buenas prácticas, Problemas en la ingesta de datos, Procesamiento de datos en tiempo real, Apache Spark, Apache Nifi, Apache Flink, Apache Flume(Attic), Logstash, Apache Beam, Apache Samza, DBT, Otras herramientas (Mage AI, Fivetran, Stitch, Airbyte, Materialize), Sistemas de mensajería, Apache Kafka, Apache ActiveMQ, Apache Pulsar, Pub/Sub, Herramientas de orquestación, Modelo de procesamiento DAG, Apache Airflow, Astro, Prefect, Apache Hop, Almacenamiento de datos (data storage): Persistencia políglota, Herramientas de almacenamiento para Big Data, HDFS, Apache Ozone, GlusterFS, Ceph, MinIO, Amazon services, MS Azure Data lake store, Google BigQuery, Data warehouses / Data lakes / Lake houses, Snowflake, Databricks, Delta Lake, Apache Iceberg (Dremio), Apache Hudi, Apache XTable, Herramientas de la ASF para Big Data: Apache Mesos(Attic), Apache Zookeeper, Apache Knox, Apache Ambari, Apache Ranger, Apache Sentry(attic).
Bases de datos para Big Data: Formatos de archivo para Big Data (Apache ORC, Parquet, Avro, Arrow), Bases de datos NoSQL, Bases de datos de documentos: MongoDB, Versiones, Características, Principales funcionalidades, Apache CouchDB, Couchbase, Bases de datos con pares de valores: Redis, Arquitectura, Apache Ignite, Bases de datos columnares: Apache Cassandra, Tutorial Cassandra, Apache HBase, Características, Usos, Requisitos, Bases de datos de grafos: Neo4j, Stardog, Amazon Neptune, Bases de datos vectoriales.
Consulta y visualización de datos: Procesos en Big Data, Procesamiento, análisis y consulta de datos, Apache Scoop(Attic), Motores de consultas, Apache Spark, Apache Impala, Apache Kudu, Apache Hive, Apache Drill, Presto, Trino, Apache Phoenix, Otras herramientas: Hue, Alluxio, Analítica de datos en tiempo real, Apache Doris, Apache Druid, Apache Kylin, Apache Pinot, ClickHouse, Vertica, Gestión y monitoreo de datos, Observability, Calidad de los datos, Limpieza de datos, Prevención y perdida de datos, DataOps, Perfilado y linaje (Talend Data Fabric, GX Core, OpenLineage, Marquez), Modelo semántico de datos (SDM), Control de Versiones de Datos (CVD), DVC, LakeFS, Visualización de datos: Elastic Stack, Elasticsearch, Apache Lucene, Apache Sorl, Logstash, Kibana, Apache superset (Preset), Herramientas de python para análisis y visualización, Salesforce, Amazon, Google y Microsoft.
Frameworks y aplicaciones para Big Data: Hadoop, Módulos: Hadoop YARN, Hadoop MapReduce, Sistemas de ficheros HDFS, Características, Proyectos relacionados con Apache Hadoop, Apache Spark, Características, Casos de uso, Apache Storm, Características, Storm vs. Spark, Apache Kafka, Características, Transmisión de eventos, Procesos.
Big Data Science: Introducción a la ciencia de datos, Alcance, Minería de datos, Consideraciones, Cientista de datos, Procesos en la ciencia de datos, KDD, CRISP-DM, SEMMA, Técnicas de análisis en Big data.
Big Data Stacks y Machine Learning: Apache Hadoop Stack, BDAS - Berkeley Data Analytics Stack, Stack alternativo, Cloudera, Big Data Cloud, Infraestructura de prueba de Big Data (BDTI), AI Data Stack(Datahub, Vortex, Datachain, LanceDB, FalcorDB, InfluxDB).
AI, ML y DL: Bibliotecas de python para AI, ML y DL, Scikit-learn, Tensor Flow, Pasos en ML, Redes Neuronales, Entrenar una red neuronal, Pytorch, Keras, JAX, Apache Spark MLib, Lenguajes soportados, Desempeño, PySpark, Estadísticas: Correlación, Gestión de canalizaciones con Kedro, MLOps frameworks, MLFlow, ZenML, Metaflow, Kubeflow, Tácticas adversarias de ML, Caldera + Atlas, Libros de ML y estadísticas.

Bibliografía#

[CG19]

Wo Chang and Nancy Grady. Nist big data interoperability framework: volume 1, definitions. 2019-10-21 2019. doi:https://doi.org/10.6028/NIST.SP.1500-1r2.

[CMZ+21]

Edward Curry, Andreas Metzger, Sonja Zillner, Jean-Christophe Pazzaglia, Ana García Robles, Thomas Hahn, Laure Le Bars, Milan Petkovic, and Nuria De Lama. The European Big Data Value Ecosystem, pages 3–19. Springer International Publishing, Cham, 2021. URL: https://doi.org/10.1007/978-3-030-68176-0_1, doi:10.1007/978-3-030-68176-0_1.

[Dum12]

Edd. Dumbill. Planning for Big Data: A CIO's Handbook to the Changing Data Landscape. O’Reilly Media, Inc., 2012.

[Kub17]

Miroslav Kubat. A Simple Machine-Learning Task, pages 1–18. Springer International Publishing, Cham, 2017. URL: https://doi.org/10.1007/978-3-319-63913-0_1, doi:10.1007/978-3-319-63913-0_1.

[She00]

C Shearer. The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehousing, 5:13–22, 2000.

[Ski17]

Steven S. Skiena. What is Data Science?, pages 1–25. Springer International Publishing, Cham, 2017. URL: https://doi.org/10.1007/978-3-319-55444-0_1, doi:10.1007/978-3-319-55444-0_1.

[Tur13]

Garry. Turkington. Hadoop Beginner's Guide. Packt Publishing, 2013.

[Wik23]

Wikipedia. Ciencia de datos — wikipedia, la enciclopedia libre. 2023. [Internet; descargado 29-septiembre-2023]. URL: https://es.wikipedia.org/w/index.php?title=Ciencia_de_datos&oldid=154154961.