Jupyter Book Badge Fortinux Book Badge

Introducción a Big Data#

Apuntes del curso#

Introducción a Big Data. Apuntes del curso por Marcelo Horacio Fortino. Versión 2.0.3. Octubre 2023.

Esta obra está sujeta a la licencia Reconocimiento-CompartirIgual 4.0 Internacional de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/4.0/. Puede hallar permisos más allá de los concedidos con esta licencia en https://fortinux.com. Sugerencias y comentarios a info@fortinux.com.

Todas las marcas son propiedad de sus respectivos dueños. Apache Hadoop, Hadoop, Apache, the Apache feather logo, y el Apache Hadoop project logo son marcas registradas o marcas de la Apache Software Foundation en los Estados Unidos y otros países. Copyright © 2006-2022 The Apache Software Foundation.

Versión

Autor

Fecha

Observaciones

1.0

Marcelo Horacio Fortino

2020/Nov

Fundamentals of Big Data

1.1

Marcelo Horacio Fortino

2022/Feb

Traducido al castellano, actualizado y convertido a markdown - ipynb

1.2

Marcelo Horacio Fortino

2022/Mar

Convertido en Jupyter Book

2.0

Marcelo Horacio Fortino

2023/Oct

Actualizados contenidos. Agregado Data Science

Esta obra se distribuye con la esperanza de que sea útil, pero SIN NINGUNA GARANTÍA, incluso sin la garantía MERCANTIL implícita o sin garantizar la CONVENIENCIA PARA UN PROPÓSITO PARTICULAR. El autor no asume ninguna responsabilidad si el lector hace un mal uso de la misma.

  • Estos apuntes se basan en:

    • La bibliografía presentada al final de este documento, y

    • Documentación propia recogida a lo largo de los años de diversas fuentes.

Introducción#

En el pasado solo las grandes organizaciones podían aprovecharse de Big Data. Empresas como Walmart, Google, y/o agentes financieros especializados. Actualmente con Hadoop, hardware de bajo coste (commodity) que utiliza el kernel de Linux, y el cloud computing, casi cualquier organización se lo puede permitir.

bigdata Hadoop logo

Basta considerar que hay una revolución de datos: los datos que se generan en el mundo aumentan anualmente un 40%. Se estima que para el 2025 se crearán más de 180 zetabytes. Fuente: https://es.statista.com/. En consecuencia, todos esos datos que obtenemos deben ser tratados para ser convertidos en información y poder así tomar decisiones estratégicas.

Objetivos del curso#

  • Conocer las soluciones de Big Data presentes en el mercado como Apache Hadoop y Spark.

  • Adquirir conocimientos para diseñar estrategias de business intelligence integrando data lakes y data warehouses.

  • Desarrollar Machine Learning in-house usando Spark MLlib and TensorFlow.

Temario#

  • Introducción al Big Data y al análisis de datos.

  • Mercado y tendencias del Big Data.

  • Definición de Big Data e historia.

  • Tipos de datos en Big Data.

  • Ejemplos de casos de usos.

  • Buenas prácticas en Big Data y análisis de datos.

  • Procesos de Big Data: ingest, store, process/query, visualize.

  • Hadoop: HDFS & MapReduce, YARN.

  • Herramientas y tecnologías: Kafka, Mesos, Redis, CouchDB.

  • Document stores: MongoDB.

  • Column stores: HBase + Cassandra.

  • Big Data analytics: Spark, Storm.

  • Elastic Stack: Logstash, ElasticSearch y Kibana.

  • Técnicas de Machine learning:

  • Spark (MLlib, Streaming).

  • TensorFlow.

Bibliografía#

CG19

Wo Chang and Nancy Grady. Nist big data interoperability framework: volume 1, definitions. 2019-10-21 2019. doi:https://doi.org/10.6028/NIST.SP.1500-1r2.

CMZ+21

Edward Curry, Andreas Metzger, Sonja Zillner, Jean-Christophe Pazzaglia, Ana García Robles, Thomas Hahn, Laure Le Bars, Milan Petkovic, and Nuria De Lama. The European Big Data Value Ecosystem, pages 3–19. Springer International Publishing, Cham, 2021. URL: https://doi.org/10.1007/978-3-030-68176-0_1, doi:10.1007/978-3-030-68176-0_1.

Dum12

Edd. Dumbill. Planning for Big Data: A CIO's Handbook to the Changing Data Landscape. O’Reilly Media, Inc., 2012.

Kub17

Miroslav Kubat. A Simple Machine-Learning Task, pages 1–18. Springer International Publishing, Cham, 2017. URL: https://doi.org/10.1007/978-3-319-63913-0_1, doi:10.1007/978-3-319-63913-0_1.

She00

C Shearer. The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehousing, 5:13–22, 2000.

Ski17

Steven S. Skiena. What is Data Science?, pages 1–25. Springer International Publishing, Cham, 2017. URL: https://doi.org/10.1007/978-3-319-55444-0_1, doi:10.1007/978-3-319-55444-0_1.

Tur13

Garry. Turkington. Hadoop Beginner's Guide. Packt Publishing, 2013.

Wik23

Wikipedia. Ciencia de datos — wikipedia, la enciclopedia libre. 2023. [Internet; descargado 29-septiembre-2023]. URL: https://es.wikipedia.org/w/index.php?title=Ciencia_de_datos&oldid=154154961.