Introducción a Big Data#
Apuntes del curso#
Introducción a Big Data. Apuntes del curso por Marcelo Horacio Fortino. Versión 2.0.3. Octubre 2023.
Esta obra está sujeta a la licencia Reconocimiento-CompartirIgual 4.0 Internacional de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/4.0/. Puede hallar permisos más allá de los concedidos con esta licencia en https://fortinux.com. Sugerencias y comentarios a info@fortinux.com.
Todas las marcas son propiedad de sus respectivos dueños. Apache Hadoop, Hadoop, Apache, the Apache feather logo, y el Apache Hadoop project logo son marcas registradas o marcas de la Apache Software Foundation en los Estados Unidos y otros países. Copyright © 2006-2022 The Apache Software Foundation.
Versión |
Autor |
Fecha |
Observaciones |
---|---|---|---|
1.0 |
Marcelo Horacio Fortino |
2020/Nov |
Fundamentals of Big Data |
1.1 |
Marcelo Horacio Fortino |
2022/Feb |
Traducido al castellano, actualizado y convertido a markdown - ipynb |
1.2 |
Marcelo Horacio Fortino |
2022/Mar |
Convertido en Jupyter Book |
2.0 |
Marcelo Horacio Fortino |
2023/Oct |
Actualizados contenidos. Agregado Data Science |
Esta obra se distribuye con la esperanza de que sea útil, pero SIN NINGUNA GARANTÍA, incluso sin la garantía MERCANTIL implícita o sin garantizar la CONVENIENCIA PARA UN PROPÓSITO PARTICULAR. El autor no asume ninguna responsabilidad si el lector hace un mal uso de la misma.
Estos apuntes se basan en:
La bibliografía presentada al final de este documento, y
Documentación propia recogida a lo largo de los años de diversas fuentes.
Introducción#
En el pasado solo las grandes organizaciones podían aprovecharse de Big Data. Empresas como Walmart, Google, y/o agentes financieros especializados. Actualmente con Hadoop, hardware de bajo coste (commodity) que utiliza el kernel de Linux, y el cloud computing, casi cualquier organización se lo puede permitir.
Basta considerar que hay una revolución de datos: los datos que se generan en el mundo aumentan anualmente un 40%. Se estima que para el 2025 se crearán más de 180 zetabytes. Fuente: https://es.statista.com/. En consecuencia, todos esos datos que obtenemos deben ser tratados para ser convertidos en información y poder así tomar decisiones estratégicas.
Objetivos del curso#
Conocer las soluciones de Big Data presentes en el mercado como Apache Hadoop y Spark.
Adquirir conocimientos para diseñar estrategias de business intelligence integrando data lakes y data warehouses.
Desarrollar Machine Learning in-house usando Spark MLlib and TensorFlow.
Temario#
Introducción al Big Data y al análisis de datos.
Mercado y tendencias del Big Data.
Definición de Big Data e historia.
Tipos de datos en Big Data.
Ejemplos de casos de usos.
Buenas prácticas en Big Data y análisis de datos.
Procesos de Big Data: ingest, store, process/query, visualize.
Hadoop: HDFS & MapReduce, YARN.
Herramientas y tecnologías: Kafka, Mesos, Redis, CouchDB.
Document stores: MongoDB.
Column stores: HBase + Cassandra.
Big Data analytics: Spark, Storm.
Elastic Stack: Logstash, ElasticSearch y Kibana.
Técnicas de Machine learning:
Spark (MLlib, Streaming).
TensorFlow.
Bibliografía#
- CG19
Wo Chang and Nancy Grady. Nist big data interoperability framework: volume 1, definitions. 2019-10-21 2019. doi:https://doi.org/10.6028/NIST.SP.1500-1r2.
- CMZ+21
Edward Curry, Andreas Metzger, Sonja Zillner, Jean-Christophe Pazzaglia, Ana García Robles, Thomas Hahn, Laure Le Bars, Milan Petkovic, and Nuria De Lama. The European Big Data Value Ecosystem, pages 3–19. Springer International Publishing, Cham, 2021. URL: https://doi.org/10.1007/978-3-030-68176-0_1, doi:10.1007/978-3-030-68176-0_1.
- Dum12
Edd. Dumbill. Planning for Big Data: A CIO's Handbook to the Changing Data Landscape. O’Reilly Media, Inc., 2012.
- Kub17
Miroslav Kubat. A Simple Machine-Learning Task, pages 1–18. Springer International Publishing, Cham, 2017. URL: https://doi.org/10.1007/978-3-319-63913-0_1, doi:10.1007/978-3-319-63913-0_1.
- She00
C Shearer. The CRISP-DM model: the new blueprint for data mining. Journal of Data Warehousing, 5:13–22, 2000.
- Ski17
Steven S. Skiena. What is Data Science?, pages 1–25. Springer International Publishing, Cham, 2017. URL: https://doi.org/10.1007/978-3-319-55444-0_1, doi:10.1007/978-3-319-55444-0_1.
- Tur13
Garry. Turkington. Hadoop Beginner's Guide. Packt Publishing, 2013.
- Wik23
Wikipedia. Ciencia de datos — wikipedia, la enciclopedia libre. 2023. [Internet; descargado 29-septiembre-2023]. URL: https://es.wikipedia.org/w/index.php?title=Ciencia_de_datos&oldid=154154961.