课程概况
Este curso acelerado de una semana está basado en cursos anteriores de la especialización “Data Engineering on Google Cloud Platform”. Mediante una serie de clases por video, demostraciones y labs prácticos, aprenderá a crear y administrar clústeres de procesamiento para ejecutar trabajos de Hadoop, Spark, Pig o Hive en Google Cloud Platform.Además, aprenderá a acceder a varias opciones de almacenamiento en la nube desde sus clústeres de procesamiento y a integrar las capacidades del aprendizaje automático de Google en sus programas de estadísticas.
En los labs prácticos, creará y administrará clústeres de Dataproc con la consola web y la CLI. Luego, usará los clústeres para ejecutar trabajos de Spark y Pig. A continuación, creará notebooks de IPython que se integran con BigQuery y el almacenamiento, y utilizará Spark. Por último, integrará las API de aprendizaje automático en el análisis de sus datos.
Requisitos previos
• Google Cloud Platform Big Data & Machine Learning Fundamentals (o contar con experiencia equivalente)
• Conocimientos de Python
课程大纲
Módulo 1: Introducción a Cloud Dataproc
Módulo 2: Ejecución de trabajos de Dataproc
Módulo 3: Aproveche GCP
Módulo 4: Análisis de datos no estructurados