在Google云平台上利用Cloud Dataproc的非结构化数据

课程概况

Este curso acelerado de una semana está basado en cursos anteriores de la especialización “Data Engineering on Google Cloud Platform”. Mediante una serie de clases por video, demostraciones y labs prácticos, aprenderá a crear y administrar clústeres de procesamiento para ejecutar trabajos de Hadoop, Spark, Pig o Hive en Google Cloud Platform.Además, aprenderá a acceder a varias opciones de almacenamiento en la nube desde sus clústeres de procesamiento y a integrar las capacidades del aprendizaje automático de Google en sus programas de estadísticas.

En los labs prácticos, creará y administrará clústeres de Dataproc con la consola web y la CLI. Luego, usará los clústeres para ejecutar trabajos de Spark y Pig. A continuación, creará notebooks de IPython que se integran con BigQuery y el almacenamiento, y utilizará Spark. Por último, integrará las API de aprendizaje automático en el análisis de sus datos.

Requisitos previos
• Google Cloud Platform Big Data & Machine Learning Fundamentals (o contar con experiencia equivalente)
• Conocimientos de Python