课程概况
Este curso intensivo de uma semana baseia-se nos cursos anteriores da especialização Data Engineering on Google Cloud Platform. Por meio de videoaulas, demonstrações e laboratórios práticos, você aprenderá a criar e gerenciar clusters de computação para executar jobs do Hadoop, Spark, Pig e/ou Hive no Google Cloud Platform.Você também aprenderá a acessar várias opções de armazenamento em nuvem dos clusters de computação e integrar os recursos de machine learning do Google aos respectivos programas de análise.
Nos laboratórios práticos, você criará e gerenciará os clusters do Dataproc usando o console da Web e a CLI e usará o cluster para executar jobs do Spark e Pig. Depois você criará notebooks iPython que são integrados ao BigQuery e ao armazenamento e utilizará o Spark. Por fim, você integrará as APIs de machine learning à análise de dados.
Pré-requisitos
• Noções básicas de Big Data e Machine Learning do Google Cloud Platform (ou experiência equivalente)
• Algum conhecimento de Python
课程大纲
Módulo 1: introdução ao Cloud Dataproc
Este curso intensivo de uma semana é uma continuação dos cursos anteriores da especialização Data Engineering on Google Cloud Platform. Por meio de uma combinação de palestras em vídeo, demonstrações e laboratórios práticos, você aprenderá a criar e gerenciar clusters de computação para executar jobs do Hadoop, Spark, Pig e/ou Hive no Google Cloud Platform. Você também verá como acessar várias opções do Cloud Storage a partir dos seus clusters de computação, além de integrar recursos de aprendizado de máquina do Google aos seus programas de análise.
Módulo 2: como executar jobs do Dataproc
Módulo 3: como usar o GCP
Módulo 4: como analisar dados não estruturados