在Google云平台上利用Cloud Dataproc的非结构化数据

课程概况

Este curso intensivo de uma semana baseia-se nos cursos anteriores da especialização Data Engineering on Google Cloud Platform. Por meio de videoaulas, demonstrações e laboratórios práticos, você aprenderá a criar e gerenciar clusters de computação para executar jobs do Hadoop, Spark, Pig e/ou Hive no Google Cloud Platform.Você também aprenderá a acessar várias opções de armazenamento em nuvem dos clusters de computação e integrar os recursos de machine learning do Google aos respectivos programas de análise.

Nos laboratórios práticos, você criará e gerenciará os clusters do Dataproc usando o console da Web e a CLI e usará o cluster para executar jobs do Spark e Pig. Depois você criará notebooks iPython que são integrados ao BigQuery e ao armazenamento e utilizará o Spark. Por fim, você integrará as APIs de machine learning à análise de dados.

Pré-requisitos
• Noções básicas de Big Data e Machine Learning do Google Cloud Platform (ou experiência equivalente)
• Algum conhecimento de Python

课程大纲

Módulo 1: introdução ao Cloud Dataproc

Este curso intensivo de uma semana é uma continuação dos cursos anteriores da especialização Data Engineering on Google Cloud Platform. Por meio de uma combinação de palestras em vídeo, demonstrações e laboratórios práticos, você aprenderá a criar e gerenciar clusters de computação para executar jobs do Hadoop, Spark, Pig e/ou Hive no Google Cloud Platform. Você também verá como acessar várias opções do Cloud Storage a partir dos seus clusters de computação, além de integrar recursos de aprendizado de máquina do Google aos seus programas de análise.

Módulo 2: como executar jobs do Dataproc

Módulo 3: como usar o GCP

Módulo 4: como analisar dados não estruturados