Código criado para utilização junto a plataforma da Digital Innovation One pelo instrutor [email protected], repositorio original em https://github.com/marcelomarques05/dio-desafio-dataproc
O desafio faz parte do curso na plataforma da Digital Innovation One:
Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform
O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contagem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.
-
Criar um bucket no Cloud Storage
-
Atualizar o arquivo
contador.py
com o nome do Bucket criado nas linhas que contém{SEU_BUCKET}
. -
Fazer o upload dos arquivos
contador.py
elivro.txt
para o bucket criado (instruções abaixo) -
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando
gs://{SEU_BUCKET}/contador.py
-
O Job irá gerar uma pasta no bucket chamada
resultado
. Dentro dessa pasta o arquivopart-00000
irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro.
Como não foi possivel utilizar o ambiente do Cloud do Google, devido algumas restrições com meu cadastro, segui os seguinte caminho alternativo:
- Criar um notebook no google.colab
- Realizar o upload do arquivo livro.txt
- Instalar no ambiente o pySpark
- Subir o script contador.py
- Alterar para os caminhos conforme necessidade
- Executar.
- Criar um repositório no GitHub.
- Criar um arquivo chamado
resultado.txt
. Dentro desse arquivo, colocar as 10 palavras que mais são usadas no livro, de acordo com o resultado do Job. - Inserir os arquivo
resultado.txt
epart-00000
no repositório e informar na plataforma da Digital Innovation One.