Neste desafio, proposto pelo programa Alpha EdTech, os grupos são criados pelos professores e deverá ser realizado os processos de "coleta", 'limpeza", "análise" e "visualização" de dados da Administração Pública brasileira tendo como requisitos:
- Uso das informações coletadas de um site da administração pública:
- Uso da biblioteca
Pandas
; - Este processo poderá estático, isto é, a coleta pode ser feita em apenas uma etapa sem a necessidade de processamento dinâmico de informações;
- A coleta normalmente será realizada processando-se um arquivo do tipo
CSV
por meio do uso doPandas
; - Deve-se realizar um tratamento para remover os dados não relevantes para o fim da aplicação ("limpeza").
- Links de referências (não se restringindo a apenas estes):
- Uso da biblioteca
- Uso de banco de dados relacional:
- Uso do Postgres;
- Mínimo de 5 tabelas;
- As tabelas principais devem ter no mínimo 10 mil registros cada;
- Não há a necessidade de uso de Spark, bastando o uso de Pandas;
- Utilizar comandos SQL para o cruzamento das informações.
- Implementar e detalhar um processamento segmentado em no mínimo 3 zonas:
- raw (dado cru);
- curated (dado limpo); e
- analytics (dado analisado).
- Montagem do data warehouse com as informações das tabelas:
- Devem utilizar algoritmos que demonstram a habilidade em estrutura de dados e complexidade de algoritmos.
- Visualização dos dados analisados usando
Flask
; - Uso da análise estatística dos dados usando
Plotly
:- Uso de estatística básica;
- Não é necessário o uso de regressões.
O tema escolhido foi o de explorar as informações coletadas do site do ministério da justiça em relação aos atendimentos do Procon, para análise de dados.
- Fonte dos Dados do Procon
- Apresentação do Projeto
- Setup para poder executar
- Repositório Proconectados
Esse repositório está licenciado pela Mit License. Para mais informações detalhadas, leia o arquivo License contido nesse repositório.
Vinicius Amorim 🚀 |
Geverson Araujo Fernandes 🚀 |