WEB SCRAPING EM CONJUNTOS DE DADOS
Link do notebook: https://colab.research.google.com/drive/1JankVurInDUdLriwJwUlce3lTB2JOs1T#scrollTo=6ByVgfG9biaq
O objetivo desse projeto é extrair nome e link de datasets de 5 sites:
-
Awesome Public Datasets: É muito útil para procurar por temas, por exemplo;
-
UCI Machine Learning: É melhor para dataset quando voce já sabe o nome dele, por exemplo: "iris", "wine", "breast cancer";
-
Google data search: Muito útil para pesquisar por temas. E pode ser utilizado para pesquisar dados do Kaggle, bastando digitar "kaggle" junto do nome da pesquisa, por exemplo: "football kaggle";
-
Dados.gov: Ideal para pesquisar dados brasileiros, possui dados em diversos formatos;
-
IBGE: Além de dados estruturados numa tabela, aqui podemos encontrar dados em notícias e livros da "Biblioteca IBGE", sendo muito útil para fazer pesquisas mais aprofundadas.
Com esse notebook, espero contribuir com a comunidade de Ciência de Dados, facilitando a busca por datasets em sites internacionais e nacionais.