Comments (16)
Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL.
from covid19-br.
@leo-smi você viu o corona_pr_spider.py
que eu fiz nesse repositório? Os dados do PR que estão no Brasil.IO são resultado desse script. Eu uso a biblioteca rows para extrair o PDF - ainda não está tão boa/fácil para esse PDF quanto o camelot, mas funciona.
from covid19-br.
@leo-smi por enquanto não (eu rodo e atualizo). Ainda estou automatizando os processos para que tudo fique o mais automatizado possível.
As planilhas no Google vão mudar de estrutura, pra facilitar quem precisará digitar à mão os dados.
from covid19-br.
Me mandaram isso:
"Atualização sobre o PR, talvez ajude:
- adicionaram um excelzão, hehe.
- e uma tabela html nessa página aqui: http://www.coronavirus.pr.gov.br/Campanha/Pagina/TRANSPARENCIA-Enfrentamento-ao-Coronavirus-4 "
from covid19-br.
Paraná com arquivos csv http://www.saude.pr.gov.br/modules/conteudo/conteudo.php?conteudo=3507
from covid19-br.
Ainda não está perfeito, mas já fiz uma implementação inicial em web/spiders/spider_pr.py
(baixa somente os CSVs). Por isso fecharei essa issue.
from covid19-br.
https://github.com/CoronaTrack/Covid19-Parana-Database
from covid19-br.
Amigo esse spider aí ta atualizando o arquivo no google drive? então faltam 23 desses pra cobrir todos os estados?
from covid19-br.
O spider do Paraná tá quebrando pra o dia 22/3. Tou investigando.
from covid19-br.
Coisas que tentei até agora pra extrair dados do pdf do dia 22:
- Usar a biblioteca tabula-py
- Usar a bibiloteca camelot
Tabula é bem fácil de instalar e usar (e os dados extraídos são um DataFrame pandas). Camelot tem até um exemplo simples de como usar aqui: https://github.com/CoronaTrack/Covid19-Parana-Database/blob/master/covid19_PR.ipynb
Nenhuma dessas bibliotecas (incluindo rows
, que é a usada pelo spider atual do Paraná) consegue parsear esse pdf com sucesso.
Exemplo do resultado usando Tabula (atenção que a tabela rola para a direita):
REGIONAL DE\rSAÚDE | MUNICÍPIO | CONFIRMADOS | DESCARTADOS | EM\rINVESTIGAÇÃO | TOTAL |
---|---|---|---|---|---|
6a – RS | Cruz Machado | NaN | NaN | 2.0 | 2.0 |
NaN | General Carneiro | NaN | NaN | 1.0 | 1.0 |
NaN | São Mateus do Sul | NaN | NaN | 5.0 | 5.0 |
NaN | União da Vitória | NaN | NaN | 1.0 | 1.0 |
7a – RS | Bom Sucesso do Sul | NaN | NaN | 4.0 | 4.0 |
Chopinzinho | NaN | NaN | 7.0 | 7.0 | NaN |
Clevelândia | NaN | NaN | 2.0 | 2.0 | NaN |
Coronel Domingos Soares | NaN | NaN | 1.0 | 1.0 | NaN |
Coronel Vivida | NaN | NaN | 7.0 | 7.0 | NaN |
Mangueirinha | NaN | NaN | 5.0 | 5.0 | NaN |
Notem que a partir da regional 7a – RS
as colunas seguintes parecem estar deslocadas à esquerda.
Alguém tem alguma ideia ou sugestão?
from covid19-br.
Rodei o tabula "na mão" e deu certo. Fiz um cron simples pra verificar e avisar qdo o índice de boletins for alterado.
Dados de 24/3: https://docs.google.com/spreadsheets/d/e/2PACX-1vRU-AIpWul3Tk2EW4EBSgUwzHnv3SHZjOCprHnuuB7O47uxN4h000axmdNFpPPBKvyIhUcjUy6Tle92/pubhtml
from covid19-br.
Olá, @biketrooper . É especificamente com o pdf do dia 22 que não funciona.
from covid19-br.
Boa notícia @turicas ! A Secretaria de Estado da Saúde do Paraná liberou a extensão CSV! Basta substituir a extensão pdf por csv na URL.
que maravilha
from covid19-br.
Muito bom, o Paraná aprendendo com os erros!
from covid19-br.
Ainda não está perfeito, mas já fiz uma implementação inicial em
web/spiders/spider_pr.py
(baixa somente os CSVs). Por isso fecharei essa issue.
A Secretaria de Estado da Saúde do Paraná alterou o diretório de armazenamento dos PDFs e CSVs. Inseriu no caminho um diretório referente aos meses.
from covid19-br.
http://www.saude.pr.gov.br/Pagina/Coronavirus-COVID-19
from covid19-br.
Related Issues (20)
- Ajustar documentação da API HOT 1
- Divergência de dados CE HOT 1
- Metadata Update HOT 2
- Corrigir script de captura de óbitos registrados em cartório HOT 7
- Adicionar outras causes de óbitos registrados em cartório
- Coletar dados do Registro Civil por município
- Corrigir/atualizar esquema da tabela obitos_cartorio HOT 12
- Covid19-br
- Dados incorretos de causas de óbitos (cartórios) para MG
- Arquivo CSV com problema de acentuação
- A quantidade de óbitos no caso_full representa o número ocorrido ou notificado?
- Valores zerados no Mato Grosso
- Inconsistência entre valores totais dos Estados HOT 2
- Filtros pararam de funcionar HOT 1
- Tutorial/material sobre replicação da infra de API
- Dados desatualizados
- Dados atrasados desde 27 de fevereiro - Mato Grosso do Sul
- Esse repo contém informações do tipo sanguineo, essas coisas? HOT 1
- Dados faltantes para o MT da SE202034 - SE202046
- Migrar a validação de dados do GoodTables para o Frictionless Repository
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from covid19-br.