Coder Social home page Coder Social logo

Comments (222)

victortassinari avatar victortassinari commented on July 24, 2024 3

@lucasfacchini Que legal, estava começando construir uma ferramenta parecida aqui em node pra exportar pra postgres, até parei aqui, vou usar esse seu aqui, ficou mto bom. Vamos tentar manter um pessoal nesse projeto pra manter atualizado, conte comigo para futuras atualizações que precisar.

from qsacnpj.

souzagilson15 avatar souzagilson15 commented on July 24, 2024 2

ATENÇÃO.

Além desses problemas, nos arquivos extraídos em 16/03/2021 os nomes dos sócios estão totalmente errados. Conferi vários usando a Emissão de Comprovante de Inscrição e de Situação Cadastral da própria receita.

Para tentar agilizar a solução abri chamado na https://falabr.cgu.gov.br/Principal.aspx já tive outros casos onde eles responderam bem rápido.

Se vocês puderem abrir chamado lá também talvez ajude a notar o problema.

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024 2

baixa ai: https://www.linhaprodutiva.com.br/tab_cnae.sql

from qsacnpj.

algoz098 avatar algoz098 commented on July 24, 2024 2

É so voce remover esses http// que o link funciona

from qsacnpj.

lucasfacchini avatar lucasfacchini commented on July 24, 2024 2

Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024 1

O banco que eu gerei com os zips de 31/3/2021
O zip tem 6.3 GB

https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_210331.db.zip
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_210331.db.md5

boa tarde, baixei esta versão da base e não encontrei as tabelas complementares como a de cnea, como estão fazendo com estas tabelas, já existe alguma base em sql lite delas tb?

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024 1

@souzagilson15 abri a solicitação. fiz o teste com minha empresa, aparecem 2 pessoas totalmente erroneas. Se todos fizermos, eles irão corrigir
@paulo3011 , não há tabelas de cnae secundário. Estão em um campo (cnae_sec) na tab estabelecimentos, separados por vírgula.

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024 1

@souzagilson15 abri a solicitação. fiz o teste com minha empresa, aparecem 2 pessoas totalmente erroneas. Se todos fizermos, eles irão corrigir
@paulo3011 , não há tabelas de cnae secundário. Estão em um campo (cnae_sec) na tab estabelecimentos, separados por vírgula.

Talvez não tenha explicado direito, minha dúvida é se já estão extraindo os dados cadastrais de cnea do site do ibge e outras tabelas complementares e gerando arquivos em formato do sql lite. Quero por exemplo fazer um join entre os dados da empresa para saber os nomes, descrições dos cneas e demais dados cadastrais

from qsacnpj.

souzagilson15 avatar souzagilson15 commented on July 24, 2024 1

@souzagilson15 abri a solicitação. fiz o teste com minha empresa, aparecem 2 pessoas totalmente erroneas. Se todos fizermos, eles irão corrigir
@paulo3011 , não há tabelas de cnae secundário. Estão em um campo (cnae_sec) na tab estabelecimentos, separados por vírgula.

Muito bom! @paulo3011

Meu chamado está aberto desde 31/03, nesse dia o arquivo disponível já era o layout novo e já tinha esses erros.

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024 1

ATENÇÃO.

Além desses problemas, nos arquivos extraídos em 16/03/2021 os nomes dos sócios estão totalmente errados. Conferi vários usando a Emissão de Comprovante de Inscrição e de Situação Cadastral da própria receita.

Para tentar agilizar a solução abri chamado na https://falabr.cgu.gov.br/Principal.aspx já tive outros casos onde eles responderam bem rápido.

Se vocês puderem abrir chamado lá também talvez ajude a notar o problema.

Como abriu o chamado, tentei abrir e não encontrei para quem enviar a e qual o meio correto, teria que registrar uma manifestação? Se sim para qual orgão? Tentei neste link https://falabr.cgu.gov.br/publico/Manifestacao/RegistrarManifestacao.aspx?idFormulario=3&tipo=8&origem=idp&modo=

tb encontrei alguns registros de sócios sem nome.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024 1

olá pessoal... os links da Receita estão quebrados...
empresa2 - http://http//200.152.38.155/CNPJ/K3241.K03200Y1.D10313.EMPRECSV.zip
empresa3 - http://http//200.152.38.155/CNPJ/K3241.K03200Y2.D10313.EMPRECSV.zip
restante não testei mais... alguém esta tendo esse problema?

@buzios , os links que vc disponibilizou acima são dessa atualização de 05/04/2021?

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024 1

É so voce remover esses http// que o link funciona

Puxa!! verdade @algoz098 obrigado por me mostrar o que está tão obvio. eu copiei o link da pagina da receita e não tinha percebido o erro.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024 1

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024 1

@paulo3011 matriz e filial. Estabelecimentos são todo tipo de CNPJ matriz e filial. EMPRESAS são apenas dados inerentes á matriz. eu particularmente, para usar os dados, fizer um inner de tudo (juntei). copiando dados da EMPRESAS para ESTABELECIMENTOS em novas colunas levando em conta o cnpj_base.

from qsacnpj.

Lucasvor avatar Lucasvor commented on July 24, 2024 1

Bom dia, Alguem teria a lista dos "Motivos da situação cadastral" ? não estou conseguindo localizar no http://200.152.38.155/CNPJ/

Boa tarde, consegue baixar neste endereço também:
https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/DominiosMotivoSituaoCadastral.csv

Obrigado pelo link, já consegui baixar

from qsacnpj.

joaopaulo17 avatar joaopaulo17 commented on July 24, 2024 1

@Eduardomb22 consegui gerar a base de dados em sqllite com o projeto abaixo, veja se te ajuda.
https://github.com/faio/rfb-cnpj

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024 1

@joaopaulo17 , você observou alguns erros quando usa essa ferramenta? Parece que quando o campo tem um ";" , ele cria uma outra coluna e desconfigura os dados. Por exemplo, o cnpj 15505745 está todo desconfigurado

bom dia, eu já tive problemas para processar os arquivos, mas estou processando sem usar a ferramenta feita em R (estou usando java). Exemplo de problema que tive no arquivo K3241.K03200Y0.D10410.ESTABELE:

"02354676";"0001";"09";"1";"POLI BRILHO\";"3";"20100518";"21";"";"";"19980203";"4771701";"";"RUA";"DA ESCOLA";"129 A";"CASA";"MAPELE";"43700000";"BA";"3913";"";"";"";"";"";"";"";"";""

Se observar no nome da empresa POLI BRILHO tem uma barra e dependendo de como estiver lendo o arquivo pode entender que é um escape e considerar que as aspas são parte dessa coluna e ai quebra as colunas.

from qsacnpj.

joaopaulo17 avatar joaopaulo17 commented on July 24, 2024 1

@Eduardomb22 , sim consultando esse registro realmente a ferramenta importou algum registros com dados em colunas erradas.
Durante a geração do banco de dados a ferramenta não apresentou erros, mas isso pode estar relacionado ao que o @paulo3011 mencionou.

from qsacnpj.

buzios avatar buzios commented on July 24, 2024 1

A RF liberou novos arquivos.
A data dos arquivos unzipados é 17/06/2021
Baixei todos os arquivos e "unzipei" ou seja, os arquivos estão integros.

from qsacnpj.

rictom avatar rictom commented on July 24, 2024 1

No meu projeto cnpj-sqlite coloquei um script em python para converter os arquivos novos da Receita para SQLITE, com um link no google drive para baixar o SQLITE já tratado (ref julho/2021)

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024 1

Pessoal, boa tarde.

Estou estudando a nova estrutura dos dados liberados pela receita, fiquei com uma duvida e já procurei bastante mas sem sucesso uma reposta, tem relação com o fato deles terem separados as informações das empresas em 2 arquivos.

  • Como dados como Razão Social e Capital Social só existem no arquivo de empresas (que pelo que entendi só tem os dados das matrizes), isso quer dizer que não temos mais acesso a Razão Social e ao Capital Social das Filiais?

Questiono isso porque o formato antigo (até 11/2020) conseguíamos chegar na razão e capital social das Filiais, certo?

Agradeço desde já!

Boa tarde, não tenho certeza se existe capital social por filial, mas na forma atual que estão os arquivos o valor de capital social e razão ficam no cadastro de empresa.

Fiz o diagrama abaixo para um projeto de um curso que fiz. Da para ver como estão os arquivos da receita hoje. Está em inglês porque a avaliaram em inglês, mas talvez ajude a ter uma visão melhor dos arquivos.

https://github.com/paulo3011/opendatafrombrasil/blob/master/assets/images/cnpj/opendata.png

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Olá buzios,
Obrigado pelo lembrete !!

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Olá a todos! Nota que realmente os arquivos dados_cnpj_empresas_* (todos) todos estão sem o campo CNPJ corretamente validado, ou seja, não há o vínculo com o nome fantasia, e dados das empresas, com as entidades. Esse Bug vai ser complicado. rs. Caso necessitem de auxílio, á disposição!

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

realmente @csidjalma , o @buzios tem razão. Está totalmente incompleto, a tabela do simples não veio, está impossível de gerar com confiabilidade. O que eu sugeriria é: Para quem também tem acesso ao e-CAC com Certificado Digital, abrir o máximo de chamados na RFB, para solicitar a correção. Desta forma está impossível tratar os dados.

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

A RF liberou hoje a tarde um novo release de dados de CNPJ.
Os nomes dos arquivos mudaram e agora tem um arquivo de SIMPLES.
Alguns links estao errados com href="http://http//"

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Vários links quebrados... Algum dos amigos aqui conseguiu baixar para ver se corrigiram a questão do vinculo da empresa com estabelecimento?

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Olá @buzios tudo bom!!
por favor, vc conseguiu o arquivo do SIMPLES de onde??
Eu não estou conseguindo baixar daqui:
http://200.152.38.155/CNPJ/F.K03200\$W.SIMPLES.CSV.D10313.zip

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

bom dia @buzios e @csidjalma ! Buzios, não consegui baixar o arquivo do SIMPLES. Você o conseguiu onde? Obrigado. CSIDjalma, conseguiu ver se há o vínculo agora da entidade e empresas? não estou conseguindo também baixar os arquivos, mas é realmente por problemas de conexão aqui do nosso servidor.. Obrigado e bom dia a todos!

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

Baixei todos os arquivos e gerei o banco de dados.
Para o simples o link é http://200.152.38.155/CNPJ/F.K03200$W.SIMPLES.CSV.D10313.zip

Desta vez todos os ZIPs estao integros e tem o CSV de simples/mei.

Nao entendi o problema de vinculo de entedidade e empresa, é o cnpj_basico.
Entdiades sao as filiais cnpj_basico/0001-DV, cnpj_basico/0002-DV ..

O problema é que os dados continuam errados.
Ha 2.776.341 nome de socio em branco
Ha socios de uma mesma empresa com CNPJ/CPF diferentes porem com o mesmo nome.

Acho que teremos que aguardar o proximo release.

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Olá @buzios ! O problema do vínculo estava na publicação inicial do dia 16/03 da RFb, estava sem o campo do vínculo na entidade (foi corrigido). Você conseguiu gerar o sql? poderia disponibilzar?

from qsacnpj.

algoz098 avatar algoz098 commented on July 24, 2024

Sem problemas estou tentando fazer um parser para mongo, em nodejs, e essas inconsistencias de um arquivo tão importante. Me pergunto se é questão de falar com um advogado para fazer um processo contra a RFB

from qsacnpj.

thiagosilvakognita avatar thiagosilvakognita commented on July 24, 2024

Parece que agora estão fazendo algum tipo de atualização no sistema, vamos aguardar pra que sejam as correções!

from qsacnpj.

ricardoambrico avatar ricardoambrico commented on July 24, 2024

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

olá Márcio, obrigado pelo arquivo... deixa eu te perguntar vc conseguiu baixar esse arquivo: http://200.152.38.155/CNPJ/K3241.K03200Y8.D10313.ESTABELE.zip pra mim esta dando que ele esta corrompido e não baixa...

Eu baixei e "unzipei" todos os arquivos sem nenhum problema.

Tive alguns problemas de integrigade (uns 15 erros de constraint) porem o grande problema continua sendo a tabela de socios.

Alem de 2.104 socios com nome em branco tem um monte de nome errado.
Exemplos:
CNPJ 38338022000139 com 5 socioes empresa com CNPJs distinto e o mesmo nome.
CNPJ 39258509000174 com 25 repeticoes

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

Oi Dijalma, eu peguei os links para download direto na maquina 200.152.38.155
http://200.152.38.155/CNPJ/

E como comentei não tive problemas.

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

Problemas na tabela de socios de 10/4/21

Ha 20.333.422 registros na tabela sendo 405.000 socios PJ

393.756 socios PJ estao com o nome (razao social no caso) ERRADO.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Olá a todos. A receita está atualizando ainda os dados. Houve outra atualização hoje as 10h37, pela qual no download, não notei correção ainda dos sócios. Acho que eles estão precisando de ajuda! Muito instável.

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

Olá a todos. A receita está atualizando ainda os dados. Houve outra atualização hoje as 10h37, pela qual no download, não notei correção ainda dos sócios. Acho que eles estão precisando de ajuda! Muito instável.

Numa comparacao rapida, todos os arquivos em http://200.152.38.155/CNPJ/ continuam com o mesmo nome e a mesma data. Tudo indica que nada mudou ate agora.

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

Notei um outro problema. Trata-se do PORTE da empresa.

O novo layout: (2021)
1 – NÃO INFORMADO
2 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS

No layout antigo (2020)
0 – NÃO INFORMADO
1 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS

Não ha nenhum registro com codigo 2
Ha varios registros com codigo 0
Aparentemente continua a ser usado esquema de 2020

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024

Bom dia, noitei um arquivo em csv no site da receita, sabem me dizer se eles já estão disponibilizando em formato csv os dados?
Ex: http://200.152.38.155/CNPJ/K3241.K03200Y0.D10410.EMPRECSV.zip

ou ainda é necessário processar o arquivo antigo em txt?

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024

boa tarde pessoal, dei uma olhada no layout e não consegui identificar porque eles separaram os dados de empresa em Estabelecimento e Empresas, a única diferença que notei foi que o arquivo de empresas tem menos registros e menos campos. Sabem me dizer qual o objetivo da tabela empresa e porque separam em duas?

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024

@paulo3011 matriz e filial. Estabelecimentos são todo tipo de CNPJ matriz e filial. EMPRESAS são apenas dados inerentes á matriz. eu particularmente, para usar os dados, fizer um inner de tudo (juntei). copiando dados da EMPRESAS para ESTABELECIMENTOS em novas colunas levando em conta o cnpj_base.

Bom dia, entendi, dei uma olhada com mais calma aqui e percebi que alguns campos só existem no arquivo de empresa. Vou juntar os dados em uma tabela só, também acredito que fica mais simples de usar, entender. Obrigado!

from qsacnpj.

Lucasvor avatar Lucasvor commented on July 24, 2024

Bom dia, Alguem teria a lista dos "Motivos da situação cadastral" ? não estou conseguindo localizar no http://200.152.38.155/CNPJ/

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

Lucasvor avatar Lucasvor commented on July 24, 2024

olá @Lucasvor segue a tabela "Motivos da situação cadastral" que estou usando. Djalma Julião Em qua., 28 de abr. de 2021 às 13:11, Lucasvor @.***> escreveu:

Bom dia, Alguem teria a lista dos "Motivos da situação cadastral" ? não estou conseguindo localizar no http://200.152.38.155/CNPJ/ — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#26 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AMOY433HTEIVV3RNEB65VZLTLAXTJANCNFSM4ZQRYL5Q .

Obrigado, mas não estou conseguindo visualizar a tabela

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024

Bom dia, Alguem teria a lista dos "Motivos da situação cadastral" ? não estou conseguindo localizar no http://200.152.38.155/CNPJ/

Boa tarde, consegue baixar neste endereço também:
https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/DominiosMotivoSituaoCadastral.csv

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Notei um outro problema. Trata-se do PORTE da empresa.

O novo layout: (2021)
1 – NÃO INFORMADO
2 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS

No layout antigo (2020)
0 – NÃO INFORMADO
1 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS

Não ha nenhum registro com codigo 2
Ha varios registros com codigo 0
Aparentemente continua a ser usado esquema de 2020

Ola Márcio,
estou a 2 semanas conferindo esses dados e não consegui chegar em um consenso.
Por favor, me da uma dica, como você esta usando o código do PORTE: 2020 ou com esse de 2021?

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import

Muito bom Lucas !!

from qsacnpj.

Lucasvor avatar Lucasvor commented on July 24, 2024

Notei um outro problema. Trata-se do PORTE da empresa.
O novo layout: (2021)
1 – NÃO INFORMADO
2 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS
No layout antigo (2020)
0 – NÃO INFORMADO
1 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS
Não ha nenhum registro com codigo 2
Ha varios registros com codigo 0
Aparentemente continua a ser usado esquema de 2020

Ola Márcio,
estou a 2 semanas conferindo esses dados e não consegui chegar em um consenso.
Por favor, me da uma dica, como você esta usando o código do PORTE: 2020 ou com esse de 2021?

Pelo o que eu percebi utilizando a base dele, o padrão continua o de 2020 nesses dados recentes.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Notei um outro problema. Trata-se do PORTE da empresa.
O novo layout: (2021)
1 – NÃO INFORMADO
2 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS
No layout antigo (2020)
0 – NÃO INFORMADO
1 - MICRO EMPRESA
3 - EMPRESA DE PEQUENO PORTE
5 - DEMAIS
Não ha nenhum registro com codigo 2
Ha varios registros com codigo 0
Aparentemente continua a ser usado esquema de 2020

Ola Márcio,
estou a 2 semanas conferindo esses dados e não consegui chegar em um consenso.
Por favor, me da uma dica, como você esta usando o código do PORTE: 2020 ou com esse de 2021?

Pelo o que eu percebi utilizando a base dele, o padrão continua o de 2020 nesses dados recentes.

Obrigado por responder Lucas!
outra coisa que estou curioso é com os dados dos sócios. Teve alguma novidade desde a última atualização em 20/04/2021?

from qsacnpj.

Lucasvor avatar Lucasvor commented on July 24, 2024

Eu acredito que não, vamos esperar os outros responder

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Ola @Lucasvor , sem novidades. Eu, particularmente, utilizo a base de estabelecimentos, empresas e simples UNIFICADAS em apenas uma tabela (estabelecimentos), e vinculo os sócios da atualização de 11/2020. As novas empresas, estão sem sócios (no meu caso), por segurança.

from qsacnpj.

buzios avatar buzios commented on July 24, 2024

Saiu hoje atualizacao dos arquivos de CNPJ.
A data dos arquivos CSV é 12/5/2021
Eu fiz o download e unzipei todos os arquivos.
Todos os arquivos estao integros.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

Eduardomb22 avatar Eduardomb22 commented on July 24, 2024

@buzios , você poderia fazer o upload da sua database?

from qsacnpj.

rafaelotorres avatar rafaelotorres commented on July 24, 2024

Oi pessoal, bom dia.

Alguém sabe me dizer como consegue obter informações de e-mail e telefone dos donos de CNPJ?

from qsacnpj.

Eduardomb22 avatar Eduardomb22 commented on July 24, 2024

@joaopaulo17 , você observou alguns erros quando usa essa ferramenta? Parece que quando o campo tem um ";" , ele cria uma outra coluna e desconfigura os dados. Por exemplo, o cnpj 15505745 está todo desconfigurado

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Boa noite a todos! @buzios desta vez não consegui ler os CSVs da receita, não sei o porquê, mas trava em um certo momento. Você conseguiu gerar o csv ou sqlite desta atualização? Tentei também peloprojeto do faio @Eduardomb22 mas também dá falha. Alguém conseguiu? obrigado, boa semana.

from qsacnpj.

leandroribeironh avatar leandroribeironh commented on July 24, 2024

Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import

Opa! Tche, tem como instruir o uso? bah to tentando e nao ta saindo kkk
ate agora so fazia em R mesmo...

from qsacnpj.

leandroribeironh avatar leandroribeironh commented on July 24, 2024

Minhas observacoes sobre o drop de 8/5
Tabela de socios melhoru significativamente porem ainda ha mais de 2000 socios com nome em branco
Codigo de PORTE continua usando o layout de 2020

Segue o db SQlite que eu gerei (strings em UTF8)
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210508.db.zip
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210508.db.md5
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210508.db.diagrama.png

Obrigado! esta com os dados da ultima semana?

from qsacnpj.

leandroribeironh avatar leandroribeironh commented on July 24, 2024

Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import

Opa! Tche, tem como instruir o uso? bah to tentando e nao ta saindo kkk
ate agora so fazia em R mesmo...

Desculpa, eu estava fazendo M aqui... acho que me encontrei ja

Minhas observacoes sobre o drop de 8/5
Tabela de socios melhoru significativamente porem ainda ha mais de 2000 socios com nome em branco
Codigo de PORTE continua usando o layout de 2020
Segue o db SQlite que eu gerei (strings em UTF8)
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210508.db.zip
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210508.db.md5
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_20210508.db.diagrama.png

Obrigado! esta com os dados da ultima semana?

pergunta idiota, desculpe...agora vi o nome dos arquivos.

from qsacnpj.

leandroribeironh avatar leandroribeironh commented on July 24, 2024

Olá, disponibilizei uma ferramenta em Python para importar o novo formato em CSV dos arquivos da receita: https://github.com/lucasfacchini/open-data-cnpj-import

Opa! Tche, tem como instruir o uso? bah to tentando e nao ta saindo kkk
ate agora so fazia em R mesmo...
to tendo este problema:
from parser.parsers import generate_parsers_from_files, EstabeleCsvParser
ModuleNotFoundError: No module named 'parser.parsers'; 'parser' is not a package

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

@buzios Marcio, muito bom! Seu diagrama ajudou demais, e seu sqllite tb! Sugiro, depois, passe sua carteira Cripto aqui para donate pelo trabalho! Deve ser recompensado! @csidjalma Parabéns pela iniciativa do qsa do início até aonde estamos avançando! Os dados da forma como estão sendo processado, são extremamente valiosos. Abs e estou analisando a parte dos sócios, para dar os números exatos dos erros e também dos nomes trocados (se ainda houver) com base em 2020.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

@buzios Marcio, muito bom! Seu diagrama ajudou demais, e seu sqllite tb! Sugiro, depois, passe sua carteira Cripto aqui para donate pelo trabalho! Deve ser recompensado! @csidjalma Parabéns pela iniciativa do qsa do início até aonde estamos avançando! Os dados da forma como estão sendo processado, são extremamente valiosos. Abs e estou analisando a parte dos sócios, para dar os números exatos dos erros e também dos nomes trocados (se ainda houver) com base em 2020.

olá @danillorocha10 !
obrigado !! Eu sempre acreditei que "incentivo" + "reconhecimento" fossem os verdadeiros combustíveis da motivação profissional e estou aqui pra agradecer mesmo o trabalho do @buzios Marcio que tem me ajudado bastante com todo o investimento de seu tempo. Obrigado !!

from qsacnpj.

maugodoivitor avatar maugodoivitor commented on July 24, 2024

Boa noite! Sou novato no assunto de BD, mas estão de parabéns! Estou tentando extrair essa base para fazer um trabalho mas não chego nunca na extração total dos dados, alguém tem esses dados extraídos? @danillorocha10 parabéns. !

from qsacnpj.

MichaelDeMattos avatar MichaelDeMattos commented on July 24, 2024

@maugodoivitor Bom dia!
Existe a base extraída ja em Sqlite ou CSV os links estão disponíveis no README.md
Segue os links:
SQlite: https://bit.ly/3cRruVw
CSV: https://bit.ly/3jC3KGj

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Bom dia a todos. o feedback, recebido da RFB, em relação aos sócios. Vou compartilhar abaixo:

Sua manifestação apresentada no sistema Fala.BR foi respondida em 28/05/2021, conforme os dados abaixo.
Responda à pesquisa de satisfação e ajude-nos a melhorar nosso atendimento. São apenas 30 segundos!
Dados da Manifestação
Órgão ou Entidade: ME - Ministério da Economia
Cidadão: DANILLO...
Tipo de Manifestação: Solicitação
Prazo para Atendimento: 11/06/2021
Descrição da Manifestação: Olá. A tabela de SÓCIOS disponibilizada no sítio: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj está totalmente errada. Os nomes dos sócios não batem com a realidade. Pesquisei minha empresa e depois de várias outras. tudo errado. Corrijam! Para conferir caso deseje, sou DANILLO ROCHA, e minha empresa XXXXXXXXXXXXXXX tem DANILLO e LEONARDO no QSA. Na lista do link acima a qual utilizamos para conferir os dados públicos, estão outras 2 pessoas.

Resposta

Prezado (a), boa tarde, informa-se, por meio desta ouvidoria, que o problema já foi resolvido na extração atual que está disponível

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Bom dia a todos. o feedback, recebido da RFB, em relação aos sócios. Vou compartilhar abaixo:

Sua manifestação apresentada no sistema Fala.BR foi respondida em 28/05/2021, conforme os dados abaixo.
Responda à pesquisa de satisfação e ajude-nos a melhorar nosso atendimento. São apenas 30 segundos!
Dados da Manifestação
Órgão ou Entidade: ME - Ministério da Economia
Cidadão: DANILLO...
Tipo de Manifestação: Solicitação
Prazo para Atendimento: 11/06/2021
Descrição da Manifestação: Olá. A tabela de SÓCIOS disponibilizada no sítio: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj está totalmente errada. Os nomes dos sócios não batem com a realidade. Pesquisei minha empresa e depois de várias outras. tudo errado. Corrijam! Para conferir caso deseje, sou DANILLO ROCHA, e minha empresa XXXXXXXXXXXXXXX tem DANILLO e LEONARDO no QSA. Na lista do link acima a qual utilizamos para conferir os dados públicos, estão outras 2 pessoas.

Resposta

Prezado (a), boa tarde, informa-se, por meio desta ouvidoria, que o problema já foi resolvido na extração atual que está disponível

Olá bom dia... estou atualizando e vou conferir... tem algum CNPJ em específico que estava errado?? Tirando os que estavam em branco !!

from qsacnpj.

Eduardomb22 avatar Eduardomb22 commented on July 24, 2024

Os arquivos na url http://200.152.38.155/CNPJ/ estão com a mesma data, acho que não mudou nada da última atualização ou deve sair a correção na próxima.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Ola @Eduardomb22 ,
a informação que eles passaram pro @danillorocha10 foi que já estaria publicada a alteração... vamos conferir se já esta publicado ou se isso realmente ocorrerá na próxima atualização.

from qsacnpj.

willalberton avatar willalberton commented on July 24, 2024

Boa tarde pessoal. Eu importei ontem a base e não identifiquei os erros relacionados aos sócios. Parece estar consistente. No entanto, conforme já mencionado aqui na thread, há 2104 sócios sem nome.

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Boa tarde meus amigos !!
Comecei ontem um novo trabalho usando essa "massa de dados do CNPJ" e confesso que estou um pouco intrigado, pois encontrei várias inconsistências nos dados de Estabelecimentos.
Eu me refiro ao tratamento dos dados que estão no arquivo e que ao importar para o MySql me deparei e tive de prover reparo, por exemplo:
ESTABELECIMENTOS
- o campo "complemento" muios caracteres ";" e com muito espaço no meio dos textos
- aproximadamente 60 mil registros de e-mail pra recuperar e cerca de 35 mil pra excluir
- o campo "telefones" tem muitos erros pra serem corrigidos: números inválidos pra serem excluídos e principalmente os celulares precisam de concatenação pra colocar o nono digito.
- criei nessa tabela um campo "cidade" pra diminuir o fluxo de ter mais uma tabela associada, no caso município
- criei outro campo "cnpj" e concatenei os dados pra formar o cnpj completo.

Por favor, se alguém encontrou mais alguma coisa desse gênero compartilhe aqui também... vou deixar abaixo as correções que fiz na tabela que chamo de: tab_cnpj_estabelecimentos.

/* corrigindo os campos /
UPDATE tab_cnpj_estabelecimentos SET
cnpj = CONCAT(cnpj_basico, cnpj_ordem, cnpj_digito) ,
data_situacao_cadastral = DATE_FORMAT( STR_TO_DATE( data_situacao_cadastral ,"%Y%m%d" ) ,"%Y-%m-%d" ),
data_inicio_atividade = DATE_FORMAT( STR_TO_DATE( data_inicio_atividade ,"%Y%m%d" ) ,"%Y-%m-%d" ),
data_situacao_especial = DATE_FORMAT( STR_TO_DATE( data_situacao_especial ,"%Y%m%d" ) ,"%Y-%m-%d" ),
complemento = remove_accents(complemento),
correio_eletronico = LOWER( correio_eletronico ) ;
/
corrige erros do cadastro de e-mails /
/
aspas duplas /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'"','');
/
@. /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'@.','@');
/
.com.br. /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'.com.br.','.com.br');
/
,com.br /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,',com.br','.com.br');
/
.com,br /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'.com,br','.com.br');
/
espaços em branco /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,' ','');
/
com virgula /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,',','.');
/
com mailto: /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'mailto:','');
/
com e.mail: /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'e.mail:','');
/
com e-meil.: /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'e-meil.:','');
/
com e-mail: /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'e-mail:','');
/
com . no ultimo caracter /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = TRIM(TRAILING '.' FROM correio_eletronico) WHERE RIGHT(correio_eletronico,1) = '.';
/
com .. /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'..','.');
/
com ' /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,"'",'');
/
com & /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'&','e');
/
com ! /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'!','');
/
com ; /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,';','.');
/
com $ /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'$','');
/
com # /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'#','');
/
com + /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'+','');
/
com / /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'/','');
/
com ( /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'(','');
/
com ) /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,')','');
/
com e-mail: /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'e-meil:','');
/
com email: /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'email:','');
/
com < /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'<','');
/
com > /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'>','');
/
com .com.r /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'.com.r','.com.br');
/
com _ no inicio /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'','') WHERE SUBSTR(correio_eletronico,1,1) = '';
/
com .b no ultimo caracter /
UPDATE tab_cnpj_estabelecimentos SET correio_eletronico = REPLACE(correio_eletronico,'.b','.br') WHERE RIGHT(correio_eletronico,1) = 'b';
/
fora da validação de e-mail /
DELETE FROM tab_cnpj_estabelecimentos WHERE correio_eletronico NOT REGEXP '^[a-zA-Z0-9][a-zA-Z0-9._-]
[a-zA-Z0-9.-]@[a-zA-Z0-9][a-zA-Z0-9.-]*[a-zA-Z0-9].[a-zA-Z]{2,63}$' AND correio_eletronico <> '';

minha função para MySql para tirar acentos e colocar tudo em caixa alta.

DELIMITER $$
DROP FUNCTION IF EXISTS remove_accents$$
CREATE FUNCTION remove_accents(str TEXT) RETURNS TEXT CHARSET utf8 COLLATE utf8_bin
NO SQL
DETERMINISTIC
SQL SECURITY INVOKER
BEGIN
SET str = REPLACE(str,'Š','S');
SET str = REPLACE(str,'š','s');
SET str = REPLACE(str,'Ð','Dj');
SET str = REPLACE(str,'Ž','Z');
SET str = REPLACE(str,'ž','z');
SET str = REPLACE(str,'À','A');
SET str = REPLACE(str,'Á','A');
SET str = REPLACE(str,'Â','A');
SET str = REPLACE(str,'Ã','A');
SET str = REPLACE(str,'Ä','A');
SET str = REPLACE(str,'Å','A');
SET str = REPLACE(str,'Æ','A');
SET str = REPLACE(str,'Ç','C');
SET str = REPLACE(str,'È','E');
SET str = REPLACE(str,'É','E');
SET str = REPLACE(str,'Ê','E');
SET str = REPLACE(str,'Ë','E');
SET str = REPLACE(str,'Ì','I');
SET str = REPLACE(str,'Í','I');
SET str = REPLACE(str,'Î','I');
SET str = REPLACE(str,'Ï','I');
SET str = REPLACE(str,'Ñ','N');
SET str = REPLACE(str,'Ò','O');
SET str = REPLACE(str,'Ó','O');
SET str = REPLACE(str,'Ô','O');
SET str = REPLACE(str,'Õ','O');
SET str = REPLACE(str,'Ö','O');
SET str = REPLACE(str,'Ø','O');
SET str = REPLACE(str,'Ù','U');
SET str = REPLACE(str,'Ú','U');
SET str = REPLACE(str,'Û','U');
SET str = REPLACE(str,'Ü','U');
SET str = REPLACE(str,'Ý','Y');
SET str = REPLACE(str,'Þ','B');
SET str = REPLACE(str,'ß','Ss');
SET str = REPLACE(str,'à','a');
SET str = REPLACE(str,'á','a');
SET str = REPLACE(str,'â','a');
SET str = REPLACE(str,'ã','a');
SET str = REPLACE(str,'ä','a');
SET str = REPLACE(str,'å','a');
SET str = REPLACE(str,'æ','a');
SET str = REPLACE(str,'ç','c');
SET str = REPLACE(str,'è','e');
SET str = REPLACE(str,'é','e');
SET str = REPLACE(str,'ê','e');
SET str = REPLACE(str,'ë','e');
SET str = REPLACE(str,'ì','i');
SET str = REPLACE(str,'í','i');
SET str = REPLACE(str,'î','i');
SET str = REPLACE(str,'ï','i');
SET str = REPLACE(str,'ð','o');
SET str = REPLACE(str,'ñ','n');
SET str = REPLACE(str,'ò','o');
SET str = REPLACE(str,'ó','o');
SET str = REPLACE(str,'ô','o');
SET str = REPLACE(str,'õ','o');
SET str = REPLACE(str,'ö','o');
SET str = REPLACE(str,'ø','o');
SET str = REPLACE(str,'ù','u');
SET str = REPLACE(str,'ú','u');
SET str = REPLACE(str,'û','u');
SET str = REPLACE(str,'ý','y');
SET str = REPLACE(str,'ý','y');
SET str = REPLACE(str,'þ','b');
SET str = REPLACE(str,'ÿ','y');
SET str = REPLACE(str,'ƒ','f');
SET str = REPLACE(str,"'",'');
SET str = REPLACE(str,"'",'');
SET str = REPLACE(str,';',' ');
SET str = REPLACE(str, ' ','');
SET str = UPPER(str);
RETURN str;
END$$
DELIMITER ;

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024

Boa tarde pessoal. Eu importei ontem a base e não identifiquei os erros relacionados aos sócios. Parece estar consistente. No entanto, conforme já mencionado aqui na thread, há 2104 sócios sem nome.

Estou encontrando varias situações que precisam de atenção na importação do arquivo como:

No arquivo: K3241.K03200Y0.D10410.ESTABELE

"36452531";"0001";"62";"1";"AMPPLA CREATIVE STUDIO";"2";"20200221";"0";"";"";"20200221";"1821100";"5819100,5811500,5812302,1813001,5912099,5812301,7319002,5813100";"ESTRADA";"DO MANDU";"560";"EDIF HORTO SAO RAFAEL;BLOCO 2;ANDAR 805";"SAO MARCOS";"41250400";"BA";"3849";"71";"99479533";"";"";"";"";"[email protected]";"";""

Neste caso acima o complemento "EDIF HORTO SAO RAFAEL;BLOCO 2;ANDAR 805" tem ponto e vírgula que é o separador do arquivo e dependendo do parser de csv que estiver sendo usado ele se perde e bagunça as colunas.

e o problema já mencionado acima, sobre caracter de scape como em
"POLI BRILHO\"

Perceberam estes problemas?

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Boa tarde pessoal. Eu importei ontem a base e não identifiquei os erros relacionados aos sócios. Parece estar consistente. No entanto, conforme já mencionado aqui na thread, há 2104 sócios sem nome.

Estou encontrando varias situações que precisam de atenção na importação do arquivo como:

No arquivo: K3241.K03200Y0.D10410.ESTABELE

"36452531";"0001";"62";"1";"AMPPLA CREATIVE STUDIO";"2";"20200221";"0";"";"";"20200221";"1821100";"5819100,5811500,5812302,1813001,5912099,5812301,7319002,5813100";"ESTRADA";"DO MANDU";"560";"EDIF HORTO SAO RAFAEL;BLOCO 2;ANDAR 805";"SAO MARCOS";"41250400";"BA";"3849";"71";"99479533";"";"";"";"";"[email protected]";"";""

Neste caso acima o complemento "EDIF HORTO SAO RAFAEL;BLOCO 2;ANDAR 805" tem ponto e vírgula que é o separador do arquivo e dependendo do parser de csv que estiver sendo usado ele se perde e bagunça as colunas.

e o problema já mencionado acima, sobre caracter de scape como em
"POLI BRILHO\"

Perceberam estes problemas?

Olá @paulo3011
pra qual base de dados vc esta importando ?
eu encontrei a mesma situação e estou usando o banco de dados MYSQL.
No campo "COMPLEMENTO" consegui importar usando LOAD DATA LOCAL INFILE, onde dois comando são importantíssimos: TERMINATED BY e o ENCLOSED BY que fala exatamente como serão importados os campos, porque se vc observar vai notar que no campo "COMPLEMENTO" ele esta cercado de aspas duplas... ok ?

ex:
LOAD DATA LOCAL INFILE 'J:\INSTALL\WEB\BANCO_CNPJ\base\ESTABELECIMENTOS\K3241.K03200Y9.D10510.ESTABELE.csv' INTO TABLE csi_cnpj.tab_cnpj_estabelecimentos CHARACTER SET 'latin1' FIELDS ESCAPED BY '\' TERMINATED BY ';' ENCLOSED BY '"' LINES TERMINATED BY '\n'

from qsacnpj.

paulo3011 avatar paulo3011 commented on July 24, 2024

Boa tarde pessoal. Eu importei ontem a base e não identifiquei os erros relacionados aos sócios. Parece estar consistente. No entanto, conforme já mencionado aqui na thread, há 2104 sócios sem nome.

Estou encontrando varias situações que precisam de atenção na importação do arquivo como:
No arquivo: K3241.K03200Y0.D10410.ESTABELE
"36452531";"0001";"62";"1";"AMPPLA CREATIVE STUDIO";"2";"20200221";"0";"";"";"20200221";"1821100";"5819100,5811500,5812302,1813001,5912099,5812301,7319002,5813100";"ESTRADA";"DO MANDU";"560";"EDIF HORTO SAO RAFAEL;BLOCO 2;ANDAR 805";"SAO MARCOS";"41250400";"BA";"3849";"71";"99479533";"";"";"";"";"[email protected]";"";""
Neste caso acima o complemento "EDIF HORTO SAO RAFAEL;BLOCO 2;ANDAR 805" tem ponto e vírgula que é o separador do arquivo e dependendo do parser de csv que estiver sendo usado ele se perde e bagunça as colunas.
e o problema já mencionado acima, sobre caracter de scape como em
"POLI BRILHO\"
Perceberam estes problemas?

Olá @paulo3011
pra qual base de dados vc esta importando ?
eu encontrei a mesma situação e estou usando o banco de dados MYSQL.
No campo "COMPLEMENTO" consegui importar usando LOAD DATA LOCAL INFILE, onde dois comando são importantíssimos: TERMINATED BY e o ENCLOSED BY que fala exatamente como serão importados os campos, porque se vc observar vai notar que no campo "COMPLEMENTO" ele esta cercado de aspas duplas... ok ?

ex:
LOAD DATA LOCAL INFILE 'J:\INSTALL\WEB\BANCO_CNPJ\base\ESTABELECIMENTOS\K3241.K03200Y9.D10510.ESTABELE.csv' INTO TABLE csi_cnpj.tab_cnpj_estabelecimentos CHARACTER SET 'latin1' FIELDS ESCAPED BY '' TERMINATED BY ';' ENCLOSED BY '"' LINES TERMINATED BY '\n'

Estou processando usando apache spark, usando dataframe reader não deu certo, foi preciso criar um parser customizado. Precisei fazer o parser do csv usando:

public static String[] splitTextLine(String textLine){ if(textLine.startsWith("\"")) textLine = textLine.substring(1); if(textLine.endsWith("\"")) textLine = textLine.substring(0, textLine.length()-1); String[] parts = textLine.split("\";\"",-1); return parts; }

a principio esta dando certo, tive que fazer split por "";""

from qsacnpj.

victortassinari avatar victortassinari commented on July 24, 2024

Valeu por avisar @buzios! Já estou baixando aqui tbm e logo em seguida fazer a importação pro banco.

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

Ola amigos! Notei que na página ainda consta a data de 08/05. Verificaram pela data do arquivo, ou a url da receita mudou novamente? abs

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

Ola amigos! Notei que na página ainda consta a data de 08/05. Verificaram pela data do arquivo, ou a url da receita mudou novamente? abs

Ola @danillorocha10 ,
eu também percebi isso e fui olhar na pagina do servidor e encontrei lá a data de 21/06/2021.
http://200.152.38.155/CNPJ/

from qsacnpj.

DyeisonGabriel avatar DyeisonGabriel commented on July 24, 2024

Meus caros. Pelo que entendi, haverá atualização mensal, por isso, de datas recentes.

Sobre uma questão mais antiga abordada aqui. Empresas sem sócios, isso ocorre, pois, casos como o MEI, não tem o nome do sócio. Se fizerem a pesquisa no site da RFB para extrair um cartão CNPJ, poderão constatar isso que estou dizendo.

from qsacnpj.

danillorocha10 avatar danillorocha10 commented on July 24, 2024

@csidjalma Djalma e @buzios Marcio, boa tarde! dessa vez nao consegui gerar o sqlite. Vc conseguiu? Quando tento, ele trava em meio o arquivo 7 do ESTAB.. E não passa... Nâo sei se pode ser porque efetuei o download antes da receita atualizar a página de dados abertos. Fiz quando atualizou a data dos arquivos.

from qsacnpj.

admindatafinder avatar admindatafinder commented on July 24, 2024

from qsacnpj.

DyeisonGabriel avatar DyeisonGabriel commented on July 24, 2024

Entendi. @admindatafinder você já consultou alguma dessas farmácias no site da Receita? Lá possui QSA? Se lá não possui, não terá informações societárias aqui.
Qualquer coisa posta o CNPJ de uma dessas farmácias ai, que lhe ajudo a verificar.

from qsacnpj.

admindatafinder avatar admindatafinder commented on July 24, 2024

from qsacnpj.

JuniorFazzio avatar JuniorFazzio commented on July 24, 2024

Fala, Pessoal!!! Tudo bem?
Acompanhei toda a discussão aqui de vocês e estou interessado em como gerar um SQLite para trabalhar com esses dados da receita. Não sou engenheiro de dados, muito menos DBA, tenho um conhecimento mais introdutório de SQL, alguém pode me ajudar a fazer isso ai? Preciso desses dados para um projeto que estou desenvolvendo no trabalho!

from qsacnpj.

ajcallegari81 avatar ajcallegari81 commented on July 24, 2024

Boa tarde! Ainda continuarão disponibilizando um arquivo único por aqui para baixar e ler com o DB Browser, assim como era até a atualização de 23/11/2020, ou não mais?

from qsacnpj.

caioloures avatar caioloures commented on July 24, 2024

Alguém teria o passo a passo para utilização deste banco de dados? Obrigado

from qsacnpj.

paisabordo avatar paisabordo commented on July 24, 2024

Boa tarde pessoal, alguém já gerou o csv tratado com os arquivos mais recentes? Pode disponibilizar para download?

from qsacnpj.

csidjalma avatar csidjalma commented on July 24, 2024

from qsacnpj.

rictom avatar rictom commented on July 24, 2024

Para usar com Mysql precisaria fazer umas alterações, porque daí muda alguns detalhes na criação das tabelas. Para carregar os dados usei a biblioteca dask em python (devido a rapidez), não sei como ela funciona com mysql.

from qsacnpj.

carvalho-uni avatar carvalho-uni commented on July 24, 2024

Pessoal, boa tarde.

Estou estudando a nova estrutura dos dados liberados pela receita, fiquei com uma duvida e já procurei bastante mas sem sucesso uma reposta, tem relação com o fato deles terem separados as informações das empresas em 2 arquivos.

  • Como dados como Razão Social e Capital Social só existem no arquivo de empresas (que pelo que entendi só tem os dados das matrizes), isso quer dizer que não temos mais acesso a Razão Social e ao Capital Social das Filiais?

Questiono isso porque o formato antigo (até 11/2020) conseguíamos chegar na razão e capital social das Filiais, certo?

Agradeço desde já!

from qsacnpj.

paisabordo avatar paisabordo commented on July 24, 2024

No meu projeto cnpj-sqlite coloquei um script em python para converter os arquivos novos da Receita para SQLITE, com um link no google drive para baixar o SQLITE já tratado (ref julho/2021)

Poderia disponibilizar em CSV tratado?

from qsacnpj.

rictom avatar rictom commented on July 24, 2024

Pessoal, boa tarde.

Estou estudando a nova estrutura dos dados liberados pela receita, fiquei com uma duvida e já procurei bastante mas sem sucesso uma reposta, tem relação com o fato deles terem separados as informações das empresas em 2 arquivos.

* Como dados como Razão Social e Capital Social só existem no arquivo de empresas (que pelo que entendi só tem os dados das matrizes), isso quer dizer que não temos mais acesso a Razão Social e ao Capital Social das Filiais?

Questiono isso porque o formato antigo (até 11/2020) conseguíamos chegar na razão e capital social das Filiais, certo?

Agradeço desde já!

Fazendo uma consulta utilizando a base de nov/2020, apareceu apenas 499 empresas filiais que tem capital social maior que zero (sendo que grande parte não ativa). Então em termos práticos pode-se desconsiderar esse campo para filiais.

from qsacnpj.

rictom avatar rictom commented on July 24, 2024

No meu projeto cnpj-sqlite coloquei um script em python para converter os arquivos novos da Receita para SQLITE, com um link no google drive para baixar o SQLITE já tratado (ref julho/2021)

Poderia disponibilizar em CSV tratado?

Tem dois problemas, uso o google drive e tenho pouco espaço. Outro problema é que compactar um arquivo desse tamanho leva muito tempo (mais de uma hora).
Usando o DB Browser for SQLITE (https://sqlitebrowser.org/) vc consegue facilmente converter a base em sqlite:
a) baixe os arquivos cnpj.db.7z.001 a cnpj.db.7z.006 em https://drive.google.com/drive/folders/1Gkeq27aHv6UgT8m30fc4hZWMPqdhEHWr?usp=sharing ;
b) descompacte usando o 7zip, que vai resultar em um arquivo cnpj.db;
c) Baixe o DB Browser for SQLITE no site;
d) No DB Browser, selecione Abrir Banco de Dados e abra o arquivo cnpj.db;
e) selecione a opção Arquivo>Exportar>Tabela para arquivo csv

from qsacnpj.

carvalho-uni avatar carvalho-uni commented on July 24, 2024

Boa tarde,

@paulo3011 , Então realmente o caso do Capital Social também não tenho essa certeza, provavelmente teria que validar isso com alguém que trabalha com esse tipo de cadastro, talvez um contador. Mas eu compartilho da mesma interpretação, se eles já restringiram esse dado para Filiais nesse novo formato, pode ser indicio que esse dado esta vinculado a a Matriz e não as Filiais.

@rictom , agradeço muito a resposta, eu tinha uma suspeita de que haviam mais filias, mas não tinha ainda feito essa consulta, imaginei que eram bem mais, realmente se são apenas 499 empresas em uma base que passa de 46 milhões, não faz muito sentido considerar, vou ter que rever minha estratégia de segmentação, talvez passar a considerar o capital da matriz como referencia.

A única dúvida que fiquei é com relação a Razão Social vocês já fizeram alguma validação sobre esse dado? Porque as Filiais podem ter Razão Social diferente da Matriz, e no novo formato não existe esse dado na tabela que mostra as Filiais (arquivo ESTABELECIMENTOS).

from qsacnpj.

carvalho-uni avatar carvalho-uni commented on July 24, 2024

Pessoal, bom dia,

Andei pesquisando sobre a questão da razão social para filiais e confirmei o que era até logico as filiais tem que ter a mesma razão social da matriz, provavelmente a maioria já sabe, mas eu estava com essa dúvida, esse tipo de cadastro não faz parte do meu dia-a-dia. Isso explica porque a nova estrutura não tem Razão Social para as filiais (arquivo de estabelecimentos).

Só fico em dúvida agora sobre a questão da atualização desses dados, agora passa a ser mensal, mas ao baixar os arquivos da receita no novo local estaremos sempre recebendo a base completa como era antigamente ou estamos baixando só o que mudou dentro da base (alterados e novos cadastros)? Alguém tem ideia?

Pergunto isso porque ao baixa os dados de 07/2021 o arquivo de empresas por exemplo tinha apenas 6 milhões de registros sendo que deveria ter pelo menos 46 milhões se fosse a base completa.

Agradeço desde já.

from qsacnpj.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.