Coder Social home page Coder Social logo

ferramentas_scielo's Introduction

ferramentas_scielo

License: MIT made-with-python

Esse repositório é parte dos projetos desenvolvidos pelos membros do LABHDUFBA e tem como objetivo oferecer ferramentas de raspagem, organização e análise de artigos ciêntíficos publicados na plataforma Scielo.br.

Instalação

Para executar os Scripts desse repositório, você precisa clonar ou fazer download para sua máquina. Antes de executar os scripts, é preciso preparar seu computador, como mostramos abaixo.

Python

A ferramentas desse projeto foram escritas em Python 3.8. Esta é uma linguagem de programação que te permite trabalhar rapidamente e integrar diferentes sistemas com maior eficiência. Para executar o arquivo .py é preciso instalar o Python3 em seu computador.

Clique aqui para um tutorial de instalação do Python no Windows, clique aqui para Linux e clique aqui para Mac.

Após a instalação, vc pode executar o arquivo .py direto do prompt de comando do Windows ou pelo terminal do Linux, ou utilizar as diversas IDE disponíveis.

Exemplo de como executar utilizando o terminal do Linux, após instalar o Python3.8:

  1. Acesse o diretório em que o arquivo .py está salvo:
    $ cd user/local
  2. Instale as bibliotecas requeridas:
    $ pip3 install -r requirements.txt
  3. Execute o arquivo usando Python3.8
    $ python3.8 run_scielo_scraper.py

run_scielo_scraper.py

Esse script permite aos usuário selecionar qual assunto ele pretende raspar de acordo com a categorização estabelecida pela plataforma Scielo.br. É possível escolher entre oito assunto:

  • Ciências Agrárias
  • Ciências Biológicas
  • Ciências da Saúde
  • Ciêncas Exatas e da Terra
  • Ciências Humanas
  • Ciências Sociais Aplicadas
  • Engenharias
  • Linguística, Letras e Artes

Após a definição do assunto, é preciso definir o tipo de raspagem:

  1. Realizar o download de todos os arquivos PDF de cada revista do assunto selecionado. É criado um CSV com informações básicas sobre a raspagem (nome da revista, ISSN, nome do arquivo e link para o PDF)

    ⚠️ Devido ao volume de dados, contando dezenas de milhares de artigos, o download de todos os arquivos PDF demandará muito tempo e uso intenso de sua máquina.

  2. Realizar o download dos arquivos XML de cada revista do assunto selecionado.

    ⚠️ Os arquivos XML possuem todos os metadados dos artigos, incluíndo as referências bibliográficas). Após o download dos arquivos XML é posssível utilizar a ferramenta scielo_xml_to_csv para convertar todos os XML para uma planilha.

    Acesse a pasta scielo_xml_to_csv e execute o arquivo run.py.

    Para mais informações leia o README.md da ferramenta.

run_scielo_ISSN.py

Nesse script é possível raspar uma revista ou uma lista de revistas através do ISSN.

Possui as mesmas características do run_scielo_scraper.py, porém a definição da(s) revista(s) a ser raspada é feita ISSN.

⚠️ Atenção

Ambos os scripts criarão diretórios para armazenar os arquivos e dados.

  • scielo/pdf/nomeDaRevista no caso da raspagem de PDFs;
  • scielo/xml/nomeDaRevista no caso da raspagem de XMls.

Entretanto, se a pasta com o nome de uma revista já exixtir, o algoritmo entenderá que a raspagem dela já foi efetuada e passará para a revista seguinte seguinte.

Licença

MIT Licence

2020 Eric Brasil (IHL/UNILAB, LABHDUFBA), Gabriel Andrade (UFBA, LABHDUFBA), Leonardo Nascimento (UFBA, LABHDUFBA)

ferramentas_scielo's People

Contributors

ericbrasiln avatar

Stargazers

 avatar  avatar  avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.