Coder Social home page Coder Social logo

corpusportugues's Introduction

Corpus do Português e Modelos Diversos

Esse projeto foi criado para dar facilidade no acesso a um Corpus do Português que tenha uma quantidade de palavras e sentenças relevantes. Mesmo com projetos em algumas universidades o acesso não é facilitado e alguns corpus exigem pagamento.

Primeiramente será criado um Corpus do Português/BR através de um dump do Wikipedia: https://dumps.wikimedia.org

Após será gerado um modelo usando o wordrep da library MITIE: https://github.com/mit-nlp/MITIE/tree/master/tools/wordrep

Serão disponibilizados todas as ferramentas que serão utilizadas, bem como o resultado, como para gerar o modelo do MITIE exige muito processamento e memória é algo que realmente pode ajudar quem precisa de um modelo.

Ajudas bem-vindas:

  • Corpus diversos do Português;
  • Modelos prontos;

Convertendo um dump Wikipedia para somente texto

O pré-processamento do dump do Wikipedia é feita por uma ótima ferramenta, extremamente performática e licenciada sob a licença MIT. Ela é desenvolvida em uma linguagem não muito comum, a Nim, mas ela gera binários para várias plataformas. Mais detalhes pode ser encontrados no repositório do Nim: https://github.com/rspeer/wiki2text

Por padrão o wiki2text inclui o header de cada artigo no formato: == [titulo] == , é necessário remover com grep -v para ficar um corpus mais limpo. O comando para a extração do texto é semelhante a:

bunzip2 -c dump_wikipedia_compactado.xml.bz2 | ./wiki2text | grep -v '^=' > ptwiki.txt

Mais do que artigos

Caso deseje um corpus com linguagem mais informal, é só incluir também os metadados do Wikipedia, pois isso inclui as discussões nos artigos, que é geralmente feita por mensagens mais informais entre os membros do Wikipedia. Geralmente quanto mais polêmico o artigo é, mais discussão e mais informalidade, veja um exemplo na seguinte página: https://pt.wikipedia.org/wiki/Discussão:Inri_Cristo

Downloads

Corpus

Como os corpus são muito grandes não é possível incluir no Github, estão disponíveis para download através dos links:

Corpus Qtde Palavras Link Versão
Artigos Wikipedia + Corpus Laps UFPA 270.139.795 https://s3-us-west-2.amazonaws.com/datamodelpublic/models/pt_wiki_270_139_795_v1_0_1.rar 1.0.1
Artigos Wikipedia 244.188.490 https://s3-us-west-2.amazonaws.com/datamodelpublic/models/pt_wiki_244_188_490.zip 1.0

Se quiser remover as pontuações do corpus basta usar o seguinte comando no bash:

cat input_file | tr -d '[:punct:]' > output_file

Exemplo:

cat pt_wiki_corpus.txt | tr -d '[:punct:]' > pt_wiki_corpus_without_punct.txt

Modelos

Modelo Tipo Link
Mitie NLP total_word_feature_extractor https://s3-us-west-2.amazonaws.com/datamodelpublic/models/modelos/total_word_feature_extractor.zip
Mitie NLP top_words https://s3-us-west-2.amazonaws.com/datamodelpublic/models/modelos/top_words.zip
Mitie NLP word_vects https://s3-us-west-2.amazonaws.com/datamodelpublic/models/modelos/word_vects.zip

Licença dos dumps Wikipedia e os corpus gerados

A linceça dos dumps e dos corpus gerados a partir do Wikipedia seguem o licenciamento do Wikipedia, disponível em https://dumps.wikimedia.org/legal.html

Chatbot

Estou desenvolvendo um motor de um chatbot utilizando o Corpus, caso queiram maiores informações, favor enviar um email.

corpusportugues's People

Contributors

fabiocmazzo avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

corpusportugues's Issues

Outras corpora do português

Oi,

muito interessante seu projeto! Como trabalho com algumas coisas relacionadas, sei de algumas outras fontes de texto do português do Brasil que podem ser úteis:

  1. http://www.laps.ufpa.br/falabrasil/files/CorporaTextos1.5.rar
  2. http://www.laps.ufpa.br/falabrasil/files/LapsFolha1.0.rar

Os dois links foram retirados de: http://www.laps.ufpa.br/falabrasil/downloads.php

Talvez valha a pena juntar esse material ao seu corpus. Só é importante verificar se dígitos, datas, valores monetários etc estão normalizados da mesma forma. Caso não estejam, talvez fique melhor mantê-los separados.

Outra sugestão seria remover as linhas em branco de seu arquivo. Ele já está bem grande e há muitas linhas sem nenhum conteúdo.

Até,
Eduardo

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.