Topic: wikipedia-dump Goto Github

Some thing interesting about wikipedia-dump

👇 Here are 68 public repositories matching this topic...

afuschetto / wiki-extractor

wikipedia-dump,Command line tool to extract plain text from Wikipedia database dumps

User: afuschetto

wikipedia wikipedia-dump wikipedia-corpus

akb89 / witokit

wikipedia-dump,A Python toolkit to generate a tokenized dump of Wikipedia for NLP

User: akb89

wikipedia wikipedia-dump dump nlp tokenize multilingual

alicebob / wikiundump

wikipedia-dump,unpack wikipedia XML dumps to files

User: alicebob

wikipedia-dump

artika4biz / wikipedia-importer-tool-for-apache-sling

wikipedia-dump,Wikipedia importer tool for Apache Sling and Adobe AEM

User: artika4biz

sling adobe-experience-manager wikipedia-dump wikipedia jcr jackrabbit-oak load-testing

bashkirtsevich-llc / wiki-dump-parser

wikipedia-dump,Wiki dump parser (jupyter)

Organization: bashkirtsevich-llc

wiki wikipedia wikipedia-dump wikipedia-corpus wikia python python3 jupyter jupyter-notebook jupyter-notebooks

bfontaine / wpydumps

wikipedia-dump,Work with Wikipedia dumps.

User: bfontaine

Home Page: https://pypi.org/project/wpydumps/

wikipedia-dump

caizixian / wikioffline

wikipedia-dump,Wikipedia Dump reader

User: caizixian

wikipedia-dump

calil / citation

wikipedia-dump,Extract citation ISBNs from Wikipedia dump

Organization: calil

wikipedia-dump code4lib-jp

cogcomp / wikidump-preprocessing

wikipedia-dump,Wikipedia Dump Processing

Organization: cogcomp

wikipedia wikipedia-dump

cristiancantoro / wikidump-download-tools

wikipedia-dump,Scripts to download the Wikipedia dumps (available at https://dumps.wikimedia.org/ )

User: cristiancantoro

wikipedia wikipedia-dump

deadbits / wikipedia-chat

wikipedia-dump,Chat with local Wikipedia embeddings 📚

User: deadbits

chainlit cohere embeddings llm openai retrieval-augmented-generation wikipedia wikipedia-dump

dhavaltaunk08 / wiki-search-engine

wikipedia-dump,Contains code to build a search engine by creating an index and perform search over Wikipedia data.

User: dhavaltaunk08

search-engine information-retrieval information-extraction xml-parser wikipedia-dump

donomii / wikipedia2geojson

wikipedia-dump,Extracts geodata from a wikipedia dump

User: donomii

Home Page: https://donomii.github.io/wikipedia2geojson

wikipedia wikipedia-dump wikipedia-scraper json geodata geojson geotagged-wikipedia-articles geotagging converter conversion

eml4u / wikimediadumpextractor

wikipedia-dump,WikimediaDumpExtractor extracts pages from Wikimedia/Wikipedia database backup dumps.

Organization: eml4u

wikipedia-dump wikimedia-data-dump

howl-anderson / chinese-wikipedia-corpus-creator

wikipedia-dump,Corpus creator for Chinese Wikipedia

User: howl-anderson

nlp chinese-corpus wikipedia-dump wikipedia-corpus

wikipedia-dump,Wikicompiler is a fully extensible python library that compile and evaluate text from Wikipedia dump. You can extract text, do text analysis or even evaluate the AST(Abstract Syntax Tree) yourself

User: iwasingh

wikipedia-dump wikipedia compiler wikitext-parser wikitext mediawiki python

jon-edward / wiki_dump

wikipedia-dump,A library that assists in traversing and downloading from Wikimedia Data Dumps and their mirrors.

User: jon-edward

wikidata wikipedia wikipedia-dump wikimedia

lemire / indexwikipedia

wikipedia-dump,A simple utility to index wikipedia dumps using Lucene.

User: lemire

java wikipedia-dump lucene

levon003 / wiki-ores-feedback

wikipedia-dump,ORES-Inspect is a web app for auditing machine learning models used on Wikipedia.

User: levon003

Home Page: https://meta.wikimedia.org/wiki/Research:ORES_Inspect:_A_technology_probe_for_machine_learning_audits_on_enwiki

auditing research wikipedia wikipedia-dump toolforge

lsiecker / text-mining

wikipedia-dump,Natural and Technical Language Processing using Spacy, Named Entity Recognition and a custom Relationship Extraction and Labeling component

User: lsiecker

ner nlp rel spacy tlp wikipedia-dump

macbre / faroese-corpus

wikipedia-dump,Some Faroese language statistics taken from fo.wikipedia.org content dump

User: macbre

faroe corpus-linguistics linguistics linguistic-analysis wikipedia-corpus wikipedia-dump python3-script faroese-language faroese

macbre / mediawiki-dump

wikipedia-dump,Python package for working with MediaWiki XML content dumps

User: macbre

Home Page: https://pypi.org/project/mediawiki_dump/

wikipedia wikipedia-corpus wikipedia-dump wikia fandom python3-library mediawiki-dump xml-dump python

matiascarabella / formula1wikipediadataretriever

wikipedia-dump,Generates a JSON file with F1 Driver stats from a given year based on its wikipedia page

User: matiascarabella

python-script wikipedia-dump

nwtgck / spark-wikipedia-dump-loader

wikipedia-dump,Wikipedia Dump Loader for Spark

User: nwtgck

wikipedia-dump scala spark

olehonyshchak / pywikimm

wikipedia-dump,Collects a multimodal dataset of Wikipedia articles and their images

User: olehonyshchak

wikipedia wikipedia-scraper wikipedia-api wikipedia-bot wikipedia-entries wikipedia-dump wikipedia-search wikipedia-viewer wikipedia-corpus wikipedia-page

pirate / wikipedia-mirror

wikipedia-dump,🌐 Guide and tools to run a full offline mirror of Wikipedia.org with three different approaches: Nginx caching proxy, Kiwix + ZIM dump, and MediaWiki/XOWA + XML dump

User: pirate

Home Page: https://docs.sweeting.me/s/self-host-a-wikipedia-mirror

wikipedia wikipedia-dump wiki mediawiki xowa nginx docker docker-compose internet-archiving archiving

prithvidasgupta / wikiextract

wikipedia-dump,A tool to get the plainest text out of Wikipedia XML dumps

User: prithvidasgupta

go wikipedia-dump csv

priyendumori / wiki-search-engine

wikipedia-dump,A complete search engine experience built on top of 75 GB Wikipedia corpus with subsecond latency for searches. Results contain wiki pages ordered by TF/IDF relevance based on given search word/s. From an optimized code to the K-Way mergesort algorithm, this project addresses latency, indexing, and big data challenges.

User: priyendumori

search-engine wikipedia-dump external-merge-sort tf-idf-score ranking-algorithm indexing

pvoosten / explicit-semantic-analysis

wikipedia-dump,Wikipedia-based Explicit Semantic Analysis, as described by Gabrilovich and Markovitch

User: pvoosten

concept esa explicit-semantic-analysis java java-8 lucene semantic-analysis vector wikipedia-dump

qcl / master-research

wikipedia-dump,Research for master degree, operation projizz-I/O

User: qcl

Home Page: http://nlg.csie.ntu.edu.tw/~ccli/

kba patty knowledge-graph named-entity-recognition yago wikipedia-dump nlp

quqixun / readwiki-zh

wikipedia-dump,Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

User: quqixun

wikipedia wikipedia-dump wikipedia-corpus

rajatyadav1994 / wise--wikipedia-search-engine

wikipedia-dump,A Search Engine built based on Wikipedia dump of 75GB. Involves creation of Index file and returns search results in real time

User: rajatyadav1994

infomation-retrieval search-engine wikipedia-corpus wikipedia-dump

ramkishore07s / wikisearchengine

wikipedia-dump,Index and Search wikiDump

User: ramkishore07s

java python search-engine indexing wikipedia-dump

rocket-pig / vector-visualizer

wikipedia-dump,Visualize/explore word2vec datasets with pygame

User: rocket-pig

gensim gensim-word2vec pygame python visualize-data visualize wikipedia-dump

rsakib15 / wikisearch

wikipedia-dump,A search system based on the Wikipedia dump dataset.

User: rsakib15

search-engine wikipedia-dump searching-algorithms wikipedia fuzzy-search indexing search python reactjs search-algorithms

rspai / fever_task

wikipedia-dump,Fact Extraction and Verification

User: rspai

nlp machine-learning python tensorflow wikipedia-dump solr decomposable-attention transfer-learning tf-idf-vectorizer glove-embeddings

sascezar / wikibank

wikipedia-dump,WikiBank is a new partially annotated resource for multilingual frame-semantic parsing task.

User: sascezar

semantic-role dataset multilingual python wikidata-dump wikipedia-dump mongodb semantic-role-labeling

sayarghoshroy / acronym-sense-disambiguator

wikipedia-dump,Identifies acronyms in a text file and disambiguates possible expansions

User: sayarghoshroy

acronym sense disambiguation nltk wikipedia-dump text-processing python

shyamupa / wikidump_preprocessing

wikipedia-dump,Extracting useful metadata from Wikipedia dumps in any language.

User: shyamupa

wikipedia multilingual metadata-extraction disambiguation wikipedia-dump redirects wikiextractor python3

sinkasula / wikipedia-names-extraction

wikipedia-dump,Extract human names from Wikipedia

User: sinkasula

python3 entity-recognition jupyter-notebook wikipedia-dump

slotabr / wikifilms

wikipedia-dump,Russian Wikipedia movie parser

User: slotabr

web-scraping wikipedia-scraper wikipedia-dump

studerw / wiki-dump-parser

wikipedia-dump,Java tool to Wikimedia dumps into Java Article pojos for test or fake data.

User: studerw

fake-data java wiki wikiextractor wikipedia wikipedia-dump

temurchichua / magicdumpwikipedia

wikipedia-dump,Wikipedia archive downloader+text parser for every language

User: temurchichua

wikipedia-dump python wikipedia nlp

tomer8007 / wikipedia-to-json

wikipedia-dump,Node.js module for parsing the content of wikipedia articles into javascript objects

User: tomer8007

wikipedia wikipedia-dump nodejs javascript parser json

tomeraberbach / wikipedia-ngrams

wikipedia-dump,📚 A Kotlin project which extracts ngram counts from Wikipedia data dumps.

User: tomeraberbach

wikipedia wikipedia-dump wikipedia-corpus ngrams ngram nlp wikiextractor kotlin cli wikipedia-data-dump

uma-pi1 / opiec

wikipedia-dump,Reading the data from OPIEC - an Open Information Extraction corpus

Organization: uma-pi1

Home Page: https://www.uni-mannheim.de/dws/research/resources/opiec/

open-information-extraction information-extraction corpus corpus-data corpus-tools natural-language-processing natural-language-understanding nlp nlp-resources nlp-datasets

vityaschel / wikipedia-speedrun

wikipedia-dump,Website with interactive game, where you have to travel from random page on Wikipedia to Adolf Hitler's page (or any page specified by you in settings).

User: vityaschel

Home Page: https://wikipedia.utidteam.com

speedrun wikipedia wikipedia-api wikipedia-dump wikipedia-scraper wikipedia-speedrun