Parallel Corpus for Indian Languages

Available parallel data for training machine translation models in indic languages: Hindi, Bengali, Gujarati, Gondi, Kannada, Manipuri, Marathi, Malayalam, Oriya, Punjabi, Sanskrit, Tamil, Telugu.

Assamese-X

Samaantar Corpus
As-En PMIndia Corpus
As-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row asm-eng.

Bengali-X

Samaantar Corpus
Bn-En BEUT Parallel corpus: 2.75million pairs of bengali-english sentences @EMNLP 2020
Bn-En Project Anuvaad
Bn-En Indian Parallel Corpora
CVIT-IIITH PIB Multilingual Corpus: en, gu, hi, ml, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, gu, hi, ml, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
Bn-En Indian-Language Dataset
Bn-En Asian Language Treebank (ALT) Parallel Corpus
Bn-En PMIndia Corpus
Bn-En OPUS: Set source as en and target as bn
Bn-En SUPARA 0.8M: Requires an IEEE DataPort Subscription
Bn-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row ben-eng.

Gujarati-X

Samaantar Corpus
Gu-En WikiTitles Parallel Corpus : wikititles-v1.gu-en.tsv.gz
Gu-En Project Anuvaad
Gu-En Tsardia
CVIT-IIITH PIB Multilingual Corpus: en, bn, hi, ml, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, bn, hi, ml, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
Gu-En Shahparth123
Gu-En PMIndia Corpus
Gu-En Bible Corpus
Gu-En OPUS: Set source as en and target as gu
Gu-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row guj-eng.

Gondi-X

Gondi-Hindi Parallel Corpus

Hindi-X

Samaantar Corpus
Hi-En IITB Parallel Corpus: v3.0 released !!
Hi-En Project Anuvaad
Hi-En Indian Parallel Corpora
CVIT-IIITH PIB Multilingual Corpus: en, bn, gu, ml, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, bn, gu, ml, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
Hi-En Asian Language Treebank (ALT) Parallel Corpus
Hi-En PMIndia Corpus
Hi-En Bible Corpus
Hi-En Wiki Matrix Comparable Corpus
Hi-En OPUS: Set source as en and target as hi. [ Some of the corpus are part of IITB Parallel Corpus.]
Hi-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row hin-eng.
IIITH Code-Mix Hi-En Corpus
Hi-En Flickr 8k: Multimodal Dataset
Hi-San parallel corpus: Hindi-Sanskrit monolingual and parallel data from Ramayana, Rigveda, Bhagvad Gita, etc.

Kannada-X

Samaantar Corpus
Kn-En Project Anuvaad
Kn-En PMIndia Corpus
Kn-En Bible Corpus
OPUS: Set source as en and target as kn
Kn-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row kan-eng.

Manipuri-X

Mn-En PMIndia Corpus

Marathi-X

Samaantar Corpus
Mr-En Project Anuvaad
CVIT-IIITH PIB Multilingual Corpus: en, bn, gu, hi, ml, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, bn, gu, hi, ml, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
Mr-En PMIndia Corpus
Mr-En Bible Corpus
Mr-En OPUS: Set source as en and target as mr
Mr-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row mar-eng.

Malayalam-X

Samaantar Corpus
Ml-en Project Anuvaad
Indian Parallel Corpora
CVIT-IIITH PIB Multilingual Corpus: en, bn, gu, hi, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, bn, gu, hi, mr, or, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
Ml-en Indian-Language Dataset
Ml-en English_Malayalam_ParallelCorpora
Ml-en PMIndia Corpus
Ml-en Bible Corpus
Ml-en OPUS: Set source as en and target as ml
Ml-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row mal-eng.

Oriya-X

Samaantar Corpus
Or-En MTEnglish2Odia
Or-En OdiEnCorp 2.0
Or-En OdiEnCorp 1.0
Or-En IndoWordnet Parallel Corpus
CVIT-IIITH PIB Multilingual Corpus: en, bn, gu, hi, ml, mr, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, bn, gu, hi, ml, mr, pa, ta, te, ur. [Source-code, pretrained models and other resources also available.]
Or-En PMIndia Corpus
Or-En OPUS: Set source as en and target as or
Or-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row ori-eng.

Punjabi-X

Samaantar Corpus
Pu-En Project Anuvaad
Pu-En Punjabi-English Corpus
Pu-En PMIndia Corpus
Pu-En OPUS: Set source as en and target as pa
Pu-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row pan-eng.

Sanskrit-X

San-Hi parallel corpus: Sanskrit Hindi monolingual and parallel data from Ramayana, Rigveda, Bhagvad Gita, etc.

Tamil-X

Samaantar Corpus
Ta-En Project Anuvaad
Ta-En Indian Parallel Corpora
Ta-En National Language Process Center
Ta-En EnTam
CVIT-IIITH PIB Multilingual Corpus: en, bn, gu, hi, ml, mr, or, pa, te, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, bn, gu, hi, ml, mr, or, pa, te, ur. [Source-code, pretrained models and other resources also available.]
Ta-En Indian-Language Dataset
Ta-En Multiple Dataset Links
Ta-En PMIndia Corpus
Ta-En Parallel Corpus
Ta-En PMIndia Corpus
Ta-En OPUS: Set source as en and target as ta
Ta-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row tam-eng.

Telugu-X

Samaantar Corpus
Te-En Project Anuvaad
Te-En Indian Parallel Corpora
CVIT-IIITH PIB Multilingual Corpus: en, bn, gu, hi, ml, mr, or, pa, ta, ur. [Source-code, pretrained models and other resources also available.]
CVIT-IIITH Mann ki Baat Corpus: en, bn, gu, hi, ml, mr, or, pa, ta, ur. [Source-code, pretrained models and other resources also available.]
Te-En Indian-Language Dataset
Te-En PMIndia Corpus
Te-En Bible Corpus
Te-En OPUS: Set source as en and target as te
Te-En Backtranslated Tatoeba Challenge: Parallel data obtained by backtranslation on monolingual data. Row tel-eng.

Other Resources

PMIndia Parallel Corpus Creation: Code for creating a parallel corpus from pmindia.gov.in. [Paper Link]

kartikaggarwal98 / indian_parallelcorpus Goto Github PK

indian_parallelcorpus's Introduction

Parallel Corpus for Indian Languages

Assamese-X

Bengali-X

Gujarati-X

Gondi-X

Hindi-X

Kannada-X

Manipuri-X

Marathi-X

Malayalam-X

Oriya-X

Punjabi-X

Sanskrit-X

Tamil-X

Telugu-X

Other Resources

indian_parallelcorpus's People

Contributors

Stargazers

Watchers

Forkers

indian_parallelcorpus's Issues

Recommend Projects

Recommend Topics

Recommend Org