mosasom / inappropriate-words-ja Goto Github PK
View Code? Open in Web Editor NEW日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
License: MIT License
日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。
License: MIT License
注音符号(Wikipedia)という,主に**で使われる**語の発音記号があります。
ひらがな・カタカナに近い形の字が存在するため,それを利用して不適切ワードを回避するケースがあるようです。ただ,考えられる回避パターンが多数ありそうなので,網羅するのは難しいかもしれません。
日本語 | 注音符号 |
---|---|
エ | ㆲ |
く | ㄑ |
さ | ㄛ,ㄜ |
セ | ㆤ,ㆥ |
ち | ㄘ,ㄎ,ㆶ |
ヌ | ㄡ |
ム | ㄙ |
ろ | ㄋ |
日本語 | 注音符号 |
---|---|
ちんちん | ㄘんㄘん,ちんㄘん |
せっくす | ㄝっくす,ㆤっくす |
ヌく | ㄡく,ㄡㄑ |
一部伏せ字表現へ対応するために、UTF-16化することを予定しています
不適切な表現をまとめてくださりありがとうございます。
R18.txt
内の単語の表示順に規則性がないのが気になります。
例えば「ちんちん」「ちんこ」「ちんぽ」は近い位置にあると見やすいです。
文字コード順が望ましいと思ったのですが、そうすると「ちんちん」と「おちんちん」が遠い位置になるなどのデメリットもあるかもしれません。
個人的には「ちんちん」があれば「おちんちん」は不要だと感じたのですが、自然言語処理によっては必要なのでしょうか。
ゲイというのは、ただただ男性が男性を好きであることであるから外してもよいと思う
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.