codeforjapan / codeforelection Goto Github PK
View Code? Open in Web Editor NEW衆院選2017候補者データベース作成プロジェクト This repo will be archived 🗄️ in the future
License: MIT License
衆院選2017候補者データベース作成プロジェクト This repo will be archived 🗄️ in the future
License: MIT License
figmaにログインして直接編集してもらえればみんなで編集できます。
https://www.figma.com/file/BGj2XtpDLNi4KW9drK6HJ53V/code-for-%E9%81%B8%E6%8C%99-%E3%83%87%E3%82%B6%E3%82%A4%E3%83%B3
日本語入力するのに下記から、fontインストーラーを入れるか、デスクトップアプリを入れる必要があります。
https://www.figma.com/downloads
01101,"060 ","0600000","ホッカイドウ","サッポロシチュウオウク","イカニケイサイガナイバアイ","北海道","札幌市**区","以下に掲載がない場合",0,0,0,0,0,0
01101,"064 ","0640941","ホッカイドウ","サッポロシチュウオウク","アサヒガオカ","北海道","札幌市**区","旭ケ丘",0,0,1,0,0,0
01101,"060 ","0600042","ホッカイドウ","サッポロシチュウオウク","オオドオリニシ(1-19チョウメ)","北海道","札幌市**区","大通西(1〜19丁目)",1,0,1,0,0,0
最後の方の6カラムの0/1 (or Number)の意味を忘れました。
ご存知の方教えてください。
9日のもくもく会くらいまでの、データ作成フローを決めましょう。
現在存在しているデータについては、
#14 (comment) の分類を延長しています。
(10日公示日が過ぎたらスレッド再作成して整理する予定)
お題に対するインフルエンサーの賛否一覧「AgreeList」。データ収集は利用者参加型。
http://www.agreelist.org/
インフルエンサーの職業や出身校をWikidataより取得しているそう。名前だけでなくこうした背景情報があることでどんな人かがわかりやすい。職業や出身校別の集計グラフも傾向をとらえるのに効果的。
オープンソースで公開されているので、もしかしたらさくっと立ち上げてしまえるかも。
https://github.com/hectorperez/agreelist
以下の作業を行います
GrayDBのQ番号が揃ったようなので、各政治家のwikidata項目に下記を追記して頂いてもよろしいでしょうか。
立候補選挙(P3602)-第48回衆議院選挙(Q20983100)
そこまでできたらwikidataの一括操作はいったん一区切りで、以後はこの条件でwikidataから今回の立候補者一覧を随時抜くことができるようになります。
10.2 月曜日あたりで
About all the items about politician, if you don't add reference I will delete all that don't fall under Wikidata:Notability. Can you add the source on this item?
と言われたのですが、どういうふうにreferenceを追加すればいいんでしょうか?
related #45
GrayDBの候補者シートで、公認政党に複数の政党が書かれているレコードが3つありました。
Q18817877:仲里利信
自民
新進
自民
無所属
Q7678543:山本拓
自民
自由党
自由改革連合
新進
無所属
自民
Q11598974:竹内譲
公明
新進
公明
それぞれ一番下のものが正しいようです(山本さん竹内さんは党の候補者リストに載ってましたが仲里さんは自民のリストになく、twitter https://twitter.com/nakasatookinawa を見る限りでも無所属のようでした)
開発メンバーや、データ提供元なども記載したい(ここに dotjp さんとかも記述)
外部の方に本プロジェクトについて紹介するためのシンプルなサイトを作る。
github pagesを想定(かな?)。
その場合
codeforjapan/ 以下にgithubpage用のレポジトリを作るのかと思います。
権限のある方お願いします。
GrayDBには存在したが、報道データでは確認できなかったものが該当
現在GrayDBの候補者データで名前が重複しているレコードが4件あります。
このうち、前者2件は別人(伊藤達也氏は自民と共産、金子恵美氏は「かねこえみ」無所属と「かねこめぐみ」自民)なのでこのままにしておきます。
後者2件は、どちらも共産で小選挙区と比例で別々にレコードができてしまったもののようです。情報はマージして、GrayDBIdの番号の若い方を残して大きい方を削除しておきます。
フォーマットに沿ったシートをGrayDbのforMSシートに作成した。
このシートはGrayDB候補者シート、選挙区マスタ、政党マスタを合成して作られている。
直接修正せず、それぞれの元データを修正するようにしてください。
現在大まかに次のプロパティが設定されています。
[] 分類 ヒト;
職業 政治家;
立候補選挙 第48回衆議院議員総選挙 .
これから設定していくプロパティについて、まとめるチケット。もろもろ意識合わせしたく。
次のプロパティは、比較的ストレートに人物に結びつくので、良いと思います。
P19
出生地P21
性別P39
公職P69
学歴P106
職歴P569
誕生日P968
メールアドレスP2002
twitterP2013
フェイスブックID次のプロパティは配慮時刻 に注意して入れます。
P22
父親P26
配偶者事務所がやっていることも多いですが、今のところだいたい次の項目もそのまま入れて大丈夫でしょう。
P553-P554
LINEアカウントP553-P554
InstagramP856
公式サイトP1581
公式ブログP2397
youtube channelP4003
公式FacebookページP768
選挙区wikidata にある例を見ると、人物に直接選挙区を紐づけているようです。衆議院議員総選挙の現在の制度では、この選挙区は人物には固定ではなく、選挙ごとに変わりえますので、そのまま入れると明らかに問題が出ます。
コンテキストとして設定する必要があるので、修飾子の出番ですが、今回はどのように設定しましょうか。
同様に「公認政党」や「党推薦」などもコンテキストとして入れるべきかと思います。
P726
立候補者二度手間にはなりますが「第48回衆議院議員総選挙」(Q20983100
)からのバックリファレンスもあると、便利だなと思いました。ところでこれは一般的に owl:inverseOf
で wikidata 的に wdt:P1696
に相当しそうです。「立候補者」(P726
)と「立候補選挙」(P3602
)がこの関係にありそうですが、プロパティとしての制約は定義はされていませんでした。
その「立候補者」(P726
)ですが、議論 にはプロパティステートメントに移行せよ、とあります。
また「candidate」Q618536
という、「政治家」(Q82955
)のサブクラスもあります。今回はこっちを使ったほうがよかったかも。
衆議院のシステムでは、総選挙は会期とは直接紐づかず、どちらかというと任期に紐づく。Q41654707
"47th House of Representatives" は昭和39年11月 9日開催の「第47回(臨時会)」と紛らわしい。
会期のエントリを先に作ってしまったほうがいいのかも。
9日にもくもく作業日を設定するとして、場所と時間を決める。
ウィキペディア(Wikimedia commons)から写真を探してGrayDBにそのURLを記入してくれる方を絶賛募集します。作業手順は以下の通りです。生年月日の検索に飽きた方はぜひよろしくお願いします :)
1.GrayDBの107行目以下で、AR列「Wikipadia URL」欄に何も書いていないものがあったら、その行の政治家名でウィキペディアを検索。
2.ウィキペディアに記事があればそのURLをAR列「Wikipadia URL」欄に転記し、さらにウィキペディア記事にその政治家の写真が掲載されていれば、その画像URLをコピペしてX列の「写真」欄に記入。
3.ウィキペディアに記事が無ければAR列に「-」を記入して次の行へ。
「-」を記入しておくとデータ(記事)が無いことが明示的にわかるため他の方が同じ検索をしなくてすみますのでよろしくお願いします。
frontのほうにあわせて内容を書く。(パット見で見間違えないように注意するw)
City2Senkyoku 04216はJSONファイル中に見つかりません。
04216は
市区町村合併情報2014年01月
によると、宮城県富谷市(2016/10/10 合併か市制施行)
https://www.pref.miyagi.jp/soshiki/senkyo/kuwarikaitei.html
選挙区としては、全域が宮城4区にあたる。
2017/10/12現在のGrayDB立候補者件数:1184
-Q41770921「近藤秀子」:取り下げのため削除予定
現在のCode for 選挙 ページの内容をベースに
昨日登録したGrayDBの候補者データのうち、削除されてしまったものがあるようです。
どうも最初の10件程度が怪しいようです(Q41733953 〜 Q41743870)。
GrayDBの候補者シートで、比例区(P列)の表記ゆれがすごいです…。
sortしてuniq -cした結果は以下のようになります。
(右が表記で左が件数です。一番上の814件は空欄のものです。)
814
8 **
6 九州
7 四国
10 東京
11 東北
15 東海
21 近畿
4 北信越
8 北海道
13 北関東
12 南関東
2 東京都
1 比例区
6 北陸信越
2 九州・沖縄
1 東北ブロック
16 北信越ブロック
5 北海道ブロック
2 東京都ブロック
7 比例**ブロック
20 比例九州ブロック
4 比例四国ブロック
11 比例東京ブロック
8 比例東北ブロック
16 比例東海ブロック
19 比例近畿ブロック
4 比例北海道ブロック
12 比例北関東ブロック
13 比例南関東ブロック
12 比例北陸信越ブロック
あまり長くする必要はないと思うので、「比例」と「ブロック」を削って、以下で統一するのでどうでしょうか。
北海道
東北
北関東
南関東
東京
北陸信越
東海
近畿
**
四国
九州
みなさん、mySociety 側に確認したいことがあればこちらに書き込んでください。まとめて先方に聞きます。
現在、まずは今回彼らが考えていることの技術的な詳細を送ってもらう予定ですので、それを待ってからでも良いかもですが。(おそらく返答は週明け)
サイトの内容が、3つの階層(データ・サイトの文言と表現・コード)に分かれているので、それぞれに対してライセンスを設定する。
また、権利保持主体はCode for Japanが代表する形でよいか?
以下、決めることとその内容の案。
コードのライセンス設定:MITライセンス?
データのライセンス設定:CC0でよい?
サイトの文言と表現のライセンス設定:CC-BY?こちらもCC0?
コードのライセンスを明示する
データのライセンスを明示する
サイトの文言と表現のライセンスを明示する
Popolo標準をベースに作成。基本的には候補者一覧、選挙区一覧、政党一覧などのマスター系。
質問事項がいろんなスレッドに乱立すると混乱するので、質問とか気になったことはこのスレッドに書きましょう。
プロジェクト内の開発者が学ぶための資料を誰か提示してください。
うーんこれ困ったぞ、というエントリを書きつけておく
その議員が過去何を発言していたかを検索できると嬉しい。
ただデータソースが こんな感じ なので、どうしたものか。
GrayDBにカラムを追加して、立候補が確定かどうかを決める。
J列「立候補」カラムと、別に立候補者順を記入するカラムを作る。
L列小選挙区届け出順、及び、M列に比例名簿の名簿順を入力します。
Related #3
=====
しばらく止めていたwikidataへのデータ登録を再開するために、GrayDBにあるものをできるだけ活かしつつ、二重登録や不整合を極力抑えるために作戦を立てたいと思います。案を考えてみましたのでご意見お願いします。
1 GrayDBから転記するもの
1.1 wikidataにほぼ未登録で、問題が少なさそうなもの
→そのままQS2などで一括登録
・選挙区
・公認政党
・47th House of Representativesなど(命名をどうするか検討中)
1.2 wikidataにある程度登録済みでかつGrayDBの文字列をそのまま登録するもの
→GrayDBの登録内容のうち、wikidataに入っていない差分を取ってから未登録分を一括登録
・選挙用表記名
・かな
・誕生日
・写真
・twitter
・facebook
・LINE
・youtube channel
・instagram
・公式サイト
・メールアドレス
・公式ブログ
・詳細情報URL
1.3 wikidataにある程度登録済みでかつGrayDBの文字列をQ番号に置き換えて登録するもの(置き換え数の少ないもの)
→GrayDBの登録内容のうち、wikidataに入っていない差分を取ってから未登録分を一括登録
・性別
1.4 wikidataにある程度登録済みでかつGrayDBの文字列をQ番号に置き換えて登録するもの(置き換え数の多いもの)
→手作業で登録
・出生地
・立候補歴
・当選歴
・学歴
・職歴
・公職
・父親
・配偶者
2 GrayDB以外のネット上から収集して手作業で登録
→広く作業支援を呼びかける
3 データのupdate
・botを仕込む?
4 当選後に向けた準備
・何をしましょうかね?
古崎さんsays:
PersonやOrganizationを見た感じでは,対応するプロパティはありそうですが,細かいチェックは後ほど
データ入力は,Wikidataには手入力になる(一括インポートは不可.ぼっとは申請したら作れるそうですが...)なので,
1.候補者一覧のデータをSPARQLでWikidataと照合してIDや現状のデータを取得
2.足りないデータをWikidataで手分けして入力
3.SPARQLでPolopoの形式に変換
という感じがいいかな...と思います.
タスクを整理していきたいです。
Excelレベルでデータメンテナンスに協力してくれる人がいるので
タスク化しておいてもらえると一日数時間でもちょいちょい人手で整備をすることができます。
SNSアカウントの取得の自動化/省力化も合わせて検討していきます。
プロジェクト名としては Code for 選挙でも良いと思うのですが、エンドユーザーが使うサイトについては、もう少しわかりやすい名前の方が良いかもと思いました。
とはいえ、「2017衆院選候補者データベース」とかだと硬すぎるし、何かいいサービス名ないですかね。
TheyWorkForYou ってのは個人的には好きなんだけども。
「候補者ナビ」だと、dotjp の政治naviと被るか。なんかいいアイデアないですかねー
下記に作りつつあります。
https://hackmd.io/BzDGE4FMAYGYDMC0AjYBWNiAs9m0ePKJCgExQDsAjACZXizgVA==
広く呼びかける前提なので少し前置きがくどくなってしまいました。。
現在のJSONは、KEN_ALL.CSVに存在するすべての郵便番号について、対応する行政コードと選挙区番号を持たせておりますが、ほとんどの郵便番号については冒頭三桁で、集配局を意味しているはずで、そこだけ見れば大体の確度で、選挙区は特定されます。
つまり、
1234567 ⇒ 自治体01123 選挙区2
1235678 ⇒ 自治体01123 選挙区2
1236789 ⇒ 自治体01123 選挙区2
がある時に
1230000 =>自治体01123 選挙区2
と集約書き直してもらうだけでサイズは10分の一程度になると見込まれます。
現在のところ、下記の選挙区が含まれていないことを確認。
その他のフルバージョンのJSONについて同じ現象が発生しているか未確認
出典元共有用
dotjp さんの協力が得られる?
1.立候補者確定情報をGrayDBに更新->佐藤さん
2.公開して問題の無い情報かできるだけチェックする->東(例:fbやtwitterがリンク切れしていないか、別の人にリンクしていないか等)
3.Front UI ができていたら、それを使って常識の範囲でチェックする。->松原さん、佐藤さん
漏れ、過不足などありましたら足してください。
mySociety から教えて貰った、インポートツールの使い方です。
The main tool you can use to create Wikidata items is QuickStatements.
There are two versions of this. The old one is largely deprecated now, so you'll want to use the one at https://tools.wmflabs.org/quickstatements/
However, the instructions for it are still only on the old one! —
https://tools.wmflabs.org/wikidata-todo/quick_statements.php
Once you've created the statements for it, you select the "Import Commands" > "Version 1 format" from the header bar in the new version (it's quite well hidden!)
For creating new items, or adding basic statements to existing items, everything should work smoothly, but you should beware that if you use it for adding P39 (position held) records to existing items, it doesn't work if someone has held the same position more than once. Unfortunately that's very common with political data, where it's very likely that there will be a large number of people elected as a Q17506823 (member of the House of Representatives of Japan) in the 48th Term, who already have a P39: Q17506823 record for the 47th Term.
To help with that, we've developed a bot called PositionStatements that takes input in exactly the same format as QuickStatements, but adds an entirely new P39 record each time, rather than combining them all into one as QS does. There's no web interface to that yet, but you can either try to get the bot running yourselves locally (it's a Python script, linked from
https://www.wikidata.org/wiki/Wikidata:Requests_for_permissions/Bot/PositionStatements_Bot),
or you can send us a TSV file of commands, and we can run it on behalf of a Wikidata account of your choosing.
If you have any questions about either QuickStatements or PositionStatements, feel free to ask. It can be a bit confusing at first, but once you get the hang of it, it's incredibly powerful.
Do you think you'll be able to use these tools to add all the information we need directly into Wikidata?
http://tinyurl.com/yabzpkde is an example of a SPARQL query to get a list of members of the outgoing (47th) House of Representatives. That data is still quite far from complete, but it should be enough to give you the basic idea (and perhaps to practice with the tools), and it can easily be adjusted to find the members of the 48th after the election: http://tinyurl.com/ybvdcw66
Similarly, Wikidata's current understanding of who the governors of each prefecture is: http://tinyurl.com/ya57emlx — again, it would be ideal for us if you could correct any errors or omissions directly there.
GrayDBの候補者シートで、「公認政党」が無所属
になっている方と無所
になっている方がいます。
$ sort party.txt |uniq -c|sort -n
2 こころ
2 新党大地
4 支持政党なし
19 無所
21 社民
41 幸福
44 諸派
52 維新
53 公明
54 無所属
78 立民
235 希望
243 共産
332 自民
popoloでいう「head shot」は、Wikidataでは「画像(image)」プロパティに対応していますが、これはWikimedia Commonsの画像URLにリンクしています。
<例>小池百合子
https://commons.wikimedia.org/wiki/File:Koike_Yuriko_1-2.jpg
下記いずれかのライセンスで使えるものを
CC0 1.0
CC BY 4.0
CC BY-SA 4.0
ウィキメディア・コモンズにアップロード
https://commons.wikimedia.org/wiki/Special:UploadWizard
してくれる人がいると嬉しいです。どっかに立候補者一覧を作って画像アップ済みかどうかチェックすると良さそうです。
怪しいライセンスの画像は使わず、上記いずれかのオープンなライセンスが設定できるものだけを使ってください。見つからない場合は本人かその事務所に問合せて上記いずれかのライセンスで使って良い画像をもらう必要があります。依頼の趣旨を説明したり、ライセンスについて分かりやすく説明するテンプレも要りそう。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.