Comments (22)
dotjp さんの議員データベースAPIの利用規約には、
(4) 議員データベースの情報を第三者に利用をさせたり、貸与、譲渡、売買、質入等すること
が禁止されているので、オープンデータ化目的で利用するのは難しそうです。
@hkwi さんが言うように、
- どこかのページをスクレイピング(官報?)→ popoloproject 形式への変換
- wikidata へマッピングして投入するプロジェクトを立ち上げ、入力ボランティアを募る
- 官報などで足りない部分についても、様々な手段で集める
という順番ですかね。
mySociety のエンジニアからも情報貰える予定なので、wikidata との差分とかについてはツールが貰えるかもしれません。
**の場合、クローラーと整形ツールが公開されています。
https://github.com/g0v/twly_crawler
https://github.com/thewayiam/twly_fileHandler
from codeforelection.
官報の内容は CC0 にできそうです。インターネット版官報の FAQ に記述があります。
mySociety の EveryPolitician project は wikidata から grant された連携関係にあるんですね。
EveryPolitican も popoloproject の仕様を使っているようで、ruby や python のモジュールがあるようです。
from codeforelection.
まずは wikidata での名前の登録があるかを軽く調べてみた。
「みんなの政治」47 回衆議院議員 472 人中 wikidata 登録済み 451 人で、21 人が未登録。
「選挙ドットコム」48 回衆議院選候補者 878 人中 wikidata 登録済み 504 人で 374 人が未登録。
同姓同名もあるのね…
(あと47回衆議院議員定員って 475 じゃないんですかね…とか思った)
from codeforelection.
こちらの議論,確認させていただきました.
作業手順についても賛成ですので,こちらでは,
2.wikidata へマッピングして投入するプロジェクトを立ち上げ、入力ボランティアを募る
に向けた,調査・検討を進めさせていただきます.
とりいそぎ,popolo とWikidataとのマッピングについては,こちらのIssueで進めるようにします.
from codeforelection.
サンプルデータ作るところから始めてみようと思います。幸い everypolitician に既に 46 回衆議院議員のpopolo 仕様の JSON データの登録があるので、それを踏襲する感じで作れそう。
メモ
- 抜粋 サンプル
- name に英語表記(や省略名)を入れて、多言語表記を other_names に格納しているけれど、name には日本語の代表的な名前を入れたほうが、日本人には使いやすいかも。
from codeforelection.
ただ、公示日夕方以降(17時締め切り)の選管に問い合わせると、氏名、誕生日、政党、などの書いてあるリストをくれます。(FAXにて)(衆院選の届出先を忘れました。参院比例を除けば、各都道府県選管なきがします。
from codeforelection.
- 「候補者一覧」自体は官報からデータ生成して CC0 にするのがいいと思う
- (データ生成に dotjp さんの協力が得られるなら助かりますね!)
- マスターは popoloproject の語彙体系で一度整備するのが良いのでなかろうか
- wikidata へはマッピングが必要
いずれにせよ wikidata に対する(ボットでの)モニタリングは必要になると思う。CfJ のプロジェクトで popoloproject 形式のマスターを整備しつつ、wikidata との差分を機械的に検査するようにすれば良いのではなかろうか。
from codeforelection.
議員になった人達については、少なくとも名前は結構登録されているってことですね。
同姓同名とかいないのかな。
from codeforelection.
あ、同姓同名あるって書いてますね。失礼。
from codeforelection.
@hkwi dotjp さん、API経由で取ったデータをこちらの用途に使っても良いとのことです。だいぶ勧めやすくなりそうですね。
from codeforelection.
@hkwi さん、Dumpデータも貰えるそうです!
from codeforelection.
popolo 形式は everypolitician に直接持ってもらうのもアリか。http://docs.everypolitician.org/contribute.html#process のように、ソースデータだけはリポジトリに入れて提供しないとだけど(官報インターネット版は期限付き)。
from codeforelection.
everypolitician と popolo を見ていて不安に思ったのは、基本的に「当選者」が扱われていて、今議論されている「候補者」はあまり中心にないな…というところだったのですが、ずばりの ticket を発見。
popolo-project/popolo-spec#104
これは先方とも議論したほうがいいかもですね。
from codeforelection.
@hkwi 候補者について、指摘してくれたIssueの最後では、Popolo では選挙は Event というモデルになっており、候補者もPersonで示すこととなったようですね。
https://github.com/datamade/docs.opencivicdata.org/blob/elections/proposals/drafts/elections.rst
この場合不都合ありそうですか?
from codeforelection.
ありがとうぎいます。確認します!選挙区の表現ができたら、とりあえず区画データと連結できるようになりますね。
from codeforelection.
横レスですが、官報で立候補者情報が出るのを確認したことがありません。
公式には公示日の申し込みをもって決定するので、入手できるタイミングがおそすぎるように思われます。
こちらのMDに、作成のTIPSを書きました。
(No Title)
ユーザのニーズ(期日前投票があるため、公示日には諸々のデータが欲しい)ことを考えると、いつごろまでにどのようなデータを提供するのが望ましいか検討するべきかと。
from codeforelection.
出馬者名簿は都道府県の選管が作成します。情報所在(URL)自体は総務省のサイトで一覧できますが、中身は各県がPDFで作って標準化もされてないので、使えるデータとして抜き出すのは手間が掛かります。ちょっと、総務省の担当者たのみますよーって感じ。
マスコミ向けには各種データがエクセルで事前に回ると聞いてますが、ドットコムさんとかどうなんでしょね。
優しい選管だとエクセルで情報くれますが、候補者の場合は情報量が少ないので、やり取りするよりサイトから落とす方が早そう。投票所とかは数が多くて作表もアンチ機会判読なんで、エクセルでもらってセルの結合やセル内改行をリセットする方が、PDFから変換するよりミスなく早いです。
from codeforelection.
前回の衆議院選挙の官報を見てみたら、「選挙やるよ」「そのための**選挙管理委員会立ち上げたよ」と書いてあるだけなんですね。総務省 **選挙管理委員会 取りまとめで、ディスパッチされて、それぞれの都道府県選挙管理委員会にて公報される(東京 前回 東京1区 )ということなんですね。なるほど。公報なので、これも CC0 で行けそうですね。
from codeforelection.
「政治家と立候補」の関係情報は、CC0 的には公示日になるまで作業できないので置いておくとして、「政治家」自体の wikidata 登録は進めたく(=IDが付くので扱いやすくなる)。
from codeforelection.
政治ナビ様より CC0 で頂いたデータがあるので、ひとまずこれを登録してしまいましょう!
https://docs.google.com/spreadsheets/d/1T6BhIk_TU9KAOmBou8buvMkj_yK4c72jcJMGMOFUAg0/edit#gid=0
隙があればボットで wikidata Q ID を埋めますね。
from codeforelection.
可能な範囲で wikidata 埋めました。名前と生年月日で突き合わせて抜き出しています。
from codeforelection.
現時点で必要なものは入手したという認識なので、Closeします。
from codeforelection.
Related Issues (20)
- Wikidata data model HOT 12
- 月末までのデータの整備についてのタスク整理 HOT 20
- wikidataへのデータ登録再開に向けた方針検討 HOT 59
- Wikidata:Notability HOT 8
- popolo JSONを作成する HOT 2
- 参議院と都道府県知事のデータを集める HOT 29
- GrayDBの不要シートの削除 HOT 3
- 当選者に対する収集データについて(選挙後:22日以降) HOT 1
- 選挙区に対して、area_id (区コード) の割り振りは可能? HOT 6
- wikidata 名寄せ依頼 HOT 1
- Wikidata: 選挙立候補者について HOT 7
- Wikidata: 立候補者の分析・視覚化クエリー集 HOT 6
- 当落情報の記載について HOT 10
- Wikidata: フェイスブックID・公式フェイスブックページの登録方法 HOT 8
- 第48回衆議院総選挙「前」の議員データベース HOT 6
- Popolo と Wikidata の対応をドキュメント化
- [Wikidata][merge依頼] Masahara Nakagawa HOT 7
- 2017の状態を残せるドメインにする HOT 1
- Wikidata関連ツールのフィードバック HOT 1
- 衆議院開催期間のwikidata上の表現を決める
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from codeforelection.