ctiml / campaign-finance.g0v.ctiml.tw Goto Github PK

View Code? Open in Web Editor NEW

35.0 35.0 18.0 909 KB

政治獻金數位化．人工 OCR

Home Page: http://campaign-finance.g0v.ctiml.tw/

PHP 9.19% CSS 0.41% JavaScript 0.14% HTML 90.26%

campaign-finance.g0v.ctiml.tw's People

Contributors

Stargazers

Watchers

Forkers

afutseng fallwinds qcl cabin2502 sansword tracetw andyjuang hinet60613 kiang chunhungchou x4base albert0731 lackneets chihchun tai271828 chibc ycktw

campaign-finance.g0v.ctiml.tw's Issues

政治獻金數位化 OCR 系統 error

政治獻金數位化 OCR 系統一直會出現:
『第 undefined 頁 (undefined, undefined ) 已經有undefined人填寫確認了，』

將「人工比對注意事項」放進網頁

建議將以下注意事項內容，放進人工 OCR 網頁：

「浮水印」請視為空白
金額數字如「3,000」請記得要打「半形逗點」
發現「打錯字」或「異體字」，請將錯就錯、忠於原本，不用幫忙改
身分證或地址等個資馬賽克「***」，請用「半形米字號」
格線切錯、無法辨識，請打「?」半型問號，或到粉絲頁留言回報

via 「開放政治獻金」粉絲專頁回饋
https://www.facebook.com/cy.sunshine/posts/1498836940228814?comment_id=1498873743558467

最常出現的是"匿名捐贈""個人捐贈收入""匿名" 能做成常態選項嗎

也許需要記錄多次輸入的答案？

看了一下 ApiController::fillcellAction() ，作法好像是將最新的答案直接覆蓋過去，並沒有保留舊的答案，但預期應該是記錄多次答案資料，在 /api/getrandom & /api/getrandoms 的時候從輸入最多次的答案當作結果傳回？

請協助更改首頁認領、上傳相關連結

希望更改頁面
http://campaign-finance.g0v.ctiml.tw/

【欲更改之原始內容】

目前認領進度 http://bit.ly/ScanProgress （第 8 屆立委優先）
已上傳圖檔處理現況 http://bit.ly/ScanPoliticalContribution
政治獻金圖檔上傳回報表

【希望更改成以下連結】

鄉民參戰 SOP http://bit.ly/PoliticalContribution
歡迎認領任務 http://bit.ly/CYsunshinetodo
上傳掃描圖檔 http://bit.ly/UploadPoliticalContribution
圖檔處理現況 http://bit.ly/ScanPoliticalContribution

加上 "這題我不會" 的按鈕

from Bo-Yuan Peng @ FB

Shenk Wang: 這顆按鈕寫作 F5 或 cmd +r

https://www.facebook.com/groups/g0v.general/permalink/609945902415153/?comment_id=610469585696118&offset=0&total_comments=27

關於輸入介面的意見

可能有些和前面的意見有重覆，先講最影響效率的幾點：

圖片loading的時間太慢，建議可以同時用ajax先loading三個以上的圖片，然後先hide只留一個display，一按送出馬上display下一個已loading好的圖片，如此可以讓送出答案及loading圖片都變成背景作業，讓增加效率。
不同於很久以前的click*3，這次的OCR分成很多group，包括中文字、日期數字(手要移到數字盤)、空白(目前有快速鍵可用)、常用字(要用滑鼠點)、確認別人的答案(目前只能用滑鼠點)，會造成手要在鍵盤字母區、數字盤和滑鼠間移動，降低效率。最簡單的改進方法是全部的常用字都有對應的快速鍵，避免用到滑鼠。
現在的「電腦」有很多種，筆電大部分沒有專屬的數字盤，行動裝置則輸入不易，如果能初步用簡單的OCR篩選出第2點提到的各種group，讓行動裝置可以專心用手指點或確認別人答案(而不用輸入字)，讓筆電可以專心輸入非日期數字的題目，對於效率會有些提升。或者可以有個選項，讓user專心回答某種特定group的題目(專心中打、專心打日期、專心確認答案、專心確認空白)
隨著介面越來越複雜，可以放一個連結，稍微指示一下怎麼使用，例如浮水印不用輸入、數字是否輸入逗號。網友提到的累計輸入次數也會讓人較有成就感。

scsnake

ptt 回應意見

網址： http://www.ptt.cc/bbs/Gossiping/M.1397903923.A.3D2.html

有時候出現空白的格子但別人填過時，按「這答案沒錯」不會有反應。
空白格子比想像中多，「這是空白」應該也要有快速鍵
其實對於鍵盤鄉民，應該要讓所有選項都有快速鍵才對，用上手會很快 XD
有個累計讓人比較有成就感 XD

"倒退鍵" 和 "同區多題顯示"

倒退鍵:
由於人總會點錯，但發現點錯後就進入下一題，能否加入個回到上題的倒退鍵?大概只用紀錄上一題是哪頁哪座標就好，然後按了可回到那座標重新輸入。
同區多題顯示:
從原始檔看，很明顯每一欄(直的, column)都是類似的內容，特別是日期、項目類別，上下有很大的相關性(locality)。若能同時顯示多題(以按鈕選擇是否使用此功能)，例如拿到一格後同時拿取這格的下面三格，不但大幅增加可複製貼上的機率，還能減少輸入法切換次數，特別是能增加不少日期欄輸入效率。

介紹頁建議放置一些資訊

"ctiml: 網頁可以加個 link 到 "政治獻金圖檔上傳回報表" 嗎 ? https://docs.google.com/forms/d/108LkUakP8qC5G3AGXMaX8t8d7yklf05M_PBphUqe6vg/viewform "

http://logbot.g0v.tw/channel/g0v.tw/2014-04-22/248

也許可以再加上 http://bit.ly/PoliticalContribution

請問有已填寫的圖檔資料 dump 嗎

想試試電腦視覺作法

目前 idea ：

空白 vs 非空白分類器
群組類似圖片：讓志願者一口氣標記一群圖片，並塞幾張已知答案的做信度確認。

目前我有找到的資料：

取得隨機未填寫的圖片 https://campaign-finance.g0v.ctiml.tw/api/getrandoms
三年前 api 頁面，還能動 http://campaign-finance.g0v.ronny.tw/

新增責任校稿功能

此次資料已再次進入校正階段，
先前曾有過經驗，經四次校正後還是會有少數錯誤資料存在；
建議除原有開放式校稿外，
增加責任校稿帳號機制，登入後可以頁面為單位責任校對；
校對完成後將該頁面資料列入初稿，不再出現於開放式校搞序列中。

批次 OCR 校對

目前已經有一些人工 OCR 的成果, https://g0v.hackpad.com/8ow2GnliH48 也有一些程式自動 OCR 的結果.

由於大多是數字, 重複的格子很多. 可以一次 5*5 列出一樣的格子, user 一望即知哪個是錯的. 網頁提供 button 把錯的 delete 掉(或是當場輸入正確的值), 再按 submit 一次確認全部.

5*5 是舉例, 可以偵測螢幕大小把畫面塞滿.

目前成果斐然，建議該考慮建制防搗亂機制

以目前的開放架構而言，雖然方便所有想參與的人輕鬆加入一起人工OCR，可是隱藏的風險就是有心要搗亂的人也可以很容易就進行破壞。(像是不停地將已輸入之內容全都以「這是空白」或是隨意的用快速鍵更新進行破壞)

建議可以設定隱藏的防搗蛋檢核機制，將一些(大約3050張應該十分足夠)已經辨識且確定正確內容值的圖片當作檢核用圖，隨機(出現率大約1%)出現讓使用者填寫，使用者介面那邊當然必須完全看不出異狀。如果使用者在遇到檢核圖片時所填寫內容不符合正確值，就在下一張繼續提供另一檢核用圖。若連續數張(35，看要多嚴格)填寫內容皆錯誤，應能排除掉誤看或輸入錯誤的無辜情況，則可將該使用者判定為搗蛋者。

搗蛋者不必踢出或警告，這樣會讓他有所警覺。對於判定為搗蛋者的使用者，系統繼續讓他如常操作，不要有任何異狀。但唯一差別是讓他所輸入或確認的所有值都無效化，對資料表單填寫完全不造成影響。如此一來搗蛋者無從察覺，在他的這一次持續操作裡，所有之後的動作全都是做白工。如此不但可有效阻止存心搗蛋者對資料正確性的破壞，更能進一步消耗有心破壞者的人力時間資源。

陸續收到人們反應顯示資料重複問題

http://logbot.g0v.tw/channel/g0v.tw/2014-07-11/17

http://campaign-finance.g0v.ctiml.tw/ 好像有點怪怪的? 進去 key 都會是重複的資料
啊啊啊啊還是其實「還有 ___ 筆未輸入」的筆數其實是 0 啊?
我的是會一直重複輸入固定某幾筆.... 未輸入的筆數也不會減少囧
使用chrome

https://www.facebook.com/cy.sunshine/posts/622251207887396

我好像每次輸入五六個圖片，就會開始loop，都要更新畫面，有點麻煩，不能設定都不重複嗎？請問是什麼原因？
但是我用firefox 跟chrome都會重複出現，每打幾個就要更新畫面，更新畫面常常沒更新到新項目，要多更新幾次，真的不太方便。IE是無法正常運作，希望能儘快改善。

（來亂）建議可以增加積分功能來鼓勵大家來人工OCR

如題，建議可以在頁面中增加一個免密碼的名稱欄位，然後想要收集積分的人就可以打一個名稱進去，就會開始紀錄(e.g. 一個cell1分）。
旁邊也顯示一個積分排行榜，還有「你目前在第###名，積分##」

這樣應該可以鼓勵一些人來打XD

關於手機輸入的想法

由於手機打字較慢，剛剛用ios 的safari打開發現圖片會被切掉而且按鈕不好按。

為了提昇資料正確性也考量手機的輕度資料輸入方式

或許可以開發手機版的介面，專門把那些曾經keyin辨識過的圖檔挑出來之後只做兩個按鈕「正確」跟「錯誤」

讓有鍵盤的人專心打字，只有手機的人也可以快速加入資料確認的行列。

28個csv檔

請問accounts底下28個csv檔，是目前所有已完成數位化的結果嗎？
那data/govcash.csv是"綜合"上述28個檔的內容嗎？

圖床主機掛掉，導致程式一直在試著找下一張圖

因為一直拉不到下一張圖片，所以程式會一直跑，也許可以考慮在跑個 20~30 次之後先說聲道歉把迴圈停住？

add facebook social plug-in

https://developers.facebook.com/docs/plugins/

fans page url
https://www.facebook.com/cy.sunshine

OCR Android App

想跳坑做 OCR Android App

功能

OCR
監察院調查兵團SOP
加上娛樂性 ex 簡易排行

需要的 API

尚未辨識 Cell 的欄位
上傳欄位的答案
尚未辨識 or 完成辨識的欄位總數

最後希望能發展成 OCR App，提供有相關資料處理使用 XD

手機介面問題

有網友反應 iphone4 手機介面看到的樣子並不適合操作
https://www.facebook.com/cy.sunshine/posts/589256084520242

"可放大縮小但縮小後空白的按鈕依然被裁掉送出也裁了一半!"

新增獨立頁面專用於區分空白圖片

參與者在目前的輸入頁面遇到空白圖片時會需要將手離開鍵盤點擊額外的按鈕，會降低打字效率，若提供一額外頁面專門用來區分空白圖片，就可以利用此資訊將真正需要輸入的圖片推送給打字兵，提高輸入效率。
另外，區分空白圖片的輸入頁面只需要點擊按鈕，能夠讓手機使用者更容易參與。

在 IE 11 會陷入無限迴圈

影片： https://www.youtube.com/watch?v=Yv4n8sVVoAg

IE 版本:11.0.9600.17041
更新版本:11.0.7

在使用者操作過程中，會有 10 張同樣的任務持續循環，沒有辦法帶入新的任務

雖然使用者後來改用 firefox 就沒有這個問題，還是做個記錄

OCR 較淡, 導致切割錯誤

代PO聽別的網友說, 有因為OCR 入電腦邊邊較淡導致切割失敗, 可能蠻需要一個按鍵, 這張圖是錯的
http://campaign-finance-pic.ronny.tw/2793/17-1.png

增加評論 or 討論 or 意見反映區

您好，希望可以在旁邊增加討論區，
或是可以有個連結到這裡的位置。
又或著是除錯區、意見反映區之類的地方。

雖然在右下方已有聊天室，但該區話題
其實很難插入，反映各類問題......QQ

然後，這個地方反映增加按鈕的網址，
也是在PTT偶然間看見的，不然此問題也不知該去何處反映...
(在OCR那個作業網址上，找了很久依然沒有看見可以反映此類問題的地方...
(應該不只有我有此類的困擾....

P.S. 非常感謝g0v所做的一切，小小鄉民甚麼都不懂，
小妹先承認我按錯兩次了，非常抱歉QQ
(匿名被認成匿名捐贈，但確認人數也有2~6人等)

防呆機制貌似未成功啟動

剛完成這波校對，
隨即發現有被搗亂的狀況，在次驗證時所填資料皆為空白。
可能需要另行研議對策。

讀取結果API

您好：

我現在正試圖處理這個計劃的成果資料，但發現可供下載的部分似乎只有欄位內容而沒有欄位標題（比如幾乎沒有內容的第六欄到底是什麼就無從得知），另外也找不到該頁面／欄位對應到的立委／公僕或編號等等。由於編寫API的部分好像也不在GitHub上，所以希望能夠有一段說明文字、或者是圖檔範例，要不然從API下載下來的資料也沒辦法真的處理或visualize。感謝！

Cheers,
Hope

浮水印應該是當作空白沒錯吧, 最好把幾個浮水印的圖當作樣板讓輸入者知道要點空白

from https://groups.google.com/forum/#!topic/g0v-general/IBFzyI1hOH4

撈錯圖片問題? / 同一題目的hit rate?

Q1: 撈錯圖片
今天繼續OCR
卻發現已有3人填寫："匿名捐贈"
圖片顯示: "是"
http://campaign-finance.g0v.ctiml.tw/api/getcellvalue/345/6/7

submit完之後
然後用API去查之前的history才發現:
{"error":false,"value":"\u662f","history":[{"id":3217689,"page":3445,"ans":"\u662f","created":1399607388,"encrypted_client_ip":1559128788,"row":4,"col":8},{"id":3217030,"page":3445,"ans":"\u662f","created":1399606226,"encrypted_client_ip":1559128788,"row":4,"col":8},{"id":2600528,"page":3445,"ans":"\u533f\u540d\u6350\u8d08","created":1399056057,"encrypted_client_ip":1559128788,"row":4,"col":8},{"id":2503404,"page":3445,"ans":"\u662f","created":1398939537,"encrypted_client_ip":1559128788,"row":4,"col":8}]}

encrypted_client_ip都是我自己(第四個submit是我自己)，這應該表示: 某個時間點有抓錯圖的狀況？應該已經fix不會造成這個狀況了吧?

Q2: 從加密IP來看, 好像已經填寫四次了，重複率會如此的高嗎?

也許可以直接匯入線上資料庫讓使用者協助校正