Coder Social home page Coder Social logo

campaign-finance.g0v.ctiml.tw's People

Contributors

afutseng avatar alan5281 avatar ctiml avatar hialan avatar qcl avatar ronnywang avatar tony1223 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

campaign-finance.g0v.ctiml.tw's Issues

將「人工比對注意事項」放進網頁

建議將以下注意事項內容,放進人工 OCR 網頁:

  • 「浮水印」請視為空白
  • 金額數字如「3,000」請記得要打「半形逗點」
  • 發現「打錯字」或「異體字」,請將錯就錯、忠於原本,不用幫忙改
  • 身分證或地址等個資馬賽克「***」,請用「半形米字號」
  • 格線切錯、無法辨識,請打「?」半型問號,或到粉絲頁留言回報

via 「開放政治獻金」粉絲專頁回饋
https://www.facebook.com/cy.sunshine/posts/1498836940228814?comment_id=1498873743558467

也許需要記錄多次輸入的答案?

看了一下 ApiController::fillcellAction() ,作法好像是將最新的答案直接覆蓋過去,並沒有保留舊的答案,但預期應該是記錄多次答案資料,在 /api/getrandom & /api/getrandoms 的時候從輸入最多次的答案當作結果傳回?

請協助更改首頁認領、上傳相關連結

希望更改頁面
http://campaign-finance.g0v.ctiml.tw/

【欲更改之原始內容】

【希望更改成以下連結】

關於輸入介面的意見

可能有些和前面的意見有重覆,先講最影響效率的幾點:

  1. 圖片loading的時間太慢,建議可以同時用ajax先loading三個以上的圖片,然後先hide只留一個display,一按送出馬上display下一個已loading好的圖片,如此可以讓送出答案及loading圖片都變成背景作業,讓增加效率。
  2. 不同於很久以前的click*3,這次的OCR分成很多group,包括中文字、日期數字(手要移到數字盤)、空白(目前有快速鍵可用)、常用字(要用滑鼠點)、確認別人的答案(目前只能用滑鼠點),會造成手要在鍵盤字母區、數字盤和滑鼠間移動,降低效率。最簡單的改進方法是全部的常用字都有對應的快速鍵,避免用到滑鼠。
  3. 現在的「電腦」有很多種,筆電大部分沒有專屬的數字盤,行動裝置則輸入不易,如果能初步用簡單的OCR篩選出第2點提到的各種group,讓行動裝置可以專心用手指點或確認別人答案(而不用輸入字),讓筆電可以專心輸入非日期數字的題目,對於效率會有些提升。或者可以有個選項,讓user專心回答某種特定group的題目(專心中打、專心打日期、專心確認答案、專心確認空白)
  4. 隨著介面越來越複雜,可以放一個連結,稍微指示一下怎麼使用,例如浮水印不用輸入、數字是否輸入逗號。網友提到的累計輸入次數也會讓人較有成就感。

scsnake

ptt 回應意見

網址: http://www.ptt.cc/bbs/Gossiping/M.1397903923.A.3D2.html

  1. 有時候出現空白的格子但別人填過時,按「這答案沒錯」不會有反應。
  2. 空白格子比想像中多,「這是空白」應該也要有快速鍵
  3. 其實對於鍵盤鄉民,應該要讓所有選項都有快速鍵才對,用上手會很快 XD
  4. 有個累計讓人比較有成就感 XD

"倒退鍵" 和 "同區多題顯示"

  1. 倒退鍵:
    由於人總會點錯,但發現點錯後就進入下一題,能否加入個回到上題的倒退鍵?大概只用紀錄上一題是哪頁哪座標就好,然後按了可回到那座標重新輸入。
  2. 同區多題顯示:
    從原始檔看,很明顯每一欄(直的, column)都是類似的內容,特別是日期、項目類別,上下有很大的相關性(locality)。若能同時顯示多題(以按鈕選擇是否使用此功能),例如拿到一格後同時拿取這格的下面三格,不但大幅增加可複製貼上的機率,還能減少輸入法切換次數,特別是能增加不少日期欄輸入效率。

新增責任校稿功能

此次資料已再次進入校正階段,
先前曾有過經驗,經四次校正後還是會有少數錯誤資料存在;
建議除原有開放式校稿外,
增加責任校稿帳號機制,登入後可以頁面為單位責任校對;
校對完成後將該頁面資料列入初稿,不再出現於開放式校搞序列中。

批次 OCR 校對

目前已經有一些人工 OCR 的成果, https://g0v.hackpad.com/8ow2GnliH48 也有一些程式自動 OCR 的結果.

由於大多是數字, 重複的格子很多. 可以一次 5*5 列出一樣的格子, user 一望即知哪個是錯的. 網頁提供 button 把錯的 delete 掉(或是當場輸入正確的值), 再按 submit 一次確認全部.

5*5 是舉例, 可以偵測螢幕大小把畫面塞滿.

目前成果斐然,建議該考慮建制防搗亂機制

以目前的開放架構而言,雖然方便所有想參與的人輕鬆加入一起人工OCR,可是隱藏的風險就是有心要搗亂的人也可以很容易就進行破壞。(像是不停地將已輸入之內容全都以「這是空白」或是隨意的用快速鍵更新進行破壞)

建議可以設定隱藏的防搗蛋檢核機制,將一些(大約3050張應該十分足夠)已經辨識且確定正確內容值的圖片當作檢核用圖,隨機(出現率大約1%)出現讓使用者填寫,使用者介面那邊當然必須完全看不出異狀。如果使用者在遇到檢核圖片時所填寫內容不符合正確值,就在下一張繼續提供另一檢核用圖。若連續數張(35,看要多嚴格)填寫內容皆錯誤,應能排除掉誤看或輸入錯誤的無辜情況,則可將該使用者判定為搗蛋者。

搗蛋者不必踢出或警告,這樣會讓他有所警覺。對於判定為搗蛋者的使用者,系統繼續讓他如常操作,不要有任何異狀。但唯一差別是讓他所輸入或確認的所有值都無效化,對資料表單填寫完全不造成影響。如此一來搗蛋者無從察覺,在他的這一次持續操作裡,所有之後的動作全都是做白工。如此不但可有效阻止存心搗蛋者對資料正確性的破壞,更能進一步消耗有心破壞者的人力時間資源。

陸續收到人們反應顯示資料重複問題

http://logbot.g0v.tw/channel/g0v.tw/2014-07-11/17

  • http://campaign-finance.g0v.ctiml.tw/ 好像有點怪怪的? 進去 key 都會是重複的資料
  • 啊啊啊啊 還是其實「還有 ___ 筆未輸入」的筆數其實是 0 啊?
  • 我的是會一直重複輸入固定某幾筆.... 未輸入的筆數也不會減少 囧
  • 使用chrome

https://www.facebook.com/cy.sunshine/posts/622251207887396

  • 我好像每次輸入五六個圖片,就會開始loop,都要更新畫面,有點麻煩,不能設定都不重複嗎? 請問是什麼原因?
  • 但是我用firefox 跟chrome都會重複出現,每打幾個就要更新畫面,更新畫面常常沒更新到新項目,要多更新幾次,真的不太方便。IE是無法正常運作,希望能儘快改善。

(來亂) 建議可以增加積分功能 來鼓勵大家來人工OCR

如題,建議可以在頁面中增加一個免密碼的名稱欄位,然後想要收集積分的人就可以打一個名稱進去,就會開始紀錄(e.g. 一個cell1分)。
旁邊也顯示一個積分排行榜,還有「你目前在第###名,積分##」

這樣應該可以鼓勵一些人來打XD

關於手機輸入的想法

由於手機打字較慢,剛剛用ios 的safari打開發現圖片會被切掉而且按鈕不好按。

為了提昇資料正確性也考量手機的輕度資料輸入方式

或許可以開發手機版的介面,專門把那些曾經keyin辨識過的圖檔挑出來之後只做兩個按鈕「正確」跟「錯誤」

讓有鍵盤的人專心打字,只有手機的人也可以快速加入資料確認的行列。

28個csv檔

請問accounts底下28個csv檔,是目前所有已完成數位化的結果嗎?
那data/govcash.csv是"綜合"上述28個檔的內容嗎?

圖床主機掛掉,導致程式一直在試著找下一張圖

錯誤記錄像這樣:
GET http://campaign-finance-pic.ronny.tw/4109/4-3.png 404 (Not Found) campaign-finance-pic.ronny.tw/4109/4-3.png:1
GET http://campaign-finance-pic.ronny.tw/4108/4-7.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4108/5-5.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4108/8-7.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4111/3-6.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4108/2-5.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4110/11-6.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4109/7-3.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4108/4-6.png 404 (Not Found) jquery.min.js:2
GET http://campaign-finance-pic.ronny.tw/4108/15-7.png 404 (Not Found) jquery.min.js:2

因為一直拉不到下一張圖片,所以程式會一直跑,也許可以考慮在跑個 20~30 次之後先說聲道歉把迴圈停住?

OCR Android App

想跳坑做 OCR Android App

功能

  • OCR
  • 監察院調查兵團SOP
  • 加上娛樂性 ex 簡易排行

需要的 API

  • 尚未辨識 Cell 的欄位
  • 上傳欄位的答案
  • 尚未辨識 or 完成辨識 的欄位總數

最後希望能發展成 OCR App,提供有相關資料處理使用 XD

新增獨立頁面專用於區分空白圖片

參與者在目前的輸入頁面遇到空白圖片時會需要將手離開鍵盤點擊額外的按鈕,會降低打字效率,若提供一額外頁面專門用來區分空白圖片,就可以利用此資訊將真正需要輸入的圖片推送給打字兵,提高輸入效率。
另外,區分空白圖片的輸入頁面只需要點擊按鈕,能夠讓手機使用者更容易參與。

增加評論 or 討論 or 意見反映區

您好,希望可以在旁邊增加討論區,
或是可以有個連結到這裡的位置。
又或著是除錯區、意見反映區之類的地方。

雖然在右下方已有聊天室,但該區話題
其實很難插入,反映各類問題......QQ

然後,這個地方反映增加按鈕的網址,
也是在PTT偶然間看見的,不然此問題也不知該去何處反映...
(在OCR那個作業網址上,找了很久依然沒有看見可以反映此類問題的地方...
(應該不只有我有此類的困擾....

P.S. 非常感謝g0v所做的一切,小小鄉民甚麼都不懂,
小妹先承認我按錯兩次了,非常抱歉QQ
(匿名 被認成 匿名捐贈,但確認人數也有2~6人等)

防呆機制貌似未成功啟動

剛完成這波校對,
隨即發現有被搗亂的狀況,在次驗證時所填資料皆為空白。
可能需要另行研議對策。

建議加上熱鍵

"這是空白"、"這答案沒錯" 如果有快捷鍵應該可以再加速進行。

讀取結果API

您好:

我現在正試圖處理這個計劃的成果資料,但發現可供下載的部分似乎只有欄位內容而沒有欄位標題(比如幾乎沒有內容的第六欄到底是什麼就無從得知),另外也找不到該頁面/欄位對應到的立委/公僕或編號等等。由於編寫API的部分好像也不在GitHub上,所以希望能夠有一段說明文字、或者是圖檔範例,要不然從API下載下來的資料也沒辦法真的處理或visualize。感謝!

Cheers,
Hope

撈錯圖片問題? / 同一題目的hit rate?

Q1: 撈錯圖片
今天繼續OCR
卻發現已有3人填寫:"匿名捐贈"
圖片顯示: "是"
http://campaign-finance.g0v.ctiml.tw/api/getcellvalue/345/6/7

submit完之後
然後用API去查之前的history才發現:
{"error":false,"value":"\u662f","history":[{"id":3217689,"page":3445,"ans":"\u662f","created":1399607388,"encrypted_client_ip":1559128788,"row":4,"col":8},{"id":3217030,"page":3445,"ans":"\u662f","created":1399606226,"encrypted_client_ip":1559128788,"row":4,"col":8},{"id":2600528,"page":3445,"ans":"\u533f\u540d\u6350\u8d08","created":1399056057,"encrypted_client_ip":1559128788,"row":4,"col":8},{"id":2503404,"page":3445,"ans":"\u662f","created":1398939537,"encrypted_client_ip":1559128788,"row":4,"col":8}]}

encrypted_client_ip都是我自己(第四個submit是我自己),這應該表示: 某個時間點有抓錯圖的狀況? 應該已經fix不會造成這個狀況了吧?

Q2: 從加密IP來看, 好像已經填寫四次了,重複率會如此的高嗎?

交叉比對

剛連去玩,雖為第三次校對,輸入過程有碰到實際有錯的值(非格式錯誤),
想建議將來將有複次修正的資料特別提出交叉比對,以提高資料正確性。

preload image

feature request:
當 user 正在輸入時, 先 preload 下一張 image. 這樣 user 就不用等, 可以馬上輸入下一張

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.