Coder Social home page Coder Social logo

miru2018wakate_hci_survey's People

Watchers

 avatar

miru2018wakate_hci_survey's Issues

Modeling How People Extract Color Themes from Images (CHI2013)

  • Paper
    • Title: Modeling How People Extract Color Themes from Images
    • Authors:
    • Hyperlink:
    • Remark: CHI2013

一言でいうと

画像からテーマカラーを選ぶ手法の提案、回帰モデルを使う。

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Virtual Objects as Spatial Cues in Collaborative Mixed Reality Environments: How They Shape Communication Behavior and User Task Load (CHI2016)

  • Paper
    • Title: Virtual Objects as Spatial Cues in Collaborative Mixed Reality Environments: How They Shape Communication Behavior and User Task Load
    • Authors:
    • Hyperlink:
    • Remark: CHI2016

一言でいうと

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

AnnoTone: Record-time Audio Watermarking for Context-aware Video Editing (CHI2015)

  • Paper
    • Title: AnnoTone: Record-time Audio Watermarking for Context-aware Video Editing
    • Authors:
    • Hyperlink:
    • Remark: CHI2015

一言でいうと

ビデオを撮影しながらアノテーションできるシステムの提案

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Scalable multi-label annotation (CHI2014)

  • Paper
    • Title: Scalable multi-label annotation
    • Authors:
    • Hyperlink:
    • Remark: CHI2014

一言でいうと

画像データセットの手動ラベリングについての提案

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

From Mice to Men – 24 years of Evaluation in CHI

一言でいうと

過去24年のCHI論文をサーベイして評価方法の動向を分析した論文

概要

本稿では、過去24年におけるCHI論文の評価手法の動向を分析する。 評価手法を種類別に分けて傾向を追跡した。 結果では、評価を含む論文の割合の増加と、定量的研究における被験者の**値の減少を含む。 また、被験者の種類、特に学生への過度の依存、および適切な性別のバランスがとれてないことを批判する。本稿ではこうした発見を、歴史的なトレンドが「実験室の技術的なエリート向けのコンピュータ」から、「一般人の日常生活に組み込まれているコンピュータ」に移行しているという文脈に載せる。

キーワード:Evaluation, Qualitative, Quantitative, History, Gender, User Experience, Meta-HCI

先行研究と比べてここがすごい

24年のCHIにわたってpractitionersとacademicsがどのような評価技術を使ってきたのかをまとめ傾向を分析した。

リサーチクエスチョン:

  1. 技術の進歩に伴い、評価の役割はここ24年のCHIの間にどのように変化してきたか
  2. この分野において発展してきた経験的な評価方法、およびその主要な種類はどうなっているか
  3. ここ24年間でCHIで用いられてきた主観評価者の種類(年齢、性別など)は?

背景(省略or後回し)

CHIのレビュープロセス

Prior Classification of CHI Literature

Emergence of Computing System Evaluation

方法

CHI論文をすべて見るのではなく選択した年のCHIのサブセットを分析した。

  • 2006 (118 papers, acceptance rate 23%)
  • 2000 (72 papers, acceptance rate 21%)
  • 1994 (70 papers, acceptance rate 27%)
  • 1988 (39 papers, acceptance rate 21%)
  • 1983 (59 papers, acceptance rate 34%)

分類方法:評価を含むか否か(下記図1参照)

評価のない論文

システム、アルゴリズム、アプリケーションや、厳しくない意見ベースの評価(「do you like it」的な)、理論、サーベイ、新しいユーザビリティやデザイン技術の提供、ユーザの振る舞いのモデル化、デザインプロセスを含む)

評価を含む論文
  • ユーザが関与するか否か(経験的にor分析的に)
  • 評価の方法(定性的か定量的か両方の組み合せか)

図1:論文の類型化
image

上記の類型化に従って各論文の貢献度、被験者の数と種類を索引付けした。
著者は同僚の手を借りたが、最終的にすべての索引付けは第一著者によってレビューされた。

結果

Changes in the Role of Evaluation

論文を評価のあるなしで分類(ある場合はさらに分類)した結果は以下の図2のようになった。
image
※ただしこの図はサーベイ論文や評価手法自体に関する論文を含まない。

analytical evaluationはCHIにおいても広まっていない。どの年も論文は3本しか見つからなかった。
ログデータの分析またはグラフィカルインターフェースのGOMS分析だった。
評価方法が主要な貢献である論文は1983年の14本から2006年の0本まで線形に減少していた。

最も多いのは経験的(定性的、定量的)な評価だった。
この経験的評価をさらに詳細に分類したのが↓

Changes in Empirical Evaluation

image

定量的評価

  • 図3より、定量的評価は各年同程度の割合で行われており、そのうち12%程度が定性的な評価も行っている。
  • 多くの実験は新しい技術・システムを古いものと比較する目的で実施される
  • 多くんの場合ANOVAなど統計的有意性検定を使用して提案手法の正しさを主張するために用いられる

定性的評価

image

  • 90年代の結果からcomputer supported cooperative work(CSCW)が80年代半ばに出現し、CHIと混ざりあったことが現在の技術設定の質的研究(多くは民俗学的手法)の増加につながっている。
  • 表1に示すように定性的な論文の数値的変化は劇的ではないが、特定の研究の内容を詳しく見ると焦点の変化が明確になる。
    例えば、ManteiとHaskellは、1983年に家庭用マイコンアプリケーションを使ったユーザー経験を最初に評価した[26]が、1994年の論文では、Kiddの研究[22]のように多様なソフトウェア技術に関して技術が知識層に対してどのように日常的なサポートに使われているかに焦点が移った。

純粋な質的研究は2000年には減少したが、2006年には再び増加し緊急サービス[23]や日常的なゲームプレイ[2]のような新しい分野についての論文が増えた。

定量的評価と定性的評価の組み合せ

定量的評価を定性的評価で補うという位置づけ
例えば、SalvucciとAndersonは、視線に基づいたインタフェースを評価するのに参加者が何回タスクを正しく実行したか、どのくらい時間がかかったかを測定することで定量的評価を行い、その後参加者の経験や使用戦略を非公式にインタビューすることで定性的評価を行った[34]
この傾向は年々増加しているが、その割合は停滞している。
実際、1983年にはブレンドされた研究が27%で最も大きかったが、2000年と2006年の両方でブレンドされた研究はわずか17%だった。 著者らは評価方法論の潜在的な弱点としてこれに注意を向け、ディスカッションでこの知見に戻ることを望んでいる。

Changes in Subject Selection

image
図4をみると、定量的評価に使う被験者の**値は減少傾向にあり、定性的評価では増加傾向にある。
初期の研究では50~100人の被験者が頻繁に採用され、2006年には20人以下の被験者の実験が一般的だった。

1つの可能な解釈は2タイプ(定性的、定量的)の研究がお互いに集まっているという可能性である。
ただし、質的データを用いた定量的評価の割合は依然として極めて低い。
これは支持的な定量的評価をしなければいけないという圧力が高まっているからという可能性もある。

一方質的評価はいくつかの重要な情報提供者の詳細な調査からより大きな人口の調査に移行している。
潜在的な原因はより統計的な評価を志向するようにとの圧力が研究者間でかかってることだが、これらの傾向は民族誌的または事例研究アプローチを脅かしている。

student--computer interaction

伝統的な心理学の多くの実験では、学生を主な人口として使用することがよくある。
心理学者は、学生がまだ若く、教育課程にあるにもかかわらず、学生が多くの研究(視覚的知覚、記憶の初歩的理解など)で実際に人口を代表して被験者となっているという事実によってこれを正当化している。

学生は初年度で事前のコンピューティング経験がなければ初心者ユーザとして参加できるし、多くのアプリケーションが多様な人々を対象としているので初心者から専門化までを学生でカバーすることは可能だが、学生はそもそも教育の場面にあり新しいことを学ぶことに慣れているため、学ぶ能力の面で珍しいものになっている。
「典型的な」ユーザーとはこのように大きく異なっているにもかかわらず、サンプルの半分の研究では、学部生または大学院生のいずれかを使用して実験を行っている。

ただしこの傾向には2種類の例外について注意する必要がある。

  1. 高齢者や障碍者などの特定の集団を対象とする技術の研究はこの傾向に従わない。
  2. 80年代から90年代前半では評価に使用された参加者のタイプを特定するのはそもそも一般的ではなかった。

ただし、参加者に関する一般的な情報を指定するのが一般的になってからも、主に学生に頼っている論文はあった。2000年では57%だったが2006年には48%に減少した。
参加者のタイプ(年齢、性別など)の議論の増加は評価プロセスのオープンさの増加を示しているが、学生参加者の割合が不当に高いという課題がある。

学生は研究者にとって大きなリソースだが、一般の人口を代表するものではなく、若者であることや、素早い学習者であり、多くの場合コンピュータや技術に関する経験が豊富であることに留意する必要がある。

Lack of female participants

image
図5は被験者の性別の年ごとの変化
2006年の経験的定量研究の25%は女性の割合が許容できないほど低い

議論

  • CHIコミュニティは評価中心に成長し、評価なしで論文を提出することはもはや容認されていない。同時に、評価の使用は、論文の採択のための政治的なツールとなっている。
  • 仕事の妥当性を検証するのに経験的な評価に頼るようになってきているが、被験者数は常に低く、一般的な被験者の多様性は弱い

以上の理由から評価がない(主に昔の論文)よりも現在の経験的研究を高く評価できるという明確な根拠は得られない。
コミュニティ内の信頼性を得るために主流の評価方法に依存する可能性が高い。

CHIでの評価に重点を置くと、分析的評価がほとんど含まれていないことは驚くべきことである。
これらのアプローチは、参加者の中立的な発言とは対照的に、専門家の意見を尊重する必要がある。
潜在的な弱点は、専門家の意見がバイアスの可能性もつという点。
CHIが分析的評価を含むことはめったにないということから、分析的評価はあまり有効ではないアプローチと見なれている。
このアプローチをとらないことによって、妥当性に関して提起された質問に回答することを回避しているように思えるのが懸念される点である。

潜在的なユーザーと評価するのは、大量のログを分析するか、さらに別の新しいユーザーインターフェイスでヒューリスティック評価分析を実行するよりも面白いだろう。その結果分析的評価は常にCHIにおいて少数である可能性が高いが評価方法の多様性に貢献する。

対して産業界では依然としてHeuristic EvaluationやCognitive Walkthroughのような分析的評価が重視されている。これは必ずしも科学的でないビジネス上の要求にこたえるためでもあると考えられる。

以下のような最近のHCI評価の重要な転換に論じる研究がある:

  • Evaluation experienceに向けた動き[25,27,35]
  • HCIにおける民族誌の役割について議論する研究[10]
  • CHIにおける評価デザイン[39]

Empirical Evaluation and its Importance in CHI

定量的評価は「勝者」として長らく検証のためのツールとして用いられてきたが、それだけで終わらずに質的評価研究が増加傾向にあることに著者らは肯定的である。
質的評価は状況(ユースケース?)に応じたユーザへの適合性を提示するのに役立つ。
定量的評価は特定の一連の問題にしか対応できないので、定性的評価と合わせて評価する必要がある。

Subject Selection and Limited Diversity

経験的評価で使用される被験者の数の変化は興味深いが、おそらく評価の質の改善または低下よりもむしろ評価の変化を示している。
しかし、むしろ少ない被験者で新しい技術が他のものより優れていると主張することを一般化することは難しくなる。
定性的研究は同程度まで一般化する必要がないので被験者の買うを減らすことが可能。
しかしながら、数の増加が必ずしも研究の妥当性を担保するとは限らない。実際定量的、定性的研究において、学生かつ男性の参加者が過度に大半を占めていたからである。これらを考慮するした実験デザインを行う必要がある。

結論

24年間にわたるHCI評価を反映して我々は一連の技術がどのように進化してきたのかを認識し、新しい技術に対応してこれを継続していくことになる。評価方法の分析では、科学者のコミュニティ(定量評価重視)か産業界のコミュニティ(定性評価重視)なのかによって重視される傾向が違うということを発見した。
若い分野は受け入れられる方法のコンセンサスが高まっていることからより科学的な方法による評価が好まれる。

メモ

  • 定量的評価だけでなく定性的評価も行うことで、定量評価がカバーできない点(ユーザインターフェースの使用上の問題点や改善点、または評価自体の問題点など)を議論でき、研究の深さにつながる
  • 定量的評価を行う場合は性別や年齢層の対象を考慮すべし

“This is how I want to learn”: High Functioning Autistic Teens Co-Designing a Serious Game (CHI2016)

  • Paper
    • Title: “This is how I want to learn”: High Functioning Autistic Teens Co-Designing a Serious Game
    • Authors:
    • Hyperlink:
    • Remark: CHI2016

一言でいうと

高機能自閉症患者と共同でのシリアスゲーム開発

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Scalable multi-label annotation (CHI2014)

  • Paper
    • Title: Scalable multi-label annotation
    • Authors:
name affiliation
Jia Deng University of Michigan & Stanford University, Ann Arbor, MI, USA
Olga Russakovsky Stanford University, Palo Alto, CA, USA
Jonathan Krause Stanford University, Palo Alto, CA, USA
Michael S. Bernstein Stanford University, Palo Alto, CA, USA
Alex Berg UNC Chapel Hill, Chapel Hill, NC, USA
Li Fei-Fei Stanford University, Palo Alto, CA, USA

一言でいうと

大規模画像データセットにもスケールする手動アノテーション方法の提案

概要

1つの画像に複数のラベルをつける人手のアノテーションにおいて効率的な手法を提案。
correlaion(相関)、hierarchy(階層性)、sparsity of the label distribution(ラベル分布のスパース性)を重視。
ケーススタディとして2万画像を使った200物体ラベル付与の実験を行い、有効性を検証。
結果としてナイーブなベースラインと比較して6倍のhuman computation time(作業時間)の削減を実現した。

先行研究と比べてここがすごい

大規模画像データに対してもスケールするところ

手法のキモ

image

correlation

「テーブル」が出てきたら「椅子」がよく一緒に出てくるように、ある画像に出現する物体には相関がある。この点を考慮してユーザに投げるクエリをグループ的な概念(例えばこの場合は「家具」)で提示できればもしabsenceとアノテーションした場合テーブルも椅子もないと効率的にアノテーションできる。

hierarchy

グループ化した概念には階層性が仮定できる。また人間は意味的な概念を階層的に構成して、すぐ上位概念に効率的に分類できる[17] (例えば、「動物の個体を分類する」のと「動物がいるかいないか」は同じスピードで判断できる)。

[17] Thorpe, S., Fize, D., Marlot, C., et al. Speed of processing in the human visual system. nature 381, 6582
(1996), 520–522.

sparsity

1つの画像は用意される数万カテゴリのうちせいぜい十数種類の物体しか含んでいないので得られるラベルセットはスパースになる。スパース性をうまく応用できれば、線形スケールの計算コストを対数スケールに削減することができる。

具体的な手法
image

有効性の評価

  • ナイーブな方法:N枚の画像に対してK個のラベルの2値(presence or absence)をつけるとしてNxK回のクエリを人間に投げる

評価尺度

Utility

U(Q)=E[|y|_1], Qはクエリでラベルは最初0:unknownで-1:no,1:yesで与えられるのでyの平均Utilityとして与えられる。
実際には、
n枚の画像、sを関心のあるカテゴリの物体の数(例:"animal", クエリQは"is there an animal present.")
n枚のうちn^-枚にはカテゴリ(動物)に該当する物体がないとすると、Qがnoの時はsの新しいラベルが得られる(全部no)、一方yesの時はs種類の動物のうちどの動物がいるかunknownになる。このときU(Q)=sn^-/n
ちなみに、low-levelのクエリ(例:"is there a cat present.")のUtilityは常に1(あるラベルについて必ず1か-1の値が代入されるから)

Cost

Cost C(Q)は1つのアイテム(クエリ?)に対して信頼できる回答を得るのにかかる人間の作業時間を表す。

  1. 小さな訓練セットで平均作業時間を測定する
  2. 回答に自信のある人間を発見するため多数決によるアプローチをとる。複数の作業者にクエリを投げるのにBernoulli processを仮定してある小さな訓練セットに対して確率p>0.5以上で正しい回答を行う平均的な作業者を推定することができる。
    Accuracyは下記から計算できる。
    image
    acceptable accuracy threshold 1-epsilonを与えた時、thresholdを超えるvoteの数がわかるので、C(Q)は必要とされる作業者の数作業者が回答をあたえる平均時間から計算できる。

クエリの選択ではクエリの階層性を仮定して次のように計算できる
image

結果

image

その他の議論

次に読むべき論文

コメント

Predicting Users’ First Impressions of Website Aesthetics With a Quantification of Perceived Visual Complexity and Colorfulness (CHI2013)

  • Paper
    • Title: Predicting Users’ First Impressions of Website Aesthetics
      With a Quantification of Perceived Visual Complexity
      and Colorfulness
    • Authors:
    • Hyperlink:
    • Remark: CHI2013

一言でいうと

ウェブサイトの色、構成がユーザに与える印象を調査

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Live Sketch: Video-driven Dynamic Deformation of Static Drawings (CHI2018)

  • Paper
    • Title: Live Sketch: Video-driven Dynamic Deformation of Static Drawings
    • Authors:
    • Hyperlink:
    • Remark: CHI2018

一言でいうと

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

How One Microtask Affects Another (CHI2016)

  • Paper
    • Title: How One Microtask Affects Another

    • Authors:
      Edward Newell McGill University, Montreal, Canada
      Derek Ruths McGill University, Montreal, Canada

    • Hyperlink:
      paper
      slides

    • Remark: CHI2016

一言でいうと

クラウドソーシング論文 複数のmicrotask (短時間のアノテーションタスク) をワーカーが行ったときのタスク間の相関が強いことを発見しそれを有効に活用する方法を提案

概要

microtask(5分以下で終わる小タスク)のプラットフォームは人間の研究やgold-standardデータをとったり大規模データのアノテーションに使われたりして普及してきているが。研究の焦点はいかにして高品質のアノテーションを得るかということであり、本論文ではほぼすべてのクラウドソーシングのタスクに共通して作業車に深刻な影響を与える一見平凡な特徴を特定する。
micro taskは通常共通のフォーマットを共有する一連のタスクから成る。標準的なマイクロタスクのフォーマットである画像へのラベル付けタスクにおいて、早期のタスクが後のタスクに強い影響を与え、未来のresponseの分布を30%-50%(total validation distance)もシフトさせる。
事前のタスクは作業者が焦点をあてる内容に影響を与え、同様に応答の豊富さや特殊化に影響を与える。この現象をintertask effects(タスク間効果)と呼ぶことにする。
論文ではintertassk effectsとframingを比較する。このとき、タスク依頼者の研究の興味関心による影響を考慮し、intertask effectsが同等もしくはより強いことを確認する。uncontrolledな条件下ではintertask effectsはsystematic biasの元になる可能性があるが、本論文の結果が示唆するのは、適切なタスク設計によって作業者の焦点と鋭敏さを増強し再現性のある専門家レベルの判断を導くt助けになる。intertask effectsはhuman computationにおいてどのクラウドソーシング研究においても考慮すべき重要な側面である。

先行研究と比べてここがすごい

タスクインタフェースの設計[14]、ワークフローの設計(作業をタスクに分割する方法)[24,17,25]、タスクのフレーム化 [23、7、33]など、マイクロタスクの信頼性に影響する要因が調査されてきた。対して本研究では見過ごされやすいマイクロタスクの特徴:作業者が多くの似たタスクを素早く連続して行う傾向にある点に注目している。

※この傾向の原因として、新しいタスクに取り組む際に認知的な負荷がかかる点[1]と
 次の仕事の選択で賃金や労力などの要素を測り直さねばならない点が指摘されている。
※連続してタスクを行う際、プライミング効果によって後のタスクが前のタスクの影響を受ける。

本論文の目的は、単純に前タスクと後タスクのaccuracyへの影響を調査するというのでなく、どの前タスクが後タスクに影響を与えるかを測る一般的な指標を提供することにある。

[14] A. Finnerty, P. Kucherbaev, S. Tranquillini, and G. Convertino. 2013. Keep it simple: Reward and task
design in crowdsourcing. In ACM International Conference Proceeding Series.
[24] A. Kittur, B. Smus, S. Khamkar, and R.E. Kraut. 2011. Crowdforge: Crowdsourcing complex work. In
Proceedings of the 24th annual ACM symposium on User interface software and technology. ACM, 43–52.
[17] E. Huang, H. Zhang, D.C. Parkes, K.Z. Gajos, and Y. Chen. 2010. Toward automatic task design: A progress report. In Workshop Proceedings - Human Computation Workshop 2010, HCOMP2010. 77–85.
[25] W.S. Lasecki, J.M. Rzeszotarski, A. Marcus, and J.P. Bigham. 2015. The Effects of Sequence and Delay on Crowd Work. CHI – Human Factors in Computing Systems (2015).
[23] P. Kinnaird, L. Dabbish, and S. Kiesler. 2012. Workflow transparency in a microtask marketplace. In Proceedings of the ACM 2012 International Conference on Support Group Work. 281–284
[7] Dana Chandler and Adam Kapelner. 2013. Breaking monotony with meaning: Motivation in crowdsourcing markets. Journal of Economic Behavior & Organization 90 (2013), 123–133.
[33] P.H. Thibodeau and L. Boroditsky. 2013. Natural language metaphors covertly influence reasoning. PloS one 8, 1 (2013), e52961.
[1] P.D. Adamczyk and B.P. Bailey. 2004. If not now, when?: The effects of interruption at different moments within task execution. In Conference on Human Factors in Computing Systems - Proceedings. 271–278.

手法のキモ

手法というか研究方針

  • 作業者の反応の分布が変化するのを測定する方法の導入
  • intertask effectsの強さを測定する方法の導入
  • intertask effectsがframingと同じかそれよりも強いことを示す
  • ある一連の似たマイクロタスクを完了すると作業者の反応はより特殊化して多様化することを示す

有効性の評価

実験では作業者は一連の画像にひとつずつラベル付けを行う。最初の5タスクは別の画像を使い、後の5タスクは同じ画像を使う。例えば、1つの実験ではある作業者グループはfoodを含む画像5枚を提示され、もう一方のグループは(foodを含まない)物体の画像5枚を提示される。後の5画像は両方のグループに対してfoodと(non-food) object両方が含まれた画像が提示される。

作業者の反応は前のタスクの影響を強く受ける(合計のvariational distanceが50%にもなる)
image

論文ではWordNetの知識ベースを用いて作業者の単語選択を分析しこの影響の性質を特定する。
※類似した一連の画像にラベルをつけると作業者の反応がより特殊化し、多様化することを示す。前の作業は局所的な焦点を移動させて画像の様々な側面に焦点を当てることができる。

他の比較点として、framing(フレーミング)の実験(タスクの目的を説明するか、資金提供者の名前をつけてマイクロタスクの割り当ての枠組みを変更する)を行った。

※framing effects: フレーミング効果は心理学の用語で2,000円と3,000円と4,000円のプランがあったら上下両方の間をとった真ん中の3,000円が選ばれやすくなるという心理現象のこと。中身は変わらないが相対評価できる対象を提示することによって印象を操作できることを意味している。

評価尺度

反応分布の変化を測る指標

total variational distanceを用いて分布の差を測る
image
thetaがtotal variational distanceを表し0~1(または0%~100%)をとる。theta=100%で2つの分布が全くオーバーラップしてない、theta=0%で2の分布は同じ分布であることを示す。図1のA、Bはそれぞれtheta=50%、30%の場合を示している。

実験設定

476人のAmazon Mechanical Turk(AMT)での作業者
各人はどれかの実験に一度だけ参加
各作業者はこれまで行ってきた作業の90%以上が著者ら以外の依頼者の仕事をこなしている
作業者はHIT(AMTにおけるタスクの単位)を受け入れるとランダムに2種類のサブ実験("food"と"culture")の内どちらか一つに割り当てられる。
サブ実験では、5つの画像へのラベル付けタスクを10タスク行う(おそらくこれで1HIT)。
ラベルの文字は最小2文字必要で作業者は0.45ドルを支払われた

その他の議論

次に読むべき論文

コメント

What Makes You Click: Exploring Visual Signals to Entice Interaction on Public Displays

  • Paper
    • Title:
    • Authors:
    • Hyperlink:
    • Remark: CHI2013

一言でいうと

いくつかの視覚的要素が入った画像のうち、どれをクリックしやすいかを調べた研究。カラーテキストの静止画が一番だった。

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

SpatialEase: learning language through body motion (CHI2013)

  • Paper
    • Title: SpatialEase: learning language through body motion
    • Authors:
    • Hyperlink:
    • Remark: CHI2013

一言でいうと

**感覚による言語学習のためのゲームを提案。音声指示に対して身体動作で回答する。

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

ロボットとのインタラクションにも使えそう

Teaching Language and Culture with a Virtual Reality Game (CHI2017)

  • Paper
    • Title: Teaching Language and Culture with a Virtual Reality Game
    • Authors:
    • Hyperlink:
    • Remark: CHI2017

一言でいうと

VR空間で言語学習効率が向上するか評価。アンケートと単語テストを実施。

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Crowdsourcing Performance Evaluations of User Interfaces

概要

クラウドソーシングによる評価は従来の研究室単位の評価実験と比べて、低コストで大規模に行えるという利点があるが、実験参加者(ワーカ)の環境や行動を直接制御することは難しく、集まるデータの品質に懸念が存在する。本研究ではこれを解決するためAmazon Mechanical Turk (AMT)での実行可能性を3つのユーザインターフェースの再評価実験から検討する。研究室レベルでの実験とオンライン(AMT)での実験設定の2つを比較したが、両者に統計的に有意な差は無かった(研究室レベルで有意差が出たものはオンラインでも同様に有意差が出た、効果量も似ていた)。また、タスク完了時間、エラー率、一貫性、または利用率も差がなかった。このことから、クラウドソーシングがユーザインターフェース評価のための補完的なアプローチとして有効である可能性を示唆している。

先行研究と比べてここがすごい

  • ラボ実験とAMT実験の2つを比較してクラウドソーシングがユーザインタフェース評価にも使える可能性を示した
  • 収集したデータ品質に関わる考慮事項をいくつか紹介した

手法のキモ

有効性の評価

3種類の実験設定

Split Menus

image
よく使うアイテム3つを一番上に表示するタスク。
アルファベット順に並べられた16の項目をそれぞれ含む3つのカテゴリ(Menu1、Menu2、Menu3)のメニューを使用。 各カテゴリの上部にある適応部分には、最も最近使用された3つのアイテムが含まれている。3アイテムは各ブロックの始めにランダムに初期化された。 各カテゴリについて、60個の選択肢のランダムシーケンスを生成し、選択肢の79%に対して目標部分が適応部分にあるように制約されている。 また、60個の選択肢の3つのシーケンスを無作為にシャッフルして、180個の選択肢の最終シーケンスを得た。
control conditionとして典型的な静的メニューデザインと比較(ただし、上に適応的なアイテムがないsplit menuというわけではない)

実験参加者は

  1. 練習として30の選択split menu練習ブロックを行う
  2. 90選択split menuブロックと90選択静的メニューブロックを交互にそれぞれ2回行う
評価尺度
  • 試行完了時間(カテゴリーヘッダーのクリックからカテゴリー内の正しい項目選択のクリックまでにかかった時間)
  • ブロックあたりのエラー数
    ※誤ったアイテムかカテゴリラベル(e.g. Menu1)をクリックするとエラーを記録
    ※しかし実質間違いはアイテムだけでカテゴリ間違いは不要だった
    タイミングデータから得られた歪んだ分布に対してlog変換を行い、repeated measures ANOVAを使用してWilcoxon signed-rank 検定を適用した
実験参加者
  • 研究室:14名(男性10名、女性4名) 年齢18-35歳(平均26歳)
  • AMT:アメリカ人ベースに96名(男性49名、女性47名)年来18歳-65歳(平均30歳)、approval rate 95%、1人最低500HIT行った
結果

AMTでは6名が入院中など医学的に問題があるまたは作業に障害のあるハードウェア装置があると報告されたのでデータを破棄。残り90名の参加者のうち1名は極端な外れ値として分類され分析から除外。
研究室レベルの実験では極端な外れ値はなし。

詳細な結果は表1と図2を参照。AMTと実験室で結果に有意な差はなかった。

Split Interface

image

  • 予測アルゴリズムの精度が50%の場合と70%の場合で比較
  • カテゴリは3つ(ブラウザ、ファイルタイプ、コンピュータデバイス)
  • 各カテゴリは3x3の正方形のグリッド上にアイテムが9つ(計27つ)
  • 適応ツールバーには計6つのアイテム

実験参加者は

  1. 練習ブロック1:10回選択する練習ブロックを行う(少なくとも1回はツールバーを使う、再度練習できる、ツールバーを使うように指示される)
  2. 練習ブロック2:60回選択する練習ブロックを行う(60%の確率で適応ツールバーにターゲットがある、ツールバーを使うか静的レギュラーメニューから選ぶかは参加者の裁量に任せる)
  3. 本番ブロック:60回選択の2ブロックを行う。ブロックの1つは対象項目を含む予測精度が70%で、もう1つは予測精度50%
    ※選択のシーケンスはすべての参加者で同じものを用いた 
評価尺度
  • 試行完了時間(「次へ」ボタンをクリックしてからレギュラーメニューまたは適応ツールバーでターゲットを選択するまでの時間)
  • ブロックあたりのエラー数
    ※誤ったアイテムかカテゴリをクリックするとエラーを記録
    タイミングデータから得られた歪んだ分布に対してlog変換を行い、repeated measures ANOVAを使用してWilcoxon signed-rank 検定を適用した
実験参加者
  • 研究室:10名の学生(男性6名、女性4名)21-34歳(平均26.5歳)
  • AMT:アメリカベースで92名(男性54名、女性38名)年来18歳-63歳(平均27歳)、approval rate 95%、1人最低500HIT行った
結果

AMT

  • 病状の報告や信頼性の低いポインティングデバイスを報告した6名の作業者のデータを破棄
  • 外れ値はなし
    研究室
  • 1名が著者らの分からない理由で極端なに作業が遅かったので外れ値として除外

詳細な結果は表1と図2を参照。

  • どちらもタスクの完了時間に予測精度が大きく影響していた。高精度条件の方がより速く、効果サイズに大きな差はなかった。
  • 高精度条件でエラーが小さくなったが、AMTで差は有意であり、研究室レベルでは有意でなかった。

Bubble Cursor

image
Bubble Cursorはカーソルのホットスポットのサイズが常に最も近いターゲットに重なるように動的に変化するポインティング拡張を行う。

  • Bubble Cursorは、2番目に近いターゲットと交差しない限り、最も近いターゲットを完全に含む(図4(b))
  • 交差しそうになる場合はカーソルのサイズが縮小されて輪郭を描く(図4(c))

5つの変数

  • カーソルタイプCT = {Point、Bubble}
  • 振幅A(ターゲットまでの距離)
  • 目標幅W
  • 有効幅と幅の比率EW/W:有効幅EW=W+他のターゲットよりも近い周囲の全てのピクセル(図4(d))
  • distracter density D:図4(d)に示されているように始点と目標点の間の20度スライスの中に含まれる目標点の密度
    実験ではW=12px, D=0.5, A=Uniform(200px,400px)としてCTとEW/Wは変化させて調べた。

実験参加者は

  1. 練習ブロックを行う:CT=Bubble, EW/W=3、30個の目標となる選択肢がある。参加者は最低一回バブルを使う必要がある。使わなかった場合は練習をやり直させる。練習では80回選ぶブロックを3ブロック行う。(CT=Point),(CT=Bubble, EW.W=3),(CT=Bubble, EW/W=1.33)がベースライン?それぞれをpoint、b3、b1と呼ぶ。
評価尺度
  • 試行完了時間(前のターゲットをクリックしてから現在のターゲットをクリックするまでの時間)
  • ブロックあたりのエラー数(エラーはターゲットをキャプチャしなかったクリックとして定義)
    タイミングデータから得られた歪んだ分布に対してlog変換を行い、repeated measures ANOVAを使用してFriedman検定を適用した
実験参加者
  • 研究室:13名(男性10名、女性3名)21-53歳(平均25歳)
  • AMT:アメリカベースで123名(男性65名、女性58名)年来18歳-68歳(平均27.5歳)、approval rate 95%、1人最低500HIT行った
結果

AMT

  • AMTでは9名が入院中など医学的に問題があるまたは作業に障害のあるハードウェア装置があると報告されたのでデータを破棄
  • 6名を外れ値として除外
    研究室
  • 1名がマウスの操作を誤って作業していたので除外

詳細な結果は表1と図2を参照。

  • カーソルタイプがタスクの時間に影響することをAMTで発見
  • (Bonferroni adustedによる)ペアワイズ比較はpoint--b3, b1--b3間でAMT、研究室レベルともに有意な差(p < 0.0001)を確認
  • point--b1はAMT、研究室レベルどちらも有意な差が出なかった
  • 効果量はAMTと研究室レベルで有意な差はなかった
  • 全ての参加者はpoint条件のときに最も大きいエラー、b3条件のとき最も小さいエラー
  • AMTでも研究室レベルでも、エラー率に対するカーソルタイプの影響は重要だった

AMTと研究室レベルの比較方法

  • タスク完了にかかった平均時間
  • 一貫性(参加者一人当たりのタスク完了時間の標準偏差)
  • エラー率
  • 新しいインタラクティブ手法の利用
  • 外れ値の参加者の割合
    image

#####Split Menu
AMT作業者の方が研究室参加者よりはわずかに速く、個々の標準偏差が小さく、使用率は高かったが、エラーが増加した。しかし差は有意ではなかった。差異も比較的小さく、2つの集団間のタスク完了時間の差は全てのデータを含めても3.5%、一致したデータの分析では2.8%だった。
2つの実験条件(静的メニューと分割メニュー)のパフォーマンスの差は8.4%(図2(b))より大きかった。

#####Split Interface
AMT作業者の方が研究室参加者より遅く、標準偏差が大きく、使用率が低く、エラーが増加した。しかし差は有意ではなかった。2つの集団間のタスク完了時間の差は、すべてのデータを含む分析では5.9%であり、一致したデータによる分析では6.3%であった。比較すると、2つの実験条件(前節で報告した)の性能差は13.1%より大きかった。

#####Bubble Cursor
AMT作業者の方が研究室参加者より遅く、標準偏差が大きく、使用率が低く、エラーが増加した。しかし差は有意ではなかった。2つの集団間のタスク完了時間の差は、すべてのデータを含む分析では3.0%であり、一致したデータでの分析では4.9%であった。比較すると、2つの実験条件(前のセクションで報告された)の間の性能差は16.4%より大きかった。

その他の議論

実践的に考慮すべき事項

Ensuring instruction comprehension

予備実験でAMTの作業者は新しく追加したユーザインターフェースの使用方法を理解していなかった。
たとえば、参加者の中には、バブルカーソルの中心をターゲット上に持ってくるものもあれば、スプリットインターフェイスの適応ツールバーを利用しない者もいた。
そのため、すべての参加者が各インターフェイスの内容を理解できるようにするために、参加者は練習中に少なくとも1回UIの新しい機能をテストする必要があった。もし使用しなければ、再び練習ブロックを繰り返させるという工夫を入れた。研究室レベルとAMTにおける使用率を比べてみても、この介入は有効だったといえる。

Accounting for age- and input device-related differences

年齢と入力デバイスの両方がポインティングやテキスト入力などの入力タスクのパフォーマンスに影響する。 年齢や入力デバイスの多様性をコントロールすることは、その影響をきちんと説明できない限りは必要で単純に集めただけでは被験者の比較は信頼できない可能性がある。 AMTの労働力の構成は1時間単位で変化するため、すべての条件を同時に実行して分析を行うことは、結果の信頼性にさらに寄与する一般的な設計選択だと言える。

Robust outlier detection

極端な外れ値は、平均および標準偏差の推定値に影響する。 したがって、平均から2標準偏差を超える値を排除する一般的な方法は、信頼性がない可能性がある。 本論文では代わりに、四分位間範囲に基づく方法を使用した。これは非常に極端な外れ値に対してはるかに頑強である。

Implementation issues

Bubble Cursor評価のようないくつかの実験は、参加者のコンピュータのハードウェアとソフトウェアのパフォーマンスに敏感である。
パフォーマンスの低いハードウェア/ソフトウェア構成を検出するための自動チェックと、インターフェースの更新を行うのにかかる実際の時間を記録した。
また、異なる参加者は異なるネットワーク接続を持つので、メディアの事前ローディングなどの標準的な手法を使用することで、実際の実験ではネットワークパフォーマンスが問題にならないように工夫した。

Encouraging honest reporting of problems

作業を完了した21名のAMT参加者は実験中にパフォーマンスに影響を与えたかもしれない障害や技術的困難性を報告した。報告しても報酬がきちんと得られることを保証することによって、正直な報告を奨励した。 これらの参加者からのデータを分析しなかったが、分析にそれらを含まないことは、データの全体的な高品質と外れ値が低いことに積極的に貢献したと考えられる。

次に読むべき論文

コメント

SPRWeb: preserving subjective responses to website colour schemes through automatic recolouring

  • Paper
    • Title: SPRWeb: preserving subjective responses to website colour schemes through automatic recolouring
    • Authors:
    • Hyperlink:
    • Remark: CHI2013

一言でいうと

Websiteの色を色覚障碍者向けにするツールはユーザの反応を考慮していないので、色覚障碍者も元のWebsiteが想定していた反応と同じような反応を受け取れるよう再着色する技術の提案

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Turkopticon: interrupting worker invisibility in amazon mechanical turk

一言で言うと

AMTにおいて人間による計算量は労働者が不可視であることに依存している。倫理的な側面から、労働者からもタスク依頼者を評価するTurkopticonを提案することで両者の価値を考慮したシステムを提案

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

不明、discussionベース

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Enabling People with Visual Impairments to Navigate Virtual Reality with a Haptic and Auditory Cane Simulation (CHI2018)

一言でいうと

視覚障碍者もVRを体験できるようにしようぜという研究。白杖がVR内の物体に当たると振動と音をフィードバックして教えてくれる。著者らはこのVR白杖(cane)を"Canetroller"と呼んでる。

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

先行研究[58,59]の視覚障碍者のnavigation challengeに基づく
実験参加者

  • 視覚障碍者25-40歳(平均32.4歳)
  • 5名のorientation and mobility (O&M)のインストラクター(視覚障碍者の横で先導する人),女性,26-49歳(平均34.2歳)

評価尺度

その他の議論

次に読むべき論文

コメント

VRがこれから流行ってくる中で先駆的な研究だと思う。

Teaching Language and Culture with a Virtual Reality Game (CHI2017)

  • Paper
    • Title: Teaching Language and Culture with a Virtual Reality Game
    • Authors:
    • Hyperlink:
    • Remark: CHI2017

一言でいうと

VRと非VRで言語学習にどのような影響があるか研究

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Exploring Privacy and Accuracy Trade-Offs in Crowdsourced Behavioral Video Coding (CHI2015)

  • Paper
    • Title: Exploring Privacy and Accuracy Trade-Offs in Crowdsourced Behavioral Video Coding

    • Authors:
      Walter S. Lasecki University of Rochester, Rochester, NY, USA
      Mitchell Gordon University of Rochester, Rochester, NY, USA
      Winnie Leung Carnegie Mellon University, Pittsburgh, PA, USA
      Ellen Lim Carnegie Mellon University, Pittsburgh, PA, USA
      Jeffrey P. Bigham Carnegie Mellon University, Pittsburgh, PA, USA
      Steven P. Dow Carnegie Mellon University, Pittsburgh, PA, USA

    • Hyperlink: paper

    • Remark: CHI2015

一言でいうと

クラウドソーシングのアノテーションでプライバシー保護のため画像にぼかしを加えると影響があるのか調査

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Setwise Comparison: Consistent, Scalable, Continuum Labels for Computer Vision (CHI2016)

  • Paper
    • Title: Setwise Comparison: Consistent, Scalable, Continuum Labels for Computer Vision
    • Authors:
Authors: name affiliation
Advait Sarkar Microsoft Research Cambridge & University of Cambridge, Cambridge, United Kingdom
  Cecily Morrison Microsoft Research, Cambridge, United Kingdom
  Jonas F. Dorn Novartis Pharma AG, Basel, Switzerland
  Rishi Bedi Novartis Pharma AG & Stanford University, Basel, Switzerland
  Saskia Steinheimer Inselspital, Bern University Hospital, Bern, Switzerland
  Jacques Boisvert Novartis Pharma AG, Basel, Switzerland
  Jessica Burggraaff VU University Medical Center, Amsterdam, Netherlands
  Marcus D'Souza University Hospital Basel, Basel, Switzerland
  Peter Kontschieder Microsoft Research, Cambridge, United Kingdom
  Samuel Rota Bulò Microsoft Research, Cambridge, United Kingdom
  Lorcan Walsh Norvatis Pharma AG, Basel, Switzerland
  Christian P. Kamm University Hospital Bern, Bern, Switzerland
  Yordan Zaykov Microsoft Research, Cambridge, United Kingdom
  Abigail Sellen Microsoft Research, Cambridge, United Kingdom
  Siân Lindley Microsoft Research, Cambridge, United Kingdom

一言でいうと

連続した映像のラベリングを高効率かつ一貫して行うためにsetwise comparisonと呼ばれる新しい方法を導入し、そのインターフェースを構築・検証

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

“With most of it being pictures now, I rarely use it”: Understanding Twitter’s Evolving Accessibility to Blind Users (CHI2016)

  • Paper
    • Title: “With most of it being pictures now, I rarely use it”: Understanding Twitter’s Evolving Accessibility to Blind Users
    • Authors:
    • Hyperlink:
    • Remark: CHI2016

一言でいうと

視覚障碍者がTwitterをどう使うか、課題は何か、健常者との違いは何かを検討

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

SelPh: Progressive Learning and Support of Manual Photo Color Enhancement (CHI2016)

  • Paper
    • Title: SelPh: Progressive Learning and Support of Manual Photo Color Enhancement
    • Authors:
    • Hyperlink:
    • Remark: CHI2016

一言でいうと

ユーザの好みに合わせて写真の色補正処理を逐次的に学習する直感的なインターフェースを提案

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Organic Primitives: Synthesis and Design of pH-Reactive Materials using Molecular I/O for Sensing, Actuation, and Interaction (CHI2017)

  • Paper
    • Title: Organic Primitives: Synthesis and Design of pH-Reactive Materials using Molecular I/O for Sensing, Actuation, and Interaction
    • Authors:
    • Hyperlink:
    • Remark: CHI2017

一言でいうと

pHに基づいて、"色", "香り", "形 "を定義。明確な評価はなし?

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Conversing with children cartoon and video people elicit similar conversational behaviors (CHI2014)

  • Paper
    • Title: Conversing with children cartoon and video people elicit similar conversational behaviors
    • Authors:
    • Hyperlink:
    • Remark: CHI2014

一言でいうと

ビデオでの会話において、アニメ調の3Dモデルアバターの人間が話し相手になっていても子供は実物の人間を相手にするときと同じような会話の振る舞いを行う(表情の変化など?)

概要

先行研究と比べてここがすごい

手法のキモ

有効性の評価

データセット

評価尺度

その他の議論

次に読むべき論文

コメント

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.