IPSJ情報処理カタログ #ジョーショリ

用語集

モダリティ

もだりてぃModality

概 要

モダリティとは、ユーザーインタフェースの分野では「様式」「様相」といった意味をもつ言葉で、情報の入出力が行われるコミュニケーション経路のことを指す。たとえばキーボードによるテキスト入力、音声による対話入力、ディスプレイに表示されるウィンドウ、スピーカーから流れるアナウンスなど、それぞれがユーザーインタフェースのモダリティになります。

解 説

コンピュータを利用するにあたって、人間とコンピュータの架け橋となるのがユーザーインタフェースです。そのユーザーインタフェースを構築するためのさまざまな手法を、総じてモダリティと呼んでいます。

さまざまなモダリティの特性を理解することは、使い勝手のいいユーザーインタフェースを構築する上で不可欠なことと言えます。

時として、ユーザーインタフェースは複数のモダリティを用意していることがあります。身近な例としてはスマートフォンの検索バーが挙げられるでしょう。スマートフォンの検索バーは、タッチパネルによるテキスト入力の他に、音声認識によるテキスト入力も可能です。使い勝手のいいユーザーインタフェースを構築する方法のひとつとして、使用状況に合わせてモダリティを選択できるようにしておく、というものがあります。

そしてこのようなユーザビリティの追求は、PCやスマートフォンに限ったことではありません。さまざまな電化製品や自動車など、人間が扱う機械をわかりやすく操作できるようにするという点においても、モダリティは重要視されています。

実現できること

  • ・ジェスチャや視線、音声などさまざまなモダリティを組み合わせ、より人間の知覚に合致したユーザーインタフェースの提案。
  • ・視覚や聴覚に障害のある人に向けた新たなユーザーインタフェースの提案。
  • ・音声入力なども含めた直感的なロボットの操作。
  • ・AIとの自然な対話。音声だけでなく身振り手振りも加えたコミュニケーションが可能に。
  • ・自動車のより安全な運転。運転中に必要な情報をわかりやすくユーザーに知らせる技術。

将来の展開

AIの進歩によって音声認識や画像認識の精度が向上し、モダリティとして十分実用的になりました。このような比較的新しいモダリティを複数組み合わせたユーザーインタフェースの研究も盛んに行われています。

たとえば音声認識使用時に、必要ない言葉や周囲の雑音を拾ってしまって、うまく入力できなかった経験は誰にもあるかと思います。そこに画像認識を加えることで、ユーザーがこちらを向いて口を開けているときだけ音声認識を行うといった処理ができれば、音声認識の使い勝手はかなり向上すると考えられます。

このように、複数のモダリティを組み合わせることをマルチモーダルインタフェースと言い、今後さまざまな分野での活用が期待されます。

PAGE TOP