page icon

ユーザビリティテスト

ユーザビリティテストはなぜ重要か?

簡単に言うと、ユーザビリティテストは「新しい家電製品のモニター調査」のようなものです。家電メーカーは、新しい製品を発売する前に、一般の消費者に実際に使ってもらい、「ボタンの位置が分かりにくい」「この操作が直感的でない」「説明書を読まないと使えない」といった問題を発見します。開発者や設計者は製品に詳しいため、問題に気づきにくいのですが、初めて使う人の視点で評価することで、隠れた使いにくさが明らかになります。デジタルプロダクトも同じで、開発チームは製品の隅々まで理解していますが、実際のユーザーはそうではありません。ユーザビリティテストを通じて、実際のユーザーがどこでつまずき、どこで迷い、どこでフラストレーションを感じるかを観察し、改善することで、顧客満足度を大きく向上させることができます。
もう少し正確に言うと、ユーザビリティテストは実際のユーザーに製品やプロトタイプを使ってもらい、その使いやすさ、使いごこち、タスク達成率、エラー率などを定量的・定性的に評価するプロセスです。顧客の使い勝手の評価を数値的な裏付けを持って改善することで、思い込みをもってしまいやすいデザインの分野においても、データで評価できます。ユーザー調査と異なり、ユーザビリティテストはニーズの検証ではなく、ある程度動作する製品やプロトタイプに対しての使いやすさを評価していきます。タスク達成率、タスク完了時間、エラー発生率、主観的満足度などの指標を測定し、継続的に改善することで、ユーザーエクスペリエンスの質を科学的に向上させることができます。
具体的には、Googleは検索エンジンのUIを変更する際、必ず複数のバリエーションをA/Bテストし、ユーザビリティ指標に基づいて最適な選択をしています。彼らは「青色のリンクの色合いを41種類試して、クリック率が最も高い色を選ぶ」といった徹底的なテストを実施しており、このような検索結果ページ全体の最適化により年間広告収益を大きく増加させたことで知られています。Amazonも、購入プロセスのあらゆるステップでユーザビリティテストを実施し、1クリックでも減らせないか、1秒でも短縮できないかを追求しています。国内では、ZOZOが購入プロセスのユーザビリティを継続的に測定し、商品検索から購入完了までのステップ数や所要時間を指標として改善を続けています。freeeも、「確定申告が初めての人でも迷わず完了できるか」をユーザビリティテストで検証し、操作の簡素化に徹底的にこだわっています。これらの企業は、ユーザビリティを一度確認して終わりにするのではなく、継続的に測定し、改善するプロセスとして組織に組み込んでいます。

ユーザビリティの3つの評価尺度

ユーザビリティテストを正しく運用することで、ユーザーインタフェースにおける問題を早期に発見し、製品を使用する際の離脱要因を減らすことができます。ISO9241-11:2018では、ユーザビリティを「特定のコンテキストにおいて、特定のユーザによって、ある製品が、特定の目標を達成するために用いられる際の、効果、効率、ユーザの満足度の度合い」と定義しています。
第一の尺度は効果です。ユーザーが目標とするタスクを完了できるかを評価します。たとえば、「新規アカウントを作成する」というタスクにおいて、何パーセントのユーザーが成功したかを測定します。効果の問題は、製品として致命的であり、最優先で解決すべきです。ユーザーがタスクを完了できない場合、どんなに美しいデザインでも価値はありません。
第二の尺度は効率です。ユーザーが目標を達成するためにどれだけの時間やステップを要したかを評価します。タスク完了時間、クリック数、エラー発生回数などを測定します。現実的には、効果問題から優先的に解決し、時間とコストの制限内で効率問題に対応するアプローチが推奨されます。効率の改善は、ユーザーの日常的な作業負荷を軽減し、長期的な満足度を高めます。
第三の尺度は満足度です。ユーザーが製品を使用した際の主観的な快適さや好ましさを評価します。SUS(System Usability Scale)という標準化された質問票を使用すれば、ユーザーの主観的な満足度を0〜100点のスコアで評価できます。満足度は、定量的な効果や効率だけでは捉えきれない、感情的な側面を評価する重要な指標です。ただし、主観的な満足度と客観的な行動データは乖離することがあるため、両方をバランス良く評価することが重要です。
ユーザビリティの3つの評価尺度

定性的テストと定量的テストの使い分け

ユーザビリティテストには、定性的テストと定量的テストの2つのアプローチがあり、目的に応じて使い分けることが重要です。
定性的テストは、UI要素における被験者の振る舞いを直接観察する手法です。少人数(通常5〜10人程度)のユーザーに製品を使ってもらい、彼らがどこで迷い、どこでつまずき、どのような感情を抱くかを観察します。Nielsen Norman Groupの研究によれば、5人程度のテストで主要な問題の85%を発見できるとされています。定性的テストの価値は、「なぜその問題が発生するのか」という背景を深く理解できることです。ユーザーの発言(シンクアラウド法/Think Aloud法:ユーザーが操作中に頭の中で考えていることを声に出し続けてもらう手法)を記録し、彼らの思考プロセスを把握することで、問題の根本原因を特定できます。
定量的テストは、タスク成功率、実施時間、学習効率などのパフォーマンス指標を計測する手法です。統計的に意味のある結論を得るには、最低でも20〜30人程度のサンプルが必要です。定量的テストは、「どの程度の問題か」を数値で評価でき、改善前後の効果を客観的に測定できます。たとえば、UI改善により「タスク成功率が70%から90%に向上した」「平均完了時間が5分から3分に短縮した」といった形で効果を示せます。3名以下の少なすぎるサンプルの結果に振り回されることは避けるべきアンチパターンです。
実務では、定性的テストで問題を発見し、定量的テストで改善効果を検証するという組み合わせが効果的です。また、開発中だけでなく、リリース後も入力エラーやタスク時間などを計測し、継続的に製品を健全に保つことが重要です。
定性テストと定量テストの使い分け

カテゴリ内クライテリアの解説

DESIGN-7-1: ユーザビリティパフォーマンステストを行い、タスク達成率などを継続的または周期的にトラッキングしているか

目的: タスク達成率などの定量指標により、ユーザビリティの改善効果を客観的に評価することが目的です。主観的な印象ではなく、データに基づいて判断することで、改善の優先順位を適切につけることができます。
実装のポイント: ユーザビリティパフォーマンステストでは、代表的なユーザータスク(たとえば「新規アカウントを作成する」「商品を検索して購入する」「レポートを出力する」など)を定義し、実際のユーザーに実行してもらいます。その際、タスク達成率(タスクを完了できたユーザーの割合)、タスク完了時間(タスクを完了するまでにかかった時間)、エラー率(タスク中に発生したエラーの回数)、ヘルプ参照回数などを測定します。これらの指標をベースライン(初回測定値)として記録し、UI改善後に再度測定することで、改善効果を定量的に評価できます。四半期ごと、または主要なUI変更後など、定期的に測定することで、ユーザビリティの退行を防ぎ、継続的な向上を実現します。測定結果はダッシュボードで可視化し、チーム全体で共有します。
注意点: タスク達成率だけを見ると、誤解を招くことがあります。たとえば、達成率は100%でも、完了時間が非常に長い、または多くのエラーを経て達成している場合、ユーザー体験は良くありません。複数の指標を総合的に評価することが重要です。また、測定対象のタスクが実際のユーザー行動を反映していないと、意味のない指標になります。実際のアクセスログやユーザーインタビューから、本当に重要なタスクを特定します。

DESIGN-7-2: 新規・既存顧客について継続的にユーザビリティの変化がないか示すメトリクス(タスクの成功率など)を計測し、それをもとに改善を行っているか

目的: 継続的な測定により、ユーザビリティの退行を早期に発見し、対応することが目的です。新機能の追加や既存機能の変更により、意図せずユーザビリティが悪化することがあります。
実装のポイント: 新規ユーザーと既存ユーザーでは、製品に対する習熟度が異なるため、それぞれ別の指標で測定します。新規ユーザーに対しては、オンボーディング完了率、初回タスク達成率、アクティベーション率などを測定します。既存ユーザーに対しては、主要機能の利用率、平均タスク完了時間、エラー発生率などを測定します。これらの指標を週次または月次で自動収集し、トレンドを監視します。指標が悪化した場合、原因を調査し、直近のリリースやUI変更が影響していないかを確認します。問題が特定されたら、緊急で修正するか、次のスプリントで改善策を実装します。また、新規ユーザーと既存ユーザーで異なるUI体験を提供することも検討します。たとえば、新規ユーザーにはガイドやツールチップを多く表示し、既存ユーザーには簡潔なUIを提供するといった工夫です。
注意点: 指標の変化がすべて問題とは限りません。季節変動、キャンペーンによる新規ユーザーの急増、市場環境の変化など、外部要因による変動もあります。単純に指標だけを見るのではなく、背景を理解した上で判断することが重要です。また、既存ユーザーが慣れているUIを変更すると、一時的にユーザビリティ指標が悪化することがあります。これは「変化への抵抗」であり、長期的には改善されることもあります。短期的な指標悪化だけで元に戻すのではなく、中長期的なトレンドを見ることが大切です。

DESIGN-7-3: プロダクトチーム自身が顧客の業務や活動を再現する環境が整備されていて、習慣的にユーザビリティを体感して気づきを得ているか

目的: ドッグフーディング(自社製品の利用)により、ユーザー視点での気づきを得ることが目的です。データだけでは見えない、実際の使用感や感情的な反応を体験できます。
実装のポイント: プロダクトチームのメンバーが定期的に、実際のユーザーと同じ環境で製品を使用する機会を設けます。たとえば、B2B向けのプロダクトであれば、実際の顧客の業務フローを再現したテスト環境を構築し、チームメンバーがその業務を体験します。週に一度、「ドッグフーディングデー」を設定し、チーム全員が製品を使い、気づいた問題をSlackやNotionに記録します。また、新しいメンバーがチームに参加した際、オンボーディングの一環として製品を実際に使ってもらい、初めて使う人の視点からのフィードバックを収集します。これらの気づきは、週次のプロダクト会議で共有し、改善のアイデアソースとして活用します。
注意点: プロダクトチームのメンバーは製品に詳しすぎるため、初心者がつまずくポイントに気づきにくいことがあります。意識的に「初めて使う人の視点」を持つことが重要です。また、社内で使う環境と実際の顧客環境が異なる場合(ネットワーク速度、デバイス、ブラウザなど)、気づきが現実と乖離することがあります。可能な限り、実際の顧客環境に近い条件でテストすることが望ましいです。

DESIGN-7-4: プロダクトのリリース後も入力エラーやタスク時間などを計測しているか

目的: 実運用データの分析により、テストでは見つからなかった課題を発見することが目的です。実際のユーザーの多様な使い方は、テスト環境では再現しきれません。
実装のポイント: プロダクトに計測ツール(Google Analytics、Mixpanel、Amplitude、Hotjarなど)を組み込み、ユーザーの行動データを収集します。特に重要なのは、フォーム入力エラー(どのフィールドでエラーが多発するか)、タスク完了時間(期待値と実測値の乖離)、離脱率(どのステップで多くのユーザーが離脱するか)、エラーメッセージの表示頻度などです。これらのデータを週次または月次で分析し、問題のある箇所を特定します。たとえば、「パスワード入力フィールドでエラーが多発している → バリデーションルールが厳しすぎる」「決済ステップで離脱率が高い → 入力項目が多すぎる」といった仮説を立て、改善策を実装します。また、ヒートマップツール(Hotjar、Crazy Egg)を使えば、ユーザーがどこをクリックし、どこまでスクロールしているかを視覚的に把握できます。
注意点: データ収集には、ユーザーのプライバシーへの配慮が不可欠です。個人情報保護法やGDPRなどの法規制に準拠し、適切な同意を得た上でデータを収集します。また、データを収集しただけで満足してしまい、実際の改善に繋げないケースが多くあります。定期的にデータレビュー会議を開催し、発見した課題をプロダクトロードマップに反映させるプロセスが重要です。

DESIGN-7-5: 自己申告メトリクスなどを用いて、印象を含めた満足度のテストをおこなっているか

目的: 定量的な使いやすさだけでなく、主観的な満足度も重要な指標です。タスクは完了できても、ユーザーが「使いにくい」と感じていれば、長期的には離脱につながります。
実装のポイント: ユーザビリティテストの最後に、SUS(System Usability Scale)という標準化された質問票を使用します。SUSは10項目の質問で構成され、ユーザーの主観的な満足度を0〜100点のスコアで評価できます。業界平均は68点程度で、自社製品のスコアを比較できます。また、個別のタスク後に「このタスクの実行は簡単でしたか」「このタスクの実行に満足していますか」といった5段階評価で質問します。自由記述欄も設け、「特に使いにくいと感じた点」「改善してほしい点」を収集します。これらの定性的なフィードバックは、定量データだけでは見えない改善のヒントを提供します。四半期ごとにSUSスコアを測定し、トレンドを監視します。
注意点: 自己申告メトリクスは、ユーザーの主観に依存するため、実際の行動データと乖離することがあります。たとえば、ユーザーは「満足している」と答えていても、実際にはほとんど使っていないケースもあります。主観的な満足度と客観的な行動データの両方を見ることで、より正確な理解が得られます。また、SUSの質問文は英語から翻訳されたものが多く、日本語として不自然な表現になることがあります。必要に応じて、文化的に適切な表現に調整します。

DESIGN-7-6: ユーザー調査(何が課題かの発見)とユーザビリティテスト(使い心地が良いか、どのような印象を抱いたか)を区別せず同時に行ってしまう(アンチパターン)

目的: このアンチパターンは、ユーザー調査とユーザビリティテストが目的が異なり、適切に使い分ける必要があることを強調しています。混同すると、どちらの目的も中途半端になります。
実装のポイント: ユーザー調査とユーザビリティテストを明確に区別します。ユーザー調査は、プロダクト開発の初期段階で「ユーザーが抱えている課題は何か」「どのようなニーズがあるか」を探索的に発見するプロセスです。一方、ユーザビリティテストは、ある程度形になったプロトタイプや製品に対して「使いやすいか」「タスクを完了できるか」を評価するプロセスです。それぞれ異なるタイミング、異なる手法、異なる質問設計で実施します。ユーザー調査ではオープンな質問(「日常でどのような課題を感じていますか」)を中心に使い、ユーザビリティテストでは具体的なタスク(「この画面から新規アカウントを作成してください」)を与えて観察します。混同して実施すると、インタビュアーもユーザーも何を目的としているのか混乱し、価値のあるフィードバックが得られません。
注意点: 実務上、完全に分離するのが難しいケースもあります。ユーザビリティテストの最後に「ついでに今後欲しい機能はありますか」と聞いてしまうことはよくあります。これ自体は悪くありませんが、メインの目的を見失わないことが重要です。また、両方を同時に実施する場合でも、時間を明確に分け、「前半はユーザビリティテスト、後半はニーズのヒアリング」といった構成にすることで、混乱を避けられます。

DESIGN-7-7: 事業KPIとの関連の薄い些細な項目ばかりに時間を使ってしまう(アンチパターン)

目的: このアンチパターンは、ユーザビリティテストがビジネスインパクトの大きい項目に焦点を当てるべきことを示しています。限られたリソースを効果的に使うことが重要です。
実装のポイント: ユーザビリティテストの対象を選定する際、事業KPIへの影響を基準にします。たとえば、E-Commerceサイトであれば、購入完了率、カート放棄率、平均購入金額などが重要なKPIです。これらのKPIに直接影響を与えるユーザージャーニー(商品検索、カート追加、決済プロセス)を優先的にテストします。一方、ほとんどのユーザーが訪れないページや、ビジネスインパクトの小さい機能は、優先度を下げます。また、テスト結果をKPIと紐づけて報告することで、経営層やステークホルダーがユーザビリティ改善の価値を理解しやすくなります。たとえば、「決済プロセスのユーザビリティを改善した結果、購入完了率が5%向上し、月間売上が〇〇万円増加しました」といった形で報告します。
注意点: ビジネスインパクトだけを重視すると、小さいが重要なユーザー体験の改善を見落とすことがあります。たとえば、アクセシビリティの問題は、ユーザー数は少ないかもしれませんが、社会的責任として対応すべき課題です。KPIとのバランスを取りながら、多様なユーザーのニーズにも配慮することが重要です。また、短期的なKPIだけでなく、長期的な顧客満足度やブランドイメージへの影響も考慮する必要があります。

DESIGN-7-8: 3名以下の少なすぎるユーザビリティテスト対象者の結果に振り回されてしまう(アンチパターン)

目的: このアンチパターンは、統計的に意味のあるサンプルサイズを確保することが信頼性の高い結果を得るために重要であることを示しています。
実装のポイント: ユーザビリティテストのサンプルサイズは、テストの目的によって異なります。定性的な課題発見を目的とする場合、Nielsen Norman Groupの研究によれば5人程度で主要な問題の85%を発見できるとされています。しかし、定量的な指標(タスク達成率、完了時間など)を統計的に評価する場合は、最低でも20〜30人程度のサンプルが必要です。また、複数のユーザーセグメント(新規ユーザーと既存ユーザー、年齢層、業種など)がある場合、各セグメントごとに十分なサンプルを確保します。3名以下の結果は、あくまで探索的な示唆として扱い、それだけで大きな意思決定をしないようにします。少数のフィードバックをもとに仮説を立て、より大規模なテストや定量データで検証するアプローチが安全です。
注意点: サンプルサイズを増やすには、時間とコストがかかります。リソースが限られている場合、定性的な課題発見には5人程度で実施し、重要な変更を検証する際には大規模なサンプルで実施するなど、目的に応じて使い分けることが現実的です。また、社内メンバーや友人・家族をテスト対象にすると、バイアスがかかるため、できる限り実際のターゲットユーザーを対象にすることが重要です。

参考資料・ツール

参考書籍・記事

スティーブ・クルーグ著『Don't Make Me Think』(邦訳『超明快Webユーザビリティ ―ユーザーに「考えさせない」デザインの法則』、ビー・エヌ・エヌ新社)は、ユーザビリティの基本原則を分かりやすく解説した古典的名著です。直感的なデザインの重要性が学べます。
ヤコブ・ニールセン著『Usability Engineering』は、ユーザビリティテストの理論と実践を体系的にまとめた専門書です。テスト設計、サンプルサイズ、分析手法などが詳述されています。

関連するフレームワーク

SUS(System Usability Scale)は、10項目の質問で製品のユーザビリティを0〜100点で評価する標準化された手法です。業界平均と比較でき、継続的な改善の指標として活用できます。
ヒューリスティック評価(Heuristic Evaluation)は、ユーザビリティの専門家がニールセンの10原則などの基準に照らし合わせて製品を評価する手法です。実際のユーザーテストの前に専門家が主要な問題を洗い出すことで、効率的に改善できます。
タスク分析(Task Analysis)は、ユーザーが目標を達成するために実行する一連のステップを分解し、各ステップでの課題を特定する手法です。ユーザビリティテストで評価すべきタスクを設計する際の基礎となります。

推奨ツール

Hotjarは、ヒートマップ、セッション録画、ユーザーフィードバック機能を統合したツールで、実際のユーザー行動を視覚的に把握できます。どこでユーザーがつまずいているかが一目で分かります。
UserTestingは、リモートユーザビリティテストのプラットフォームで、世界中のテスト参加者を募集し、彼らが製品を使う様子を録画で確認できます。多様なユーザーセグメントで大規模なテストを実施する際に便利です。
Lookbackは、リモートでユーザビリティテストを実施し、参加者の画面と音声を録画できるツールです。リアルタイムで観察することも、後から録画を見返すこともできます。
Mazeは、プロトタイプを使ったユーザビリティテストを自動化できるツールです。Figmaのプロトタイプと連携し、タスク達成率、完了時間、クリックパスなどを自動測定できます。

ユーザビリティテストのクライテリア