意味のあるABテストの解釈方法
5月に、当社のASOヘッドであるSimon Thillayが、A/B/Bテスト方式を使用して信頼性の高いGoogle Play実験を実施する方法についてのブログを投稿しました。クライアントのテストを実施する中でこの方法を導入し始め、その過程でテストについて多くを学びましたが、同時にいくつかの課題にも直面しました。A/B/Bテスト方法の最大の課題は、信頼性に関するものでした。その後、予測される上昇率が非常に小さいことや、ポジティブとネガティブの両方の結果が出るという課題に直面しました。以下は、テスト結果を解釈する際に考慮した点です。
テストの設定
テストの設定を開始する際、設計段階で覚えておくべきことがいくつかあります。まず、カテゴリーと主要競合アプリの現在のトレンドを調査することから始めるのが良いでしょう。競合他社とその完了したテストの結果から多くを学ぶことができます。次に、テストしたいメタデータ要素を決定します。そして、テストする要素に関する仮説を立て、なぜそれがコンバージョンの向上につながると考えるのかを明確にします。最後に、変更点を分離できることを確認し、それが仮説と一致していることを確認します。複数の要素を同時にテストすると、どの要素が実際に上昇率の変化を引き起こしたのかが不明確になります。念のため、A/B/B方式に従うと、信頼性の低いテストを特定しやすくなります。実験設定で両方のバリアントBとCに同じバリアントを使用することで、「両方のBサンプルが同様の結果を示せば、それらは真の陽性である可能性が高く、異なる結果を示す場合は、どちらか一方が偽陽性である可能性が高い」とされています。残念ながら、どちらの結果が偽であるかを知る方法はありません。
Google Play実験でのA/B/Bテストに関する完全な投稿をご覧ください
信頼性の確認
信頼できる結果として受け入れられる類似性のレベルは、テストごとに若干異なる場合があります。これは、受け入れられるか否かの境界線となる正確な数値が存在しないためです。最終的には、テストされた要素とサンプルサイズを理解した上での最善の判断によります。ただし、両方の結果が類似していると判断された場合、それらは真の陽性である可能性が高く、さらなる解釈のために分析することができます。

この結果は、テスト結果がほぼ同一の値を示しており、信頼性が高いことを示しています。
ここでは、同一のバリアントBとCの結果が非常に似ており、わずかな差異しかないことがわかります。このテストは信頼性があると判断され、ここから結果が実際に何を示しているのかについて検討を始めることができます。
小さな影響の結果の解釈
信頼性の高いA/B/Bテストを達成した後、コンバージョンの潜在的な変化が両方向で低い割合である可能性があります。パーセンテージは、テストされた異なる要素の潜在的な結果を比較することを可能にしますが、関連するインストール数の実際の定量的価値と予測されるパーセンテージの変化の両方を考慮することが重要です。すでに非常に高いインストール数を誇る強力で人気のあるアプリのテストを実施する場合、日々のインストール数が数百程度の新規リリースアプリとは異なり、予測されるパーセンテージの影響を異なる視点で考える必要があるかもしれません。
サンプルサイズとインストール数に関する定量的な値を知らなくても、スクリーンショットテストの結果が示唆することについて、さまざまな解釈を探ることができます。しかし、解釈プロセスがどのように異なり得るかを説明するために、同じ結果を2つの異なるテストシナリオで使用します。

この結果は、テストしたバリアントを適用すると小さな上昇が得られる可能性が高いことを示しています
シナリオ1:
新しくリリースされたアプリ機能とモダンなスクリーンショットデザインに焦点を当てた更新版(バリアントBとC)と、古いアプリ内画像と基本的なレイアウトを持つ現行版とのスクリーンショットテストを実施しています。
このシナリオでは、結果が期待ほど影響力がない理由がいくつかあります。まず、新機能がユーザーにその目的や価値を明確に識別できる方法で表示されていないことです。次に、新しいスクリーンショットが新機能の紹介に重点を置きすぎており、ユーザーがすでに愛用している人気機能から大きく外れてしまっています。最後に、新しいデザインが開発者の期待ほど新規ユーザーを説得する効果を持っていないということです。
このシナリオでは、特定の画像やフレーズの削除または追加が原因で期待よりも低いパフォーマンスとなっている可能性について、2つのバージョン間の違いと類似点を深く分析することをお勧めします。
シナリオ2:
現行バージョンと同じ全体的なデザインを維持しながら、2つの新しいアプリ内画像を含む若干更新されたバージョン(バリアントBとC)でスクリーンショットテストを実施しています。上昇率のわずかな変化を示す結果は、実際には予想された結果かもしれません。全体的な変更が小さい場合、スクリーンショットの完全な再設計に比べて影響が少なくなる可能性が高いです。
ネガティブな結果の解釈
どのようなシナリオでも、結果が大きくネガティブであれ、わずかにネガティブであれ、その理由を理解することが重要です。テスト後は、テストした2つのバージョンを比較する完全な分析を行う必要があります。

この結果は、テストしたバリアントを適用するとコンバージョンが低下する可能性が高いことを示しています。
考慮すべき点:
- 現行バージョンとテストしたバリアントの間に十分な変更がありましたか?
- 価値提案は効果的に表示されていますか?
- 新機能/製品アップデートはスクリーンショットに含めるほど特別なものですか?
- 最も人気のある機能は依然として効果的に伝えられていますか?
- 更新されたデザインは新しいトレンドに合致していますか?
ポジティブとネガティブの両方の結果の解釈
以下では、テストバージョンを適用すると、同程度のコンバージョンの改善または低下が起こり得ることを結果が示しています。これは具体的に何を意味するのでしょうか?

この結果は、テストしたバリアントを適用すると、上昇率が増加または減少する可能性があることを示しています。
上昇率の損失と利益の両方を示すテスト結果を見るのは非常に混乱する可能性があります。このような結果を受け取った場合、いくつかのことを示している可能性があり、その一部は他のシナリオや結果にも当てはまるかもしれません。これがスクリーンショットテストの結果である場合、スクリーンショットの変更がユーザーが気付くほど十分でなかったか、このアプリではスクリーンショットがコンバージョンに大きな役割を果たしていない可能性があります。これが簡単な説明文のテスト結果である場合も同様に、簡単な説明文が考えていたほどコンバージョンに大きな役割を果たしていない可能性があります。
結果が結論に至らないか、ネガティブであっても、テストした要素を適用したい場合があります。例えば、ユーザーインターフェースやゲームプレイのアップデートがある場合、常にアプリ/ゲームの最新バージョンを表示することが最善です。
各A/B/Bテストでは、ストアリスティングのどの部分をテストしているかによって、研究・分析すべき要素が異なりますが、これが異なる種類の結果に対してどのような質問を検討すべきかについての洞察を提供できることを願っています。競合他社が何をテストしているか、そのテストの結果を分析するには、AppTweakの無料トライアルを開始してください。
Carmen Longo
Simon Thillay
Marie-Laure Cruyt