如何进行有意义的 A/B 测试解读

Alex Moulder 作者 
Senior Account Manager

1 分钟阅读

订阅我们的每月简报

今年五月,我们的 ASO 负责人 Simon Thillay 发表了一篇博客,介绍了如何使用 A/B/B 测试方法运行可靠的 Google Play 实验。我们在为客户进行测试时开始实施此方法,在此过程中学到了很多关于测试的知识,但也遇到了一些挑战。我们发现 A/B/B 测试方法的一些最大挑战与可靠性有关,之后又面临着预估提升效果甚微以及结果同时支持正面和负面结果的挑战。以下是我们解读测试结果时考虑的一些事项。


设置您的测试

当您开始设置测试时,在设计阶段有几点需要记住。一个很好的起点是调查您所在类别和主要竞争对手的当前趋势。您可以从竞争对手及其已完成的测试结果中学习到很多。接下来,决定您想要测试哪个元数据元素。然后,针对您正在测试的元素以及您认为它将带来转化提升的原因,提出一个假设。最后,确保您能够隔离所做的更改,并且它与您的假设一致。如果同时测试多个元素,将不清楚究竟是哪个元素导致了提升的变化。提醒一下,当遵循 A/B/B 方法时,更容易识别不可靠的测试。通过在实验设置中对变体 B 和 C 使用相同的变体,“如果两个 B 样本提供相似的结果,那么这些很可能是真阳性,而如果它们的结果不同,其中一个很可能是假阳性。”不幸的是,没有办法知道哪个结果是假的。

查看关于 Google Play 实验中 A/B/B 测试的完整文章

检查您的可靠性

仍然可能存在这样的情况:被接受为可靠结果的相似度水平在不同测试之间略有差异,因为没有一个确切的数字来划定接受与否的界限。这取决于最佳判断以及对所测试元素和样本量的理解。但是,当结果都被认为是相似时,它们很可能是真阳性,可以进一步分析解读。

 此结果表明测试结果可靠,因为它们的值几乎相同。

此结果表明测试结果可靠,因为它们的值几乎相同。

在这里,我们看到变体 B 和 C 的结果值非常相似(它们是相同的),并且在任一方向上仅相差几度。此测试被认为是可靠的,从这里我们可以开始探讨这些结果真正告诉了我们什么。

解读影响较小的结果

一旦您完成了一项可靠的 A/B/B 测试,转化率的潜在变化可能在任一方向上都只有很小的百分比。虽然百分比可以比较不同测试元素的潜在结果,但重要的是要考虑相关的实际安装量以及预估的百分比变化。如果您正在为一款已经获得极高安装量的强大热门应用进行测试,您对预估百分比影响的看法可能会与一款目前用户群较小、每日安装量仅有几百的新发布应用有所不同。

即使不知道截图测试在样本量和安装量方面的量化值,我们也可以探讨结果可能表明的不同解读。但为了解释解读过程如何变化,我们将对两种不同的测试场景使用相同的结果。

此结果表明应用测试变体将带来小幅提升

此结果表明应用测试变体很可能带来小幅提升

场景 1:

正在进行一项截图测试,其中更新版本(变体 B 和 C)侧重于新发布的 应用 功能和现代截图设计,而当前版本则使用过时的 应用 内图像和基本布局。

在此场景中,结果不如预期有影响力有几个原因。首先,新功能没有以用户能够清晰识别其目的或价值的方式展示。其次,新截图过于侧重于有哪些新功能,而偏离了用户已经喜爱的热门功能。最后,新设计在说服新用户方面的影响力不如开发者所希望的那么大。

在此场景中,我们建议对两个版本之间的异同进行深入 分析,以找出哪些方面可能表现低于预期,无论是由于删除了特定图像和措辞还是添加了它们。

场景 2:

正在进行一项截图测试,其中包含略微更新的版本(变体 B 和 C),包括 2 张新的 应用 内功能图片,但整体设计与当前版本相同。结果显示仅有小幅提升,这实际上可能是预期结果。通过整体进行微小更改,其影响可能小于重新设计截图。

解读负面结果

在任何场景中,无论结果是高度负面还是轻微负面,了解其原因都非常重要。测试结束后,应完成对两个测试版本的全面 分析。

此结果表明应用测试变体将导致 转化 损失。

此结果表明应用测试变体很可能导致 转化 损失。

需要考虑的事项包括:

  • 当前版本和测试变体之间是否有足够的变化?
  • 价值主张是否仍然有效展示?
  • 新功能/产品更新是否足够特别,值得包含在截图中?
  • 最受欢迎的功能是否仍然有效传达?
  • 更新后的设计是否符合新趋势?

解读正面和负面结果

下面我们看到,结果表明应用测试版本可能会导致 转化 程度相似的提升或下降。那么这到底意味着什么呢?

此结果表明,如果应用测试变体,可能会导致提升的增加或减少。

此结果表明,如果应用测试变体,可能会导致提升的增加或减少。

看到测试结果同时显示提升的损失和收益可能会令人非常困惑。当您收到这样的结果时,它可能表明几件事,其中一些也可能适用于其他场景和结果。如果这些结果来自截图测试,则可能表明截图的变化不足以引起用户注意,或者对于此 应用 而言,截图在 转化 中没有发挥重要作用。如果这些是关于短 描述 的测试结果,它同样可能意味着短 描述 在 转化 中的作用不如您想象的那么大。

有些情况下,即使结果不确定或为负面,您也可能希望应用测试元素。例如,如果用户界面或游戏玩法有更新,最好始终显示 应用/游戏的最新版本。

尽管每个 A/B/B 测试都会根据商店列表的测试部分创建不同的研究和 分析 元素,但我们希望这能为您提供一些见解,了解在不同类型的结果出现后应考虑哪些问题。要 分析 您的 竞争对手 正在测试什么以及他们的测试结果,请开始免费试用 AppTweak。

开始 7 天免费试用


Alex Moulder
作者 , Senior Account Manager
Alex is an ASO Manager at AppTweak helping apps increase their visibility. She has a passion for animals, reading, and like the rest of the AppTweak team, good food.