의미 있는 AB 테스트 해석을 하는 방법

Alex Moulder 에 의한 
Senior Account Manager

1 분이면 완독 가능

월간 뉴스레터 구독하기

5월에 저희 ASO 책임자인 Simon Thillay는 A/B/B 테스트 방법을 사용하여 신뢰할 수 있는 Google Play 실험을 실행하는 방법에 대한 블로그를 게시했습니다. 저희는 고객을 위한 테스트를 수행하면서 이 방법을 구현하기 시작했으며, 이 과정에서 테스트에 대해 많은 것을 배웠지만 몇 가지 어려움에도 직면했습니다. A/B/B 테스트 방법의 가장 큰 문제점 중 일부는 신뢰성과 관련되어 있었으며, 추정되는 상승 효과가 매우 적고 긍정적 및 부정적 결과를 모두 선호하는 문제에 직면하기 전이었습니다. 다음은 테스트 결과를 해석하면서 고려했던 몇 가지 사항입니다.


테스트 설정

테스트 설정을 시작할 때 설계 단계에서 기억해야 할 몇 가지 사항이 있습니다. 시작하기 좋은 방법은 귀하의 카테고리와 주요 경쟁 앱의 현재 트렌드를 조사하는 것입니다. 경쟁 앱과 그들이 완료한 테스트 결과로부터 많은 것을 배울 수 있습니다. 다음으로, 어떤 메타데이터 요소를 테스트하고 싶은지 결정하십시오. 그런 다음 테스트하려는 요소와 그것이 전환율 상승을 가져올 것이라고 생각하는 이유에 대한 가설을 세우십시오. 마지막으로, 변경 사항을 분리할 수 있고 가설과 일치하는지 확인하십시오. 여러 요소가 동시에 테스트되면 어떤 요소가 실제로 상승 효과를 유발했는지 불분명해집니다. 참고로, A/B/B 방법을 따를 때 신뢰할 수 없는 테스트를 식별하기가 더 쉽습니다. 실험 설정에서 변형 B와 C에 동일한 변형을 사용함으로써, “두 B 샘플이 유사한 결과를 제공하면 이는 참 양성일 가능성이 높지만, 다른 결과를 보이면 둘 중 하나는 거짓 양성일 가능성이 높습니다.” 안타깝게도 어떤 결과가 거짓인지 알 수 있는 방법은 없습니다.

Google Play 실험을 통한 A/B/B 테스트에 대한 전체 게시물 확인

신뢰성 확인

신뢰할 수 있는 결과로 받아들여지는 유사성 수준이 테스트마다 약간 다를 수 있는 상황이 여전히 있을 수 있습니다. 이는 허용 여부의 경계를 정확히 정하는 숫자가 없기 때문입니다. 이는 최선의 판단과 테스트된 요소 및 샘플 크기에 대한 이해에 달려 있습니다. 그러나 두 결과가 모두 유사하다고 간주될 때, 이는 참 양성일 가능성이 높으며 추가 해석을 위해 분석될 수 있습니다.

 이 결과는 테스트 결과의 값이 거의 동일하므로 신뢰할 수 있음을 보여줍니다.

이 결과는 테스트 결과의 값이 거의 동일하므로 신뢰할 수 있음을 보여줍니다.

여기서 우리는 동일했던 변형 B와 C의 결과 값이 매우 유사하며, 양방향으로 몇 도 정도만 차이가 나는 것을 볼 수 있습니다. 이 테스트는 신뢰할 수 있는 것으로 간주되었으며, 여기에서 결과가 실제로 무엇을 의미하는지에 대한 질문을 시작할 수 있습니다.

영향이 적은 결과 해석

신뢰할 수 있는 A/B/B 테스트를 달성한 후에는 전환율의 잠재적 변화가 양방향으로 낮은 백분율일 수 있습니다. 백분율은 테스트된 다른 요소들의 잠재적 결과를 비교할 수 있게 해주지만, 관련된 설치의 실제 정량적 가치와 추정된 백분율 변화를 고려하는 것이 중요합니다. 이미 매우 높은 설치 수를 기록하는 강력하고 인기 있는 앱에 대한 테스트를 수행하는 경우, 추정된 백분율의 영향을 현재 일일 설치 수가 수백 개에 불과한 소규모 사용자 기반을 가진 새로 출시된 앱과는 다르게 생각할 수 있습니다.

샘플 크기 및 설치자와 관련하여 스크린샷 테스트와 관련된 정량적 값을 알지 못하더라도, 결과가 무엇을 나타낼 수 있는지에 대한 다양한 해석을 탐색할 수 있습니다. 그러나 해석 과정이 어떻게 달라질 수 있는지 설명하기 위해 두 가지 다른 테스트 시나리오에 동일한 결과를 사용할 것입니다.

이 결과는 테스트된 변형을 적용하면 작은 상승 효과가 발생할 것임을 보여줍니다.

이 결과는 테스트된 변형을 적용하면 작은 상승 효과가 발생할 가능성이 높음을 보여줍니다.

시나리오 1:

새로 출시된 앱 기능과 현대적인 스크린샷 디자인에 초점을 맞춘 업데이트된 버전(변형 B 및 C)으로 스크린샷 테스트가 진행되고 있으며, 이는 오래된 앱 내 이미지와 기본적인 레이아웃을 가진 현재 버전에 대비됩니다.

이 시나리오에서 결과가 예상만큼 영향력이 크지 않은 몇 가지 이유가 있습니다. 첫째, 새로운 기능이 사용자가 그 목적이나 가치를 명확하게 식별할 수 있는 방식으로 표시되지 않습니다. 둘째, 새로운 스크린샷은 사용 가능한 새로운 기능에 너무 집중하여 사용자들이 이미 좋아하는 인기 기능에서 너무 멀어졌습니다. 마지막으로, 새로운 디자인은 개발자가 기대했던 만큼 신규 사용자를 설득하는 데 큰 영향을 미치지 못했습니다.

이 시나리오에서는 두 버전 간의 차이점과 유사점에 대한 심층 분석을 수행하여 특정 이미지와 문구를 제거하거나 추가하는 것 때문이든, 예상보다 낮은 성과를 보이는 원인을 파악하는 것을 제안합니다.

시나리오 2:

새로운 기능의 앱 내 이미지 2개를 포함하는 약간 업데이트된 버전(변형 B 및 C)으로 스크린샷 테스트가 진행되고 있지만, 전체적인 디자인은 현재 버전과 동일합니다. 상승 효과에 작은 변화만을 나타내는 결과는 실제로 예상된 결과일 수 있습니다. 전반적으로 사소한 변경만으로는 스크린샷을 재설계하는 것보다 영향이 적을 가능성이 높습니다.

부정적인 결과 해석

어떤 시나리오에서든, 결과가 매우 부정적이든 약간 부정적이든, 그 이유를 아는 것이 중요합니다. 테스트 후에는 두 테스트 버전을 비교하는 전체 분석이 완료되어야 합니다.

이 결과는 테스트된 변형을 적용하면 전환율 손실이 발생할 것임을 나타냅니다.

이 결과는 테스트된 변형을 적용하면 전환율 손실이 발생할 가능성이 높음을 나타냅니다.

고려해야 할 사항은 다음과 같습니다:

  • 현재 버전과 테스트된 변형 사이에 충분한 변화가 있었습니까?
  • 가치 제안이 여전히 효과적으로 표시되고 있습니까?
  • 새로운 기능/제품 업데이트가 스크린샷에 포함될 만큼 특별합니까?
  • 가장 인기 있는 기능들이 여전히 효과적으로 전달되고 있습니까?
  • 업데이트된 디자인이 새로운 트렌드와 일치했습니까?

긍정적 및 부정적 결과 모두 해석

아래에서 우리는 테스트 버전을 적용하면 전환율이 비슷한 정도로 개선되거나 감소할 수 있음을 결과가 나타내는 것을 볼 수 있습니다. 그렇다면 정확히 무엇을 의미할까요?

이 결과는 테스트된 변형을 적용하면 상승 효과가 증가하거나 감소할 수 있음을 나타냅니다.

이 결과는 테스트된 변형을 적용하면 상승 효과가 증가하거나 감소할 수 있음을 나타냅니다.

상승 효과의 손실과 이득을 모두 보여주는 테스트 결과를 보는 것은 상당히 혼란스러울 수 있습니다. 이러한 결과를 받을 때 몇 가지를 나타낼 수 있으며, 그 중 일부는 다른 시나리오 및 결과에도 적용될 수 있습니다. 이러한 결과가 스크린샷 테스트에서 나온 것이라면, 스크린샷의 변화가 사용자가 알아차릴 만큼 충분하지 않았거나, 이 앱의 경우 스크린샷이 전환율에 큰 역할을 하지 않는다는 것을 나타낼 수 있습니다. 이러한 결과가 짧은 설명에 대한 테스트에서 나온 것이라면, 마찬가지로 짧은 설명이 생각했던 것만큼 전환율에 큰 역할을 하지 않는다는 것을 의미할 수도 있습니다.

결과가 결정적이지 않거나 부정적이더라도 테스트된 요소를 적용하고 싶은 상황이 있을 수 있습니다. 예를 들어, 사용자 인터페이스 또는 게임 플레이에 업데이트가 있는 경우 항상 앱/게임의 최신 버전을 표시하는 것이 가장 좋습니다.

각 A/B/B 테스트는 스토어 목록의 어떤 부분이 테스트되는지에 따라 연구하고 분석할 다른 요소를 생성하겠지만, 이 글이 다양한 유형의 결과에 따라 고려해야 할 질문에 대한 통찰력을 제공하기를 바랍니다. 경쟁 앱이 무엇을 테스트하고 있는지, 그리고 그들의 테스트 결과를 분석하려면 AppTweak에서 무료 체험을 시작하십시오.

7일 무료 체험 시작


Alex Moulder
에 의한 , Senior Account Manager
Alex is an ASO Manager at AppTweak helping apps increase their visibility. She has a passion for animals, reading, and like the rest of the AppTweak team, good food.