AI in ASO: Developing a New Model for Mining User Reviews
Since December 2022, ChatGPT has emerged as the flagship for artificial intelligence (AI) in the digital industry. The technology demonstrates impressive capabilities to produce qualitative human readable summaries out of a very large corpus of texts. In fact, not only can ChatGPT write concisely and clearly, it is also a great technology to reproduce a human answer in a very large variety of contexts.
With data science being at the heart of our platform, we, at AppTweak, took notice of the technology and started investigating how to leverage it. One crucial aspect of ASO where we thought of using ChatGPT is user reviews. Early experiments we’ve made for replying to reviews have convinced us to help our clients use the technology for that particular purpose.
With our own experience in building Atlas, the first store specific semantic engine, we saw an opportunity to put GPT to the test. We wanted to research if a dedicated AI model could be more performant to extract the most valuable insights left by users in app reviews on the app stores.
Identifying GPT technology limitations for a benchmark
When we asked ChatGPT what were the most common topics in the user reviews of Netflix for iOS, the first thing that struck us was that the answer was extremely intelligible and identified elements that seemed very likely to be mentioned by iPhone and iPad users.

But while ChatGPT is extremely skilled at writing summaries, and its speed opens new horizons for automation, the generic nature of the topic it highlighted also led to new questions:
- Could we trace back a topic to a specific corpus of reviews?
- Could we quantify the prevalence of a topic over another, both in general and when looking at a specific review?
- Could we retrace when a particular topic emerged in reviews?
As we investigated the answers, we found that ChatGPT, as a generalist technology, presents one particular flaw for the very specific topic we wanted to use it for. Its access to one of (if not) the largest pool of information in the world risked making it too smart for our purpose, as it might become tempted to produce answers based on information outside the App Store and Google Play. Specifically, it may get influenced by other sources, and could lead to an answer that contradicted factual reviews or did not reflect proportionally certain topics.
For ASO practitioners like us, this meant we could consider ChatGPT for suggesting which topics to look for in reviews, but using it for more directional insights would, at the very least, require a good amount of supervision and control on input.
Since this contradicted our initial ambition, we decided to try another model.
Find out how you can use ChatGPT to optimize your ASO efforts
Applying semantic machine learning to user reviews
With a very large collection of app reviews stored in our databases (we collect user reviews from all the apps and all countries followed by our clients), we were able to experiment with unsupervised machine learning techniques that would focus on word frequencies and their associated semantics.
With this method, not only was the input more specific but the only task for our operator would be to choose a number of distinctive topics for the model to identify. From there, the model is able to determine by itself what were the “x” most distinctive topics in the total amount of reviews given to it, and then look at any specific review and give it a score for each topic it identified.

This, in turn, gave us satisfaction with the limitations we had found with ChatGPT:
- Any topic can now be traced back to a subset of reviews read by the model.
- Any past and future review can also receive a score for each topic.
This implies that we can not only identify more than one topic per review but also monitor the quantitative evolution of a topic over time, allowing for alerts when a particular topic suddenly appears.
This last benefit is not to be underestimated, as it also helps overcome one of the most frequent biases in human review monitoring, which is to instinctively look for topics we expect to find.

When testing our model on Netflix’s 1-star and 2-star reviews in the US (iOS), we were surprised to find that the topic of removed content had become particularly prominent around September 2022 after Netflix removed the Vampire Diaries series from their platform.
Turning app review topics into marketing successes
Of course, knowing the most prominent topics is not enough to make an app successful. Nevertheless, it is an essential first step.
- Understand the pain points identified by users: Being aware of product issues is extremely beneficial for product managers who need to ensure the app’s quality (and deliver healthy product vitals). Putting a score on user suggestions can also help make data-based decisions when it comes to adjusting a product roadmap.
- Emphasize positive reviews: App store reviews and ratings have a much larger impact these days. Not only do Google and Apple often remind app developers that their average rating can be a crucial factor for them to be featured on the App Store or Play Store, but studies have also shown store users can be very mindful of user reviews before downloading an app.Apptentive’s 2020 report highlighted how a jump from a 3-star average rating to 4-star was likely to deliver a 92% increase in conversion rate. Highlighting positive reviews in app store screenshots has also become somewhat of a best practice for apps looking to inspire trust in their product or wanting to highlight a particular feature.
Our own experience has also led us to great success when a review mining analysis helped identify a comparative advantage for one of our managed services clients. We leveraged this advantage as inspiration for designing a custom product page on iOS, which we then used in Apple Search Ads campaigns to target competitors’ brand names. This resulted in a 58% conversion rate improvement and lowered the Cost Per Install by nearly 40%.
Our team has since continued experimenting with our semantic review mining model, making improvements to assist apps with a limited number of reviews per month in a given market. We also made a few thought experiments on how to compare review topics across app clusters. All in all, this has comforted our belief in the potential of AI for ASO, and will continue adding more data-science powered functionalities in our platform.
If you want to keep learning about how we use AI at AppTweak and benefit from our latest functionalities, sign-up for a 7-day free trial.
ASOにおけるAI:ユーザーレビューマイニングの新しいモデルの開発
2022年12月以降、ChatGPTはデジタル業界における人工知能(AI)の代表格として登場しました。この技術は、非常に大きなテキストコーパスから質的で人間が読みやすい要約を作成する印象的な能力を実証しています。実際、ChatGPTは簡潔かつ明確に書くことができるだけでなく、非常に多様なコンテキストで人間の回答を再現する優れた技術でもあります。
データサイエンスが当社プラットフォームの中核にあることから、AppTweakでは、この技術に注目し、それをどのように活用するかの調査を開始しました。
初のストア固有のセマンティックエンジンであるAtlasの構築における独自の経験により、GPTをテストする機会を見出しました。専用のAIモデルが、アプリストアのアプリレビューでユーザーが残した最も価値のあるinsightsを抽出するために、より高性能であるかどうかを研究したいと考えました。
ベンチマークのためのGPT技術の限界の特定
iOS向けNetflixのユーザーレビューで最も一般的なトピックは何かをChatGPTに尋ねたとき、最初に印象的だったのは、回答が非常に理解しやすく、iPhoneとiPadユーザーが言及する可能性が非常に高いと思われる要素を特定していたことでした。

しかし、ChatGPTは要約の作成に非常に長けており、そのスピードは自動化の新たな地平を開く一方で、強調されたトピックの一般的な性質は新たな疑問も生み出しました:
- トピックを特定のレビューコーパスまで遡ることができるでしょうか?
- 一般的に、また特定のレビューを見る際に、あるトピックの他のトピックに対する優勢度を定量化できるでしょうか?
- 特定のトピックがレビューに現れた時期を遡ることができるでしょうか?
回答を調査する中で、汎用技術としてのChatGPTが、私たちが使用したい非常に特定のトピックに対して一つの特定の欠陥を示すことを発見しました。世界最大級の情報プールの一つ(もしくは最大)へのアクセスは、App StoreとGoogle Play以外の情報に基づいて回答を作成する誘惑に駆られる可能性があるため、私たちの目的には賢すぎるリスクがありました。具体的には、他のソースの影響を受ける可能性があり、事実に基づくレビューと矛盾したり、特定のトピックを比例的に反映しない回答につながる可能性がありました。
私たちのようなASO実践者にとって、これはレビューで探すべきトピックを提案するためにChatGPTを検討できることを意味しましたが、より方向性のあるinsightsに使用するには、最低でも入力に対する十分な監督と制御が必要でした。
これが私たちの当初の野心と矛盾したため、別のモデルを試すことにしました。
ChatGPTを使用してASOの取り組みを最適化する方法をご確認ください
ユーザーレビューへのセマンティック機械学習の適用
データベースに保存されている非常に大きなアプリレビューのコレクション(クライアントがフォローしているすべてのアプリとすべての国からユーザーレビューを収集しています)により、 単語の頻度とそれに関連するセマンティクスに焦点を当てた教師なし機械学習技術を実験することができました。
この方法により、入力がより具体的になっただけでなく、オペレーターの唯一のタスクは、モデルが識別する特徴的なトピックの数を選択することでした。そこから、モデルは与えられたレビューの総量において最も特徴的な「x」個のトピックが何であったかを自分で決定し、その後任意の特定のレビューを見て、識別した各トピックに対してスコアを与えることができます。

これにより、ChatGPTで発見した限界に対する満足を得ることができました:
- 任意のトピックを、モデルが読み取ったレビューのサブセットまで遡ることができるようになりました。
- 過去および将来のレビューも、各トピックに対してスコアを受け取ることができます。
これは、レビューごとに複数のトピックを識別できるだけでなく、時間の経過に伴うトピックの定量的進化を監視することもできることを意味し、特定のトピックが突然現れた際のアラートを可能にします。
この最後の利点は過小評価すべきではありません。これは、人間のレビュー監視における最も頻繁なバイアスの一つである、見つけることを期待するトピックを本能的に探すことを克服するのにも役立ちます。

米国(iOS)におけるNetflixの1つ星および2つ星レビューでモデルをテストした際、Netflixがプラットフォームからヴァンパイア・ダイアリーズシリーズを削除した後の2022年9月頃に、削除されたコンテンツのトピックが特に顕著になったことを発見して驚きました。
アプリレビューのトピックをマーケティングの成功に変える
もちろん、最も顕著なトピックを知るだけでは、アプリを成功させるには十分ではありません。それでも、これは不可欠な第一歩です。
- ユーザーが特定した問題点を理解する:製品の問題を認識することは、アプリの品質を確保(および健全な製品バイタルを提供)する必要があるプロダクトマネージャーにとって非常に有益です。ユーザーの提案にスコアを付けることは、製品ロードマップを調整する際にデータに基づいた意思決定を行うのにも役立ちます。
- ポジティブなレビューを強調する:アプリストアレビューと評価は、今日ではるかに大きな影響を与えています。GoogleとAppleは、平均評価が
App StoreやPlay Storeでフィーチャーされる ための重要な要因になり得ることをアプリ開発者にしばしば思い出させるだけでなく、研究では、ストアユーザーがアプリをダウンロードする前にユーザーレビューを非常に気にかけることも示されています。Apptentiveの2020年レポートでは、3つ星の平均評価から4つ星への上昇が、コンバージョン率の92%向上をもたらす可能性があることが強調されました。アプリストアのスクリーンショットでポジティブなレビューを強調することは、製品への信頼を促したり、特定の機能を強調したいアプリにとって、ある種のベストプラクティスにもなっています。
AppTweakがアプリレビューでキーワード分析を実行し、ユーザーが何について話しているかを特定するのにどのように役立つかをご確認ください
私たち自身の経験でも、レビューマイニング分析がマネージドサービスクライアントの一つの比較優位を特定するのに役立った際に、大きな成功を収めました。この優位性を
私たちのチームは、その後もセマンティックレビューマイニングモデルの実験を続け、特定の市場で月あたりのレビュー数が限られているアプリを支援するための改善を行いました。また、アプリクラスター間でレビュートピックを比較する方法についていくつかの思考実験も行いました。全体として、これはASOにおけるAIの可能性に対する私たちの信念を強固にし、プラットフォームにより多くのデータサイエンス駆動機能を追加し続けることになります。
AppTweakでのAIの使用方法について学び続け、最新の機能から恩恵を受けたい場合は、7日間の無料トライアルにサインアップしてください。
Georgia Shepherd
Micah Motta