アプリの使い方で似たユーザを探す
アクセスログの時系列変化に着目したスマートフォンユーザの分析

ケース
2021-02-07

研究の概要

背景と課題

近年、スマートフォン(以下、スマホ)は急速に世界中で普及してきており、日本国内における世帯スマホ保有率も、2010年には10%弱だったのが、2018年には80%近くまで増加している(総務省「平成30年通信利用動向調査」)。それに伴い、モバイルアプリのユーザ獲得競争も激化している。

アプリ会社がユーザに対してアプリのダウンロードや起動を促すための戦略的な手法の1つとして、推薦システムが用いられている。推薦システムとは、特定のユーザに対して有用であると考えられるコンテンツを選択し提示するシステムである。

協調型推薦は、あるユーザに対し、その人と「類似するユーザ」が選んだものを推薦する、という手法である。これをアプリの推薦に応用するには、同じ時間帯に同じ種類のアプリをよく使っているユーザ(アプリに対する嗜好と使用パターンが似ているユーザ)が同じグループに含まれるように、ユーザを分類する必要がある。

そこで本研究は、1日を24の時間帯に分け、時間帯毎のアプリカテゴリ別アクセス頻度やアクセス日数の割合を用いて特徴量を定義し、その特徴量間の非類似度を用いてユーザをグループ分けすることを目的とする。

時間帯別に得られるデータのような、時系列データの非類似度を測るさまざまな手法が存在するが、本研究では、動的時間伸縮法(DTW)を用いる。DTWは2つの時系列データの非類似度を測る時に、時間のシフトと歪みの影響を最小化するように時間軸をずらす変換処理である。

スマホアプリの利用は朝方と昼休みに比較的多く、また、夕方から夜にかけて増加し、深夜から明け方にかけて減少するといった傾向がある。個人の生活パターンによりこの使用傾向にずれが生じることから、DTWはユーザの時系列特徴量の類似度指標となることが期待できる。

データ分析

使用データ

本研究では、産学連携プロジェクトとして共同研究を行うアプリ分析支援企業、フラー株式会社が十分な説明のもとに許諾を得たユーザの、スマートフォン上でのアプリの起動ログや、インストールログなどを個人が特定できない形で収集したデータのなかから、2019年4月1日から同年6月30日までのアプリの起動ログとアプリ情報データを使用する。

ログはデバイス毎に、いつどのアプリIDを持つアプリをアクセスしたかという形の記録データであり、デバイスID、アクセス日と時刻及びアプリIDを含んでいる。デバイスIDはデバイスを統一識別するために与えたランダム値である。また、アプリIDからは、属するカテゴリを特定できる。

ここで、平日・休日時間帯とカテゴリの特徴量を生成する準備として、ログとアプリ情報データを結合し、アクセス日が土日であるログには休日ラベルを、それ以外には平日ラベルを与える。そして、アクセス時刻によって0~23時の時間帯ラベルtを付ける。

対象期間に毎日少なくとも1回のログがあるデバイスのうち、ログ総数とログのある日別時間帯総数の双方が上位20%に入るデバイス集合を求め、そこからログ総数が外れ値となるものを取り除いた集合を分析対象デバイス集合Dとする。

アプリaに対して、分析対象デバイスによるログが少なくとも一つはある日をアプリaが起動された日とし、その日数が対象期間日数の80%以上のもののうち、ログ総数が外れ値となるものを除いた集合を分析対象アプリ集合Aとする。

分析対象アプリが属するカテゴリの集合をCとする。各カテゴリに対して、アクセス日数の対象期間日数に対する割合が10%以下のデバイスが、カテゴリcのアプリにアクセスしたことがあるデバイス集合の50%以上であるカテゴリ集合をCˆとする。CからCˆを除いたものを分析対象カテゴリ集合Cとする。分析対象カテゴリ集合に属するカテゴリは25個である。

解析手法

平日と休日に分けた時間帯毎に分析対象カテゴリ毎のアクセス頻度とアクセスログがある日数の割合を算出し、デバイスdによる各平日時間帯に対するアクセス頻度の時系列特徴量fwd、各平日時間帯に対するアクセス日数割合の時系列特徴量pwdを求めた。休日の時系列特徴量も同様にfsdpsdを定義した。

DTWでは、2つの時系列データ間の時間帯ペアのシーケンスQ = (q1, q2, …, qK)を求める。このとき、シーケンスQが満たすべき条件として想定されるのは、(1)時間の順序と連続性、(2)時間帯ペアの最大時間差制限δ、(3)シーケンスの巡回の有無(巡回するならその開始時間帯)の3つである。

非類似度を尺度として得られる分析対象デバイス間の非類似度を基づき、非階層クラスタリングのk-medoids法を用いてデバイスをクラスタリングする。

評価・実証

分析対象デバイスの全体的な特徴量を検証した。各カテゴリのアクセス頻度の平均から、平日と休日ともに、深夜1時から朝6時までの時間帯に全体的にアクセス頻度が低いことが言える。

平日と休日では大きな違いはなく、特にカテゴリへのアクセスという点では似ているが、アクセスの時間帯が多少前後にずれているカテゴリも存在しているので、この点に関し得DTWが有効であると考える。

各カテゴリのアクセス日数割合の平均から、全体的に深夜に低くなる傾向が分かるが、休日は平日より顕著であることが言える。

異なるDTW条件下の非類似度の効果を比較するために、非類似度の異なる設定を用いて、分析対象デバイスの各時系列特徴量の平均と最も類似する3デバイスと最も類似していない3デバイスの時系列特徴量を求めた。具体的な非類似度のDTW条件の設定は表1で表す(以下、DTW非類似度1、2、3と呼ぶ)。

非類似度(1)時間の順序と連続性(2)時間帯ペアの最大時間差制限δ(3)シーケンスの巡回の有無
10
23
33有、巡回が始まる時間帯は1
表1 DTW非類似度の条件設定

その結果、非類似度3がもっとも時間帯の変化トレンドの違いを捉えていることが分かった。ゆえに、他の非類似度よりも非類似度3の方が分析対象デバイスの時系列特徴量に適すると言える。

そこで、非類似度3を用いて各時系列特徴量に基づいたデバイス間の類似関係をグラフ化した。アクセス日数割合によるグラフでは、最も大きなクラスタはクラスタの中心に凝集した。一方で、アクセス頻度によるグラフでは、最も大きなクラスタはクラスタの中心に凝集しなかった。

これにより、アクセス頻度よりアクセス日数割合の方が分析対象デバイスの時系列特徴量としてクラスタに分けやすいと考える。以降、分析対象デバイスの時系列特徴量としてアクセス日数割合のみを扱う。

k-medoids法で得られたクラスタリング結果から、クラスタの代表点とクラスタ平均の特徴量に基づき、各グループがアプリの使用特徴と使用パターンについて考察を行った。

平日休日でアプリへのアクセスの仕方が大きく変わり、異なる特徴のカテゴリに移るようなデバイスは少数であり、多くは平日休日に関わらず、同じような習慣でスマホアプリを利用していると言えることが分かった。

成果と提案

本研究では、アンドロイドスマホのユーザのログデータとアプリ情報データに基づいて、まず、分析対象デバイス、分析対象アプリ及び分析対象カテゴリを抽出し、カテゴリに対する時間帯毎のアクセス頻度やアクセス日数割合を分析対象デバイスの時系列特徴量として定義した。

そして、個人の生活パターンによって生じる起動分布の時間的なゆがみやずれを適切に扱うために、時系列特徴量の非類似度を、DTWを用いて定義し、巡回条件を入れた非類似度が本分析に適していることが分かった。

この非類似度を用いてデバイス間の類似性をグラフにより可視化した結果から、アクセス頻度よりアクセス日数割合の方がクラスタに分かれやすいと言える

平日と休日それぞれのアクセス日数割合を分析対象デバイスの時系列特徴量として測ったデバイス間の非類似度に基づいて、最短距離法とk-medoids法を用いて分析対象デバイスのクラスタリングを行った。多くは平日休日に関わらず、同じような習慣でスマホアプリを利用していることが分かった。

この記事は、下記の論文を要約したものです

楊 雨璇(2020)アクセスログの時系列変化に着目したスマートフォンユーザの分析、2019年度 筑波大学 大学院 博士課程 システム情報工学研究科 修士論文。