BigQueryのキホン、アクセスログ解析:ナレッジハイライト2023年11月号(8月~10月実施分)
アタラ合同会社マーケティングコンサルティングチームです。
アタラでは、「アタラ道場」という勉強会を開催しています。この勉強会では、広告プラットフォームのアップデートについての共有や、昨今のマーケティングトレンドに留まらず、メンバーそれぞれの強みを活かしたナレッジの共有を、毎回一人のコンサルタントが「師範」となって持ち回りで行っています。
2023年8月~10月に実施した「アタラ道場」の一覧は以下のとおりです。
8月2日:ユーザーインサイトを探ろう(小澤師範)
8月9日:Google Analytics 4の学習用Tips紹介(阿部師範)
8月16日:運用型広告パートがほぼない提案のご紹介(高瀬師範)
8月23日:時系列データベースってなに?(児玉師範)
8月30日:「楽天データを活用したCriteo広告」について(箕浦師範)
9月6日:BigQueryのキホンをもう少し分かりやすく(澤田師範)
9月13日:UI/UXを仕事としている人の考え方に触れて(神岡師範)
9月20日:育休どうだった?育児と仕事の両立って?(免許皆伝 赤坂塾講師陣)
10月4日:アクセスログ解析(本山師範)
10月11日:行動経済学の紹介(恩田師範)
10月18日:広告スクリプトで実現できることの紹介(星野師範)
10月25日:機械学習について(小湾師範)
今回は上記から2回分をピックアップしてふりかえります。
BigQueryのキホンをもう少し分かりやすく
この回は澤田師範による、「BigQueryのキホンをもう少し分かりやすく」についての講義でした。
師範曰く、少し前まではBigQueryのようなデータウェアハウスを使うのはエンジニアに限られていたようですが、最近だと職種に関わらず使う人が少しずつ増えている印象を持たれているとのこと。そこで改めて同ツールの特徴について稽古いただきました。
BigQueryとは
BigQueryとは、Google Cloud Platform(以下、GCP)で提供されているデータウェアハウス(以下、DWH) サービスです。さまざまなシステムからデータを集めて整理するデータベースで、いわばデータの「倉庫」の役割を持ちます。
例えば以下などからデータを1か所に集約し、より高度な分析を行うためにデータを整理整頓しておきます。
CRM
会計システム
人事管理システム
ここから分析に必要なデータを抽出し、DWHとBIツールを連携、さらにグラフなどで可視化することで、迅速な意思決定を可能にすることが期待できます。
BigQueryの特徴
処理速度
数テラバイト、数ペタバイトのデータに対し、数秒もしくは数分でクエリを完了できます。ただし師範の体感として、速いかもしれないけど爆速ではない、とのことです。
導入までの早さ
GCPの他のサービスと同様に、クラウド上で提供されています。そのため、オンプレミス(1社でのみ使用可能なクラウド)環境で、イチからデータウェアハウスを構築するよりも、導入までの時間が短くなります。
よく使われている他社のDWHには、Amazon Redshiftがあります。こちらはデータベースやインスタンスの種類など、決める必要のあることが多いですが、BigQueryは決めなければいけないことが少ないこともあり導入しやすいとのこと。
料金が安価
従量課金のため注意は必要なものの、Amazon Redshiftとの比較では安価になるケースが多いそうです。
従量課金
読み込みデータの量に対して課金される仕様です。読み込みデータについてはツールごとに定義が異なり、BigQueryの場合、データを絞り込む時に参照するデータの量に課金されます。
例えばフルーツについて以下の情報がデータテーブルにあるとします(以下図参照)。
名前
色
金額
上記のデータテーブルから特定条件(または条件なしで)データを要求した際に、BigQueryが条件にマッチしたデータを返すために読み込むデータに対して課金されます(以下図参照)。
大規模なサイトにBigQueryを導入すると、上記の読み込みデータは大きくなりますが、以下のような便利な機能もあります。
キャッシュ
24時間以内であれば、同じ要求に対して記憶(キャッシュ)を使うのでデータを読み込まなくてすむ機能です。ただし、要求が前回と一言一句同様でないとキャッシュは使えません。
パーティション
大きなデータテーブルを小さなパーティションに分割することで、読み込みデータ量を減らすことができます。
アクセスログ解析
この回は本山師範による「アクセスログ解析」の講義でした。
前職でGoogleアナリティクスを使わずに、サーバーのアクセスログを利用した解析を行った経験について話してくださいました。
アクセスログとは、以下のようなデータのことです。
まず、データ分析の手順についてお伺いしました。
目的の明確化(例えばユーザーの解約傾向を調べるなど)
仮説の設定
分析方法の決定
データの収集・整形
分析の実施
上記の手順で分析が行われます。
目的の明確化が行われたら、次は仮説の設定です。仮説の設定も五つのステップに分けて行われるそうです。
原因の案出し
出した案のチェック
仮説の立て方
仮説と調査の優先順位付け
仮説の調査・検証
道場内では、仮説の設定を一緒に行いました。
「仮説を立てずにデータ分析はNG」と言われますが、師範曰く、考えていても解決策が見つからない場合は、データを詳しく分析することが解決の糸口になるとおっしゃっていました。
師範は、クライアントから共有されたアンケートを参考に考えました。
データをタイムスタンプ順に並べてみたり、ブラウザとアプリで分けて確認するなど、セグメントを切って分析(比較)を行い、ユーザーの傾向を探り、そのデータを基に仮説の実証を進めます。
すると、なぜそのような結果になったのかという理由が見えてきます。理由を見つけた後は、対策を考えてロイヤリティの強化につなげます。
仮説なしにデータ分析を行うことはNGと言われていますが、仮説が出てこない場合はまずデータを見て、さまざまな指標で分析して考え、また、データを繰り返し見て、仮説を強化させることや比較することはとても大切だなと感じました。
アタラにはこうしたナレッジを共有する機会が非常に多くあります。今回の投稿を通じて少しでも興味を持っていただけるとうれしいです。