「検索エンジンからの流入率と、コンテンツマッチ広告の RPM (revenue per mille ... 1000PVあたりの収益) との間に相関関係がある」 かどうかが、ときどき話題にのぼります。 検索エンジンと広告の精度が共に十分高ければ、

  1. そのページの内容は、検索エンジン経由でたどり着いた人がまさに探していた内容であり、
  2. そのページに表示される広告もまた、訪問者が求めている情報に近い
という状況が成り立つはずで、そういう理想的な状態では、検索流入率とRPMとが高い相関を示す (= 検索エンジン経由でやってきた訪問者は、広告をより高い確率でクリックする) はずなのです。

 

このことが実際の数値でも示せれば、例えば

  • 検索エンジンから来たユーザにだけ広告を集中させ、その分通常の広告を減らす
  • 未ログインの新規訪問者に広告を集中させ、ログイン時には広告を減らす
といった施策で、広告の収益と常連ユーザの満足度とを両立させることができるわけです。

 

そんな事情があって、数学部に参加していたディレクターの一人が特命を受け、ライブドアの各種サービスの回遊率(PV/UU)、一日あたりユニークユーザ数、検索流入比率、RPM、グロス/UU (ユニークユーザあたりの収益) を表にしてそれらの相関係数を計算していました。 NeoOffice や excel などの表計算ソフトを使っている場合、二列の相関係数は CORREL 関数で簡単に求められます。
search_rpm0
(広告関係の生の数字は公開しにくいので、一応モザイクかけました)

ライブドアの24種類のサービスの回遊率、UU、検索流入率、RPM、グロス/UU の5つの数値のうち、ある程度の相関性が見られたのは以下の3つの組み合わせでした。

  • 回遊率と RPM は負の相関 (相関係数 -0.36)
  • 検索流入率と RPM は正の相関 (相関係数 0.33)
  • RPM と グロス/UU は正の相関 (相関係数 0.58)

search_rpm1

 

最後の「RPM と グロス/UU に相関がある」のは当たり前の結果 (PVとUUにはそれなりの相関があるのだから、PVあたりの収益とUUあたりの収益が比例するのは当然) なので、これは置いときます。 重要なのは上の「検索流入率が高いほど RPM が高くなり、回遊率が高いほど RPM が低くなる」という二つの結果です。つまり、検索エンジン経由でやってきたユーザが多いコンテンツほど RPM が高くなり、色々なページを見て回るヘビーユーザが多いコンテンツほど RPM が低くなるという、最初の仮説がある程度支持された形となりました。





... と、ここまでが、最初の調査の結果です。 ただ、ここで問題になったのが、相関係数の -0.36, 0.33 という微妙な値でした。

アイスクリーム統計学 の第三章あたりに標本数毎の相関係数の限界値が載っています。 それと照らし合わせてみると、95%の信頼度で相関関係があると結論づけるには

  • 標本数が20個のとき → 相関係数 0.444 以上
  • 標本数が30個のとき → 相関係数 0.361 以上
の値が必要
であることがわかります。今回の標本数(=24) では、確実に相関関係があると言うには値が微妙でした。(※ところでここでいう標本数っていうのは,サービスの種類の数のことで,各サービスのUUや検索比率を計算したときのユーザ数ではないですよ...UU等は全数調査の値を使っています。念のため)


サービス実際、上の検索流入率と RPM をプロットしたグラフを見ても、点が散らばりすぎていて「検索流入率が高くなれば RPM が高くなる」ことを示すグラフには見えない、というのが正直なところです。 この結果にちょっとばかり消化不良な感じがしていた僕は、ふと思いついて追加の調査をすることにしました。

まず、集計対象となっているサービスを

  • ツールっぽいグループ ... 地図、天気、路線、翻訳、番組表
  • 上記以外のグループ ... ニュース,ブログ、clip、reader、cure、ねとらじ、リスログ、4コマ、ネットアニメ、pics、profile、グルメ、キャリア、地域、占い、keyword、AAA、nowa、フレパ
に分けます。 そして、それぞれのグループ毎に相関係数を求めてみたところ,「検索流入率と RPM が逆相関の関係にあるグループ (ツール系)」と「検索流入率と RPM が相関関係にあるグループ (ツール系以外)」の二つに分類できるらしい」ことが分かってきたのです。

 

こちらがツール系のサービス群。
search_rpm2

標本数が 5 と少ないので、相関係数の限界値は 0.878 と高くなる (= 95%の信頼度で相関関係があると言うには 0.878 以上の値が必要) のですが、それでも、以下の二つの組み合わせについてかなり高い数値が得られました。

  • 検索流入率と RPM は負の相関 (相関係数 -0.84)
  • ユニークユーザ数と、ユニークユーザあたりの収益は正の相関 (相関係数 0.89)

 

つまりこちらのサービス群では、たまたま検索で流入してきたユーザより、常連ユーザの方が広告収入に貢献しているようです。 これらのサービスでは「検索でたまたま辿り着く人を増やすより、常連ユーザ (とその回遊率) を増やして,彼らがたまに気まぐれで広告を踏んでくれることに期待する方が収益率が高い」ということになるんでしょうか ?

一方、こちらがツール系以外のサービス群。
search_rpm3

こちらの標本数は 19、相関係数の限界値は 0.456 です。 上の「検索流入率と RPM が逆相関するツール系の群」が抜けたおかげで、検索流入率と RPM の相関、および回遊率と RPM の負の相関が元よりはっきりと現れてきました。

  • RPM と検索流入率は正の相関 (相関係数 0.5)
  • RPM と回遊率は負の相関 (相関係数 -0.47)
つまり,こちらは「常連は広告を見てくれない。検索でたまたまやってきたユーザの方が広告を踏んでくれる」という,最初の仮説通りの状況にあるようです。

 

というわけで、天気や地図などのツール系のサービスと、ブログやニュースなどのコンテンツ系のサービスでは広告の出し方を全く別に設計した方がいいらしいことが分かってきました。

このデータは、もっと色々いじってみる価値がありそうです。

(from intra blog 2008-10-27)