「事業者から見たソーシャルブックマーク」というタイトルで、第二回SBM研究会で発表してきました。

「SBM研究を加速・拡大するために−SBM事業者には何ができるのか 」というパネルディスカッションの前置きとして発表したものですので、研究者の方々にむけて「事業者からはソーシャルブックマークがどう見えているのか」を解説するのが主な趣旨になっています。


1. CGMを構成するサービス/ツールには、情報を創出する付加価値を与える消費する、という3つのレイヤがあります。

sbm1


2. ソーシャルブックマークサービス(以下、SBM) は、このうち主に「情報に付加価値を与える」役目を担います。「付加価値」とは第三者による客観的な評価情報間の関連づけなどで、この結果「人のつながり」「情報のつながり」がネット上に創出されます。

sbm2

SBMによって、特定分野に関心のあるコミュニティや、特定分野に関連した情報の集約が生まれます。SBMとはすなわち、個人・分野に特化した外部記憶もくしは検索エンジンとも言えるかもしれません。

そして、利用者の興味や目的が絞りこめているということは、イコール、コンテンツマッチ広告のマッチ率が高くなるということです。

ここにきて急に話が矮小化したと感じる方もあるかもしれませんが、これは重要なことです。

現状、SBMをビジネスとして成り立たたせるには、コンテンツマッチ広告がほぼ唯一のソリューションなのです。

SBM研究者にどんな研究を期待するか、という質問がありましたが、正直なところ、もっとも研究してほしいのはここですw - どうやってSBMをビジネス化するのか、どうやって、SBMを「生活必需品」に変えていくのか。

高度な統計学や最先端の技術も重要なのですが、我々が本当に作らないといけないのは、電気とかガスとかエアコンのような何かなのではないかと思っています。


3. ちなみに livedoor clip では、ユーザーが主に利用するホーム画面として、以下の3種類を用意しています。

  - マイクリップ : オンラインブックマークとしての基本的な機能である、自分のクリップ一覧
  - ウォッチリスト : ウォッチ対象の発信する情報だけからなる、いわば「自分が選んだ相手だけから成る、小さなSBMサービス」
  - オススメクリップ : 自分向けのレコメンデーションを表示するページ。コンピューターアシステッドな、自分専用の情報発見ツール。

そしてこれらは、上で述べたSBMの様々な役割にそれぞれ以下のように対応しています。

sbm3


4. さて、少し視点を変えてプログラマ的な視点でSBMを見ると、「大量のデータが」「複雑に関係しあっている」という特性に目がいきます。

sbm4

例えば、「このサイト内のクリップのうち」「このタグがついているものを」「クリップ数の多い順に」上位○件表示したい、とか、しかもその時に公開フラグやスパマーフラグ、R18フラグなどを適宜組み合わせて適用しなければならない、とかいった複雑な条件付き抽出がしばしば要求されます。

特にmysqlを使い慣れている人には、これらがいかに頭の痛い要求か分かると思います。(あらゆる組み合わせに対応した複合インデックスが必要になったり、複数のテーブルのjoinをした上で二種類以上の異なるレンジスキャンを組み合わせないといけない状況で、十分なパフォーマンスが得られなかったり。)

また、たとえば誰かが新しくクリップを追加したら、そのユーザの最新クリップやタグ一覧、対象ページの被クリップ数や最新コメントなど、連鎖的に様々なページが更新されます。もしページ単位のキャッシュをもっていたとしたら、アクティブなデータのあるページはことごとくキャッシュミスしてしまうし、一部のキャッシュが残っていれば「コメントが反映されない」といった不具合になってしまいます。

このように、検索技術やキャッシュ技術も、まだまだ良い研究対象となるのではないかと思います。


...といったところまでが、事業者の視点から見たSBMの姿です。


5. で、肝心の、研究者の方々に提供できるものはなにか、という点ですが、
 
sbm5

実はこれまでにも、blog, reader, clip といった弊社のサービスのデータのうち、もともと公開情報であるもの (サイトをスクレーピングすればいずれ入手可能なデータ) を、使いやすい形で提供しようという話はありました。

clipのデータは主に協調フィルタリングの研究用データとして、また、ブログのデータは自然言語処理の研究用のコーパスとして。

が、こちらとしても研究者側のニーズが掴めず、せっかく規約等を整えて鳴り物入りで公開したのに誰も使ってくれないってのでは寒いよね、というあたりで公開に漕ぎ着けていませんでした。

こんなデータが欲しい、といってもらえれば、提供する用意はあります。

勿論、公開データでないものは無理ですし、こちら側の開発リソースにも限りがあるので、

 - 公開データを決まったフォーマットで固めて置いておくので、勝手にダウンロードしてもらう
 - ライブドアにインターンとして来て頂き、(規約や仕組みを一通り理解した上で) 自由に研究を進めてもらう

といったやり方がこちらとしてはやりやすいです。

(現状では、弊社ではインターンやデータ公開についての制度がまだ何も決まっていません。個別対応となりますので、興味のある方は直接 & 早めにお問い合わせください。)


※ ここで、会場では「データの共通フォーマットを決めよう」という方向に議論が進んだのですが、その後の懇親会で意見交換させていただいた方々から、

 - 共通化が必要なのは、基本的なデータの構成 (タイムスタンプはどうしても必要、とか) 程度で、多少のフォーマットの違いぐらいは研究者の側でなんとでも解消できる

 - 研究用のデータとして重要なのは、「再現性のあるデータ」であることである

ということを教えて頂きました。特に後者の「再現性のあるデータ」というのは思わぬ盲点でした。 (自分も以前は研究者だったはずなのに !) 

それなら、例えば

(livedoor clip の研究用データセット)
 - ○年○月○日〜○月○日までの livedoor clip のデータのうち、
 - 3個以上クリップされたurlすべての公開クリップデータ
 - user_id, url, タイムスタンプ, タグ文字列 の4カラムからなるcsvファイル 
 - user_id はシャッフルした整数値, タグ文字列は空白区切りですべて結合済み。
 - 研究目的であれば自由に利用可能 (データをそのまま転売する等は禁止だが、研究成果自体についての制限は設けない)
 - 定期的に新規データの書き出しを行うが、以前のデータも引き続き利用できるようにしておく


というような形でデータを公開すれば、十分使い物になりますか ?
なるのならこの方向で公開の準備を進めようと思いますが。


また、例えば

(livedoor blog の研究用データセット)
 - ○年○月の一ヶ月間に公開されたブログの記事のうち
 - 半年後でも削除されていなかった記事をランダムに1000〜10000件 (もしくは全体の0.1%程度をランダムに抽出)
 - スプログやアダルトカテゴリの除去も一切なし
 - 絵文字やhtmlタグの除去も行わない
 - 投稿日時と本文のみ。投稿者のidや記事urlは含まれない


というデータが一ヶ月単位ぐらいでずらっと並んでいて、いつでもダウンロードできるようになっていたとしたら、何かの役に立つでしょうか ?

実は僕自身も以前は自然言語処理の研究者でした。当時は大規模日本語コーパスといえば毎日新聞コーパスぐらいしかありませんでした。

ただ、新聞の文章データは日本語がきれいすぎて、このデータを使ってチューニングされた形態素解析エンジンでは、最近のブログで使われるような生々しい、崩れた日本語文 (「ゎ」が接続詞だったり,絵文字が句読点の代わりだったり!) がうまく処理できないのです。

ブログの文章を、分かち書きして品詞の情報もつけて公開できたらさぞかし研究の役に立つだろうなと前から思っていたのですが、さすがにわかち書きデータを整備するだけのリソースはうちにはありません。

が、とりあえず、いつでも参照可能で再現性のあるデータを時系列で用意しておくだけでも、十分価値はあるかもという話を聞きましたので、そんなデータに需要があるかどうか、研究者の皆さんの意見を聞ければと思います。