ところで,オープンソース化された Cicindela のディストリビューションには,かねてからの課題だった livedoor clip の公開データセット (縮小版) が含まれている ことには皆さんお気づきでしょうか。

ちょっと分かりづらいのですが,レコメンデーションエンジンの評価用として,livedoor clip の公開クリップ情報の一部を csv 形式で利用できるようにしてあります。

あくまでもレコメンデーションエンジンの付録なので,データは最新ではなく,サイズも小さめです。ダウンロード方法や置き場所もかなり分かりづらいことになっていますが,最新版のデータセットも間もなくきちんとした形で公開される予定です。(様子見のため,フォームでまず問い合わせをしてもらって,置き場所のURLとパスワードをメールで返信する形になると思いますが,利用に際して個人/法人/研究機関等の区別はしません。)

データセットの仕様は,以下のようになる予定です。

  • 3つ以上の公開クリップがついているページへのクリップで
  • 3ヶ月以上前から存在する公開クリップのみが対象
  • スパマやR18の除去などは一切しない (書き出し時点ですでに削除されているデータは、もちろん除外される)
  • utf8 の csv
  • フィールドは必ず " " でエンクローズされる。値自体に"が含まれる場合はエスケープする。
  • フィールドは順に user_id, 対象url, クリップした時刻,タグ
  • user_id はもともとの idではなく,シャッフル済の整数
  • タグが複数ある場合は空白区切りで結合。タグに改行やタブが含まれる場合は除去済
  • 6ヶ月毎に新しいcsvを書き出すが,以前のデータも引き続きダウンロード可能な状態にする。


※ Cicindela ディストリビューションに含まれるデータセットは,「3つ以上の公開クリップ」→「5つ以上の公開クリップ」,「3ヶ月以上前から存在する公開クリップのみ」→「(2008年12月の時点で) 1年以上前から存在する公開クリップのみ」となっています。


前のエントリで述べた通り,事業者間の足並みが揃うのを待つよりも,まず公開できるところを公開してしまってから考えよう,というスタンスです。

年明け早々には何らかのリリースができると思いますが,それまでの間はこちらの cicindela用のサンプルデータセットをご利用下さい。