ところで,オープンソース化された Cicindela のディストリビューションには,かねてからの課題だった livedoor clip の公開データセット (縮小版) が含まれている ことには皆さんお気づきでしょうか。
ちょっと分かりづらいのですが,レコメンデーションエンジンの評価用として,livedoor clip の公開クリップ情報の一部を csv 形式で利用できるようにしてあります。
あくまでもレコメンデーションエンジンの付録なので,データは最新ではなく,サイズも小さめです。ダウンロード方法や置き場所もかなり分かりづらいことになっていますが,最新版のデータセットも間もなくきちんとした形で公開される予定です。(様子見のため,フォームでまず問い合わせをしてもらって,置き場所のURLとパスワードをメールで返信する形になると思いますが,利用に際して個人/法人/研究機関等の区別はしません。)
データセットの仕様は,以下のようになる予定です。
※ Cicindela ディストリビューションに含まれるデータセットは,「3つ以上の公開クリップ」→「5つ以上の公開クリップ」,「3ヶ月以上前から存在する公開クリップのみ」→「(2008年12月の時点で) 1年以上前から存在する公開クリップのみ」となっています。
前のエントリで述べた通り,事業者間の足並みが揃うのを待つよりも,まず公開できるところを公開してしまってから考えよう,というスタンスです。
年明け早々には何らかのリリースができると思いますが,それまでの間はこちらの cicindela用のサンプルデータセットをご利用下さい。
ちょっと分かりづらいのですが,レコメンデーションエンジンの評価用として,livedoor clip の公開クリップ情報の一部を csv 形式で利用できるようにしてあります。
あくまでもレコメンデーションエンジンの付録なので,データは最新ではなく,サイズも小さめです。ダウンロード方法や置き場所もかなり分かりづらいことになっていますが,最新版のデータセットも間もなくきちんとした形で公開される予定です。(様子見のため,フォームでまず問い合わせをしてもらって,置き場所のURLとパスワードをメールで返信する形になると思いますが,利用に際して個人/法人/研究機関等の区別はしません。)
データセットの仕様は,以下のようになる予定です。
- 3つ以上の公開クリップがついているページへのクリップで
- 3ヶ月以上前から存在する公開クリップのみが対象
- スパマやR18の除去などは一切しない (書き出し時点ですでに削除されているデータは、もちろん除外される)
- utf8 の csv
- フィールドは必ず " " でエンクローズされる。値自体に"が含まれる場合はエスケープする。
- フィールドは順に user_id, 対象url, クリップした時刻,タグ
- user_id はもともとの idではなく,シャッフル済の整数
- タグが複数ある場合は空白区切りで結合。タグに改行やタブが含まれる場合は除去済
- 6ヶ月毎に新しいcsvを書き出すが,以前のデータも引き続きダウンロード可能な状態にする。
※ Cicindela ディストリビューションに含まれるデータセットは,「3つ以上の公開クリップ」→「5つ以上の公開クリップ」,「3ヶ月以上前から存在する公開クリップのみ」→「(2008年12月の時点で) 1年以上前から存在する公開クリップのみ」となっています。
前のエントリで述べた通り,事業者間の足並みが揃うのを待つよりも,まず公開できるところを公開してしまってから考えよう,というスタンスです。
年明け早々には何らかのリリースができると思いますが,それまでの間はこちらの cicindela用のサンプルデータセットをご利用下さい。