...というのが気になって以前調べたことがあるんだけど、先に同じことをやってた人を見つけた。

Twitterは560文字制限!? 同じ文字数に込められる情報量の違い

↑は聖書の各国語翻訳版を使って文字数を比べてる。
自分の場合は wikisource を使った。例えばジキル博士とハイド氏のページを見ると、同じ内容に対して5カ国語の対訳があるので、これで文字数を比べることができる。

上のリンク先の記事の方がカバーしている言語が多くて精度も良さげなんだけど、微妙に異なるところもあるし、せっかくなので対応表を作ってみた。

言語英語1に対する utf-8 一文字の情報量140文字を英語に換算した文字数上記記事 による一文字の情報量(参考)
中国語3.28459(約4.0)
日本語1.94271(約2.67)
ロシア語1.60224(約1.2)
英語1.0140
フランス語0.88123(約0.98)


※英語とロシア語の比較にはチェーホフの A Joke他5編、日本語と中国語の比較には阿Q正伝(日本語版のカッコ内の読み表記は除去済み)、それ以外についてはジキル博士とハイド氏を利用。
※リンク先の記事にはグラフしかなかったので,無理矢理グラフから概算値を読み取った。


まあいずれにしても日本語はだいたい英語の倍ぐらいツイートできるよ!中国語の圧縮率最強!っていう結論にかわりはないんだけど、細かい数値はやっぱり違ってくるなぁ。特にロシア語あたりの数値の差は、訳のトーンに大きく左右されてるんだと思う。あと、元データのクリーンアップ(改行の数、脚注、その他記号などの処理)次第でも結構数値が変わってしまう。

というかやってみて一番に感じたことは、同じ文章を様々な言語で読み比べるっていう一見簡単そうなことが、意外とお手軽じゃないということ。

様々な言語で同じ内容を並記したロゼッタストーン的なテキストって、現代でもなかなか手に入らないものなんだな。