TwitterストリーミングAPIのデータを眺めた

ここ1ヶ月ほどTwitterストリーミングAPIで取得したデータをDBに格納していたので、軽くSQL叩いて色々遊んでみた。
まずは時間別に1週間分(2010/11/01〜2010/11/07)のTweet件数を取得した。対象は日本からのTweetと思われるもののみ。曜日でTweet傾向が異なるので1週間とした。朝方は少なく夜中が多いことがわかる。
https://sites.google.com/site/hetappipm/hatena/20101107/tweet_all.png

次は、同期間で「今日」という単語が含まれる件数を取得してみた。やっぱ朝は今日の予定とか話すよね。ただ、夜も朝と同じくらいの件数がある。上の図をみるとわかるが、これは単に全体Tweet数が多いため、「今日」という単語も比例して多くなっていると思われる。
https://sites.google.com/site/hetappipm/hatena/20101107/tweet_today.png
「今日」のTweet件数を、全体の件数で割った割合は次のようになる。これだと朝にTweetされる割合が高いことが分かり、納得できる。
https://sites.google.com/site/hetappipm/hatena/20101107/rate_today.png
同じように「明日」の割合。「明日」のことは夜に向うにつれ話したくなるよね。
https://sites.google.com/site/hetappipm/hatena/20101107/rate_tomorrow.png
次は「昨日」。過ぎたことなんてわざわざTweetしないぜ。
https://sites.google.com/site/hetappipm/hatena/20101107/rate_yesterday.png
ついでに「おはよう」。おはよう、おそるべし。朝8時くらいのピーク時は10件に1件以上は、おはよう。
https://sites.google.com/site/hetappipm/hatena/20101107/rate_gm.png
最後に「おやすみ」。ピークは3時って、早く寝たほうがよいよ。これ書いてる今1時半なので、まぁみんなそんな感じなのね。
https://sites.google.com/site/hetappipm/hatena/20101107/rate_gn.png

そんなわけで、誰でもリアルタイムにこんなデータを取得できるなんて、Twitter太っ腹ですね。いろんな統計やら分析に使いまくり。