物語を狩る種族(The Story Hunters)

読んだ本の感想を書いているブログです

リアルタイム検索

 私はニュースに対してみんなどんな反応するのか知りたいなーと思ったとき、ヤフーのリアルタイム検索(http://search.yahoo.co.jp/realtime)を使うことがあります。なので普段はツイートの内容を読んでいるのですが、最近なんとなくツイート数の推移を眺めてみました。

 

 

「リアルタイム検索」をリアルタイム検索

 たとえば「リアルタイム検索」というキーワードで検索して、7日間のツイート数にどんな変化があるのか、とか。

 f:id:balanomorpha42:20150828071342j:plain

 これは結構ぐちゃぐちゃしているパターンです。最大ピークのツイート数が19件というから、「リアルタイム検索」というキーワードを含むツイートはそれほど多くないということもわかります。

 

「ツイート」――周期的な変化

 では「ツイート」で検索してみましょう。

f:id:balanomorpha42:20150828071908j:plain

これは周期性があり、何か意味があるように見えますが、最大ピークのツイート数32568件という母数の大きさを考えますと、「ツイート」というキーワード自体には周期性がないのかもしれません。元々22時から24時までの2時間はツイートする人が最も多い時間帯であり、「ツイート」を含むツイートの絶対数は増えても、ツイートの総量に対する割合には変化がないのかも。

 というわけで「あ」で検索。

 f:id:balanomorpha42:20150828073158j:plain

「ツイート」を含むツイート数の推移とよく似た形のグラフです。キーワード「あ」を含むツイートは非常に数が多いので、これは時間ごとのツイート総数の変化を反映していると考えていいでしょう。

 念のため「ん」でも検索。

f:id:balanomorpha42:20150828073731j:plain

 さらに「a」でも検索。

f:id:balanomorpha42:20150828073843j:plain

微妙な違いがありますが、大体のところ同じようなグラフの形で、12時から14時に小さいピーク、22時から24時に大きいピークが現れています。

 どうやら多くの人に使われるキーワード(たとえば「ツイート」)で検索すると、ツイートの絶対数の多さによって、ツイート数の微妙な変化は埋もれてしまうようです。

 

美味しい/飯/まずい

 同様に周期的な変化が現れるキーワードはなんでしょうか? と、考えますと生活に密着した行動が浮かぶと思います。たとえば食事。

 「美味しい」で検索してみましょうか。食事どきに使われそうなキーワードです。

f:id:balanomorpha42:20150828074755j:plain

だいたい12時ごろと21時すぎにピークがあるのは、昼食と夕食のせいでしょう。ただ先ほどのツイート総数の時間変化にかなり影響されている(もしかしたらほとんど埋もれている)ような気がします。朝食の時間帯にピークがないように見えるのは、朝食を食べても「美味しい」なんてツイートする人が少ないか、あるいはそもそも朝の忙しい時間帯にツイートする人が少ないせいだと思います。

 試しに「飯」で検索してみましょう。

f:id:balanomorpha42:20150828075817j:plain

よりピークが鋭くなっており、蟹の爪みたいなグラフになっています。さらに細かく見てみましょう。

f:id:balanomorpha42:20150828080342j:plain

12時、18時、19時あたりで「飯」を含むツイートが多くなっていることがわかります。小さいながらも7時あたりにピークがあるのを見ると、ツイッタラーのみなさんがちゃんと朝食をとっているようで安心しました。

 というわけで「美味しい」で検索するとよくわかりませんが、「飯」で検索するとツイート数の推移でみなさんのお食事どきが分かります。ちなみに、「まずい」で検索してみますと……。

f:id:balanomorpha42:20150828082147j:plain

「美味しい」で検索した場合と同じような形ですね。「まずい」や「美味しい」という言葉は食べ物の味を評価する以外の意味でもよく使われているので、ツイート総数の変化に埋もれているのかもしれません。ひらがなで「おいしい」とか、漢字で「不味い」の表記だと変わるんですかね?

 

疲れた/疲れてない/眠い/眠くない

 さらに生活感がある、みなさんつぶやきそうなキーワードとして「疲れた」を検索してみましょうか。

f:id:balanomorpha42:20150828083015j:plain

一日ごとにピークが一つ綺麗に現れています。22時から24時の間に集計されたツイート数が24時(0:00)の位置に表示されているので、どうやら22時を過ぎると「疲れた」と感じる人が多いようです。まあそれはそうですよね。逆に「疲れてない」で検索してみましょう。

f:id:balanomorpha42:20150828083644j:plain

いつもなら疲れてるけどなぜか今日は疲れてない、と感じている人が毎日一定数いるんですかね。

 「眠い」と検索してみましょう。

f:id:balanomorpha42:20150828084010j:plain

見事に周期的な変化で、朝と夜に「眠い」とたくさんツイートされています。昼ごろ、おそらく昼食をとった後の時間帯にも小さくピークがありますが、朝と夜にくらべてツイート数が少ないですね。やっぱり朝、起きた直後はかなり(夜と同じくらい)眠いと。ちなみに30日間のグラフを見てみますと、こうした習慣についてのツイート数にはだいたい変化がないことが分かります。フラットもフラット。

f:id:balanomorpha42:20150828084926j:plain

 逆に「眠くない」でも検索してみました。まあどんな感じか予想はつきますが。

f:id:balanomorpha42:20150828085143j:plainf:id:balanomorpha42:20150828090402j:plain

やはり「いつもなら眠いはずなのに眠くない」ということで「眠い」時間帯にピークが現れます。ただ、朝は「眠くなくて当然」という意識があるのか、「眠くない」とツイートする人が「眠い」よりも圧倒的に少なくなっています。また、30日間で集計してみますと、ツイートの絶対数が少ないせいか「眠い」に比べて「眠くない」のグラフは少しがたがたしています。8月23日あたりのツイート数が多いのは24時間テレビの影響ですね。

 

天気/雨/飴

  お次は「天気」で検索してみましょう。このキーワードは習慣的なものでしょうか?

f:id:balanomorpha42:20150828091941j:plain

まあ大体周期的……ですかね? 午前中にツイート数が多いのは、学校や会社に行く人が外に出るとき、あるいはその前に天気を確認してつぶやくからでしょう。今日は天気が良いとか、天気予報がどうとか。もっと長いスパンで確認すると、今週は台風があったりで天気を気にする人が多かったからなのか、8月下旬にかけてツイート数が増えているのがわかります。

f:id:balanomorpha42:20150828092337j:plain

 対して具体的な天気、「雨」はどうでしょうか。

f:id:balanomorpha42:20150828092714j:plain

天気が気になる時間帯(午前中)はある程度決まっていて「天気」のツイート数の推移もある程度周期的になります。しかし雨が降るかどうかは天候に大きく左右されるので、「雨」のツイート数も日によってかなりバラバラになっています。グラフを見てみると全国的に雨の多かった時期というか、日常的にツイートする人が多い地域で雨がたくさん降っている時期が分かりますね。分かったからどうだというものですが。

 ちなみに、「雨」でなく「飴」で検索してみますと……。

f:id:balanomorpha42:20150828093536j:plainf:id:balanomorpha42:20150828093612j:plain

「飴」の7日間のグラフを見てみますと、あまり日常的に変化のない普遍的なキーワードであるせいか、「あ」とか「ん」のグラフに似た形をしています。30日間で見てみますと、8月2日、それから8月4日あたりに大きなピークがあることがわかります。8月2日のピークは「りんご飴」のせいです。

f:id:balanomorpha42:20150828094010j:plain

なんで8月2日あたりで「りんご飴」を含むツイートが増えているのか。「りんご飴」を食べる機会といえば、「祭り」ぐらいしかありません。

f:id:balanomorpha42:20150828094259j:plain

「りんご飴」のグラフと「祭り」のグラフがよく似ていることがわかりますね。というわけで8月2日あたりに大きな「祭り」があったために、「飴」のツイート数が増えたようです。では8月4日のほうはどうなのか。こちらは「塩飴」の影響だと思います。

f:id:balanomorpha42:20150828094534j:plain

8月4日のところで急に「塩飴」を含むツイート数が増えています。おそらく熱中症対策の一つとして、どこかで「塩飴」が紹介されたのでしょう。祭りや熱中症といったこの時期特有の出来事から、「飴」についてのツイートが増えていることがわかります。

 

暑い/暑くない/涼しい/寒い

 今度は天気ではなく気温に対する感想を軸に検索してみましょう。まずは「暑い」。

f:id:balanomorpha42:20150828100503j:plain

8月はじめをピークに、だんだんツイート数が少なくなっていますね。逆に「暑くない」だと……。

f:id:balanomorpha42:20150828100705j:plain

そんなく暑くなくはなっていない??? よくわからないですが、8月9日あたりは予想していたよりも暑くなかったみたいです。というか「涼しい」?

f:id:balanomorpha42:20150828101029j:plain

やっぱり8月8日から9日にかけては涼しかったようです。8月下旬はかなり涼しいのか、ツイート数が多くなっています。少し「寒い」のかも……。

f:id:balanomorpha42:20150828101301j:plain

やっぱり8月下旬は急に寒くなったみたい。

 

熱い/篤い/厚い

 なんとなく「暑い」の同音異義語で検索。まずは「熱い」。

f:id:balanomorpha42:20150828101530j:plain

あまり「熱い」とは関係なさそうです。次は「篤い」。

 

f:id:balanomorpha42:20150828102112j:plain

8月はじめと比べれば、下旬はツイート数が少なくなっている……ような……? さて「厚い」で検索。

f:id:balanomorpha42:20150828102459j:plain

大した変化はないけれど、なぜだか8月1日の位置にピークがあります。「厚い 雲」で検索してみましょう。

 

f:id:balanomorpha42:20150828102832j:plain

あまり8月1日とは関係がなさそうです。「厚い 本」ではどうでしょう。

f:id:balanomorpha42:20150828103033j:plain

8月17日あたりにピークがきているのはなぜでしょうか。これも「厚い」に見られる8月1日のピークとは関係なさそうです。では「厚い 信頼」はどうでしょう。

f:id:balanomorpha42:20150828103242j:plain

お! もっと詳しく見てみましょう。7日間ぶんのグラフ。

f:id:balanomorpha42:20150828103357j:plain

この7月30日の22時から翌16時の時間帯に何かあったのでしょう。ということでツイートの内容を確認して、推測したキーワードで検索した結果がこちら。

f:id:balanomorpha42:20150828103603j:plain

ほぼ一致! 「厚い」のグラフに見られる8月1日あたりの結果は、あるユーザーの「厚い」をキーワードに含むつぶやきがたくさんリツイートされたことによるもののようです。

  と、以上のように、ツイート数のグラフで不自然なピークがある原因については、だいたい特定できそうな感じです。自分の興味あるキーワードで検索してみたときに分析グラフに不自然なピークがあるなら、24時間なり7日間なり30日間なり時間軸を拡大縮小しながらツイートに注目してみるとよいのではないでしょうか。

 

Topsy.comとリアルタイム検索

  似たようなツイート分析ができるところとして、Topsyというウェブサイトがあります。

topsy.com

  Yahoo Japanのリアルタイム検索と同様に、30日前までのツイート数の推移を確かめることができます。日本語での検索も可能。

 例として「雨」というキーワードでの検索。青のグラフがリアルタイム検索、オレンジのグラフがTopsyです。

f:id:balanomorpha42:20150828110331j:plainf:id:balanomorpha42:20150828110350j:plain

比べてみると、そこそこ一致しているような気がします。では別のキーワードではどうでしょうか。

 たとえば「天気」での検索。

f:id:balanomorpha42:20150828110803j:plainf:id:balanomorpha42:20150828110819j:plain

Topsyではグラフに大きな谷がありますが、リアルタイム検索ではそのようなツイート数の減少を確認できません。

 日本語だけでなく、英語のキーワードでも検索してみましょう。というわけで「cat」で検索。

f:id:balanomorpha42:20150828111326j:plainf:id:balanomorpha42:20150828111350j:plain

全然合ってないように見えます。が、Yahoo Japanのリアルタイム検索では日本のユーザーアカウントのツイートを中心に集計(どうやって判別しているのかよくわかりませんが)している(ような気がする)ので、この違いは当然といえば当然です。また、Topsyのどのグラフでも8月10日の位置でツイート数が大きく減少している(ように見える)ので、ユーザーアカウントの国籍の違い以外にも、異なる集計方法が用いられているように思えます。詳しい集計方法やツイッターのデータの分析方法なり取り扱い方がよくわからないので、一長一短あるにしてもどちらのサイトを参考にすればよいのかもよくわかりません。

 

で、結論

 リアルタイム検索は暇潰しになる。