« Rによる二次計画法 例 | メイン | [Python] pythonで10進数からn進数に基数変換 »

[ビッグデータ時代のデータ分析] ビッグデータとは?

ここ数年「ビッグデータ」という言葉をよく耳にするようになってきました.


ビッグデータとはなんなのでしょうか.


例えばYahooのページが閲覧されたという閲覧ログ.毎秒数千とか数万というオーダーのPVなのだと思います.もっと多いのかも.


例えば、ソーシャルゲーム.何万という個人がユーザーとして存在し、そのうち誰がどういったボタンを押しただとかそういったページ遷移のログ、あるいは行動履歴.


鉄道会社の各乗客の行動履歴.最近は電子マネーでサービスを利用することが多いので、ある人がいつどの駅で乗ってどの駅で降りたということのログ.


電話会社の通話履歴.ある人がどこから、誰へ(どこへ)、いつ、どれくらいの長さの通話をしたかというログ.


POSデータ.全国のコンビニで毎日たくさんの個人が買い物をします.これも電子マネーを利用する人が多いので誰がいつどのような商品を購入したかというログ.


例えばAmazon.どのユーザーがどんな商品を見たか.そしてどういう商品を見た後に、どういう商品を購入したかというログ.


1秒に数千とか数万というレベルで発生するログは、これまでは残すにしても膨大なストレージが必要でした.またそれを集計しようにも高性能なコンピュータが必要でした.ところがストレージは高性能・低価格化が進みそういったログを残すことが可能になってきました.また膨大なログでもそれを集計するためのハードウエアや仕組みが整備されてきて、集計することもそんなに大変ではなくなってきました.


ビッグデータとはこういった、これまでは残すにしてもコストがかかりすぎるし、集計しようにもログの発生スピードのほうが速く、集計・分析ができないとして、捨てられてきたデータと考えてよさそうです.


こういった膨大なログだとか行動履歴を集計し、分析することでそこから何かビジネスに活かせる知見を得たり、サービスの向上に貢献させるということを具現化させていた例としてあまりにも有名なのがAmazonでしょう.


Amazonのレコメンドは10年くらい前からあったように思います.今でこそ、そのレコメンドには心くすぐられるものがありますが、初めのころはひどいレコメンドもありました.


Amazon風「おすすめURL」にも書きましたので引用します.

最近のAmazonのおすすめはかなり精度がよいと感じますが、一昔前は、「はぁ?」と感じることも少なくありませんでした.実際にあったことなのですが、PC用の液晶モニターをAmazonで注文し購入したことがあったのですが、その後のおすすめに、18禁のゲームソフトがおすすめされたことがありました.

筆者と同じ液晶モニターを購入した誰かが合わせてそういうのも購入したのだろうと思いますが、さすがにこの「こんなアイテムも購入しています」にはドン引きました.最近ではこういうことは起こらず、同じようなカテゴリーの中からおすすめが表示されているように思います.

現在のAmazonのレコメンドシステムはかなり工夫が凝らされているようです.


今ではこんなことはないと思います.仮にあっても「ご愛嬌」と思えるくらい、Amazonのレコメンドはついクリックしたくなります.


つまり、世の中はこう考えたのです.

「こういった購入履歴や閲覧履歴を残して、活かすことができるんだ」

と.


Amazonが失敗していたら、ビッグデータというイノベーションは起こらなかったかもしれません.いえそれでも別のところが成功していたかもしれませんが.


もちろん、これまで捨てられていたデータを残したからといって、それだけでなにかビジネスに直結するわけではありません.

トラックバック

このエントリーのトラックバックURL:
http://blogs.topaz.ne.jp/mt/MT-3.37-ja/mt-tb.cgi/272