ビッグデータをリアルタイムで処理する、ストリームデータ処理ツールGUST(ガスト)のすべて 4-2
SUMMARY
- ビッグデータ活用には「フロー」しながら「リアルタイム」処理できる仕組みが必要
- ストリームデータ処理は、「価値のある情報」だけを選択してデータ量を抑制する
- ストリームデータ処理は、リアルタイム処理で迅速なアクションを実現する
独自の分散KVSテクノロジーを活用し「大量データを高速に処理する」認証基盤やIoT基盤などのソリューションを提供しているかもめエンジニアリングでは、2015年6月からストリームデータ処理ツールGUST(ガスト)の提供を開始しました。
ストリームデータ処理とは、すべてのデータをストレージにストックしてから処理していた従来の手法に代わり、データをリアルタイムに処理する基盤です。企業が保有するデータが日に日に膨れ上がるなか、注目を集めているテクノロジーです。
このシリーズではビッグデータをリアルタイムに処理するストリームデータ処理ツールGUSTについてご紹介します。
シリーズ2回目の今回は、ストリームデータ処理の概要についてご紹介します。
「ストック」から「フロー」へ。「バッチ」から「リアルタイム」へ
そもそもデータは、貯めるためではなく、活用するために存在します。
活用するデータを迅速に処理するポイントは、従来の貯めこむ(ストック)方式ではなく、貯めない(フロー)仕組みづくりです。
たとえば、不要なデータを保存前に破棄をしたり、一貫性がなくバラバラなデータを属性で整理してから処理を行ったりといった工程が必要です。
さらに、その処理ルールも、従来の一定期間のデータを集めてから一括処理を行うバッチ処理方式だけではなく、「リアルタイム」に処理を行うアプローチも必要になります。
データを取捨選択し、リアルタイムで処理するストリームデータ処理
ストリームデータ処理は、膨大なデータを貯めこまずに取捨選択してフローしながら、リアルタイムに処理を行うテクノロジーです。連続的に発生するデータに対して、リアルタイムに集計・解析といった処理を行います。
ストリームデータ処理は価値のある情報を選択し、リアルタイムに迅速なアクションを実現する
ストリームデータ処理の機能的特徴を、バッチ処理、アドホック処理という他の処理方法と比較しながらご紹介します。
まず実行のタイミングを比較すると、バッチ処理やアドホック処理があらかじめユーザが指定した定期的なタイミングで実行されるのに対して、ストリームデータ処理は常時連続して実行されます。
処理単位で比較すると、バッチ処理やアドホック処理がストックされたデータを一括処理するのに対して、ストリームデータ処理では1件から数件のフローデータを処理します。また処理時間も、バッチ処理が数分~数時間なのに対して、ストリームデータ処理では秒単位に短縮されます。
また、データの保存方法についてはバッチ処理やアドホック処理がストレージ保存であるのに対して、ストリームデータ処理は、随時、不要なデータを破棄していきます。
業務別にそれぞれの処理方法を比較すると、定期間や一定量の蓄積データを、あらかじめ定めた手順で集計・分析するバッチ処理は、日次・月次の集計処理に向いています。
また、必要に応じて蓄積データの抽出ができるアドホック処理はインシデント時のログ抽出に適しています。
そして、リアルタイムに高速処理を実行するストリームデータ処理は、不正リスクの検知やターゲティング広告といった迅速性が求められる業務で効果を発揮します。
以上をまとめると、ストリームデータ処理の特徴は次の2点に集約されます。
-「価値のある情報」だけを選択してデータの全体量を抑制する
-リアルタイム処理で迅速なアクションを実現する
ストリームデータ処理ツール「GUST」についてもっと知りたい方は、こちらへ