Find Communities by: Category | Product

EMC World 2015において、The Beastの愛称で呼ばれている「XtremIO 4.0」の発表や、ラックスケールフラッシュ「DSSD」のお披露目がありました。これら2製品もちろんそれぞれ特性は異なり棲み分けがなされるべきなので、一言でまとめること自体が間違っているのですが、あえてまとめるとどちらも「低遅延」であることです。

 

なぜ、データレイクに関するタイトルなのにいきなりXtremIODSSDの話をしているかというと、データレイクを中心としたビッグデータ分析基盤には必要不可欠なものと考えられるからです。

 

 

Isilon Data Lake

 

EMCは以前から「Isilonデータレイク」の提案をしています。

そもそも「Isilonデータレイク」は、SMBNFSはもちろんHDFSOpenStack Swiftと言った異なるプロトコル、手法でファイル共有可能な「IsilonスケールアウトNAS」を従来のNASとしての単純なデータ置き場ではなく、多種多様で膨大なビッグデータを効率よく一元管理する場として用いるものです。

例えば、NFS経由でIsilonに書き込みをしたログファイルをそのままHDFSにて分析することも可能です。


 

datalake.PNG.png

 

 

 

適材適所


しかしビッグデータの活用、分析には様々な手法や目的があります。

その中には、ゴールデンウィークに発生する渋滞傾向を分析して次の年の渋滞を防ぐ為の策を分析するようなある程度時間をかけて行うことのできるものがあります。また、為替のように一瞬一瞬判断で数億ドルを得るあるいは失うような取引の分析、これらは瞬間的な判断がものをいうので、極めて短い時間での分析が必要です。

 

先にあげた渋滞情報のようなある程度時間をかけて分析可能なビッグデータはIsilonに保存したまま分析をすることができます。また、後者の為替取引のような瞬間的に分析が必要なビッグデータに関しては、少しの遅延も許されません。この少しの遅延も許されない分析においては、EMCに限らずどのメーカの製品についても言えることですが、Diskベースアレイには向いていない

ワークロードとなります。

 

このようなワークロードに関しては、分析ホストのブロックデバイスとしてXtremIOや、さらに高速な分析が必要なものは今まではインラインメモリで処理を行ってきましたが、今後はPCIeバス直結のDSSDの様な製品も利用されるようになると考えられます。


 

datalake2.PNG.png


このようにIsilonの様なデータレイクにて一元管理されているビッグデータを、それぞれの用途に適したソフトウェア、インフラで処理をさせるということがビッグデータの活用を成功させるための鍵ではないでしょうか。

 

この度、ビッグデータ分析に関してXtremIOIsilonSplunkのホワイトペーパーがリリースされました。

パフォーマンスやコストのバランスの取れたビッグデータ分析基盤の構築ノウハウが記載されています。是非ともご覧ください!


splunk画像.PNG.png


<ホワイトペーパーリンク>

EMC SOLUTION FOR SPLUNK

Filter Blog

By date:
By tag: