DataRobot on Hadoop という選択

 

こんにちは。DataRobotのフィールドサポートエンジニアの妹尾です。
今回は日本ではあまり知られていない、DataRobotの機械学習とHadoopとの関係と可能性について少しご紹介させていただければと思います。


Hadoopとは

恐らく皆様もHadoopについてご存知の方も多いかと思いますが、様々なWeb上などでのアクティビティー通して生み出された、膨大な行動記録の集積体であるビッグデータが、価値のあるデータとして世界で注目を集め始める中、構造化されていない大規模データを、高速処理するための分散処理機能を持って2000年代に生まれたHadoopというオープンソースフレームワーク技術は、大変注目をされて、沢山の企業が最先端技術として導入を行ったことは、皆さんもご存知かと思います。
おそらくこのBlogを読んでいらっしゃる様な技術リテラシーの高い皆さんですと、たとえ自社でHadoopフレームワークを採用していない部署の方であっても、Hadoopの有名な象のマークとその技術概要を認知している方がほとんどではないかと思います。

 

 

 

 

 

DataRobotアーキテクチャーはDocker構成だったのでは?

インフラ視点からのHadoopとDataRobotの関係ですが、実は最新バージョンは常にHadoop版をベースに開発と実装が行われています。DataRobotをすでにお使いの日本のユーザー様で詳しい方などは、”DataRobotはDockerをベースにしていると聞いたことがあるが、Hadoopで動いているとは聞いたことがないが?”と、言われる方がいらっしゃるかもしれません。
これはそのユーザー様が仰ったことは正しいので、Yesなのですが、実はNoでもあります。つまり、弊社には同じDataRobotバージョンで、インフラアーキテクチャーの違う、”Docker版”と言われるものと、”Hadoop版”と言われる2種類のエンタープライズ版をGlobalでお客様環境に応じて展開しているためです。
ちなみにDataRobotのCloud版はHadoopをプラスした形でアーキテクチャ上動作している”Hadoop版”になります。
 

Hadoopを選択するメリット

基本的には同じ機能を持つDataRobotバージョンでの”Docker版”と”Hadoop版”ですが、あえて”Hadoop版”を選択するメリットや違いはあるのだろうか?ということですが、いくつかの点で、”Docker版”にはない機能があります。
 
+ HDFS上のファイルを直接、解析データとして参照・アップロード可能
+ 100G(Max)のファイルを解析データとして参照・アップロード可能(*ダウンサンプル機能により実現)
 
 
 
 
+ Apache Parquet、Apache Avro、Apache ORC、Multifile CSV などの新しいファイルタイプのデータのアップロードファイルに対応可
+ 分散型ブループリントの使用が可能で、大量のデータを短時間でモデリングできる
 
上記のようなメリットがあることから、ビッグデータがすでにHadoop上に存在して、その解析手段をお考えの様なお客様には大変有効な手段となり得るアーキテクチャのオプションとなります。
 

Hadoopは日本ではあまり展開されていない?

上記のように、”Hadoop版”には”Docker版”にはない技術的なアドバンテージがありますが、”Hadoop版”を使うことが全てのベストソリューションになる訳ではありません。 導入への対費用効果と管理運用体制については考慮が必要となります。

”Hadoop"を新規導入する事はコスト面から考えずらく、既存でHadoopをご使用のお客様が主なターゲットになりますが、日本では欧米ほどHadoopの利用が広がってはないという現状があります。

加えて導入済みの場合でも、お客様のインフラ部分になるため、お客様側のその他使用状況により、Hadoopバフォーマンス低下が、そのままDataRobotの動作に影響してしまう事になり、安定運用体制の確立が容易でないケースが散見されます。

また製品の観点からは、DataRobotの”Hadoop版はDockerのコアに加えて、Hadoopをプラスした形でアーキテクチャ上動作するものになる、謂わば”ハイブリッド型”構造になるため、運用面から通常のDocker部分のコアサポートに加えてHadoop管理体制のサポートも必要となり、人材とコストが余計にかかる可能性があり、コストメリットを出しながら安定運用を行うには幾つか越えなくてはならない壁があるように思われます。

 

機械学習の未来、DataRobotが見据える未来

導入へのメリットデメリットはありますが、Hadoopという21世紀の大規模データ分散処理システムを活用することができるDataRobotは、Hadoopの導入により業務メリットを享受できるようなお客様とともに、さらなるモデル精度の向上を実現可能とした、より広範で大きなデータの解析が求められる未来を見据えた開発とソリューションの提案を行っております。(*註1)
US側ではHadoop運用によるお客様は、元々Hadoopを導入されているお客様が多いため事例が多いという背景がありますが、アジア、特に日本ではHadoopそのものが企業インフラとして欧米ほど普及していない現状もあり、導入の際の考慮点はあるかもしれません。
ただ、皆様には、弊社DataRobotアーキテクチャの観点から、”Hadoopという選択”と”利点”が存在すること、そして弊社はそういった”未来”を見据えてHadoop技術などのインフラ面からも常により良いソリューションを開発し、現在も提供していることを今回のBlogで知っていただく機会になればと思います。
 
*註1:DataRobotでは2018年10月現在、ClouderaとHortonworks(Ambari)のHadoopディストリビューションのみをサポートしています。