現在位置: ホーム / ビッグデータ ブログ / TreasureDataの1年半を機能面で振り返る

TreasureDataの1年半を機能面で振り返る

TreasureDataでは週1回のサイクルでリリースが行われています。そこで今回は、私がTreasureDataと関わり始めた1年半前と比べて、どういった機能が追加されてきたのかをまとめて紹介したいと思います。

はじめに

こんにちは、髙橋@SSTDです。
TreasureDataというサービスに私が関わり始めてから1年半が経ちました(TreasureData自体は、2012年後半に商用サービスを開始したため、3年目です)。
この間に、TreasureDataでは毎週、機能向上や新機能追加が行われ、より使いやすいサービスへと成長してきています。そこで、今回は1年半前と比べて、どういった機能が追加されてきたのかをまとめて紹介したいと思います(参考URL:サイオス Treasure Data紹介ページ)。

ストリーミングインポート

バルクインポート

過去データのインポート用に作られたBulkimport機能ですが、当初はruby版のツールでした。

$ td bulk_import

しかし、圧縮効率の最適化や並列処理のパフォーマンス向上を目指して、Java版のツールもコマンドラインツールとして提供され、より高速にデータのアップロードが行えるようになりました。

$ td import

型チェックがRuby版よりも厳密になったため、初めは戸惑った記憶があります。

SDKs

これまではサーバにtd-agentを入れて、Webサーバのログやアプリケーションからデータを送信するという方法が主なデータ収集方法でした。
しかし、下記のSDKが提供されたことにより、端末から直接データを取得するということが可能になり、アプリケーションサーバと通信が発生しない際のデータも収集できるようになりました。
また、それぞれのSDKのデータを待ち受けるサーバがTreasureData側にあるのも素晴らしいですね。

Webコンソール

Webコンソールは、2013年の初めに比べて圧倒的に使いやすくなりましたね。
当初は全てコマンドラインツールを使って操作していたのですが、今ではWebコンソールで操作を行うようになりました。

  • 2013

2014-11-04_old-console

  • 2014
2014-11-04_new-console

そのほかに、Webコンソールには下記の機能が追加されています。

  • Team機能
    • 登録したアカウントの他にチームメンバーとしてサブアカウントの登録ができるようになりました。
  • Tableへのメモ機能
    • 各テーブルにブラウザ上でDescriptionが書けるようになりました。
  • Saved Query
    • Queryを保存し、別のTeamアカウントと共有できるようになりました。
  • Query Editor
    • Query Editorは、昔と比べて格段に使いやすくなりました。初期のエディタのスクリーンショットがなかったので比較ができないのが残念です。
  • Query Syntax Checker
    • 今週のリリースで追加されたSyntaxのチェック機能です。ますますWebコンソールの利便性が増しますね。
  • File Uploader
    • ブラウザベースでCSVやTSVファイルをアップロードできるようになりました。
    • 数百MBくらいまでならアップロードできるので、ちょっとデータを入れるときに便利ですね。
      2014-11-04_fileupload
  • Bulkimportのコンソール表示
    • td import:listの表示が実はブラウザでも見れます。
    2014-11-04_bulkimport

計算エンジン

TreasureDataでは元々、HiveとPigの二つの計算エンジンを提供していました。
現在は、それに加えてTQAという形でFacebookがOSSとして公開したPrestoを新たな計算エンジンとして提供し始めました。
これにより、デイリー集計のバッチ処理はHiveとPig、アドホック集計にはPrestoという使い分けができるようになりました。

ストレージ

TreasureDataでは、スキーマレスなカラムナストレージを提供しています。
しかし、以前はインポートされるレコードは全てvカラム内にkey-valueの形で格納され、インポート後に明示的にカラム名とスキーマを付与することで、カラムナストレージの特徴であるカラム名を明示することで不要なカラムのデータIOを削減させることができました。
また、この際のカラム名には、英数字小文字及び’_’のみという制約もありました。

しかし、現在はデータインポート時にTreasureData側でレコードがチェックされ、自動でカラム名及びスキーマがセットされるようになりました。
また、Columns Schema Aliasing機能が追加され、英数字小文字及び’_’以外のカラム名に対して、自動でカラム名のエイリアスがセットされるようになりました。

  • 参考ドキュメント

Result Output

TreasureDataはクエリの実行結果をTreasureDataの別テーブルや外部のツールに書き出すことができます。
特に、TreasureDataを様々なログを集めるデータレイクとして利用しているユーザにとっては、
データマートにRedshiftやTableau Serverを使うユースケースも増えてきており、こうした機能が非常に便利かと思います。

クライアントツール/JDBC/ODBC

TreasureDataではREST APIでクエリの発行などが行え、REST APIを用いるためのJDBCやライブラリが提供されていました。
BI toolなどへのコネクティビティを高めるために、Prestoへクエリを実行するためのPrestogresが提供され、
Windows用の32bit版のODBCドライバやPostgreSQLのクライアントツールからPrestoに対してクエリを実行させることも可能になりました。

その他

  • Education Videosが公開されるようになりました。
  • Yahoo! BigData Insights Powered By TreasureDataがサービス提供を開始しました。
  • ロゴも変わりましたね。
    2014-11-04_logo

おわりに

今回は私が特に記憶に残る新機能に注目してまとめましたが、これ以外にも既存の機能の改善や機能追加が毎週行われ、リリースノートにてレポートされています。
http://docs.treasure-data.com/categories/releasenotes
今後も定期的に面白い機能が追加された際には、記事にしていきたいと思います。

タグ: