AWSを用いたデータレイク構築・検証の事例
住友重機械工業株式会社様
住友重機械グループは、一般産業機械から最先端の精密機械、さらに建設機械、船舶、環境・プラント機器までをカバーする総合機械メーカーとなっています。100余年の伝統のなかで培ってきた「モノづくり」の精神は、ナノテクノロジーから巨大構造物まで様々な分野に展開され、「動かし、制御する」確かな技術を駆使することで、豊かな社会づくりに貢献しています。
Index
検証の概要
住友重機械ではグループ内でデータ活用の文化を定着させ、それにより企業のデジタル変革に貢献できるようにしたいと考えました。その実現のために、ユーザーがセルフサービスで必要なデータに安全にアクセスできるようにする新たなデータ活用基盤として、AWS上でデータレイクを構築し運用できるかの検討を実施しました。
膨大なデータに対し、多くのユーザーがストレスなく活用できる環境がAWSで構築したデータレイクで実現できるのか。さらには安全、安心なデータ利用のために、適切なアクセスコントロールを実現できるのか。さまざまな検証を実施する中で、適宜サーバーワークスからAWSを使いこなすためのサポートを受け、十分な性能が発揮できるデータレイクをAWSで構築できることが確認されたのです。
検討のきっかけ
一般産業機械から最先端の精密機械、さらには建設機械、船舶、環境・プラント機器まで幅広くカバーする総合機械メーカーの住友重機械グループ。同社はグループ内に蓄積されるデータを積極的に活用し、デジタル変革に貢献できるようにすべきだと考えました。そのためにはデータレイクを構築し、グループのデータ活用基盤を整備する必要があります。グループのバックオフィス業務やコンピュータシステムの開発、運用、保守業務などをシェアサービスで提供する住友重機械ビジネスアソシエイツでは、この新たなデータレイクの構築と運用を担当することとなります。
2018年頃から住友重機械グループでは、新たなデータ活用に取り組んできました。具体的にはデータのビジュアル分析プラットフォームTableauを導入し、ユーザーのセルフサービスBI環境を構築してきたのです。Tableauを活用するには、グループ内にあるデータを効率的に蓄積し、必要なデータを容易に取り出せるデータレイクが必要です。住友重機械グループでは、これまでにデータレイクのような大規模なデータ活用基盤を、自ら構築し運用した経験がありませんでした。そのため「データレイクを構築して運用できるかを、検証することから始めました」と言うのは、松澤氏です。
サーバーワークスとAWSを選んだ理由
データレイクの基盤として選んだのがAWSでした。「AWSを選んだのは、データ活用基盤として利用されている事例が多かったこと、さらに拡張性があり蓄積するデータ量の上限を気にする必要がないことも採用のポイントでした」と風間氏は言います。Amazon S3を中心に各種サービスを連携させたデータレイクの成功事例は国内にも数多くあります。同様なものを、住友重機械グループでも構築しようと考えたのです。
住友重機械グループでは2013年からSAP ERPを利用しており、そこには膨大なデータが蓄積されています。そのデータを利用し、データレイク環境を構築して性能や運用性の検証を実施します。データレイクとしてまずはAmazon S3にデータを置きTableauから利用できるか、またAmazon Redshiftも利用しAmazon S3との違いも確認します。
検証の実施にあたり、AWSの経験値がそれほど高くない自分たちだけで環境構築することで、十分に性能を引き出せないのではとの懸念もありました。「そのせいでクラウドを過小評価してしまっては困ります。そのため自社で構想を作成した後、詳細設計や構築やチューニングなどAWSを使いこなすところは、専門家であるサーバーワークスにサポートを依頼することにしました」と風間氏は言います。
サーバーワークスに依頼したことと検証内容
住友重機械ビジネスアソシエイツでは、2020年11月から検証を開始します。まずは小規模なデータをAWSのデータレイクに置き、Tableauを用いグラフ作成などのビジュアルデータ分析が行えるかを確認します。Amazon S3にCSVファイルのデータを置き、Amazon Athenaを用いてSQLでデータにアクセスできるようにしてTableauから分析ができる環境を構築しました。CSVのデータは高速な検索、参照ができるよう、AWS Glueを用いて列指向のParquet形式に変換しています。
環境の設計および実装作業はそれぞれ1週間ほどしかかからず「ものすごく短期間で終了したイメージがあります」と風間氏は振り返ります。できあがったAmazon S3ベースの環境はデータが少なかったこともあり性能は十分で、Tableauとの接続に関する技術的な問題がないことも確認できました。
検証結果を踏まえ、次のステップではより多くのデータを扱う際の性能の確認を実施します。これにはSAP ERPに蓄積されてきた会計伝票明細の1億7000万件のデータを利用します。データは複数テーブルを結合して利用するので、処理するデータ量はさらに多くなります。「当初は膨大なデータ量のせいで負荷が高く、一部サービスが落ちてしまうものもありました。そこからサーバーワークスのサポートを受け、1つ1つ使っているサービスを丁寧にチューニングし、最終的には全体の処理が走るよう改善しました」と言うのは、後藤氏です。
検証では全てのSQLの処理が実行され結果が正確に得られるか、処理時間がどのくらいかかるかを確認しました。SAP ERPからのデータ抽出では、処理の流し方で完了できる場合とそうでない場合があり「接続の仕方、処理の流し方によってAWSの裏側で動く仕組みが異なることをサーバーワークスから教えてもらい、落とさずに処理する方法を明らかにしてデータを迅速に抽出できるようになりました」と後藤氏。Amazon S3へのファイルの置き方からAWS Glueのジョブの作り方や分け方なども、サーバーワークスの構築物を見ながら知ることができたと言います。
この段階でAmazon Redshiftについても確認を行っています。データソースとなるSAP HANAにアクセスする際に、Amazon AthenaとAWS Glueを組み合わせて利用すると30分間のタイムアウトが発生しました。またAmazon RedshiftのAPI経由でアクセスする際にも、独自のタイムアウトが発生しエラーとなることがありました。これらは、AWSのコンソールからは容易に確認できず、こういった問題についてもサーバーワークスのアドバイスを元にAWSの裏側の仕組みを十分に理解し問題解決に至っています。他にもAWS Glueの中で処理を記述していたPythonの書き方、セキュリティ情報を格納するAWS Secrets Managerの効率的な使い方なども、サーバーワークスからアドバイスを受けたことが大いに役立ったと後藤氏は言います。
実利用のシーンを想定したTableauを用いた検証では、当初1項目のデータ抽出に2分弱の時間がかかっていました。チューニングを施した結果、それが5秒程度まで短縮されたのです。このようにさまざまなチューニングを施すことで良好なレスポンスが得られると分かり、AWSのデータレイク環境が現実的だと確認できました。風間氏は「今回利用したSAP ERPのデータよりも規模の大きな社内データはありません。AWSのデータレイクでどのデータを使っても安心できる性能があることが確認できました」と言います。
検証時のサーバーワークスの対応については「レスポンスがかなり速く、情報の精度も高いです。私自身もAWSの技術者認定資格は持ってはいましたが、AWSの更新頻度は早く専門に追いかけていないとついて行けないところがあります。それを確実にキャッチアップしフォローしてくれる点は安心感がありました」と後藤氏は言います。サーバーワークスにはそれぞれの分野、ツールの専門家がおり、AWSのどんなことを聞いても素早い返答が得られ、それは頼もしいものがあると評価しています。
今後の展開について
2021年4月の段階では、2022年度からデータレイク運用開始を目指し、多くの部門やグループ会社での利用を想定してユーザーごとに適切なアクセス制限のための権限設定の設計、実装を行っています。設計部分は主にサーバーワークスが担当し、できあがった設計をベースに実運用を想定した実装と確認作業を住友重機械ビジネスアソシエイツで行っています。今後は、安全なデータレイクを容易にセットアップできるAWS Lake Formationの活用も検討しています。「IAMロールでは権限管理がばらばらになりがちです。AWS Lake Formationを使うことで部門単位で一括した権限管理が実現できることを期待しています」と風間氏は言います。
「Tableauを使いデータを見る文化を、まずはグループ内に定着させたいです。Tableauを使えば、過去から現在までのデータの推移が見られるようになります。それができれば、次は未来がどうなるかを予測したくなるはずです。そうなれば、将来は機械学習などを活用することになるでしょう」と風間氏。そのためにまずは、ビジネス現場の実案件の中で、データ分析をセルフサービスでできるようにし、そこから機械学習などの技術を活用して予測など新たなデータ活用を実現していきます。これには、今回のAWSのデータレイクが大いに活用されることとなるでしょう。
「今回は具体的なシステム構成をどうするかではなく、データレイクを実現しデータ活用できるようにするという漠然とした相談となり、当初はできるかどうか不安もありました。それに対しサーバーワークスは、我々の立場を理解し我々の目線でサポートしてくれました。この対応は、良い意味で期待を裏切ってくれました」と松澤氏。風間氏も、「従来はEC2などの仮想サーバの運用などの守りのIT範囲で、サーバワークスさんにご相談することが多かったですが、今後はより広い範囲で相談ができるパートナーとして、サーバーワークスには期待しています」と語りました。
※ この事例に記述した数字・事実はすべて、事例取材当時に発表されていた事実に基づきます。数字の一部は概数、およその数で記述しています。
選ばれる3つの理由
-
Reason 01
圧倒的な実績数よる
提案力とスピード- 導入実績
- 1340 社
- 案件実績
- 21800 件
-
Reason 02
AWS認定の最上位
パートナーとしての技術力 -
Reason 03
いち早くAWS専業に
取り組んだ歴史