データ蓄積・分析基盤
文責:石川陽一
"データ蓄積・分析基盤"はなぜ重要か
蓄積された生のデータは、構造化され、整理された上でデータ分析に使いやすい形のクラウドサービスなどのデータ分析基盤に格納されます。
基盤に蓄積されたデータがあれば、データ分析のためのビッグデータ処理の知見が少ないエンジニアや関係者でも以下のことが可能です。
基盤に蓄積されたデータがあれば、データ分析のためのビッグデータ処理の知見が少ないエンジニアや関係者でも以下のことが可能です。
- データを集約して可視化する
- 可視化したビジュアルを関係者と共有する
- AIやML(Machine Learning 機械学習)を使ってデータ分析をする
データ蓄積・分析基盤があれば、大量のデータを整然と自動化して集められ、分析・可視化・共有といったことを効率よくできるため重要です。
データを集めることの重要性
下図はさまざまなデータソースからデータレイクに収集、データウェアハウスに溜めて、BI(ビジネスインテリジェンス、事業活動のデータ分析)で可視化や共有等を行って分析するといったデータ分析基盤の一例です。
こういった分析基盤がないと、たとえば事業システムの利用状況を確認したいときにはアクセス権をもつシステム部門の人に依頼をし、システム部門の担当者は要件にあったSQLの抽出を作成し抽出しては指定の場所に置く、といった担当者の連携によって対応する必要性がでてきます。また抽出したデータの置き場所を決める際にはセキュリティ要件も考慮しなければならず、安全性や効率性の面からも大変です。
このようなデータ分析基盤を作ることで、分析データの形式やアクセス方法が統一されていくともに、データの民主化が進み、他の方に抽出を依頼することなくセルフで対応できる世界が築けます。
データ分析用に加工することの重要性
データ分析では、ビジネスデータや外部サービスから得られる様々なデータを用いて、その特性を理解することが重要です。しかし、事業システムに保存されている個人情報を直接見るわけではなく、むしろ情報セキュリティ対策の適用とアクセス制限が望まれます。データレイクからデータウェアハウスへ形式を変換する際には、個人情報のマスキングが行われて、扱いやすく、かつ安全な形に既に変換されていることが重要です。
また、事業システムのデータはビジネスサービスの提供を変化させていくシステム変更の段階で、システム内のデータの持ち方を変える場合があります。そういったデータに関する変更があった場合でも、データ基盤があれば、ETLの抽出・変更の中で対応しやすく、従前と同様のデータ形式により分析を継続できます。
データを扱える人員の拡大・育成することの重要性
データ分析基盤を構築しただけでは不十分です。基盤を構築することで分析しやすいデータへのアクセスは可能になりますが、ビジネス部門のニーズに応じた分析結果が自動的に表示されるわけではありません。たとえば、これまでのスプレッドシートで集計することをメインにしていた人がデータ分析基盤を使いはじめたとします。データ基盤の見たいデータにアクセスする、自分の集計にあった形に収集する、収集したデータを形式の整形をしたり、各種数値を集計・集約したあとチャート等によって可視化する…etc. etc データ分析等の方法を学び独自に対応ができるようになっていかなければなりません。そのための手厚い教育は不可欠です。
データ分析に関する社内外の教育・教材等を使う、各社それぞれのデータ分析基盤の使い方に関するガイドライン等を用いて学習を行う、アクセス権限を考慮した上でデータ分析基盤にアクセスできる人員を増やしていくなどなど、データ分析基盤を有効に使っていくための取り組みはいろいろ考えられます。広く関係者に周知していき、手を動かしてデータにアクセスして、分析できる人を増やしていくといったことを継続的に取り組んでいくことが重要になるでしょう。