データ活用スキルアップ講座を通して、基本的なExcel業務の効率化からBIツールを用いたデータの活用方法まで、身近な業務から大きな視点まで、シリーズを通してデータ活用の流れをご紹介いたします。今回は2024年12月10日(火)に開催した第2弾!「データウェアハウスを使ってチームで業務効率化!」と題したウェビナーの内容をご紹介いたします。
第1弾:「脱Excelで始める業務効率化のはじめ方!」の内容はこちらでご紹介しています。
企業が抱えるデータ利活用の壁
昨今、デジタル技術の普及により、多くの企業が情報を取得するためにそれぞれの部門・事業でデータベースを構築し、それぞれで情報を管理しているのではないでしょうか。同じ企業内でも収集・蓄積したデータがデータベース間でアクセスすることができず、連携できない状態をデータのサイロ化といいます。仮にアクセスできても共通のマスタデータが古かったり、ガバナンスの問題でリアルタイムに情報を共有できないなど、企業内でのデータ利活用がスムーズにできない状況が発生していないでしょうか。
先ほどのデータベースのサイロ化のように、ExcelやCSVファイルによるデータのカオス化や断片化が起きていませんか。
他社システムのため、直接データにアクセスできないシステムデータや手書きの資料や請求書、データベースデータから出力されたExcel・CSVファイルなどのデータをファイルサーバーで管理していても、システム間で異なるフォーマットで出力されるためデータの断片化が起き、データへのアクセシビリティの低下が発生していたりしていませんでしょうか。また、手元でデータを管理していても、_最新、_最新2という管理がなされ、どのファイルが最新版なのか把握することができないデータのカオス化が起きていませんでしょうか。
ファイル状況の管理が複雑化してきますとVLOOKUPのようなのExcelの関数やマクロを用いて他ファイルを参照する際に、ファイル参照ができずにファイルが壊れ、メンテナンスが必要になってきたりします。
こうした状況もまた企業様の悩みの種になっていませんでしょうか。データのサイロ化やカオス化、断片化が起き、それぞれでデータを管理することでデータの品質や一貫性の低下を招く恐れがあります。こうした問題を発生させないためにもデータを一元管理することが大切で、問題を解決する鍵がデータウェアハウスになります。
データウェアハウスとは
データウェアハウスとは、さまざまなシステムからデータを収集し、統合を行い、利用者がデータを扱いやすい形で保存する、データの保存場所となります。データウェアハウスは組織内でデータ分析を効率的に行うための必須な環境となります。
データを保存するという意味ではデータベースと同じですが、データベースが提供せずデータウェアハウスが提供するものは、
・大量のデータを保管できる大容量なストレージ
・大量のデータや複雑なクエリを処理できる高いパフォーマンス
・機密データへのアクセスと制御
これら3つをデータウェアハウスは提供しています。ガバナンスを効かせつつ、整理されたデータにアスセスしやすくなることにより、データ分析がより効率化されます。そうすることでデータドリブンカンパニーへ一歩近づきます。
以降、京セラみらいエンビジョンが提供するデータウェアハウスについてご紹介します。
Snowflakeのご紹介
データウェアハウスであるSnowflakeについてご紹介します。Snowflakeは、アメリカの企業Snowflake社が提供するクラウドベースのデータウェアハウスで、クラウドの利点を生かした非常にパワフルなプラットフォームです。マルチクラウドにも対応しており、Amazon AWS、Microsoft Azure、Google GCPいずれにも展開可能となっており、スムーズな導入が可能です。マルチクラウドに対応しておりますが、いずれのクラウドと契約をしていなくても利用することは可能です。特徴を3つご紹介します。
特徴1:パワフルな処理エンジン
通常のデータベースは、サーバーにデータべースソフトを入れ、そのサーバー自体がデータベースといった形で処理を行う部分とデータを保存するストレージが一体化していました。しかし、Snowflakeは計算エンジンとストレージを分離した設計になっており、これにより自由に処理エンジンを追加・変更することができます。
特徴2:ほぼ無限に使える最適化されたストレージ
Snowflakeはストレージの事前確保は不要で、使った分だけ費用を支払う、という料金体系となっています。また、保存時に最適化されるようになっており、自動圧縮された列指向形式のデータとして保存され、暗号化も行われます。また、誤って消したりなどしてもタイムトラベルにより最大90日間はデータを元に戻すことができます。
ユーザーが管理のためにSnowflakeに対して介入する必要があまりなく、Snowflakeはこれをニアゼロメンテナンスとしてアピールしており、使用するユーザーの管理工数削減に貢献しているポイントとなります。
特徴3:簡単なデータ共有でデータサイロを一掃
Snowflakeはデータ共有機能が豊富です。数多くのベンダーがSnowflakeのマーケットプレイス機能を用いて有償、無償問わずデータの提供を行っています。例としては気象データや商品情報データなど様々なデータが利用できます。また、これとは別に、異なる会社間でのデータ共有なども簡単にできるようになっています。共有設定を行うだけで、データのコピーを行わずに共有できるため、ほぼリアルタイムでの大量のデータの共有が可能となっています。Snowflakeを利用していないユーザーに対してゲストアカウントを発行し、データを共有することも可能です。
SnowflakeはSaaSとなっており、基本的にSnowflake社がユーザー指定のクラウド、リージョンに展開したものを利用するようなサービスとなっています。実際に契約したユーザーに対しては、Snowflakeへの接続アカウントが払い出され、ログインして利用する形になります。そのため、基本的な管理はSnowflake社が行う形になっており、ユーザーはストレージの残容量やバックアップ、ハードウェア故障などを気にする必要はありません。使った分だけ支払うというわかりやすいコスト構造により、利用費用も低減することが可能です。
しかし、実際に導入時手使いこなすには高いスキルが要求されます。データを読み込んだり、加工したりするためにはSQLもしくはPythonのようなスクリプト言語で実装する必要があります。また、SQLベースでのデータ加工は属人化しかねない高度な技術となります。
Snowflakeはデフォルトでいくつかのデータソースからデータを取得することができますが、それ以外からのデータソースを取得することができません。自動処理を実装する際、Snowflakeで作成するには複雑かつ外部ツールの知識が必要となってきます。Snowflake が提供するGUIベースではプロセス管理が困難となります。
そこで京セラみらいエンビジョンはETLツールであるAlteryx(アルテリックス)との連携をご提案しております。
Alteryxのご紹介
Alteryxはセルフサービスデータ分析ツールで、ノーコードでデータの解析を行うことができます。
AlteryxではデフォルトでOracleやMySQL、Snowflake、BigQueryといったデータベースへの接続先を約50種類近くネイティブにサポートしています。豊富な接続先をデフォルト保有しているため、異なる組織で管理しているデータへのアクセスがAlteryxを用いてることで行うことできます。また、Snowflakeなどのデータウェアハウス、データベースではSQLベースにて収集することや収集したデータを解析することができますが、AlteryxはGUIベースで処理を作成することができるため、業務の俗人化や学習コストを下げることができます。
Alteryxはノーコードツールとなっておりプログラミングの知識がなくても、アイコンで直感的にデータ加工を行うことができます。それを使えばSQLを使わずデータを加工したり読み込むことも可能なため、それぞれ専門的な知識が無くてもデータ分析を行うことができ、チームでの業務効率化を始めることができます。
おわりに
チームで業務効率化ということで、データウェアハウス、SnowflakeとAlteryxをご紹介させていただきました。
資料では導入事例もあわせせてご紹介していますので、是非ご確認ください。