2024年6月19日(水)に開催した「データサイエンティストが教えるデータ分析のヒント」と題したウェビナーの内容をご紹介いたします。
データ活用の現状
近年、インターネットユーザ数の爆発的な拡大が想定されています。インターネットユーザ数が、年平均成長率6%で増加していて、昨年の2023年には世界全体で53億人、つまり世界人口の 66%に達することとなりました。言い換えると、世界人口の約3分の2がインターネットにアクセスできるようになりました。インターネットに接続するデバイス数の増加にともない、データ流通量の爆発的な拡大され、データサイエンティストへのニーズも大きくなっている状況です。
実際に上記資料の通り、企業へ「一年間目標としていたデータサイエンティストの数を確保できた」かどうかというアンケートに対して、60%近くの企業は確保できなかったと回答しています。このデータからもわかる通り、日本ではデータサイエンティストの人員不足という課題があります。またデータサイエンティストの中でも統計や人工知能などの知識を持って専門的な分析できる人材より、データを活用してビジネスの課題を解決できるようなタイプとデータ収集、加工及びシステム上の運用ができるタイプが合計76%を占めていることがわかりました。
データ活用の主な課題
データ活用関連の背景を踏まえ、いざデータ活用をはじめようとした際に、出てくる課題として次の3つがあげられます。
1つ目はデータが膨大過ぎて、処理ができないという課題です。
分析に使うデータ量が増加し、蓄積していくと、処理が重くなったり、容量の限界を超えたファイルが、使用中に壊れる可能性が高くなり、データの処理を行えなくなることが出てきます。
2つ目はデータが複雑すぎて、処理ができないという課題です。
データを入手する手段や、データソースが増えていくと、データの中が複雑になり、処理する途中でゴールを見失ってしまうことがあります。データの管理や処理の過程を可視化することが課題となってきます。
3つ目は、データを分析する人員の不足です。
データサイエンティストが不足しているので、作業が特定の方に集中しやすくなってしまいます。手順書やマニュアルを作成していないと、担当者の部署異動が有った際の引き継ぎをスムーズに行うことが出来ません。例えば、Excelでデータ分析している際、なにかデータ分析の方法で修正が発生した際は、また1から関数を組み直さなければならないといったことが発生します。また、人手不足の中、毎月繰り返す処理等のルーティン化された分析の自動化が実現されていないと、毎月同じような作業に時間をとられ、さらに手作業によるミスが発生する恐れもでてきます。
これらの課題を解決するため、データに対しての理解を深め、データ分析のプロセスをより簡単に行う必要があると思いますので、スピーカーの経験をもとにデータ分析の考え方とヒントをご紹介させていただきます。
データ分析の考え方
データ分析の手法は進化し続けていますが、データから得られる知見のレベルによって、大体4つのカテゴリに分けられます。
記述分析とは「何が起こったか?」を理解するための分析です。
例えば、日々特定時間帯の気温の記録データを通じて、日中気温のピーク時間がわかります。
診断分析は、ある現象がなぜ起こったのかを理解する際に行います。この分析では、各測定値の関係が考慮される必要があります。たとえば、スライドの例の場合、異常な気温測定値は、雨が降っていたのが原因であることがわかります。
予測分析では、今まで得られた実際のデータを利用し、これから起こり得る結果を予測します。つまり、特定の条件でその事象が起こる確率が高い、ということがわかります。
処方分析は、分析に基づいてとるべきアクションを論理的に提案することです。
データ分析のヒント
データ調査、データ準備、そしてデータ分析の自動化、つまり、ワークスマートに分けてお話させていただきます。
まず、データ調査についてです。データは数値形式とは限らないので、データの構成要素に対して、柔軟な見方が必要です。
データは定量データ (数値データ) と定性データ (通常はテキストデータ) に分類されます。もう1つのデータ分類の方法は、データの形式を参照して、データを構造化、半構造化、または非構造化の3種類に分けられます。構造化データは通常テーブルに値を配置する表形式のデータを言います。半構造化データは通常集めたデータに合わせてタグをつけるように保存されており、代表的な形式はJSON、XMLです。非構造化データはメディア、画像、音声、テキストなどを含みます。構造化データは、分析には一番使いやすいデータ形式ですので、半構造化データや非構造化データを構造化データに変換することは、データ分析には必須なプロセスです。
データソースもスプレッドシートやExcel、Word、Pages、メモ帳など多岐にわたります。それぞれのファイルによってデータが保存される手法やファイルを開けるプログラムが異なるため、事前にデータの共有方法や読み込み方を明確にしておく必要があります。
またデータ調査時にデータタイプの確認が必要です。例えば、100210という値だけを見た時、皆さんはなんの値だと思うでしょうか?
日付でしょうか、金額でしょうか、もしくは郵便番号でしょうか。データタイプによって、その値が持つ情報が変わってきますそのため、その値の実際の使い方に応じて、事前に値の形式、データタイプを定義する必要があります。
次にデータ準備についてです。実際のデータは、乱雑だったり不備があることが多くあります。入手したデータの値が欠落していたり、異常値が含まれていたり、必要な情報が含まれていなかったりすることはよくあることです。例えば、下の表は、データの不備があるため、このまま使うとデータ分析をスムーズに行うことができません。
①はデータが入っていない損失データがあります。このNullデータに対して対処をしないと、後々の集計や突合処理をする際に影響がでてきます。②は文字列内に空白があります。③のように全角半角が混在してしまうことも実際の業務の際に多々出てくるのではないでしょうか。また、異なるデータソースを使用すると、④のように日付や数字の形式が異なる場合があります。このまま分析を進めようとすると、データタイプが変わってしまう恐れがあります。
このようなデータ不備を直しデータの質を向上させるために、データラングリングと呼ばれる望ましい形式へ変換する作業が大切です。
最後にデータ分析の自動化、ワークスマートについてです。新しいデータセットに対して同じアクションを何度も実行するのは効率的ではないため、データ分析には何度も実行できる、自動化されたソリューションが求められます。こうすることで、同じクレンジング手法を新しいデータセットに適用して、手作業の時間を省けます。
自動化ソリューションのアルゴリズムは、現在のデータセットに適合するだけではなく、将来データが変化する可能性も考慮して対応する必要があります。このような人の手修正を必要とせずに、自動で新しいデータを処理できるように構築されるソリューションは、「動的なソリューション」としても流行っています。これらのソリューションを活用することでワークスマートを促進することが出来ます。
動的な自動化ソリューションとしてデータ分析ツールAlteryxの紹介
最後に、データ調査、データ準備、そしてデータ分析の自動化を網羅できるセルフ分析ツール、Alteryx(アルテリックス)についてご紹介させていただきます。
Alteryxはみなさんお持ちの様々なデータ、CSVファイルからデータベースまで接続を行います。そして、データ準備などを行い、さらに空間分析や機械学習モデルを使ったような予測分析などまで使うことも可能です。最終的には、BIツールやレポートなどの形で得られたインサイトを共有していく、というのが一連の流れです。これはCODE FREEと記載の通りプログラミングを行う必要はなく、300近い種類のツールを組み合わせて分析の内容を構築していきます
データ準備・データ分析を行っていくAlteryxですが、GUI操作を中心にしたインターフェースとなっており、プログラミングなしにデータ処理ができるためデータ分析の専門家がいなくてもデータ分析の推進を行うことが出来ます。
京セラみらいエンビジョンは導入時のサポートをはじめ、みなさまがAlteryxを使いこなせるように様々なサポートメニューを準備しておりますので、ご興味がございましたらお気軽にお声がけいただければと存じます。
おわりに
まずは手元にお持ちの各種のデータやファイルを徹底的に調査して必要なデータを抽出、定義を行うことが大切です。その後各アクションをとってデータラングリングを行い、データ分析の効率を考慮したら、何度も繰り返す操作を自動化するのが勝負のポイントとなります。また、進化し続ける機械学習の力を借りて、予測分析をより簡単に行うことが、データドリブンな意思決定の助けとなるでしょう。
資料では解決策について具体的にご紹介していますので、是非ご確認ください。