ホーム > ソリューション > データマイニング

データマイニング

データに内在する隠れたパターンを発見する

データマイニングは、統計解析や機械学習にその端を発し、今日ではビジネス上のさまざまな意思決定や、ビジネス対象の評価にその基盤として用いられています。サンプリングではなく、より大規模なデータに対してデータマイニングの分析を適用することが可能となったため、マーケティングにおけるリコメンデーションや確率予測のように、ビジネス対象である顧客のすべてに対して精緻な意思決定を行うようになってきています。

データマイニングの適用分野

データマイニングは、不確実な状況に対する予測、膨大なデータに対する分類や隠れたパターンの発見が求められる分野において威力を発揮します。以下は代表的な例ですが、数式やルールモデルによってパターンを定型化し(モデリング)、モデルに対してデータを適用することで(スコアリング)、予測値や分類結果を取得することが可能です。

  • セグメンテーション:顧客、商品、店舗などをグルーピングし、管理を容易に
  • 顧客行動予測:商品購買、チャネル利用、離反/休眠/解約、成長/脱落などの可能性を予測
  • 収益性:顧客生涯価値、購入額や販売量などの予測
  • 信用およびリスク管理:デフォルト確率などの予測
  • 価格最適化:価格弾力性を考慮した収益最大化
  • 不正検知:不正と想定される取引の察知

OLAPレポーティングと何が異なるのか?

データマイニングの分析手法は、OLAP(On Line Analytical Processing:オンライン多次元分析)やレポーティングなどの分析手法とは異なります。

OLAP により、ユーザーはビジネス上抱いている具体的な質問に対して答えを得ることができますが、多くの場合それは範囲が絞りこまれ、集約された軸に対する、幾つかの変数指標で表現されます。これによりユーザーは、現在のビジネスにおける結果を事実として把握することが可能となり、特定軸に対する変数指標を比較することにより、ビジネス上の結果が良かったのか悪かったのか把握可能です。さらにドリルダウンや軸の切り替えによって、どこが良かったのか(もしくは悪かったのか)といった形で原因に行きつくことが可能となります。

しかしながら、OLAP の場合に投げかけられる質問の対象は、ユーザーが既に疑問を抱いているデータの中のピンポイントな一部分であり、必要としている答えは集約された結果です。明細データの中や、誰も関心を示さないデータ部分に、ビジネス上重要な事実が隠れているかもしれません。

データマイニングは、このような分野における隠されたパターンを発見するのに役立ちます。データマイニングではOLAP で通常用いられる以上の変数を投入し、分析に利用します。そして、「スコア」と呼ばれる、予測や分類結果のようなアウトプットを析出します。またこのスコアを導き出すにあたり、数式やルールによって記述された「モデル」を作成します。したがって、データマイニングにおいて導き出されるパターンは、このモデルという形式で発見されます。サンプルではなく、データウェアハウス内に存在しているデータのすべてを対象とすることによって、隠れたパターンを導き出すとともに、パターンに合致する顧客や商品などを特定することが可能となります。

モデルとスコアの形式

データマイニングにおけるモデルとスコアは、以下のような形式で析出されます。例えばデシジョンツリー分析を用いて解約確率を予測する場合、樹形図の IF-THEN形式のルールが構築され、スコアデータとして顧客毎の解約確率と、解約確率に基づく分類結果(=判定結果、解約する/しない)が計算されます。この場合、スコア結果に基づいて解約阻止のためのキャンペーンを行うことが一般的な活用方法ですが、それと同時にどのような変数が解約に強く影響しているか、モデルを吟味することによって理解することが可能です。

  • モデルの形式
    - 数式モデル
    - IF-THENルールモデル
  • スコアデータの類型
    - 確率予測値
    - 定量予測値
    - 指標値
    - 分類結果

データマイニングの適用対象

データマイニングは、データサンプルに対して適用されます。データサンプルの代表的な例は、顧客、商品、店舗などです。例えば顧客マーケティングであれば、「顧客の行動を予測する」、「顧客を分類する」といったことが、データマイニングによって可能となります。もちろん顧客の数が少なければ、そしてデータの量が少なければ、ユーザーは実データを直接把握し、頭の中で予測や分類を行うことが可能です。しかしながら膨大な顧客、顧客それぞれに対する膨大なデータが存在するとき、データマイニングを利用することによって、効率的に知識を発見することが可能となります。また、実データを直接見ただけでは見逃してしまいがちなパターンを拾い上げることが可能となります。

データマイニングのプロセス

データマイニングは、以下のようなプロセスを経て実施されます。データマイニング・ソフトウェアが必要とするデータの形式を ADS(Analytical Data Set:分析データセット)と呼びます。この ADS は多くの場合単一の表であることが求められ、一般にデータウェアハウスに存在している正規形のデータモデルから ADS を構築する必要があります。

  1. ビジネス課題の明確化:データマイニングで定義したい課題を定義付けします
  2. 環境の準備: (初期段階において)分析を行う環境を構築します
  3. データプロファイリング:データマイニングに利用するデータを検討します。分析に値する品質を有しているか、ビジネス課題に適しているデータか、といった調査を行います
  4. 分析データセット(ADS)の構築:分析に利用する ADS を作成します。データマイニング作業を恒常的に実施していく場合には、日次、月次など定期的に ADS を更新します
  5. モデリング:分析アルゴリズムを ADS に適用し、パターンを数式もしくはルールモデルとして導き出します
  6. スコアリング:得られたモデルをデータに適用し、パターンから導き出されるスコアを算出します
  7. 知識の利用と評価:マーケティング・キャンペーン、信用スコアリングのアプリケーションや、レポーティング・ツールなどに連携し、スコアリングデータを活用します。また、活用の結果モデルの精度が正しいかどうかを評価します

これらのプロセスは、何度も反復を繰り返しながら実施され、新たなデータの適用、より精度の高いモデルの構築を行うことによってビジネス上の効果をより高いものとしていきます。

データマイニング・ソフトウェア 「Teradata Warehouse Miner」

Teradata Warehouse Miner は、Teradataデータベース内部でデータのプロファイリング、分析データセットの構築、モデリング、スコアリングに至るすべての処理を行うデータマイニング・ソフトウェアです。Teradataデータベースの内部で処理を完遂できるため、データマイニング作業の効率を大幅に改善できます。

Teradata Warehouse Miner

関連コラム「Teradata Warehouse Miner を利用したデータマイニング」

データマイニング・サービス

テラデータでは、顧客企業にデータマイニングを活用いただくためのコンサルティング・サービス、分析代行サービスを提供しています。データマイニング分析のスタートや試行段階において、自社のデータを用い、実業務に即した形で習熟や運用を開始したい場合にご利用ください。

データマイニング・コンサルティング・サービス

データマイニングを利用したマーケティング分析サービス