ホーム > 情報ライブラリー > マーケティング・アナリティクス > データマイニング・ヒッチハイクガイド > 第10回:ロジスティック回帰分析

マーケターのための
データマイニング・ヒッチハイクガイド

第10回:ロジスティック回帰分析

日本テラデータ株式会社
マーケティング統括部 マーケティング部
スペシャリスト 山本 泰史

線形回帰分析が量的変数を予測するのに対して、ロジスティック回帰分析は発生確率を予測する手法です。基本的な考え方は線形回帰分析と同じなのですが、予測結果が 0 から 1 の間を取るように、数式やその前提に改良が加えられています。0 から 1 の間ということは、例えば 0.4 のような確率で予測を行うということになります。そしてそのために従属変数(被説明変数)に 2値の質的変数を用いています。例えばある商品の購入有無(Yes or No)のように、2値しかとりえない値を従属変数の実績値として用い、説明変数を用いてその発生確率を説明するという構造になっています。

マーケティングにおける利用可能性としてもっとも大きなものは、顧客がある特定のキャンペーンに対して反応を示すか(Yes)、否か(No)というテーマを他の変数を利用して予測するものです。このとき Yes/No という値で得られている変数は 1 もしくは 0 という 2値のいずれかで示され、この 1 もしくは 0 という値を、他の説明変数が決定付けている、もしくは影響を与えているとみなして分析を行ない、数式を構築します。そして得られた予測結果は、0 から 1 の間の確率で与えられます。つまり、独立変数の値を式に代入することによって「顧客 #105 は確率 0.8 で反応するであろう(=確率 0.2 で反応しないであろう)」という結果を得ることになります。

 

利用するデータ

ここではある総合量販店における、子供服のキャンペーンをテーマに取りあげます。この企業では会員カードを発行しており、過去の購買履歴データを用いることにします。変数として「おもちゃ」カテゴリーの商品を購入した顧客に 1 を、購入していない顧客に 0 を付与した変数「おもちゃ購入」を利用します。また同様に、HBCカテゴリーで「紙オムツ」を購入した顧客を 1、購入していない顧客を 0 として、この変数を「紙オムツ購入」とします。そして予測する変数(従属変数)として、本来販売したい「子供服購入」の変数を用意しました(図10)。通常総合量販店において、これらの商品はそれぞれ異なるフロアに陳列されています。一方でこれらの商品を購入する顧客群は、「小さなお子さんがいらっしゃる」セグメントとして捉えられ、ある同一の生活ステージに含まれるセグメントとして認識することが可能です。従って、おもちゃの購入、そして紙オムツの購入により、子供服の購入を説明させることは合理的であるように感じます。また、これらに合致する顧客群に対して、子供服のキャンペーン案内をすれば、相対的に高い反応率を得られることも想定できます。

図10. データセット

ここで作成されたデータは、元々のレシート明細データから考えた場合、幾つかの処理を経ることによって利用可能となります。おもちゃ、紙オムツ、そして子供服のそれぞれの商品がレシート明細に含まれているか否かを見極め、購入されている場合は 1 を、そうでない場合は 0 を付与しています。また、それぞれの世帯のお子さんが既に大きくなっていては意味がありません。例えば過去 1年等のデータに絞り込むことが前提となります。他にも考え方としては、それぞれのカテゴリーに対する支出額や来店購入頻度等、反応率の説明に利用可能な変数は幾つか想定可能ですが、ここでは分析手法のイメージを理解いただくことが目的のため、シンプルな例にとどめます。

 

ロジスティック回帰分析の考え方

ロジスティック回帰分析は線形回帰分析同様、説明変数を ax+b のような形にします(この例では 2変数を用いるため a1x1+a2x2+b となります)。しかしながら分析結果、つまり予測変数として欲しいのは 0 から 1 の範囲内に収まる確率値であり、これを y=ax+b で結んだ場合には、このような制限を加えることが出来ません。なぜなら y、つまり ax+b はいずれの値をもとりうることになるからです。このため、y ではなく、y に細工をした形でモデルを構築することになります。マヨネーズのチューブ口にキャップがしてあり、大量にマヨネーズが飛び出ないように工夫がしてありますが、同様のイメージを y=ax+b の左辺に施すと考えていただけると分かりやすいでしょうか。キャップを着けることによって、出てくるマヨネーズは確率の形、つまり 0 から 1 の間の値に限定されるということになります。

ロジスティック回帰分析を行うために着けるキャップは、loge{y/(1-y)}= ax+b です。y は購入する確率を意味し、1-y は購入しない確率を意味します。分母に非発生確率、そして分子に発生確率をおいて算出したものを「オッズ」と呼び、発生確率が非発生確率の何倍あるかを意味している指標です。そして loge{ } で示される部分の意味合いは「対数をとる」、または「ロジット変換を行なう」ということになります(※7)。何故このような仕掛けを施すかは省略しますが、ここではこれによって得られる効果を見ていくことにします。図11 をご覧ください。横軸は対数をとった値、つまり loge{y/(1-y)} であり、ax+b です。これに対して縦軸は y、つまり購入確率を意味します。

図11. ロジット変換

これは当初の意図通り、ax+b がいかなる値もとり、かつそのときに必ず、y は 0 から 1 の間に収束することを表しています。またこの曲線は縦軸が 0 のとき、横軸は 0.5 となり、横軸がマイナスから 0 に近づくにつれて y の値が急激に増加し、x が 0 からプラスの値へと増加していくにつれて y の値が 1 に向けて収束していく形になっており、その増加「率」は低下します。このような、S字を崩したようなデータの形は例えば細菌の発生から繁殖による隆盛、そして安定に至るプロセスで数多く見られる現象であり、また、人間の学習曲線(例えばテストの点数に見るような)においてもその説明に用いられます。人口の増加と安定もこのような曲線を重ねて導かれています(背後に第1次産業、第2次産業の勃興があったときに、充分な食料と生活レベル向上が実現して安定し、結果繁殖増がもたらされましたが、最終的には増加が頭打ちになる傾向が見られています)。

マーケティングキャンペーンの反応率や、ある商品の普及率などを考える際にも、このような曲線は回帰の対象としてふさわしいものです。例えば何の工夫もない、3% の反応率を持つキャンペーンに手を加えることによって得られるキャンペーン反応率の上昇は、大きなものが期待できます。仮にこのキャンペーン反応率の改善結果が 13% であるとします。一方でありとあらゆる手を尽くしてクリエイティブや絞り込み条件を精査し、入念な準備の上に実施された、反応率 70% のキャンペーンに、さらに工夫を重ねたとして、どの程度の改善が見込めるでしょうか。同様の 10% 改善(=80%)が見込めるでしょうか。また、仮に同じ 10% の改善が見られたとして、それに伴う努力の幅は同じで済むものでしょうか。商品、例えば電話回線のようなサービスが普及するとき、最初の段階では微増ですが、その後クリティカル・マスを経て加速度的に増加し、続いて一定の普及ボリュームへと収束することになります。このように、多くの発生事象はその勃興時に「産みの苦しみ」に直面し、それらを乗り越えることによって繁栄局面へと展開し、ある一定レベルまで成長を遂げると限界に近づきます。このため最終局面における伸びしろ、つまり成長の余地は極めて限定されることになります。ロジスティック回帰分析は、このようなロジット変換が表す曲線に回帰させることを目的とした分析手法なのです。

(※7)対数は指数に対する概念です。指数では「2 の 3乗は 8 になる(23=8)」と考えますが、対数においては「2 の何乗が 8 になるか?」と考えます。このとき、その答えである 3 を 3=log28 と表します。そしてこのとき 3 は、「2 を底とする 8 の対数」と表現されます。loge{ } における e は2.71...を意味する定数であり、{ }内に含まれる値の、e を底とする対数をを意味します。また、logeX に用いられる底 e は、自然対数の底とも呼ばれ、ln とも表記されます。

1|2

・Teradata はTeradata Corporationの登録商標です。本文中の社名、製品名は各社の商標または登録商標です。
・本文中に記載されている製品情報は、予告なく変更する場合がありますのでご了承ください。