マーケティングコラム
統計学とは?活用する手法に種類はある?目的別に分析手法をご紹介!
最終更新日:
公開日:
公開日:
「顧客のデータやアンケート結果はあるのに活かせていない」「顧客満足度を向上してリピート率を高めたい」 そんな悩みの解決に役立つのが「統計」です。統計を使うと、大量のデータから有益な情報を得ることもできますが、そのための手法は複数あります。そこで今回は、21世紀のビジネスパーソンならば1度はチェックしておきたい「統計分析の手法」について解説します。
統計学とは
統計とは「生の回答データ(ローデータ)に手を加えて、その性質を数値で表したもの」です。そして統計学は、統計の手法を研究する学問となります。ローデータに手を加えるのは、そのままではデータが活用できないためです。単なるデータの羅列では、有益な気づきや情報を得ることができません。例えば、アンケートで大量の回答が得られても、統計分析によってデータの性質・特徴を把握しなければ、ビジネス活用は不可能です。なお、統計の手法(データに手を加える手法)には、以下のようなものがあります。
●データを要約する手法
●複数のデータの差を調べる手法
●複数のデータの関連性を調べる手法
●複数のデータの因果関係を調べる手法
●データを予測するための手法
近年、統計学が注目を集めている理由
近年、IoT(モノのインターネット)の発展と普及に伴い、様々な種類の膨大なデータを簡単に得られるようになりました。そのような状況の中で、データの特徴を明らかにする「統計学」が注目されるようになったのです。統計学を通じたビッグデータの分析は、すでに新しいサービスや商品の開発、マーケティングや経営の戦略立案などに活用されています。さらに、統計学のみならず、コンピュータサイエンスや数学などの各知識を総合した「データサイエンス」という学問分野も登場。経験や勘に頼らない科学的な分析が実現し、ビジネス分野への展開も加速しています。
統計分析における統計方法は大きく分けて2種類
統計学の体系は、主に「記述統計」「推測統計」の2つに大別できます。ここからは「記述統計」「推測統計」の、それぞれの違いを見ていきましょう。記述統計
記述統計とは、手元にデータがある場合に有効な手法です。すでにあるデータから、平均値や中央値を求めたり、表やグラフを作成したりして、データの性質を把握します。記述統計は、テストの偏差値・平均値の算出や、人口調査、国勢調査、ビッグデータを活用した売上データの分析などに利用されています。
推測統計
推測統計は、まだ入手していないデータについて推測する場合に有効な手法です。具体的には、サンプル調査(標本調査)があげられます。サンプル調査とは、アンケート調査したい母集団の数が多すぎる場合、その中の限られた人数(サンプル)から回答を得て、母集団全体の特徴・傾向を推測する調査方法です。そして推測した母集団全体の特徴・傾向に対して、統計学的に正しいかを検証します。
推測統計は、試験結果の予測、テレビ視聴率、事故発生数予測、選挙の出口調査などに利用されています。
よく使われる統計分析の手法
統計分析では、たいてい「データの要約」が行われます。データの要約とは、データの特徴・性質を分かりやすく示すことです。そのためによく利用される手法は、以下の3つです。【よく使われる統計分析の手法】
・【基本統計量】平均値・中央値
・【分布の可視化】ヒストグラム・散布図
・【多変量解析】主成分分析・クラスター分析
【基本統計量】平均値・中央値
基本統計量では主に、データ全体の特徴を表す数値(代表値)や、データの散らばり具合を示す数値(散布度)を求めます。平均値・中央値は、データ全体の特徴を表す数値(代表値)で、それぞれ以下のような意味があります。●平均値
すべての数値を足し、要素の数で割った値です。
例えば、身長が「150cm、155cm、160cm、170cm、175cm」の5人の身長の平均値は、(150+155+160+170+175)÷5=162cmとなります。
●中央値
全てのデータを大小順に並べたときの、真ん中の数値です。
例えば、身長が「150cm、155cm、160cm、170cm、175cm」の5人の中央値は、160cmです。
【分布の可視化】ヒストグラム・散布図
分布の可視化では、データの特徴を視覚的に把握しやすくします。分布の可視化では、ヒストグラムと散布図が利用されますが、それぞれの意味は以下の通りです。●ヒストグラム
データを複数の階級に分けて、棒グラフのように並べたグラフです。
●散布図
横軸と縦軸の関数グラフに点を打っていき、データの散らばり具合を表した図です。
【多変量解析】主成分分析・クラスター分析
多変量解析では、 複数のデータから構成されるデータ(多変量データ) の分析を行います。例えば、学習塾に在籍する子供たちについての「学年・性別・テストの平均点・部活動の有無・兄弟や姉妹の有無」のデータがあるとします。そして、これらのデータを使い「テストの平均点が高い子は、他のどのような要素が影響しているか」を調べる際などに、多変量解析が実施されるのです。なお、多変量解析には主成分分析・クラスター分析などの手法がありますが、それぞれの意味は以下の通りです。
●主成分分析
多変量データを集約して、捉えやすくする分析方法です。
比較する要素が多いと、データの特徴が捉えづらくなります。そこで、少数の主成分(新たな指標)を多変量データから合成し、主成分の関係性を調べることで、データの特徴が捉えやすくなります。
●クラスター分析
多変量データから、似たデータの集団(クラスター)をいくつか作る分析方法です。
これによって、主成分分析と同じく、データの特徴が捉えやすくなります。クラスターは必要に応じた数を作成することが可能です。
【目的別】その他の統計分析の手法
ここまで「データを要約する手法」について見てきましたが、その他の目的に対しても複数の統計分析の手法が存在します。ここからは「データの差を客観的に比較・評価したい場合(複数のデータの差を調べる手法)」「データを予測したい場合(データを予測するための手法)」について、具体的な手法をチェックしていきましょう。
データの差を客観的に比較・評価したい場合
データの差を客観的に比較・評価したい場合の分析手法には以下のようなものがあります。【データの差を客観的に比較・評価したい場合の分析手法】
・カイ二乗検定
・分散分析
・t検定
カイ二乗検定
カイ二乗検定(χ2検定)は、2組(2群)の数量化できないカテゴリーの関連性を検証する手法です。売上や販売個数など数量化できる変数は「量的変数」、「男性/女性」「購入した/購入していない」「持っている/持っていない」などの数量化できないカテゴリーの変数は「質的変数」と呼ばれます。この「質的変数」を検証する際に役立つのが、カイ二乗検定です。
なお、カイ二乗検定には以下2つのタイプがあります。
●適合度の検定
あらかじめ明らかな理論的な割合と、調査で得たデータの適合度を検定します。例えば「ある商品のこれまでの売上の男女比と、今年の売上の男女比」「2つのバナー広告の、クリックの有無」などを検証します。
●独立性の検定
調査で得たデータの信憑性を検定します。例えば、ABテストの結果について「偶然に得られた結果か」「複数回実施しても同じ結果が得られるか」などの点から判定します。
分散分析
カイ二乗検定(χ2検定)が、2組(2群)のカテゴリーの関連性の検証であったのに対し、分散分析では3組(3群)以上のカテゴリーの関連性を検証する際に用いられる手法です。例えば「3地域ごとの売上金額の比較」「5つの業界の平均年収の比較」などに利用することができます。さらに、分散分析を利用すると、各カテゴリーの交互作用(組み合わせの効果)について調べることが可能です。例えば「寿命という値を利用して、飲酒の有無/喫煙の有無が、健康に悪い相乗効果を与えているかを調べる」「職種/業績が、仕事の満足度に相乗効果を与えているかを調べる」といったことができます。
t検定
分散分析は、2組の数量化できないカテゴリーの、ある数値の平均の差を検定する手法です。例えば「男性社員と女性社員の売上平均額の比較」「日本人とアメリカ人の平均寿命の比較」「販促施策を実施した場合と、販促施策を実施しない場合の、商品の販売個数の比較」などに利用することができます。なお、t検定には以下のように「対応のあるt検定」と「対応のないt検定」が存在します。
●対応のあるt検定
「販促施策を実施した場合と、販促施策を実施しない場合の、商品の販売個数の比較」を、同一店舗で実施するようなt検定です。具体的には、商品の販売個数を、同一店舗の「販促施策の実施前/実施後」の変化で比較します。
●対応のないt検定
「販促施策を実施した場合と、販促施策を実施しない場合の、商品の販売個数の比較」を、別の店舗で実施するようなt検定です。具体的には、商品の販売個数を「販促施策の実施したA店舗/販促施策の実施しないB店舗」で比較します。
データを予測したい場合
データを予測したい場合の分析手法には、以下のようなものがあります。【データを予測したい場合の分析手法】
・判別分析
・決定木分析
・ランダムフォレスト
・コンジョイント分析
判別分析
判別分析は、すでにあるデータから、分類の基準を導き出す分析手法です。分類の基準は「判別関数」と呼ばれ、判別関数を利用することで、未知の新規データの予測に役立てることができます。ただし、判別分析が活用できるのは特定のカテゴリーの予測で、売上のような数値の予測には活用できません。例えば、判別分析はビジネスシーンで、以下のような施策に活用することが可能です。
●新商品の購入可能性が高い顧客を、顧客情報や過去の商品購入情報から予測する
●リピーターになる見込みがある顧客を、顧客情報や過去の商品購入情報から予測する
●併せ買いの可能性がある商品を、顧客情報や過去の商品購入情報から予測する
●おすすめ商品を、顧客のアンケート結果からレコメンドする
決定木分析
決定木分析(デシジョンツリー)は、 データの分類・抽出を、樹形図(ツリー)を用いて行う手法です。具体的には、分岐を利用して、目的変数(結果)に影響を与える説明変数(原因)を見つけることで、消費者の行動分析などに役立てることができます。 例えば、決定木分析はビジネスシーンで、以下のような施策に活用することが可能です。
●自社商品・サービスの購入者数が、最も多い属性を把握する
●今後、自社商品・サービスのターゲットになりそうな属性を把握する
●どのような要素が顧客満足度に影響を与えているか調べ、その要素を強化する
●どのような要素が解約や顧客の離脱につながっているか調べ、その要素を改善する
ランダムフォレスト
ランダムフォレストは、決定木分析の発展型とも言える分析手法です。具体的には、複数の決定木を用いることで、分析精度を高めることが期待できます。例えば、ランダムフォレストはビジネスシーンで、以下のような施策に活用することが可能です。●顧客データやアンケート結果から「購入単価が大きい顧客」「購入頻度/利用頻度が高い顧客」の特徴を探し出す
●様々な開示情報から物件の賃料を予測する
コンジョイント分析
コンジョイント分析は、消費者が商品購入の際に、どのような要素を優先しているか(あるいはどのような要素を妥協しているか)を分析する手法です。例えば車なら、「価格、デザイン、サイズ、燃費、乗車定員、機能、ブランド」など、様々な要素を持っています。コンジョイント分析を用いると「消費者は各属性で何を優先しているのか(あまり重視していないか)」を把握ができ、各属性を最適な水準に調整することが可能となります。ビジネスシーンでは、コンジョイント分析は以下のような施策に活用することが可能です。
●商品・サービスの各属性(要素)で、消費者が重視するポイントを把握し、新商品・サービスの開発に役立てる
●複数のアイデアから、消費者に最も好まれるものを選ぶ
●商品性能を向上したり、サービスの質をアップした場合、 いくらまでなら売れるかを把握する
まとめ
データの分析結果は、ビジネスで意思決定する際の裏付けにもなるものです。そのため、勘や経験に頼った恣意的な分析ではなく、エビデンスとして信頼できる「統計的な分析手法」が求められます。日々の事業活動で得た様々なデータは、統計的な分析を実施してこそ、効果的なマーケティングや戦略立案に活かすことが可能となります。社内にノウハウがない場合、まずは専門家の手を借りることもおすすめです。
関連ページ