データマーケティングコラム
データバイアスを考慮したデータ分析とは?具体的な事例も交えて解説
公開日:
DX(デジタルトランスフォーメーション)の隆盛により、データの活用がどの企業でも進んでいます。自社でもデータ活用を推し進めていきたいという方は多いのではないでしょうか。しかし、データには「データバイアス」が存在します。データバイアスを考慮しないデータ分析は、企業を誤った方向に導きかねません。今回は、データバイアスを考慮したデータ分析のポイントについて、事例も交えてお伝えしていきます。
データバイアスとは
バイアス(bias)とは、傾向、先入観、偏見といった意味の英単語で、データバイアスとは、間違った認識や差別、偏見を含む偏ったデータを収集してしまうことです。データバイアスを考える例として、メタボリックシンドロームであるかを判定する「特定健康診査」を受ければ長生きできる、という仮説について考えてみましょう。
特定健康診査を受けている人と受けていない人の寿命をデータとして集めれば、差が比較でき、おそらくは概ね仮説通りの結果が出ると予想されます。しかし特定健康診査は任意の受診であり、特定健康診査を受ける人は元々生活を整えることに対しての意識が高いため、寿命も長くなる傾向があるともいえます。
データを分析する際には、この特定健康診査のケースのようなデータの偏りを防ぐため、適切にデータが集められているかについてチェックしておくべきです。もし偏りがあるのならば、注意すべき点は何かについて認識しておきましょう。
データバイアスの具体事例
ここからは、データバイアスによってどのような誤解釈に陥るかを、バイアスの種類ごとにみていきましょう。グループの特徴が違うことに起因するバイアス
自社のECサイトで、購入が最近あったユーザーや一定額の購入をしているユーザーに向けて、広告を出すような場合を考えてみましょう。この広告の効果について分析する場合に注意が必要なのは、「広告がなかった場合でもユーザーが購入する可能性がある」ことです。分析にあたっては、広告があった場合となかった場合の両方を比較することが必要です。集団の一部が脱落してしまうバイアス
例えば新薬の実験をAとBという2つのグループに実施する場合、片方のグループで体調不良が多く発生して脱落してしまうと、グループの人数に差が生じてしまうため、正しい結果は得られなくなります。この場合は、集団のメンバーを補充したうえで実験をやり直すしかありません。データ定義の違いに起因するバイアス
店舗ごとの売り上げを比較する場合、IDや名前の統一(名寄せ)が行われていないと、正確な各商品の売り上げ比較ができません。POSシステムなどを構築する際には、必ずIDや名前の統一を実施しましょう。データの取得時期の違いに起因するバイアス
例えば30歳未満の選挙投票率について分析する場合、選挙年齢の引き下げが発生した前と後のデータで比較してはいけません。分析対象のデータについて、データの取得時期は揃える必要があり、今回の場合は選挙年齢引き下げの前と後のデータを分けて分析する必要があります。生存者バイアス
SaaSサービスで採取できるデータは、継続利用しているロイヤリティの高い層が中心のデータになるため、サービスにとって好意的なデータが多くなります。このバイアスを考慮するには、ユーザーを一定の利用期間でセグメンテーションし、結果を比較しましょう。ロイヤリティの低いユーザーの情報も併せて分析することは必須です。志願者バイアス
店舗利用後のNPSにおいて調査に協力してくれる人は、すでに店舗に対して愛着を持っている場合があります。愛着を持っていなくても、日常的に店舗を利用する人である可能性が高いでしょう。サービス利用ログから、調査協力者はどういった層なのかを確認しておくことが必要です。ここまでデータバイアスの事例を紹介してきましたが、それぞれの状況に応じて解決策が異なり、さらに解決策の判断には豊富な経験が必要なため、ノウハウがない場合の対応は困難を極めます。
バイアスを考慮した分析はクロス・マーケティングへ
データバイアスとは、偏りがある状態でデータを集めてしまうことを指します。そしてここまで説明してきた通り、データバイアスの種類によって考慮すべき内容も変わってきます。こうした分析はノウハウが必要なこともあり、専門知識がない場合の対応は困難を極めるでしょう。クロス・マーケティングではデータマーケティング事業としてアンケートデータだけでなく、企業で保有している様々な種類のデータを取り扱うサービスを展開しています。データの種別に応じたデータバイアスを考慮した分析も得意としておりますので、是非ご気軽にご相談ください。
■参考サイト:
https://www.umi-mori.jp/article/science/data_bias#i-1
ttps://bloom-t.co.jp/blog/article_5833/
https://www.youtube.com/watch?v=FqMCUSy5KVw&t=247s
https://a2i.jp/column/post-28405/
https://www.nri.com/jp/knowledge/glossary/lst/aa/causal_inference
https://trailhead.salesforce.com/ja/content/learn/modules/responsible-creation-of-artificial-intelligence/remove-bias-from-your-data-and-algorithms
https://www.enago.jp/academy/bias-in-qualitative-research/
https://www.jstage.jst.go.jp/article/jjcdp1974/34/2/34_2_188/_pdf/-char/ja
https://www.stat.go.jp/info/kenkyu/sss/pdf/161227_shiryou3.pdf
https://cintelligence.co.jp/2019/11/11/blog-disicion-bias/
関連ページ