無料調査レポート

非階層クラスター分析 k-umeyama(2023年8月日本行動計量学会第51回大会特別セッション発表)

Facebook X
非階層型クラスタリングの圧倒的な精度向上を達成する、独自手法「k-umeyama」を開発しました。「k-umeyama」の採用により、マーケティングや広告業界にとどまらず、クラスタリングが日常的に活用されている、画像処理やAIを用いた判断処理等、多くの分野で革新的な精度向上が実現可能となりました。
*「k-umeyama」は開発者である弊社梅山貴彦の名をとったものです

  • 高い分類精度と再現性を持つ、革新的な非階層型クラスタリングを開発
  • 因子分析や主成分分析がなくても、様々な単位のデータでクラスター分析が実行可能

「k-umeyama」の概要

k-umeyamaは、分析対象のすべてのデータを格納して分析をおこなうため、情報量が多くても、もれなく分析を実施することができます。データに対して、相関性を排除する因子分析や主成分分析などのデータ加工を介さず、全てのデータ同士の関係性を加味して、無理なく分類できます。また、データが類似しており違いが小さい場合、どのクラスターに分類されるかがこれまで不安定であったものを、シグモイド関数を利用して、データ間の距離の重み付けをより明確にすることにより、データ分類の精度を向上させることを可能にしました。

標準的な非階層型クラスタリングの抱える課題

k-meansのアルゴリズムは、初期シードの選び方に依存して結果が変わり、そのシードが近くに偏ると、クラスタリングの質が低下する可能性が指摘されています。また、ランダムな選択方法により、再現性が低いという課題があります。下記の左側がk-meansのグラフとなりますが、初期シードが1回目と2回目では違う場所が指定され安定性が低いことがわかります。
これらの問題点を解決するための新しいアプローチとして、k-means++が開発されました。この方法では、初期シードを順番に選び出し、前のシードから距離が遠い次のシードを確率的に選択することで、クラスターが均等に分布するように配置されます。この改良により、クラスタリングの質と再現性が向上しました。中央がk-means++、右側がk-umeyamaとなり、それぞれシードの位置は違いますが。1回目と2回目のシードの位置は安定しています。しかし、k-means++は、シードの選択過程で、最も遠い点の外れ値が選ばれやすくなるという弱点があります。<図1>

図1 非階層クラスター分析の距離

シードの選択過程の弱点改良に向けて、シグモイド関数を活用

弊社では、k-means++のシード選択に関する課題を解決すべく、新しい手法「k-umeyama」を開発いたしました。この方法は、シグモイド関数を活用することで、各データポイントが距離とウエイト値に基づいて明確に分類される特長があります。具体的な例として、グラフの左側をk-means++、右側をk-umeyamaとして表示した際、k-umeyamaによりデータポイント1や0を比較すると、ウエイトがk-means++(1=0.065,0=0.069)、k-umeyama(1=0.03,0=0.195)とはっきりとした分類となることが確認できます。この技術により、k-means++のシード選択の精度を一層向上させることが期待されます。<図2>

図2 シード選択の過程

従来の非階層クラスター分析と距離の弱点改良に向けて

クラスター分析は、似た特徴を持つもの同士をグループにまとめる手法で、特にマーケティング・リサーチの業界でよく用いられます。一般的な手法、k-meansでは、最初にデータを「因子分析・直交化」という方法で整理します。これは、いろいろな情報を簡潔に表すためのステップですが、実は弱点があります。因子分析・直交化はデータの中の関連性を取り除く手法ですが、すべての集団が完璧に相関性を取り除いて整理されているわけではありません。また、因子分析・直交化をおこなうと、データ全体を表現する量が減少することもあります。グラフを用いて、因子分析・直交化したk-meansとマハラノビス汎距離を導入したk-umeyamaのクラスター分析の結果を比較したところ、その差異は一目瞭然となりました。グラフの左側は、因子分析による直交化を施したデータをk-meansでクラスタリングした結果です。こちらは、クラスター0と1が近接し、重なり合う正円の形をしていて、異なる集団がうまく分けられていないことを意味します。一方で、右側のグラフはマハラノビス汎距離を採用したk-umeyamaのクラスタリング結果です。こちらは、3つのクラスターが楕円の形状をとりながら、明確に区別されており、それぞれの集団の特性や違いをより精確に捉えることが確認できます。マハラノビス汎距離を導入することで、明らかにクラスタリングの精度と有用性が大きく向上することがわかります。<図3>

図3 クラスタリング結果

k-umeyamaの計算モデル

ランダムに一つずつ初期シードを選びそのシードと最短距離のdiを選び、すべてのデータポイントを計測。その平均距離をだした値をシグモイド関数で変換して、次シードを抽出するためのデータポイントのウエイト付けをします。その後、初回だけユークリッド距離で測り、サンプルをクラスターに所属させます。その後は、クラスター毎に平均と分散共分散、その一般逆行列を算出して、次にマハラノビス汎距離を測って所属クラスターの更新を繰り返します。クラスターの平均値が変化しなくなったら、終了です。<図4>

図4 k-umeyamaの計算モデル

精度テスト(嘴の長さ、深さ等を用いたペンギンの分類)

クラスタリングの精度確認のため、パーマペンギンデータセットを用いて、ペンギンの成鳥の4種類のサイズから「ヒゲペンギン」、「ジェンツーペンギン」、「アデリーペンギン」の3群の正解のあるデータを、k-meansとk-means++、k-umeyamaでクラスター分析を行い比較しました。
k-umeyamaが、正解率0.982、k-means++は0.918、k-meansが0.775となり、k-umeyamaの分類精度が高い結果となりました。<図5>

図5 パーマペンギンデータセットを用いたクラスター分析結果

*パーマペンギンデータセットは、南極のパーマー基地周辺のパーマー群島の島々で観察されたアデリー、ヒゲペンギン、ジェンツーペンギンの成鳥のサイズ測定、嘴の長さ (mm)、 嘴の深さ (mm)、フリッパーの長さ (mm)、体重 (g)などのデータが含まれています。データはKristen Gorman博士とパーマー基地長期生態学研究(LTER)プログラムによって収集されたものを利用しています。
Horst, A. M., Hill, A. P., & Gorman, K. B. (2020). palmerpenguins: Palmer Archipelago (Antarctica) penguin data. R package version 0.1.0. https://allisonhorst.github.io/palmerpenguins/. doi:10.5281/zenodo.3960218

【学会発表】

2023年8月29日(火)に行われた「日本行動計量学会 第51回大会」にて、k-umeyamaを発表いたしました。

【開発・研究協力】

朝野熙彦 元東京都立大学教授 「マハラノビス研究会」の研究代表者

【引用文献】

・朝野熙彦(2023)「マハラノビス研究会報告」日本マーケティング・リサーチ協会
・Arthur, D. and Vassilvitskii, S. (2007) k-means++: the advantages of careful seeding. SODA '07: Proceedings of the eighteenth annual ACM-SIAM symposium on discrete algorithms, 1027-1035.
・Cerioli, A. (2005) k-means cluster analysis and Mahalanobis metrics: A problematic match or an overlooked opportunity?. Statistica Applicata, 17(1), 61-73.
・水野欽司(1996)「多変量データ解析講義」朝倉書店
・Friedman H.P. & J. Rubin (1967) On Some Invariant Criteria for Grouping Data, Journal of the American Statistical Association, 62:320, 1159-1178
・Pillai, K. C. S. (1955). Some new test criteria in multivariate analysis. Annals of Mathematical Statistics, 26(1), 117-121.
・Hotelling, H. (1936). Relations between two sets of variates. Biometrika, 28(3/4), 321-377.
・Fisher,R.A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7,179-188.
・Mahalanobis,P.C. (1936) On the generalized distance in statistics. Proceedings of the National Institute of Sciences of India, 2 (1), 49-55.
・Wilks, S.S. (1932). Certain generalizations in the analysis of variance. Biometrika,24, 471 494.

本レポートのダウンロードにより閲覧できる情報

  

本レポート(全18ページ)では、詳細情報をご覧いただけます。

引用・転載時のクレジット表記のお願い
本リリースの引用・転載時には、必ず当社クレジットを明記いただけますようお願い申し上げます。
<例>「マーケティング・リサーチ会社のクロス・マーケティングが実施した調査によると・・・」


本件に関する報道関係からのお問い合わせ先
広報担当: マーケティング部
TEL:03-6859-1192   E-mail: pr-cm@cross-m.co.jp

関連する調査記事

無料調査レポート
おひとりさま消費に関する調査(2024年)ひとり時間の実態・意識編
2024年11月、全国47都道府県に在住する20~69歳の男女2,500人を対象に「おひとりさま消費に関する調査(2024年)」を実施し、ひとりの時間や外食・外出行動についての実態、意識などを全般的に聴取しました。今回は「ひとり時間の実態・意識編」として、ひとりで自由に使える時間の有無、一日の中でひとりで自由に使える時間、ひとりで過ごすことの良さ、ひとりでどのように過ごすことが好きか、ひとりで自由に使える時間の増減意向をピックアップし分析をしました。 *本調査は、ひとりの時間を外でどのように過ごしているかという点に着目し、その消費行動を「おひとりさま消費」と表しました。 ◆外出編はこちら https://www.cross-m.co.jp/report/20241203alone ひとりで自由に過ごす時間は2年前と変わらず ひとりで過ごすことにより、自分のペースでいられる、ストレス解消、自由を味わえる 関連する調査はこちら おひとりさま消費に関する調査
# ライフスタイル # 消費動向 # 食品・飲料・食事
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
おひとりさま消費に関する調査(2024年)外出編
2024年11月、全国47都道府県に在住する20~69歳の男女2,500人を対象に「おひとりさま消費に関する調査(2024年)」を実施し、ひとりの時間や外食・外出行動についての実態、意識などを全般的に聴取しました。今回は「外出編」として、直近1年間の飲食店、お出かけ・レジャー先へひとりで行った経験、ひとりで行くことへの抵抗感を中心に分析をしました。 *本調査は、ひとりの時間を外でどのように過ごしているかという点に着目し、その消費行動を「おひとりさま消費」と表しました。 ◆ひとり時間の実態・意識編はこちら https://www.cross-m.co.jp/report/20241212alone/ ひとりでも行くのは、ハンバーガーショップとファミレス、ショッピング施設 おひとりさま行動への抵抗感は低下したものの、経験率は変わらず 関連する調査はこちら おひとりさま消費に関する調査
# ライフスタイル # 消費動向 # 食品・飲料・食事
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
健康に関する実態・意識調査(2024年11月定点ココロスタイルリサーチ)
2024年11月、全国18~79歳の男女3,000名を対象に「健康に関する実態・意識調査(2024年11月定点ココロスタイルリサーチ)」を行いました。本調査は、生活者の意識やライフスタイルの変化の兆しを捉えることを目的として、定点で実態・意識調査を実施するものです。今回は健康編として、生活への満足度、現在や将来への生活価値観・意識、現在の暮らし向き、自分の健康状態、身体の衰えの自覚、名称に対する年齢イメージをピックアップし分析をしました。 4人に1人が貯蓄や将来の備えに「全然満足していない」 視力と記憶力は30代から、歩く力と握力は40代から衰えを実感 調査結果トピックス
# SNS・メディア # 美容・ファッション # 海外
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
消費動向に関する定点調査(2024年10月)
全国47都道府県に在住する20~69歳の男女1,200人を対象に「消費動向に関する定点調査(2024年10月)」を実施しました。消費動向定点調査は、現在の消費者の暮らしの状況を、所得・消費・行動の観点で過去と比較し、景気動向判断の基礎資料を得ることを目的とし、年2回(5月・10月)実施しております。本調査においては、続く物価上昇、訪日外国人数の増加によるオーバーツーリズムの話題があがり、石破内閣が発足したばかりの2024年10月14日~15日に、生活実態や消費動向の推移、景況感・消費予測、ポイント活動の状況などについて調査をしました。。 給与所得と預貯金は1年前と比べ上昇したものの、国内消費行動は低下 今後1年間の景況感は低調のまま 関連する調査はこちら 消費動向に関する定点調査
# 消費動向
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
ペットに関する調査(2024年)意識編
2024年10月、全国に在住する20~69歳の男女5,000人を対象に「ペットに関する調査(2024年)」を実施し、ペットに関わる実態や意識・行動などを全般的に聴取しました。今回は、ペットの飼育意向、飼いたいペットの種類、動物カフェの利用意向、ペットロボット・エンターテイメントロボット試用意向、ペットを捨てることへの意見に着目し分析をしました。 ◆実態編はこちら https://www.cross-m.co.jp/report/life/20241029pet/ ペット飼育意向は3割、過去にペットを飼っていた人は5割超え ペットを捨てることは「許容できない」が74% 関連する調査はこちら ペットに関する調査
# ライフスタイル
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
ペットに関する調査(2024年)実態編
2024年10月、全国に在住する20~69歳の男女5,000人を対象に「ペットに関する調査(2024年)」を実施し、ペットに関わる実態や意識・行動などを全般的に聴取しました。今回は、ペットの飼育状況、種類、入手経路、ペット同伴の外出行動、関連サービスの利用や意向などをピックアップし分析をしました。 ◆意識編はこちら https://www.cross-m.co.jp/report/life/20241106pet/ ペットを飼っている世帯は21% 犬はペットショップで購入、猫は拾って保護したケースが多い 関連する調査はこちら ペットに関する調査
# ライフスタイル
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
宅配に関する調査(2024年)宅配全般編
2024年9月、全国47都道府県に在住する20〜69歳の男女2,500人を対象に「宅配に関する調査(2024年)」を実施し、「宅配」に関わる利用実態や意識・行動などを全般的に聴取しました。今回は、直近3か月以内に宅配サービスを利用した人に対し、受け取り方や再配達を防ぐ方法、物品宅配を利用する理由や不満点・困ったことなどに着目し分析をしました。 ◆フードデリバリー・食材宅配編はこちら https://www.cross-m.co.jp/report/life/20240925delivery/ 宅配全般の直近3か月の利用率は、2年前より10pt低下の38% 受け取り方は「自宅で手渡し」が依然として多く8割 関連する調査はこちら 宅配に関する調査
# ライフスタイル # 消費動向 # 食品・飲料・食事
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
宅配に関する調査(2024年)フードデリバリー・食材宅配編
2024年9月、全国20〜69歳の男女2,500人を対象に「宅配に関する調査(2024年)」を実施し、「宅配」に関わる利用実態や意識・行動などを全般的に聴取しました。今回は、コロナ禍で拡大をとげたフードデリバリー(料理宅配)と、食材宅配(食品宅配)にフォーカスをあて分析をしました。 ◆宅配全般編はこちら https://www.cross-m.co.jp/report/life/20241003delivery/ 直近3か月のフードデリバリーの利用率は15%と2年前より低下 重い・かさばるものや時間がないときの食材宅配の利用率に変動なし 関連する調査はこちら 宅配に関する調査
# ライフスタイル # 消費動向 # 食品・飲料・食事
業界/業種
支援領域
開催日:-
受付終了
無料調査レポート
気候変動に関する調査(2024年)
2024年8月、全国20〜79歳の男女2,400名を対象に「気候変動に関する調査(2024年)」を行いました。大気中の二酸化炭素濃度や紫外線量の増加による地球温暖化の気候変動について、不安感などの意識を中心に聴取しました。今回は、将来への不安、日本の食料自給率に対しての不安、自然災害や身体への影響、環境や生態系への影響に着目し分析をしました。 日本の食料自給率への不安感は8割越え 昨年より「四季がなくなる」「農作物の品質低下・不作」の懸念が強まる 関連する調査はこちら SDGsに関する調査
# ライフスタイル # 時事・流行・イベント # その他
業界/業種
支援領域
開催日:-
受付終了
ご相談・お見積もり依頼
【法人・個人様】
フリーダイヤルでのお問い合わせ
0120-198-022
※ モニター様からのお電話でのお問い合わせは受け付けておりません。
資料ダウンロード