データマーケティングコラム
データプレパレーションとは?その必要性や事例、作業内容も解説
最終更新日:
公開日:
公開日:
昨今ではAIやIoTを利用したデジタルトランスフォーメーション(DX)をはじめとするデータ活用が広がりをみせています。自社内はもとより社外で蓄積されているデータも活用して、事業変革を生み出したいと考える方は多いのではないでしょうか。データをスムーズに活用するためにはデータの整理・変換作業が必要ですが、非常に手間がかかります。そのデータ整理・変換作業を効率よく実施していくには、データプレパレーションと呼ばれる手法が有効です。今回はデータプレパレーションについて、その必要性や事例、作業内容などをお伝えしていきます。
データプレパレーションとは
プレパレーション(preparation)とは直訳すると「準備」という意味です。データプレパレーションとは、その意味の通り「データの準備」を表します。自社のデータだけでなく社外で発生したデータについても整理・変換し、活用していく手法です。データプレパレーションの実施にあたっては、データ操作に精通していなくてもGUIで簡単にデータ整理・変換ができるシステムを準備します。このGUIベースのシステム導入により、一般社員やデータアナリストでもデータ整理・変換を実施できるようにすることで、組織でのデータ活用を促進可能です。
また大量のデータに対するデータプレパレーションは、相応のコンピュータリソースを必要とします。そこで分散コンピューティングの概念を用いて、複数のコンピュータでデータ整理・変換の処理を実施することが望ましいでしょう。
データプレパレーションの必要性
DXには社内外で取得されるデータの活用が必要になりますが、データが最初から活用できる状態になっていることは少ないでしょう。例えばデータが以下のような状態である場合は、データの整理・変換が必要です。
・数値の単位が揃っていない
・データがあるべき表のセルにデータが格納されていない
・表記にゆれがある
データサイエンティストは、これらのデータの整理・変換に作業時間の大半を費やしているといわれています。そのためデータ活用を促進するためには、この整理・変換作業を誰でも簡単に実行できるような仕組みは欠かせません。
データプレパレーションの事例
ここからは、どのような場面でデータプレパレーションが用いられているかをみていきましょう。AIの学習用データ準備
AIを学習させるには、場合によっては数百万~数億規模のデータが必要になることもあります。その数百万~数億規模のデータは、AIが学習しやすいように整理・変換する必要があるため、データプレパレーションが活用されます。例えば大手金融機関では、AIを用いた社内の事業変革の推進を目的としてデータプレパレーションを取り入れました。その効果でデータ整理・変換の時間を削減でき、より多くの予測AIの構築・検証を促進できました。
参考:https://www.ashisuto.co.jp/case/industry/finance/sevenbank_paxata_2021.html
データ整理・加工で生産性の向上と働き方改革を推進
生産性の向上においては、データの分析は欠かせません。現場においても自発的なデータの活用を推進することで、生産性を向上させ、ひいては働き方改革に繋がっていきます。しかしデータの準備に時間を要することは他の事例と同様です。ある食品加工企業では、生産性の向上に伴いデータ活用を推進していましたが、データの整理・加工に時間がかかることが課題でした。そこでデータプレパレーションを導入することにより、最大98%の工数削減に成功し、生産性向上と働き方改革をさらに推進できています。
参考:https://www.ashisuto.co.jp/case/industry/information/to-solutions_paxata_2019.html
小売業における売上データ整理
小売業では、日々の売上に伴い「お客様の男女比」「年代の構成比」「ある商品の売上」など、さまざまなデータが収集されます。しかし男女別の客単価や曜日別の売上など、複合的な分析を実施したい場合には、これらのデータを組み合わせて使用することが必須です。データプレパレーションを導入することによって、データの組み合わせを考慮して実施することが可能になり、複合的な分析ができるようになります。
とある海外の食品・飲料会社では、製品の供給量調整・倉庫や店舗の確保判断といった小売販売体制の整備にデータ分析を活用していましたが、必要なデータの準備にはExcelとAccessを活用していて、多くの時間がかかっていました。
そこでデータプレパレーションを導入し、データ分析にかかる全体の所要時間を70%削減することに成功しています。
参考:https://www.dtvcl.com/column/4383/
https://macro-send.com/blog/data-preparation
データプレパレーションの手順
ここまでは、データプレパレーションの概要や必要性についてお伝えしてきました。続いて、データプレパレーションの手順をみていきましょう。
データの取り込み
まずは、収集したデータをデータプレパレーションのシステムに取り込みます。データの整理
データの整理は、主に次のような内容で実施されます。この内容はデータのクレンジングとも呼ばれます。・無関係なデータと異常値の削除
・未入力データ(欠損値)の補完
・事前に設定した形式へデータを整形
・個人データや機密データのマスキング
・半角・全角などのデータの形式変換
データプレパレーションにおいては、これらの作業をGUIで簡単に実行できるようにします。
データの格納
BIツールやデータベースなどにデータプレパレーションを実行したデータを格納し、必要に応じて利用できるようにします。また格納後にデータを追加して他の情報に結びつけ、新たな洞察を得ることも可能です。この作業はデータのエンリッチメントと呼ばれます。
データプレパレーションでスムーズなデータ活用を
データプレパレーションは、データを解析・活用する前にデータを整理・変換する手法です。どの分野の企業でも、データ活用の前には、多くの場合データの整理・変換が必要になります。データプレパレーションを導入することで、IT知識がなくても誰もがデータの整理・変換を手軽に実施できるようになり、作業を大きく効率化してデータ活用を推進していけるのです。クロス・マーケティングでは優秀なデータマーケターがチームを編成することで、データプレパレーションの領域も含めてデータ分析業務でお悩みの方々を一気通貫でサポートいたします。
データ分析業務でお悩みの方は、ぜひ一度クロス・マーケティングへお問い合わせください。
■参考サイト:
https://www.dnp.co.jp/biz/column/detail/10162963_2781.html
https://www.talend.com/jp/resources/what-is-data-preparation/
http://jp.drinet.co.jp/blog/data-prep
https://www.dtvcl.com/column/4383/
https://www.ashisuto.co.jp/paxata/about_data_preparation/
https://macro-send.com/blog/data-preparation
https://www.realize-corp.jp/glossary/data-preparation
https://www.wingarc.com/product/dr_sum/blog/data-preparation.html
https://www.capterra.jp/directory/32747/data-preparation/software
関連ページ