人気のタグ
おすすめのサイト
企業ニュース

ヒジネスシーンでよく使われる言葉「データマイニング」とはどんな意味?

2021.03.06

『データマイニング』は、ビックデータを解析する技術体系の一つです。一見、無関係と思われるデータから有益な情報や知識を多く得られるため、さまざまな分野のビジネスに活用されています。データマイニングの活用事例や分析方法について理解を深めましょう。

データマイニングを分かりやすく解説

情報の高度化が進み、日々大量のデータが生み出される現代、ビックデータを有効活用する手段として『データマイニング』が注目されています。

マーケティングや営業戦略など、ビジネスにおけるさまざまなシーンで活用できるため、手法を学ぶメリットは大きいでしょう。

大量のデータから必要な情報を抽出する手法

『データマイニング(DM)』とは、膨大なデータの中から有用な情報を抽出する技術体系です。『マイニング(Mining)』には「発掘」という意味があります。

具体的にいえば、統計学・パターン認識・人工知能などのデータ解析技術を大量のデータに適用し、そこから規則性や関連性などを自動的に見出すことです。

データマイニングの主な機能は、以下の三つに分けられます。

  • 発生確率を予測する
  • データを分類する
  • データ間の関連性を抽出する

また、テキストデータを対象としたものは『テキストマイニング』、Webデータを対象としたものは『Webマイニング』と呼ばれます。

活用されている分野

大量のデータから法則性や相関関係が発掘できるデータマイニングは、幅広い分野で活用されています。用途の一例を業種別で紹介しましょう。

『小売業』では、顧客データや購買データを分析することにより、『どの商品がどんな条件下で売れるのか』『売上が上がる商品の組み合わせは何か』といった法則性が見出せます。

売上予測の精度を向上させたり、顧客に適切なアプローチをしたりするのに役立つでしょう。

『製造業』では、需要予測や品質管理、設備の保全などにデータマイニングが活用されています。データ分析によって不良品や機械故障の影響因子を特定できれば、さまざまなトラブルが未然に防げるはずです。

『教育現場』においては、授業に対する学生の理解度や成績が予測できるようになります。指導者は効果的な指導戦略が立てられる上、特別なケアを要する学生を事前に特定できるでしょう。

このほか、金融・保険・医療・通信などの分野でも、データマイニングが活用されています。

データマイニングの手順

データマイニングは、データの『収集』→『加工』→『分析』→『検証』という流れに沿って行われます。それぞれのプロセスにおけるポイントや注意点について確認しましょう。

データを収集・加工する

データマイニングには、元となるデータの収集が欠かせません。データが多いほど有益な情報や知識は発見されやすくなるため、場合によっては『データウエアハウス(DWH)』を使うのも有用です。

DWHとは各種データを時系列に保存できる『情報の倉庫』のようなもので、データの上書きや削除は行わないのが原則です。長年、改変されずに積み上げられたデータの中には、多くの価値ある情報が眠っているといえるでしょう。

また、データマイニングを行う際は、初めに『目的の設定』を行うのが基本です。やみくもにデータを投入するよりも目的を明確化し、それに合ったデータを収集することで、より効果的なデータマイニングが行えます。

データ収集後は『データの加工・整形』を行います。データマイニングは主に分析ソフトを用いるため、データ形式が標準化されていないと正確な分析結果が得られません。

破損したデータや不正確なデータなどを除外した後、分析ソフトが扱える形式にデータを整えます。

分析・検証する

後ほど詳しく説明しますが、データマイニングの方法には、仮説を立てずに結果を導く『機械学習』と、統計解析のように仮説を立てて判断する『統計分析』の2種類があります。

それぞれの方法に合わせてデータ分析を行い、『パターンの発見』や『グループ化』などを行います。分析手法には、『クラスタリング』『ロジスティック回帰分析』『マーケット・バスケット分析』などを用いるのが一般的です。

分析実施後は、得られた結果を基に検証や評価を行います。

データマイニングの種類

データマイニングには『統計分析』と『機械学習』の二つの方法があり、どちらを選択するかによって得られる結果も変わります。それぞれの特徴を比較してみましょう。

統計分析

『統計分析』は、統計学や確率論を活用する方法です。

統計解析と同じように、事前に仮説を立てた上で必要なデータを集め、検証するものに合わせて分析手法を選びます。あくまでも仮説に基づいて分析や判断が行われるため、予想と結果が大きくずれることはほとんどありません。

分析の結果、仮説が間違っていた場合は『仮説の設定』→『情報収集』→『分析』を何度も繰り返します。

この方法を実行するには、統計学に関する専門知識が必要です。近年は、知識不足を補ってくれる優秀なデータマイニングツールも多く出ていますが、最低限の知識は身につけておいた方がよいでしょう。

機械学習

事前に仮説を立てる統計分析に対し、機械学習は仮説を必要としません。人工知能(AI)が自分で学習しながら、膨大なデータの中から相関性や法則性を導き出します。

別名『知識発見型』とも呼ばれ、思いもよらなかった新たな発見や知識を得られるのが特徴です。人間ではできないような、複雑な条件が絡む課題の分析にも長けています。

ただ、出てきた結果に必ずしも有用なルールが見出せるとは限らないのがデメリットです。

たとえば、『おむつとビールを一緒に陳列すると売上が上がる』という結果が導き出されたとしても、「それはなぜなのか?」という理由は人間が考える必要があります。

データマイニングの分析手法

データマイニングではデータ収集・加工を行った後、『特定の手法』を用いて分析を行います。よく用いられるのは、『ロジスティック回帰分析』『マーケット・バスケット分析』『クラスタリング』の三つです。

ロジスティック回帰分析

『ロジスティック回帰分析』は、『物事が発生する確率』の予測や分析ができる手法です。とりわけ、YESとNOが明確に定義されている事象に対し、それが起こる確率を予測することに長けています。

小売業においては、販売促進を目的とした『キャンペーンの反応率』を見るために使われるケースが多いです。

顧客の年齢層や過去の購入履歴のデータを用いて分析を行えば、『DMを送ったときに商品を購入する確率』が導き出せるでしょう。購入確率の高い顧客を狙ってDMを送るようにすれば、ランダムにDMを手配するより成果が出やすくなります。

予測は外れることもありますが、人間が予測するより当たる確率ははるかに高いです。

マーケット・バスケット分析

『マーケット・バスケット分析』とは、単体ではなく『よく一緒に買われる商品』を見つけるためのデータ分析です。

マーケット・バスケットは直訳すれば『買い物かご』ですが、ここでは『1人の顧客によって1回買い物が行われた際の商品購入データ(レシート)』を指します。

データを細かく分析することで『購買意欲のパターン』を導き出せるため、小売店やECサイトのおすすめ機能などに活用されるケースが多いです。

マーケット・バスケット分析を行う具体的な手法は複数ありますが、主に『アソシエーション分析』が用いられます。これは、『If(もしこうだったら)Then(こうなる)』というルールを設定し、事象間の関連性を分析する方法です。

クラスタリング

『クラスタリング』は、データを類似度に基づいてグループ分けする手法です。『クラスタ』の元の意味はブドウの房や集団ですが、クラスタリングにおいては『同じ傾向を持つ人のグループ』を指します。

似たような購買行動をする顧客をクラスタリングし、クラスタに最適なマーケティング施策を行えば、店舗の売上向上につながるでしょう。

ネットショッピングで『この商品を買った人はこんな商品も買っています』という表示が出る場合がありますが、これもクラスタリングの応用の一つです。

データマイニングを活用するポイント

データマイニングにおいては、『質のよいデータ』を使うのが基本です。見当違いの結果や意味不明な結果が出てきたときは、使用したデータに何らかの問題があった可能性が考えられるでしょう。

正確なデータを使用する

データマイニングを行う上で重要なのは『データの正確性』です。

分析に使うデータが悪ければ、どんなにデータマイニングを行っても意味がありません。正確で有益な情報を獲得するためにも、分析に使用するデータの質を保持しましょう。

ビッグデータを収集した後、データの加工・整形を行いますが、この時点で欠損や重複、無関係なデータはすべて弾いておくことが肝心です。加工では、分析するデータの形式をしっかりそろえるようにしましょう。

構成/編集部

新型コロナウイルス対策、在宅ライフを改善するヒントはこちら

@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2021年4月15日(木) 発売

DIME最新号の特別付録は「スマホLIVEスタンド」! 特集は「投資の新常識」&「輸入食材スーパーの極上グルメ」

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 10401024号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。