小学館IDをお持ちの方はこちらから
ログイン
初めてご利用の方
小学館IDにご登録いただくと限定イベントへの参加や読者プレゼントにお申し込み頂くことができます。また、定期にメールマガジンでお気に入りジャンルの最新情報をお届け致します。
新規登録
人気のタグ
おすすめのサイト
企業ニュース

データサイエンスに必要とされる「問い」の考え方

2022.08.29

「データサイエンスって理系でしょ?」「数学やプログラミングとか出てくるんでしょ?」と思う方がまだまだ多いデータサイエンス・・・そのイメージは否定しませんが、データサイエンスで大事なのは「問い」を持つことです。この「問い」を持つことに理系も文系も関係ありません。好奇心を持って世の中を見渡せば、誰でもデータサイエンスの世界の入り口に立つことができます。そこで今回は、旅行や観光を例にデータサイエンスの「問い」について考えてみます。

データサイエンスで考える「問い」

「問い」とは何でしょう。それは「?」で終わる文章です。「明日の天気は?」「今日のランチは何を食べよう?」これらも問いです。大事なのは、データサイエンスには問いのレベルがあるということです。

ポイントは、最初から「最適解」には行けないということ。皆さんがホテルを運営する企業にいると想像してください。「昨日の稼働率は?」という過去の把握もできていない状況で、「価格を5%減らすと、稼働率が10%増加し利益が最大化します」なんてアドバイスされても「本当か?」と思いませんか。ある程度下位レベルの問いをもとにデータを整備したり分析することが大切なのです。

過去や現状把握の問いから始めることが大切

最初のレベルは「現状や過去の把握」です。例えば、「国内の日帰り旅行をする人数は?」「コロナ前後でインバウンド観光客は何%減少したか?」といった事実を数字やグラフで捉えることです。「そんなシンプルなこともデータサイエンスなの?」と思う方もいるでしょう。しかし、より良い課題設定や課題をより深く理解するには、定量的に現状を把握することは大切です。これがない中での予測には納得感もありません。

実際に「国内の日帰り旅行をする人数は?」の問いに答えるグラフを見てみましょう。

グラフを見る時に「ふーん」と事実を確認するのではなく、無邪気に「なんでだろう?」と思ってみてください。

出処:令和3年版観光白書、2021年1~12月期 旅行・観光消費動向調査

さて、このグラフからどのようなことを考えますか?

例えば、以下のような問いはどうでしょうか?

「2018年から宿泊旅行も日帰り旅行も微減傾向にあるように見えるが、なぜだろう?」

「2019年から2020年にかけて、近場の旅行にシフトしたように思っていたが、宿泊旅行の人数の減少率と日帰り旅行の人数の減少率が、概ね同じくらいなのはなぜ?」

この他にも様々な問いが浮かぶと思います。その問いが浮かぶことが大事で、問いがあれば新たにデータを見ようと思いますよね。その繰り返しこそ、データを見て新たな問いを得るという「データとの対話」です。データを通じて、起きている事柄を理解していくことが重要です。

もちろん、仕事でデータ分析をする場合は効率も大切なため、高速でデータとの対話を繰り返すためのデータ準備やBIツールを使用することも多々あります。ただ重要なのは、データを見て問い続けること。それができれば、データサイエンスの入り口に立ったと言って良いでしょう。

さらに上のレベルの問いへ

現状把握ができると、「相関や因果関係の理解」というレベルの問いが生まれます。例えば「インバウンド観光客が増加すると、宿泊施設の売上はどのくらい増加するか?」といった問いです。散布図などのグラフでもある程度理解できますが、相関や因果関係を理解するには統計解析の手法を使うことが実際は多いです。

「相関や因果関係の理解」の次は「予測」というレベルの問いが見えてきます。例えば「宿泊単価を維持した場合、宿泊施設の来月の稼働率は?」「自社施設に機材を導入したら、どのくらい売上が増加するか?」といった問いです。

「ツールにデータを放り込めば、良い感じで予測してくれるのでは?」と思う方もいるでしょう。確かにそういったツールはあります。しかし、どのようなデータを入れるか、即ち、売上がどのようなメカニズムで予測できるかを考えるのは分析者である人間です。実際に私が携わったプロジェクトでは、売上がどのようなメカニズムで決まってくるかデータや経営者インタビューからも理解し、リゾート施設の売上を予測する統計モデルを作りました。

予測モデルを作れたら、「最適解とは何か」という問いも現実味を帯びてきます。例えば「利益最大化のために値引きはいくらにすべきか?」といった問いです。ただし、ここでも注意が必要です。予測モデルは、過去の状況がその後も続くことが前提です。コロナ前のデータを使い2022年9月の売上予測をするのは難しいでしょう。精度高く予測するとは、データ収集時点の状況が安定し続いている前提なのです。そう考えると、予測モデルを駆使するには、業界動向や市場環境も理解しておくことが大切と言えます。

文/堅田洋資

かただ・ようすけ。株式会社データミックス代表取締役社長。University of San Francisco, M.S. in Analytics修了。一橋大学商学部卒業。日本で数少ない米国大学のデータサイエンス修士号を保有。起業以来、約1,500名以上にデータサイエンス関連の教育を提供。データ分析コンサルタントとして、機械学習によるレコメンデーション、交通系IoTデータ分析などの経験も持つ。


@DIME公式通販人気ランキング


@DIMEのSNSアカウントをフォローしよう!

DIME最新号

最新号
2022年12月15日(木) 発売

DIME最新号の特別付録は「7色に光る!LEDメモボード」、特集は「2022ヒット商品BEST100」

人気のタグ

おすすめのサイト

ページトップへ

ABJマークは、この電子書店・電子書籍配信サービスが、著作権者からコンテンツ使用許諾を得た正規版配信サービスであることを示す登録商標(登録番号 10401024号)です。詳しくは[ABJマーク]または[電子出版制作・流通協議会]で検索してください。