野村総合研究所データサイエンティストによる
情報発信サイト

新型コロナウイルスで消費行動はどう変わったか~酒の消費額の変化を因果推論で検証してみた~

 こんにちは、NRIデータサイエンス 因果推論チーム(阿部泰己、井形健太郎、大島拓人、曽根建、松井拓郎、鈴木雄大)です。因果推論のビジネス上での活用方法を簡単な事例を用いてご紹介します。テーマは新型コロナウイルスによる酒の消費額の変化です。

1章 : 背景と問題設定

 新型コロナウイルス感染症(以下、コロナ)の流行は我々の社会や生活スタイルに対して非常に大きな影響を与えた。人の移動が抑制され在宅勤務が急速に進むことで家の中での娯楽を楽しむように変化し、接触を避ける意識から個人の時間の使い方もまた変化した。このような行動変容の中で我々の消費動向も変化したとされているが、定量的に消費の変化をとらえた分析は筆者の知る限りでは少ない。

 そこで、今回はコロナの流行が与える消費行動への影響の一面として、特に影響を強く受けたと思われる業界の1つである外食業界からの受け皿として、酒類の自宅消費量を対象とした分析を行った。緊急事態宣言やまん延防止等重点措置の影響を強く受けて外食需要が強く落ち込むことは想像に難くないが、宅飲み需要が増えるか否かは自明ではない。たとえば昨今若者の酒類離れなどが指摘されているなかで、コミュニケーションとしての飲み会への参加によって維持されていた外食消費が、個人的な趣味嗜好への宅飲みへ転換するか否かは本人の飲酒嗜好に影響されると考えられるためである。一定の酒類への需要が存在するのであれば、規制された外食(+飲酒)に代わって自宅消費が増えると考えられる。

 ここで、コロナの与える酒類の消費量への影響では若干漠然とした表現であり分析対象が定めにくいため、外食消費から家庭内消費への切り替えが特に発生しうるイベントとして、「緊急事態宣言」「まん延防止等重点措置」によって個人消費が増加したか否かについて分析を行うこととした。

2章:適切な因果推論モデルの選択

1. 代表的な分析モデルと選択方法の紹介

 因果推論とは、データから「原因」と「結果」の関係を統計的に推定していく考え方のことである。ある介入の前後での効果を推計する際に用いられることが多い。この章では、効果検証における適切な因果推論モデルの選択について説明する。 一般的に、モデルはモデルの特徴や利用可能なデータの特徴を踏まえて選択される。今回のような観察データを用いた介入効果の推定では、対照群の設定がモデル選択の重要な鍵となる。

 介入効果の検証では、介入を受けた群(処置群)と受けていない群(対照群)を適切に設定して比較をする。しかし、処置群と同一視できるような対照群のデータが利用可能であるケースは珍しい。そこで、何かしらの操作を行う必要がある。傾向スコアマッチング法はその一例であり、マッチングすることで共変量によるバイアスを抑えることが出来る。一方で、共変量の条件付けだけで、処置群と対照群を同一視出来ないような場合は、以下のような分析モデルを用いる。

  • 差分の差分法(Difference in Differences,DID)
  • 合成対照法(Synthetic Control Method,SCM)

 上記の分析モデルは、大枠として「処置群の介入前後の差分」から、「対照群の介入前後の差分」を引くことで、介入の効果を推定するモデルとなっている。しかし、対照群の設定が異なり、その違いを踏まえてモデルを選択する必要がある。

 まず、平行トレンド・共通ショック仮定を満たす対照群のデータが利用可能である場合は、差分の差分法を用いる。平行トレンドとは、介入が起きなかった場合に処置群と対照群の時間的な動きが平行となること、共通ショックとは、観察したい介入以外で処置群と対照群に異なる影響を与えるイベントがないことをそれぞれ意味している。しかし、実際にこれらの仮定を満たす対照群データがあるとは限らない。そこで、そのような対照群データが利用できない場合は、複数の対照群を合成したものを作成し、対照群とする合成対照法が用いられる。

 以下の表は、紹介した分析モデルそれぞれに対して、対照群の設定方法をまとめた表である。

分析モデル 対照群の設定方法
傾向スコアマッチング法 マッチングにより共変量のバイアスを最小化する
差分の差分法 平行トレンド・共通ショック仮定を満たす対照群を設定する
合成対照法 複数の対照群を重み付け平均し、対照群とする

2. 今回の分析で選択したモデル

 今回ケースでは、東京都区部の酒類等の消費額に変化を推計するが、前述した平行トレンド・共通ショックの仮説を満たす対照群を見つけることが難しい。しかし、緊急事態宣言やまん延防止等措置が発令されなかった福井や徳島などを合成することで対照群を設定できる。従って、今回の分析では、合成対照法を用いて分析を行うこととする。

3章:実データによる分析例

1. データ概要

 本章ではあるエリアにおいてコロナによる緊急事態宣言およびまん延防止等重点措置が与えた家庭への消費額と、仮に同じエリアで緊急事態宣言およびまん延防止等重点措置の発令がなかった場合の反実仮想を想定した家庭への消費額をシミュレーションすることで、緊急事態宣言とまん延防止等重点措置が家庭への消費にどのような影響を与えたか確認することを目的とする。
まず、データとして以下2つのサイトから取得をした。

    1. e-Stat 政府統計の総合窓口 
    2. 新型コロナウィルス等感染症対策推進室 

1-1. e-Stat 政府統計の総合窓口

 このサイトは、総務省統計局が整備し独立行政法人統計センターが運用管理を行う、日本の政府統計関係情報を提供するポータルサイトである。 今回の分析では、このポータルサイトに掲載されている家計調査の中から、酒類、飲酒代、食料の3つを代表的な項目としてシミュレーションの対象にした。 それぞれの項目は次のように定義できる。

    1. 酒類⇒宅飲み
    2. 飲酒代⇒外飲み
    3. 食料⇒酒除く食料費

1-2. 新型コロナウィルス等感染症対策推進室

 このサイトは、新型コロナウィルス感染症対策に関する感染防止に向けた取り組みや、最新情報などが掲載されている内閣官房の新型コロナウィルス等感染症対策推進室が管理するサイトである。 各エリアごとに緊急事態宣言およびまん延防止等重点措置が実施された日時およびその期間のデータを取得するため、このサイトを利用した。

2. 分析設計

2-1. 対照群/処置群の設計

 今回、緊急事態宣言およびまん延防止等重点措置が発令されなかった場合(反実仮想)の酒類・飲酒代・食料の消費量をシミュレーションするにあたり、2021年以降に緊急事態宣言およびまん延防止等重点措置が発令されなかったエリアを対象群とし、シミュレーション対象の処置群を東京23区に設定する。 対照群として設定する具体的なエリアは下記の通り。

処置群 対照群
東京都区部 奈良市、徳島市、盛岡市、福井市、秋田市、鳥取市

2-2. 予測手法の設計

 東京都23区において、緊急事態宣言およびまん延防止等重点措置が発令されなかった場合(反実仮想)の酒類・飲酒代・食料の消費量の予測モデルとして重回帰モデルを採用した*1

学習期間および推論期間は以下のように設定した。

学習期間 推論期間
~2018年12月31日 2019年1月~

説明変数・目的変数は以下のように設定した。(酒類の場合)

説明変数 目的変数
対照群の酒類 東京都区部の酒類

各予測対象の品目について、対照群における消費額を説明変数とし処置群における消費額を目的変数とした。

3. 分析結果

3-1.予測対象品目のデータ確認

実績

 今回予測対象とする品目の対照群および処置群におけるコロナ前の消費額(~2019年12月)とコロナ後の消費額(2020年1月~)の傾向を確認する。図には2017年から2022年における予測対象品目ごとの対照群と処置群の消費額の時系列推移を表している。青色線が東京都区部、灰色線が対照群を表す。 また、赤色領域および黄色領域はそれぞれ東京都区部において緊急事態宣言およびまん延防止等重点措置が実施された期間を表している。

商材 コロナ以前の消費額(~2019年12月) コロナ以降の消費額(2020年1月~)
酒類 対照群と比べ東京都区部の消費額は平均程度 まん延防止等重点措置期間で東京都区部は対照群を下回るケースが多い
食料 対照群と比べ東京都区部の消費額は1.2倍程度高い水準 東京都区部の消費額はコロナ以前と比べ大きな変化はない
飲酒代 対照群と比べ東京都区部の消費額は2~3倍程度高い水準 まん延防止等重点措置期間で東京都区部の消費額は対照群を下回るケースが多い

 全体的なトレンドとして、東京都区部における酒類の消費額は2020年に入り一時下がったものの、その後は上昇傾向にあることが確認できる。ただし、2022年以降は下降傾向にあり、将来的にはコロナ前の水準まで戻るのではないかと想定される。一方、飲酒代については2020年以降に入り大幅に減少し、その後は消費額が上下しつつも、コロナ後の消費額の平均はコロナ前に比べ低い水準を推移していることが確認できる。

食料についてはコロナ前後でほぼ変わっていなく、コロナの影響が少ないことが確認できる。

3-2.重回帰分析による予測結果

予測

 2.分析設計で記載の通り、2018年12月までの対照群および処置群(東京都区部)のデータを用いて予測モデルを作成し、2019年1月以降の対照群のデータを用いて、処置群の予測(反実仮想)を行った。 青い路線は先ほどと同様、処置群の実測値を表し、灰色破線は予測モデルを用いた予測値を表している。

商材 コロナ以前(2019年1月~2019年12月) コロナ以降かつ宣言中(図中赤および黄色期間) コロナ以降かつ宣言中でない(2021年下期)
酒類 予測値は実測値の挙動をおおよそ捉えている(MAPE:11%) 実測値よりも予測値の消費額の方が大幅に下振れ(MAPE:31%) コロナ以前と同程度の精度(MAPE:14%)
食料 予測値は実測値の挙動をおおよそ捉えている(MAPE:4%) 予測値と実測値は同程度の消費額を推移(MAPE:4%) 予測値と実測値は同程度の消費額を推移(MAPE:4%)
飲酒代 予測値と実測値で値に差はあるが、値の上下の傾向はおおよそ捉えている(MAPE:29%) 実測値よりも予測値の消費額の方が大幅に上振れ(MAPE:63%) コロナ以前と同程度の精度(MAPE:28%)

 2021年以降、本格的に緊急事態宣言およびまん延防止等重点措置が発出された期間(赤、黄色期間)においては酒類の消費額は予測値よりも実測値が高い水準で推移しており、一方飲酒代は実測値が低い傾向を示している。つまり、コロナ禍による外出制限や飲食店の時短営業、アルコール類の提供制限等により、外飲みでの酒消費ニーズが宅飲みへシフトしたことで、酒類の消費額がコロナ後上昇したものと考えることが出来る。
一方、食料の消費額はコロナ前後で予測値と実測値でほとんど差が見られない。おそらく食料への需要はコロナの影響を受けにくいものだと考えられる。

4. 今後の見通し

 2022以降に注目すると酒類についてはまん延防止等重点措置を発令しても消費額は予測値と実測値でほぼ変わらないことを見ると、今後も緊急事態宣言およびまん延防止等重点措置による特需は期待が出来ない、つまりコロナ前の水準に戻りつつあるということが出来そうである。
一方、飲酒代についてはまん延防止等重点措置発令により消費額が下がっていることを見ると、今後も緊急事態宣言およびまん延防止等重点措置による需要減の傾向は続くのではないかと想定できる。
食料については今後も緊急事態宣言およびまん延防止等重点措置による影響は受けずに推移しそうである。

*1 重回帰モデル等の線形モデル以外にrandom forestといった決定木系のモデルや時系列モデルも利用することができるが、本ブログでは合成対象法の利用方法を紹介することが目的のため、簡易なモデルの重回帰モデルを採用した。

4章:因果推論をビジネスに応用する際のポイント

 ビジネス現場において因果推論を適応するステップは「①問題設定」「②データの収集・加工」「③分析」の3段階に分けられる。本章では、各ステップにおいてどのような観点に気を付ける必要があるかを紹介する。

  • まず「①問題設定」について述べる。初めに、どのような介入によってどのような効果を推計したいのかを日本語で文章化してみる。その後文章をデータでどのように表現できるかを考えると、問題設定の曖昧さを回避することができる。例えば、今回のケースの場合、コロナという「介入」をまん延防止等重点措置や緊急事態宣言とするのか、感染者数の伸び率とするのかで分析は大きく異なる。同様に、宅飲みの「効果」をお酒の消費金額、消費量、頻度で測るのか等が変数化の候補は複数想定できる。

  • 次に、「②データの収集・加工」について述べる。初めからデータを闇雲に探しにいくとデータの海に溺れてしまう。①で変数化した効果と介入に対して、分析したいデータの粒度・期間・範囲などを整理してから各ソースに当たることで防ぐことができる。今回のように外部統計データを用いる場合、日本国内データであれば「e-Stat 政府統計の総合窓口」、海外データであれば「World Bank Open Data」等にまず当たるとよい。企業内のデータを用いる場合は、データが各部署に点在していることやデータの形式がそろっていない等の問題がよく起こる。十分なデータ量を確保することや、使える状態に加工することに多くの時間を費やしてしまうのが実態である。あらかじめ最低限必要なデータは何か、取得できない場合は代わりにどうやってデータを作るかということが重要となる。

  • 最後に「③分析」について述べる。合成対照法で特に重要なのは対照群の選び方と合成の仕方である。対照群を選ぶために、EDA(探索的データ解析)を行い変数間の相関や時系列での傾向を確認し、選択バイアスをうまく取り除く必要がある。対照群が設定できたら重回帰モデルなど簡易な予測モデルで予測してから、得られた結果をもとに、改めて①で立てた問題に対して適切に答えられているのかを何度も検証する。例えば、今回のケースでは、処置群と対照群の地域特性に関する深堀や、酒類の消費金額だけでなく、家計消費全体に占める割合や外食や旅行等多品目に対する割合の深堀等が必要となる。予測モデルの変更やハイパーパラメータチューニング等は最後に行うと効率的に分析を進められることが多い。

 以上の3つの段階ではデータサイエンスに必要な3要素が求められる。適切に問題を設定し解決にするビジネススキル、データを実装・運用上意味のある形にするエンジニアリングスキル、人工知能や統計学等を理解し活用するサイエンススキルである。しかし、必ずしも一人の人材が3つの素養を持っている必要はなく、各要素に強みを持ったチームがうまくコミュニケーションをとりながら進めていくことが重要である。