野村総合研究所データサイエンティストによる
情報発信サイト

回帰分析におけるP値

エクセルなどを使って、回帰分析をする人も多いと思います。その時に、以下のようなアウトプットを見ることも多いでしょう。回帰分析の結果では、「P値」という値が記述されることが多くあります。

 

 

P値は0.05より小さければ、その変数は「有意」なんだと言われるだけで、具体的には、どういう意味かわからずに、数値をみている人も多いでしょう。今回は、回帰分析におけるP値について解説します。

 

■P値とは何か

統計学における「仮説検定」(自分が設定した仮説が正しいかどうかを統計的に判定する方法)で、設定した仮説の通りにならない可能性(確率)を表した値のことです。P値のPは確率を表すProbabilityのPです。

P値が小さい値(一般的0.05未満)になれば、仮説通りにならない確率が低いと言えるため、想定した仮説は正しいと判断します。

例えば、A群の平均値とB群の平均値には「差がある」ことを証明したい場合には、A群の平均値とB群の平均値には「差がない」という仮説をたて、それが間違っていることを証明します。差がないという仮説を棄却することで、差があることを証明します。どれぐらい小さい場合に棄却してよいかを決める水準を「有意水準」とよび、一般的には0.05をとることが多いです。

 

■回帰分析におけるP値

前述した表の回帰分析の結果をみると、係数aは0.187と計算されています。回帰分析は、サンプルデータから、XとYの元にある関係を推計するという考え方で、最小二乗法により係数aは計算されます。

この時、サンプルデータから計算された結果(係数a=0.187)から、元データにおける真の値は、以下の範囲におさまると推計されます。

この時、「t」(t値とも表現)は正規分布に類似している「t分布」に従います。

 元データの値 = サンプルの値 ± t*サンプルの標準誤差

この式から、±を除外して、tを求める式に変形すると、

    t =(サンプルの値-元データの値)÷(サンプルの標準誤差)

元データの値を仮説として設定するため、

    t =(サンプルの値-仮説の値)÷(サンプルの標準誤差)

となります。

t(t値)は、サンプルデータと仮説から計算することができ、これを「検定統計量」と呼びます。この値はt分布に従うため、この値以上になる確率(P値)を自動的に計算できます。t値から求められたP値が5%未満であれば、計算されたt値は非常に稀なケースであり、仮説が棄却されます。「t分布」に従うという性質を活用した仮説検定のため「t検定」と呼ばれています。

 

サンプルデータから最小二乗法で求めた回帰係数(a)の検定統計量は、

 t (回帰係数aの値-仮説の値)÷(aの標準誤差)

となります。

ここで、検定する仮説は「XとYは関係がない(aがゼロ)」とし、これを棄却することで、XとYの間には「回帰係数aという関係がある」ことを証明します。仮説の値がゼロになるため、統計検定量は以下の式となります。

 t =  a÷(aの標準誤差)

 

 

■検定の流れ

今回の回帰分析結果の検定の流れは以下の通りです。

(1)係数aは最小二乗法により0.187と計算される

(2)aが0になるという仮説をおき「統計検定量」(t値)を計算:2.597

(3)t分布からt値が2.597になる確率(P値)は2.0%と計算される

(4)5.0%以下の確率なため、非常に稀なケースと考えて良い

(5)今回の仮説(aが0になる)は棄却される

(6)係数aを0.187と計算された場合に、aが0になるとは言えない

(7)95%の確からしさで、係数aを0.187と考えても良い

 

 

 

仮にP値が5.0%以上になるような場合は、仮説は棄却されないため、aが0になる可能性があるとなるため、その仮説の前提になった係数aの値は、正しいとは言えません。したがって、P値をみることによって、その係数の確からしさを判断することができ、5%以下で小さければ小さいほど確からしいと言えます。

 

■P値で確からしさを判断する場合の注意点

P値の結果だけでは、必ずしも判断できない場合があります。それは、P値のもとになるt値は、サンプル数の影響を大きく受けるためです。

今回の検定統計量であるt値は以下のように計算されます。

  

 

この式からわかるように、t値はサンプル数が大きくなるほど、大きくなる傾向にあります。t値が大きくなるとP値は小さくなるため、aが0になるという仮説が棄却されやすくなり、回帰分析が正しいという判断がされやすくなるのです。

近年は、莫大なサンプル数でt値を計算することが増えたため、aの大きさや、aのバラツキ(標準偏差)によらず、P値が小さくなることがあります。P値だけでは、回帰分析の結果が正しいと判断されがちなため、注意することが必要です。

 

データサイエンスラボ 塩崎潤一

執筆者塩崎 潤一 データサイエンスラボ長

筑波大学社会工学類卒業。野村総合研究所入社。
入社以来、マーケティングや 生活者の価値観、数理解析などを専門分野としてコンサルティング業務を担当。マーケティングサイエンスコンサルティング部長などを経て、2021年にデータサイエンスラボの初代ラボ長就任。
主な著書に「データサイエンティスト入門」「変わりゆく日本人」、「第三の消費スタイル」、「大衆化するIT消費」など。
(社)データサインティスト協会・理事、広島大学・非常勤講師(2019年~)、統計数理研究所 統計思考院・運営委員(2019年~2020年)。