野村総合研究所データサイエンティストによる
情報発信サイト

なぜF1スコアでは「調和平均」が使われるのか。調和平均の意味を考える。

 NRIのデータサイエンティスト、田村です。本記事では、よく使われる相加平均と異なり、普段あまり馴染みのない「調和平均」の意味について考えてみたいと思います。

 さまざまな代表値と、さまざまな平均値

 世の中には様々なデータがありますが、複数のデータを、1つの値で表現したいとき、それを「代表値」と呼んだりします。代表値には、「平均値」「中央値」「最頻値」などがあり、外れ値の影響を除去した「トリム平均」や、ドメインを考慮した「重み付き平均」なども代表値の一種と言えます。

 さてこの代表値の中でもポピュラーなのが「平均値」だと思いますが、この平均値にもいくつか種類があり、有名なものとして「相加平均」「相乗平均」「調和平均」の3つがあります。それぞれの求め方を簡単に整理すると、

 相加平均・・・全てを足してnで割ったもの。最も一般的な「平均」。

 相乗平均・・・全てを掛けてn乗根を取ったもの。幾何平均とも呼ばれる。

 調和平均・・・全ての逆数の相加平均の逆数を取ったもの。

となります。「相加平均」は、最も一般的な平均のことであり、「相乗平均」は、ビジネスにおいてはCAGRの計算や、複利計算などで用いるため割と使うことがあるのではないかと思います。ただ、3つめの「調和平均」は、普段使う機会があまりない方も多いのではないでしょうか。

 「調和平均」は、生産性の平均?

 調和平均とはどのような意味があるのでしょうか。統計の本などによると、割合の平均や、生産性の平均などとと説明されることがあります。調和平均を用いるべき例として、良く例に挙げられるのが、「行きは時速40km、帰りは時速60kmの車の平均時速は?」というものです。この答えは、調和平均を用いて「時速48km」が答えになります。

 しかし、この問題を少し改変して、「時速40kmで30分、時速60kmで30分走ったときの平均時速は?」とすると、この答えは、相加平均を用いるのが正しく「時速50km」が答えとなります。生産性なのに相加平均の方が正しいとなってしまいます。

 この2つの例は、何が異なるのでしょうか。生産性を「仕事量÷時間」と定義すると、前者の場合は、行きと帰りの移動距離、つまり「生産量」を固定しています。後者の場合は、行きと帰りの「時間」が固定されています。何を固定するかによって2つの例は差異が生じています。

 生産性の平均を考えるときでも、「時間」が等しい場合の生産性の平均は、相加平均が適しており、「仕事量」が等しい場合の生産性の平均は、調和平均が適していると言えそうです。

 なぜF1スコアでは「調和平均」を使うのか

 本題であるF1スコアの定義について、改めて整理したいと思います。分類モデルの「評価指標」として、正解率(Accuracy)、適合率(Prescion)、再現率(Recall)という3つの指標があります。

 正解率・・・全ケースを分母とした正解(陽性を当てたものと陰性を当てたものの和)の割合

 適合率・・・予測が陽性のものを分母とし、そのうち実際も陽性のものの割合

 再現率・・・実際が陽性のものを分母とし、そのうち予測も陽性のものの割合

混同行列で表すと以下の図のようになります。

正解率・適合率・再現率の違い(混同行列より)

 よく知られるようにこれらの指標は、陽性と陰性の数がアンバランスである場合などに課題があり、この課題を解決する代表的な指標として「F1スコア」があります。

 F1スコアは「適合率(Precision)」と「再現率(Recall)」の調和平均で求められます。

 さて、「適合率(Precision)」は、予測側を分母としたときの、真値をどれだけ当てることができたかを示す、このモデルの生産性と捉えることができます。同様に「再現率(Recall)」は、実際側を分母としたとき、真値をどれだけ当えることができたかを示す、このモデルの生産性と捉えることができます。

 つまり、これらは同じ仕事を解くにあたっての、異なる側面から生産性を捉えるものであり、仕事量が同じである生産性の平均であることから、調和平均が適していると考えられます。

 実務における「調和平均」の使いどころ

 上記の考え方を応用すると、複数のモデルをアンサンブルする場合に、相加平均の代わりに調和平均を用いるというアイディアが考えられます。実はこれは、「Kaggleで勝つデータ分析の技術(技術評論社)」に載っているアイディアでもあります。同書にも記述がありますが、調和平均は、アンバランスな値同士を平均する場合に、相加平均よりも小さな値となり、場合によっては、よりロバストなモデルになり得ます。

アンサンブルにおける相加平均と調和平均の違い

 調和平均は、このように生産性の平均と考えると、ドメインによっては有効なシーンもあるのではないでしょうか。簡易に計算可能でもあり、相加平均の代替としても使いやすそうな代表値であると感じます。