「Netflixの賞金分配とベイジアンの哲学」という記事を和訳してみた

最近、Netflix賞の受賞者が決まったようだ。
Netflix賞は映画評点データを処理する機械学習アルゴリズム間で性能を競うコンペティションであり、1億件を越える巨大データと100万ドルという賞金で業界の注目を集めていた。

最近以下のようなタイムリーなブログ記事を見つけたので、ついカッとして和訳してみた。



(和訳ここから)

Netflixの賞金分配とベイジアンの哲学


今月はドラマティックな一ヶ月になった。
一ヶ月前に、映画推薦モデルの性能において10%を越える性能向上を達成したことにより複数トップチームの連合チーム100万ドルの大賞受賞資格を得たのだが、このコンペティションはその瞬間から数えて30日間後に終了することになっていた。これは、その他のチームがこれ以上の結果を出す可能性を考慮したルールであった。はたして、締め切り日までたった一日だけ残して、実際にこれを越えるチームが現れた。このチームは23の異なるチームや個人による「アンサンブル」であった。


もちろん、この勝利に貢献した新しいアイディアのほとんどはデータに含まれる重要で新しいパターンを抽出するモデル
(例えば映画評点を行った時刻の効果を考慮に入れるモデル)を通して得られたものであったのだが、多くの異なるチームのアンサンブルが開発されたこともまさしく重要な成果であったわけであり、アンサンブルチームにおける賞金の配分率は、正解率のパーセンテージの向上結果に対する貢献の度合いに基づくものとするNetflix大賞の賞金分配ルールは、この過程に対して洞察的であったと言える。


ベイズ統計の仕事は常にアンサンブルとともにあった。事後確率とは全てのモデルの重み付き平均であり、その重みはデータから見た各モデルの適合度と事前に決定されたそのモデルの品質の積によって決まる。これに加えて、今後このようなコンペティションがあった場合に考慮にいれたほうがよい考え方としてベイズ的得点関数というものを以前筆者が紹介している。


以前に筆者はオッカムの剃刀(Occam's razor)とエピキュロスの原則との違いについて質問を受けたことがある。
オッカムの剃刀ベイズ的事前確率のことであり、陰陽の「陽」と言える。すなわち、より単純なモデルがより大きな事前重みに持つ(なぜなら通常そちらのほうが思考の節約になり有用だから)という原則である。
オッカムの剃刀という考え方はアリストテレスにまでさかのぼる。
彼はその物理学において、「十分でさえあれば、求めるものは常に少ない方がよい」そして「結果が同じでさえあれば、前提とする仮定は少なければ少ないほどよい」とした。我々はそれを事前確率として数学的に表現する。


エピキュロスの原則は、陰陽の「陰」にあたる。数学的にいうならば、モデル空間上の積分である。
アンサンブルという考え方はエピクロスヘロドトスに送った手紙にさかのぼる。
「したがって、われわれが現象の原因を研究するときには、よく似た現象を発生しうる原因のうち経験上考え得るもの全てにわたる多様性を考慮に入れなければなりません。」
したがって、ベイズ統計は不確実性という制限のなかで単純性追求のバランスをとりながら、これらの陰と陽を結びつけていることになるわけだ。


(和訳ここまで)



エピキュロスの原則について「快楽原則」という訳語があるようなのですが、あえて避けました。
アンサンブル推定のベースにこんなものを持ってくる話は初めて聞きました。
陰・陽の話もピンとこないなぁ。