YUTOLOG

読者です 読者をやめる 読者になる 読者になる

プリキュアの数字ブログ

プリキュアの数字に関するブログです。数字以外の事も半分くらい。数字に公平であるため広告、アフィリエイトは導入していません。価格.comのプリキュアおもちゃ特集ページ書きました。

プリキュアで学ぶ統計学①---パンプキン王国の回帰分析---【初心者向け】

Go!プリンセスプリキュア 秋の映画

「Go!プリンセスプリキュア Go!Go!!豪華3本立て!!!」の初動2日間の数値がでましたね。

2015年10月31日公開、初動2日間で、
動員11万8292人、興行収入1億2938万3300円 でした。

まずは結果から。

これを使っていわゆる回帰分析(の初歩の初歩)をやりたいと思います。

この「初動の興行収入」から「最終の興行収入が予測」できます。

結論的にはこうなります。
f:id:kasumi19732004:20151024160913p:plain

プリキュア映画の「初動2日間」と「最終興行収入」には
相関係数=0.988、決定係数R2=0.9895の高い相関が認められ

単回帰式 y=4.0844x+1.0113
      y=最終興行収入(億円)
       x=初動2日間の興行収入(億円)

より、
「Go!プリンセスプリキュア Go!Go!豪華3本立て」の

最終興行収入は

6.30億円になることが予測される。

、となります。*1

(初心者向けのなるべく解りやすい文を心がけますが、
この先は文字ばっかりなので興味のある方のみご覧ください。
でもでも。すっとばして結論くらいは読んでいただければ幸いです。)

回帰分析って何?

まず、これが過去のプリキュア秋映画の
「初動2日間の興行収入」と「最終の興行収入」です。
(これらは、プレスリリースなり映画雑誌などで確認できます)

    初動2日間  最終
    興行収入    興行収入(億円)
MH   1.85       8.5
MH2  1.17       5.80
SS   0.55       3.00
YP5  1.73       8.05
GoGo 1.59       7.93
フレ   1.70       7.90
ハト   2.03       9.31
スイ   1.97       8.90
スマイル 1.92       9.10
ドキ   2.13       9.5
ハピネス 1.0        5.3
Goプリ 1.29    ➡  ????

ここから???の部分を予測してみよう、ってのが回帰分析です。
なんとなーくですが、
「初動2日間の興行収入が高い」と「最終の興行収入」も高いような気がします。
(実はそこに気づくのが一番大変なのですけどね。)

相関図を描く

こういう2つの対になる数の群があったら、とりあえず散布図を描いちゃうのが手っ取り早いです。

エクセルでちょちょい、と散布図を描くと、こうなります。
(初心者は、ここで何故か「折れ線グラフ」を描いて「できねえじゃん!」ってなるんです。ウソのような本当の話です。折れ線じゃないですよ。「散布図」です。)

f:id:kasumi19732004:20151024113825j:plain

こんな感じになりました。直線状に点が並びますね。

散布図描いて、こんなに綺麗に直線になることなんて滅多にありませんよ。

キュアベリーの羽なみの見事な直線ですね。f:id:kasumi19732004:20151106233148j:plain

回帰直線を引っ張って回帰式を得る

で、ここに「回帰直線」を引っ張ります。全部エクセルがやってくれます。
(やり方はググればいくらでも出てくると思います。)

f:id:kasumi19732004:20151024114548j:plain

いまどきはエクセルが0.1秒くらいでグラフ描いちゃうんで超便利です。
ただし、重要なことがあります。「最小二乗法」という言葉だけを頭の隅に置いておいてください。もし統計に詳しそうな人に突っ込まれそうになったら、

「ああ、コレね。最小二乗方法ですね。最小二乗法。すごいですよね。最小二乗法。」

って言っておけばその場は逃げ切れます。
(でも、ちゃんとその後自分で調べて自分の血肉にしておきましょう)

 グラフに数式を表示する(E)、グラフにR-2乗値を表示する(R)にチェックを入れておけば、回帰式と、決定係数R2(後述)も表示されます。

Y=4.0844x+1.0113ってのが単回帰式、R2=0.9895ってのが決定係数ってやつです。

実はもう、決定係数も回帰式も出ているので、式に数値当てはめれば結果出るのですけど、

もう少しやっておかないといけないことがあります。

これをやっておかないと、
統計にうるさいオジサンに突っ込まれて泣いちゃうことになります。

f:id:kasumi19732004:20151103220413j:plain
(ネチネチおじさん


めんどくさいですね。

相関係数を求めておく

相関係数ってものがあります。
これを調べておくと、「その相関に意味はあるのか?」を数値で示すことが出来ます。(ここでいう相関係数とは「ピアソンの積率相関係数」ってヤツですが別に覚えなくても良いですよ。自分も覚えていません。)

 相関関係は、回帰分析なんか行った時に、

「この相関図の相関係数は0.86ですね。」
と言っておくと説得力が出て、ちょっと賢そうにみえる利点があります。

(原理はすっ飛ばします。だって上手く説明出来る自信ないもん。)

相関係数は「R」で表記されます。

f:id:kasumi19732004:20151106235458j:plain
(これはキュアアールです)

エクセルでは、CORREL関数で求めることができます。
(出し方はググればいくらでもでてくると思います)

今回のプリキュア映画の相関図はこれで

相関係数(R)=0.9947が出ました。
(相関係数は-1~+1の間の数値になります。)

で、出てきた相関係数を下記の表に当てはめます。

なんということでしょう。
2つの集団に相関があるのかないのか判ってしまいます。

1.0≧|R|≧0.7 :高い相関がある
0.7≧|R|≧0.5 :かなり高い相関がある
0.5≧|R|≧0.4 :中程度の相関がある
0.4≧|R|≧0.3 :ある程度の相関がある
0.3≧|R|≧0.2 :弱い相関がある
0.2≧|R|≧0.0 :ほとんど相関がない
(出典:「社会調査の基礎」放送大学テキスト)    

今回の相関係数=0.9947ってのは1にかなり近く「高い相関がある」と言えますね。

 

でもでも、

例えばサンプル数が3つしかなかった時と、1000個あるときでは
同じ相関係数が出ても意味合いがちがってくることは何となくわかると思います。

 で、

ここにr表ってのがあります。

付表: r 表(相関係数の有意性の検定) — 中川雅央(滋賀大学)

これを使うと「その相関係数に意味があるのか」が解ります。

 

一応これをチェックしておくと、こわいオジサンに

「でも、たかだか10サンプルの相関係数に意味あるの?」って聞かれた際に

「ええ、相関係数の有意性の検定、やりましたよ。」と言えます。

今回はサンプルサイズ11なので、5%有意水準で相関係数が0.60以上あればその相関係数は意味がある、といえます。

今回の相関係数は0.9947なので、余裕でOKでした。

 
ただし相関係数に関しては過信してはいけないと思います。
この辺りの記事を参考にして下さい。


その「相関係数」を二乗したものが「決定係数」です。
「決定係数」は0~1の間をとり、
1に近いほど回帰式の精度が高いといえます。
(どれくらい1に近いと精度が高いか、とかの基準は無いんですけどね。0.5以上くらいなのかなあ)

 

あといわゆる「外れ値」があると相関が無くても相関係数、決定係数が高く出ちゃう事があるので注意が必要です。

f:id:kasumi19732004:20151107213553p:plain

この相関図に意味はあるのか調べる

「検定」ってやつです。

今回のは「もう、見るからに相関がある」ってことが判るので、おそらく検定しなくても大丈夫なのですが、もう少し分散の大きいグラフで相関もとめると、

「そうはいうけど本当に相関に意味あるの?」ってこわいオジサンに言われます。

もう、これもエクセル頼みでやっちゃいます。

今回はエクセルのアドインの「回帰分析」を使っちゃいます。
(これもやり方はググればいくらでもでてきます)

 今回のプリキュア映画の「初動」と「最終興収」の相関関係では、こうなりました。

f:id:kasumi19732004:20151104220249j:plain

実は、ここに出ている数字ひとつひとつ見ていくと色々とわかるのですが、

今回は「有意F」ってのを見ます。

「有意F」は「F検定に基づくP値」ってことなのですが、自分も詳しく説明できる自信はありません。

原理などは文末の参考リンクにあると思います。

その「p値」は
「『説明変数の効果が0である』という帰無仮説のもとで、分析結果のt値が出る境目の確率」のことらしいのですが、何を言っているのか解りませんよね。
僕もよくわかっていません。

要は、表の下のp値ってのを見れば良いみたいです。
(単回帰分析の場合「有意F」の値は「p値」と同値になるようです。)

ところで「p値」って良い響きですよね。

キュアp値(ピーチ)って覚えておくと解りやすいですね。いや逆に混乱しますね。

f:id:kasumi19732004:20151103102713j:plain

 

有意水準を5%(p=0.05)とした場合には、この「有意F」もしくは「p値」の値が0.05よりも小さければ、その説明変数に意味がある(95%の確率で偶然には起こりえない)、とみなします。

 

今回の「p値」の値は「3.43E-9」すなわち0.00000000343なので、0.05よりも小さくこの相関は5%有意水準で意味がある、といえます。

ところでこの5%とかの「有意水準」をどこに設定するのかは測定者が勝手に決めちゃっていいんですよ。(通常は1%か5%ですけど)

でも、プリキュア的に「5」が良いですよね。

 
ここまで来て、初めてカワリーノさんみたいな上司にネチネチと突っ込まれても

「はあ?ちゃんと検定しましたよ。」って胸を張って言えます。

結論

検定の結果、この相関には意味があるという事が確認できたので、胸を張ってさっきの式を使います。
単回帰式 y=4.0844x+1.0113
      y=最終興行収入(億円)
      x=初動2日間の興行収入(億円)
y=(4.0844*1.293833)+1.0113
=6.30(億円)
最終興行収入の予測値は6.30億円となります。
 

 この先は「信頼区間」や「予測区間」を求めて、

さらにそれっぽく装飾していく作業があります
が、

めんどくさいので省略します。

重回帰分析

あと、今回は「初動2日間の興行収入」から「最終興行収入」を推測しました。
これは「初動2日間」という項目1つからのいわゆる「単回帰分析」ですが、

これの「初動2日間の興行収入」に加えて「動員数」を考慮にいれて考えると、

いわゆる「重回帰分析」になります。

f:id:kasumi19732004:20151103135822j:plain


「初動2日間の興行収入」と「動員数」の2つの数値から「最終興行収入」を予測しよう、という事です。

 詳細省きますが、重回帰分析すると、式はこうなりました。

 Y=0.96-1.49×(動員数)+5.47×(初動売り上げ)

 =0.96-(1.49*1.18292)+(5.47*1.293833)
 =6.28(億円)

重回帰分析での予測値は6.28億円

単回帰分析の結果は6.30億円、重回帰分析では6.28億円。

ほぼ同様の予測結果になりました。

あと、もう一つ

相関関係と因果関係は別問題、ということも回帰分析を考える時には重要です。
相関関係があるからといって因果関係があるとは限らないのです。


気温が高いからアイスクリームが売れるからといって、アイスクリームが売れると気温が上がるわけではないですよね。

f:id:kasumi19732004:20151106233010j:plain


因果関係が逆だったり、共通する第3の要因があったり、たまたま偶然だったり

様々な状況で相関が起きちゃうって事を考慮しないといけません。

仮に

 

看板娘がニッコリ微笑む」「タコ焼きがよく売れる」という相関があったとしても

f:id:kasumi19732004:20151103211202j:plain

 

ぼくがタコ焼きを買っても、きっと看板娘は微笑んでくれない、という事ですね。

f:id:kasumi19732004:20151103211217j:plain

悲しいですね。

 

(おわり)

11/23 第2回目です。

prehyou2015.hatenablog.com

 


<プリキュアで学ぶ統計学>

第1回:プリキュアで学ぶ統計学①---パンプキン王国の回帰分析

第2回:プリキュアで学ぶ統計学② ぴかりんじゃんけんに不正はあったのか?

第3回:プリキュアで学ぶ統計学③ 星空育代と「母集団」 (←予定)

 

 

 

 (参考リンク)

回帰分析に関してはこの辺りが参考になるかと思います。
(ここと違って超真面目な内容ですので安心してください。)

 超定番のアイスクリーム統計学、ハンバーガー統計学。

ハンバーガー統計学にようこそ!

アイスクリーム統計学にようこそ!

 

keijisaito.info

http://www.aoni.waseda.jp/abek/document/regression-1.html

 

www.albert2005.co.jp

www.ab.auone-net.jp

(↓アフィリンクじゃありません。おすすめの書籍です)

マンガでわかる統計学

マンガでわかる統計学

 

 

完全独習 統計学入門

完全独習 統計学入門

*1:ただし今年は11月1日が映画の日だったため、ちょと誤差が大きく出る可能性があります。