そろそろ Excel のマクロも勉強しようかと思っている T です。こんばんは。
生物学の分野では、例えば t 検定で p の値が 0.05 未満ならば、2つの群は統計学的に有意な差をもって異なる、と (ひとまず) 結論付ける。p < 0.05 というのは、乱暴にいえば、両者が同等の群である確率が 5% 未満、つまり異なる群である確率が 95% より大きい、ということである。p の値が小さければ小さいほど、両者が異なる群であることが確からしい、といえる。実験によっては、p < 0.01 やそれ以下の値で線引きすることもある。
この「確からしい」というのが曲者で、0.05 や 0.01 という値で線引きするのは単なる慣習、厳しい言い方をすれば恣意的な行為以外の何物でもない。p の値は統計学的に厳密な定義がなされているが、統計学が現実を反映しているという保証はどこにもない。統計は数学であり、数学は自然に対して何ら責任を持たない。
非常に極端な話をすれば、ヒトとチンパンジーのゲノム配列は 99% 以上が一致している。だからといって、ヒトとチンパンジーが同じであると主張する人間はいない。もちろん、何万人ものヒト、何万匹ものチンパンジーのゲノム配列を全て読んで比較すれば、統計的に有意差は出るかもしれない (恐らく出るだろう)。どこまでが誤差か、というのは、実に難しい問題である。逆にいえば、恣意的に操作できる余地があるともいえる。
p = 0.049 だと有意な差があって、p = 0.051 だと有意な差はないのか? 数字ばかり見ていると、とっても危うい道に迷い込んでしまう。ちょっと考えてみればわかることだ。Excel の計算式にバグがあったら、なんて想像をしたら笑えなくなった。