[87448] オーナー グリグリさん
都道府県別の面積の丸め誤差をまとめて頂きありがとうございます。
以上の結果によると、全国の合計値の誤差(n=1921)が、0.25km2 となっていますが、[87439]における誤差(n=2000)の平均値 0.10km2 から大きく外れています。どこかに落とし穴があるのでしょうかねぇ。
|m| = a√{n/(6π)} = 0.1009... ≒ 0.10 km2 (n = 1921, a = 0.01)
は、蓄積された丸め誤差の平均(期待値)の絶対値です。蓄積された丸め誤差の標準偏差自体は
σ = a√(n/12) = 0.1265... ≒ 0.13 km2 (n = 1921, a = 0.01)
です。連続一様分布(アーウィン・ホール分布)に関しては、
英語版のwikipediaに分かりやすい図と式がありました。
図を見ればわかるように、n ~ 8ぐらいで十分正規分布近似が可能となります。また説明にはvariance (分散, σ^2) = n/12 とありますが、この場合0から1までの連続一様分布を足した場合の分散であり、0~1とは限らない範囲0 ~ a(n回足せば、0 ~ naの範囲となる)であれば、分散σ^2 = a^2*n/12となり、標準偏差σは分散σ^2の平方根となるσ = a√(n/12)と表現されることになります。
全国の市区町村等別面積の合計と全国の面積との差である+0.25 km2は、一応±2σの範囲に収まり(正確には+0.245~+0.255の範囲を考慮すると、1.936σ~2.015σとなりますが)、受験でおなじみの偏差値であらわすのなら、偏差値69.8に相当する(正確には偏差値69.36~70.15の範囲)ので、多少丸め誤差の蓄積が予想よりも多めですが、一応許容範囲ではあると思われます。
[87439]のモデル表で言えば、丸め誤差が全く生じない確率(±0.005以下)は3%に過ぎない。
しかしながら生じる丸め誤差で一番確率が高いのは、±0.01 km2で、約6%の確率。
±0.10 km2の誤差が生じる確率は約5%程度だが、±0.10 km2以内に誤差が収まる確率は58%。±0.10 km2よりも誤差が大きくなる可能性は42%。
±0.25 km2の誤差が生じる確率はわずか1%だが、±0.25km2よりも誤差が大きく出る確率も、まだ5%あるという感じです。
都道府県別の
[87448]のデータを使って、それぞれの実際の丸め誤差を、標本数から予測される標準偏差で割り、ズレを計算してみると:
ズレ | 都道府数 | 割合(%) | 正規分布から期待される割合(%) |
±3σ以上 | 0 | 0.0 | 0.3 |
±2~3σ | 7 | 14.9 | 4.3 |
±1~2σ | 11 | 23.4 | 27.2 |
±1σ以内 | 29 | 61.7 | 68.3 |
2σから3σまでずれる県が7県と、若干多いようです。ただし±3σ以上ずれている県はありません。具体的には以下の7県です。
都道府県 | 誤差m, km2 | 標本数n | 予測される標準偏差σ, km2 | ズレ |
群馬県 | +0.05 | 35 | 0.0171 | +2.93σ |
富山県 | +0.03 | 15 | 0.0112 | +2.68σ |
佐賀県 | +0.03 | 20 | 0.0129 | +2.32σ |
新潟県 | -0.04 | 37 | 0.0176 | -2.28σ |
沖縄県 | +0.04 | 42 | 0.0187 | +2.14σ |
鹿児島県 | -0.04 | 45 | 0.0194 | -2.07σ |
埼玉県 | +0.05 | 72 | 0.0245 | +2.04σ |
こうやって並べてみると、確かに群馬県の誤差は大きいと言えます。また二番目の富山県などは、市町村数がたった15なのに、+0.03 km2も誤差が出ています。これらはありえないほど大きい誤差が出ていると言うほどではないが、やはり何かしら恣意的な原因もあるという可能性も否定できませんし、これだけのデータだけでは何とも言えません。あるいは四捨五入の際に、切り捨てというプロセスが混入してしまっている可能性もあるかもしれません。
群馬県・埼玉県については、
[87423]でhmt さんが、m2単位のデータがあったことを指摘されていますが、もしかしたら具体的にどの辺が四捨五入の処理で問題になっているのか、あるいは単なる偶然なのか指摘できるかもしれません。
【±3σ以上の正規分布における割合を0.3%に修正、その他文章の一部を修正】