都道府県市区町村
落書き帳

トップ > 落書き帳 >

メンバー紹介

>
YTさんの記事が1件見つかりました

… スポンサーリンク …


記事番号記事日付記事タイトル・発言者
[87449]2015年4月3日
YT

[87449] 2015年 4月 3日(金)18:47:54【1】YT さん
正規分布とのズレについて
[87448] オーナー グリグリさん
都道府県別の面積の丸め誤差をまとめて頂きありがとうございます。

以上の結果によると、全国の合計値の誤差(n=1921)が、0.25km2 となっていますが、[87439]における誤差(n=2000)の平均値 0.10km2 から大きく外れています。どこかに落とし穴があるのでしょうかねぇ。


|m| = a√{n/(6π)} = 0.1009... ≒ 0.10 km2 (n = 1921, a = 0.01)

は、蓄積された丸め誤差の平均(期待値)の絶対値です。蓄積された丸め誤差の標準偏差自体は

σ = a√(n/12) = 0.1265... ≒ 0.13 km2 (n = 1921, a = 0.01)

です。連続一様分布(アーウィン・ホール分布)に関しては、英語版のwikipediaに分かりやすい図と式がありました。を見ればわかるように、n ~ 8ぐらいで十分正規分布近似が可能となります。また説明にはvariance (分散, σ^2) = n/12 とありますが、この場合0から1までの連続一様分布を足した場合の分散であり、0~1とは限らない範囲0 ~ a(n回足せば、0 ~ naの範囲となる)であれば、分散σ^2 = a^2*n/12となり、標準偏差σは分散σ^2の平方根となるσ = a√(n/12)と表現されることになります。

全国の市区町村等別面積の合計と全国の面積との差である+0.25 km2は、一応±2σの範囲に収まり(正確には+0.245~+0.255の範囲を考慮すると、1.936σ~2.015σとなりますが)、受験でおなじみの偏差値であらわすのなら、偏差値69.8に相当する(正確には偏差値69.36~70.15の範囲)ので、多少丸め誤差の蓄積が予想よりも多めですが、一応許容範囲ではあると思われます。

[87439]のモデル表で言えば、丸め誤差が全く生じない確率(±0.005以下)は3%に過ぎない。
しかしながら生じる丸め誤差で一番確率が高いのは、±0.01 km2で、約6%の確率。
±0.10 km2の誤差が生じる確率は約5%程度だが、±0.10 km2以内に誤差が収まる確率は58%。±0.10 km2よりも誤差が大きくなる可能性は42%。
±0.25 km2の誤差が生じる確率はわずか1%だが、±0.25km2よりも誤差が大きく出る確率も、まだ5%あるという感じです。

都道府県別の[87448]のデータを使って、それぞれの実際の丸め誤差を、標本数から予測される標準偏差で割り、ズレを計算してみると:

ズレ都道府数割合(%)正規分布から期待される割合(%)
±3σ以上00.00.3
±2~3σ714.94.3
±1~2σ1123.427.2
±1σ以内2961.768.3

2σから3σまでずれる県が7県と、若干多いようです。ただし±3σ以上ずれている県はありません。具体的には以下の7県です。

都道府県誤差m, km2標本数n予測される標準偏差σ, km2ズレ
群馬県+0.05350.0171+2.93σ
富山県+0.03150.0112+2.68σ
佐賀県+0.03200.0129+2.32σ
新潟県-0.04370.0176-2.28σ
沖縄県+0.04420.0187+2.14σ
鹿児島県-0.04450.0194-2.07σ
埼玉県+0.05720.0245+2.04σ

こうやって並べてみると、確かに群馬県の誤差は大きいと言えます。また二番目の富山県などは、市町村数がたった15なのに、+0.03 km2も誤差が出ています。これらはありえないほど大きい誤差が出ていると言うほどではないが、やはり何かしら恣意的な原因もあるという可能性も否定できませんし、これだけのデータだけでは何とも言えません。あるいは四捨五入の際に、切り捨てというプロセスが混入してしまっている可能性もあるかもしれません。

群馬県・埼玉県については、[87423]でhmt さんが、m2単位のデータがあったことを指摘されていますが、もしかしたら具体的にどの辺が四捨五入の処理で問題になっているのか、あるいは単なる偶然なのか指摘できるかもしれません。

【±3σ以上の正規分布における割合を0.3%に修正、その他文章の一部を修正】


… スポンサーリンク …


都道府県市区町村
落書き帳

パソコン表示スマホ表示