最近面積の改訂の話題が出ているので、久々に投稿します。
本来であれば面積は連続値であり、四捨五入に伴う丸め誤差が蓄積される結果、個々の自治体の面積の合計と国土の面積はズレて当たり前です。しかしながら2013年以前の国勢調査記載の面積の数字や陸軍参謀本部の調査による面積の数字においては、そのような丸め誤差が全くなく、市区町村別の面積の合計と、市郡別、都道府県別、国土の面積が完全に一致します (合衆国統治の琉球・沖縄の面積や1945年・1947年の面積などは、公式の数字で色々ズレがあるのですが、まあこれは除外して考えます)。平成26年の面積の改訂により、むしろ正しい面積の表記になったわけですが、チェックがし辛いという別の問題も出たわけですね。
面積の合計に伴う丸め誤差について、以前自分も
[85659]で大雑把に見積もりましたが、
小数点以下第3位で四捨五入しているとすると、本当の面積のデータは±0.005 km2の範囲に存在し、四捨五入後の値との誤差の絶対値の平均は0.0025 km2となります。
ここの部分でズボラな結論で誤差を見積もったのですが、数学的な誤りがありました。そこで改めて四捨五入に伴う面積の合計の丸め誤差について見積もり直してみました。一応高校卒業レベルの微積・確率統計の知識で理解できる内容だと思います。
今、平均値m = 0で、±a/2の間に収まる連続一様分布を仮定します。∫f1(x)dx = 1になるように確率密度関数f1(x)を規格化すると、
|x| ≦ a/2: f1(x) = 1/a
|x| > a/2: f1(x) = 0 ...(1)
と表現できます。確率密度関数f1(x)の分散(σ1)^2は、
[85659]で示したように(a/4)^2では誤りであり、ちゃんと積分により計算すると、
(σ1)^2 = ∫(x - m)^2*f1(x)dx (但し -∞ < x < +∞)
= 1/a ∫x^2dx (式(1)を代入, 但し -a/2 ≦ x ≦ a/2)
= a^2/12 ...(2)
さて、f1(x)同士を2つ足し合わせた時の確率密度関数f2(x)は、
|x| ≦ a: f2(x) = (a - |x|)/a^2
|x| > a: f2(x) = 0 ...(3)
分散(σ2)^2は
(σ2)^2 = ∫(x - m)^2*f2(x)dx (但し -∞ <x < +∞)
= 2/a^2 ∫ -x^3 + ax^2 dx (式(3)を代入, 但し 0 ≦ x ≦ a)
= a^2/6 (= 2*(σ1)^2) ...(4)
さらに3個、4個、…n個と、この確率密度関数を足し合わせていくと、確率密度関数fn(x)は、パスカルの三角形の組み合わせで継ぎ合わさったような、カクカクの複雑な多次多項式となります(アーウィン=ホール Irwin-Hall 分布)。ただしnが十分大きければ、確率密度関数は正規分布に近似できます。ここで分散(σn)^2は、個々の分散(σ1)^2の和なので、
(σn)^2 = n*a^2/12 ...(5)
となるはずです。実際n = 2の時も成立することを、式(4)で確認しました。
2013年以前の市町村別面積も小数第三位で四捨五入されており、±0.005 km2の誤差を含むはずです。よってn = 約2000の市区町村等の面積の合計であれば、a = 0.01 km2なので、(5)式に代入することにより、真の面積との間の丸め誤差の標準偏差は
σn = √(2000 × 0.01^2/12) ≒ 0.12909944 (km2)
になり、また丸め誤差の誤差分布も、σ ≒ 0.129 km2の正規分布に近似できることになるはずです。2000の自治体を合計した結果、小数点以下第2位まで一致する確率、すなわち± 0.005 km2の間に面積が入る確率は、標準正規分布のZ ≒ ±0.038729833 (≒ 0.005/0.12909944)の間に入る確率です。この範囲に入る割合は、エクセルのNORM関数を使って計算すると約3.0894%と求められます。つまり、2010年頃の約2000の市町村別等の面積の合計が、日本全国の面積の合計に一致する確率はわずか3%程度で、本当に面積が純粋な四捨五入だけで求めているのであれば「ありえない」確率ということになります。
また実数からどの程度ずれが生じてしまうかですが、平均が0、標準偏差がσとなるような正規分布の確率密度関数f(x)は、次のように表現できます。
f(x) = 1/√(2πσ^2) * exp {-x^2/(2σ^2)}...(6)
よってズレの平均値mは 0 ≦ x < +∞ の範囲のみを考えると、
m+ = ∫xf(x)dx (但し 0 ≦ x < +∞)
= 1/√(2πσ^2) ∫ x exp {-x^2/(2σ^2)} dx (式(6)を代入) ...(7)
ここでt = x^2/(2σ^2), x dx = σ^2 dt ...(8)と置いて(7)式に代入すると
m+ = σ/√(2π) ∫exp(-t) dt
= σ/√(2π)[exp{-x^2/(2σ^2)}] (但し 0 ≦ x < +∞)
= σ/√(2π) ... (9)
同じように負側の平均を積分で求めると、m- = -σ/√(2π) となり、合計m = m+ + m- = 0で平均はゼロになってしまいます。元々平均がゼロになる確率密度関数を選んでますので当たり前のことです。しかしながら、我々にとって正にズレようが負にズレようが、ズレていることには変わりなく、重要なのはズレxの絶対値の平均|m| = |m+| + |m-|です。よって
|m| = |m+| + |m-| = σ√(2/π) ...(10)
ここでσ = σn とすると、式(5)より
|m| = a √{n/(6π)} ...(11)
n = 2000, a = 0.01とすると、
|m| ≒ 0.10300645
というわけで、2000の自治体の面積の合計した際に生じる丸め誤差の平均を見積もっても、せいぜい±0.10 km2程度という結論がでます。
エクセルのNORM関数を使って、もう少し詳しくモデル計算(n = 2000)をしますと以下の通りです。
面積のズレ(km2) | 実数との差(km2) | 割合(%) | 割合の累積(%) | 標準偏差の累積σ | (面積のズレの絶対値)×(割合)の累積(km2) |
±0.00 | ±0.000~0.005 | 3.089 | 3.089 | 0.0387 | 0.00000 |
±0.01 | ±0.005~0.015 | 6.160 | 9.250 | 0.1162 | 0.00062 |
±0.02 | ±0.015~0.025 | 6.105 | 15.355 | 0.1936 | 0.00184 |
±0.03 | ±0.025~0.035 | 6.014 | 21.369 | 0.2711 | 0.00364 |
±0.04 | ±0.035~0.045 | 5.889 | 27.259 | 0.3486 | 0.00600 |
±0.05 | ±0.045~0.055 | 5.733 | 32.991 | 0.4260 | 0.00886 |
±0.06 | ±0.055~0.065 | 5.547 | 38.538 | 0.5035 | 0.01219 |
±0.07 | ±0.065~0.075 | 5.335 | 43.872 | 0.5809 | 0.01593 |
±0.08 | ±0.075~0.085 | 5.100 | 48.972 | 0.6584 | 0.02001 |
±0.09 | ±0.085~0.095 | 4.846 | 53.819 | 0.7359 | 0.02437 |
±0.10 | ±0.095~0.105 | 4.578 | 58.397 | 0.8133 | 0.02895 |
±0.11 | ±0.105~0.115 | 4.299 | 62.696 | 0.8908 | 0.03367 |
±0.12 | ±0.115~0.125 | 4.012 | 66.708 | 0.9682 | 0.03849 |
±0.13 | ±0.125~0.135 | 3.722 | 70.430 | 1.0457 | 0.04333 |
±0.14 | ±0.135~0.145 | 3.433 | 73.863 | 1.1232 | 0.04813 |
±0.15 | ±0.145~0.155 | 3.147 | 77.010 | 1.2006 | 0.05285 |
±0.16 | ±0.155~0.165 | 2.868 | 79.878 | 1.2781 | 0.05744 |
±0.17 | ±0.165~0.175 | 2.598 | 82.476 | 1.3555 | 0.06186 |
±0.18 | ±0.175~0.185 | 2.339 | 84.814 | 1.4330 | 0.06607 |
±0.19 | ±0.185~0.195 | 2.093 | 86.907 | 1.5105 | 0.07005 |
±0.20 | ±0.195~0.205 | 1.862 | 88.770 | 1.5879 | 0.07377 |
±0.21 | ±0.205~0.215 | 1.647 | 90.416 | 1.6654 | 0.07723 |
±0.22 | ±0.215~0.225 | 1.448 | 91.864 | 1.7428 | 0.08041 |
±0.23 | ±0.225~0.235 | 1.265 | 93.129 | 1.8203 | 0.08332 |
±0.24 | ±0.235~0.245 | 1.099 | 94.227 | 1.8978 | 0.08596 |
±0.25 | ±0.245~0.255 | 0.948 | 95.176 | 1.9752 | 0.08833 |
±0.26 | ±0.255~0.265 | 0.814 | 95.990 | 2.0527 | 0.09045 |
±0.27 | ±0.265~0.275 | 0.694 | 96.684 | 2.1301 | 0.09232 |
±0.28 | ±0.275~0.285 | 0.589 | 97.273 | 2.2076 | 0.09397 |
±0.29 | ±0.285~0.295 | 0.496 | 97.769 | 2.2851 | 0.09541 |
±0.30 | ±0.295~0.305 | 0.416 | 98.185 | 2.3625 | 0.09666 |
±0.31 | ±0.305~0.315 | 0.346 | 98.531 | 2.4400 | 0.09773 |
±0.32 | ±0.315~0.325 | 0.287 | 98.818 | 2.5174 | 0.09865 |
±0.33 | ±0.325~0.335 | 0.236 | 99.054 | 2.5949 | 0.09943 |
±0.34 | ±0.335~0.345 | 0.193 | 99.247 | 2.6724 | 0.10008 |
±0.35 | ±0.345~0.355 | 0.157 | 99.404 | 2.7498 | 0.10063 |
±0.36 | ±0.355~0.365 | 0.127 | 99.531 | 2.8273 | 0.10109 |
±0.37 | ±0.365~0.375 | 0.102 | 99.632 | 2.9047 | 0.10146 |
±0.38 | ±0.375~0.385 | 0.081 | 99.714 | 2.9822 | 0.10177 |
±0.39 | ±0.385~0.395 | 0.065 | 99.778 | 3.0597 | 0.10203 |
±0.40 | ±0.395~0.405 | 0.051 | 99.829 | 3.1371 | 0.10223 |
±0.41 | ±0.405~0.415 | 0.040 | 99.869 | 3.2146 | 0.10239 |
±0.42 | ±0.415~0.425 | 0.031 | 99.901 | 3.2920 | 0.10252 |
±0.43 | ±0.425~0.435 | 0.024 | 99.925 | 3.3695 | 0.10263 |
±0.44 | ±0.435~0.445 | 0.019 | 99.943 | 3.4470 | 0.10271 |
±0.45 | ±0.445~0.455 | 0.014 | 99.958 | 3.5244 | 0.10277 |
±0.46 | ±0.455~0.465 | 0.011 | 99.968 | 3.6019 | 0.10282 |
±0.47 | ±0.465~0.475 | 0.008 | 99.977 | 3.6793 | 0.10286 |
±0.48 | ±0.475~0.485 | 0.006 | 99.983 | 3.7568 | 0.10289 |
±0.49 | ±0.485~0.495 | 0.005 | 99.987 | 3.8343 | 0.10291 |
±0.50 | ±0.495~0.505 | 0.003 | 99.991 | 3.9117 | 0.10293 |
ズレが±0.00の割合と±0.01の割合では後者の方が倍近くになりますが、これは四捨五入して±0.01になる範囲が四捨五入して±0.00になる範囲の倍存在するからで、ここから値が大きくなるほど割合自体は減ります。50%の確率でズレは約±0.6745σ ≒ ±0.087 km2の間に入り、標準偏差 ±1σ ≒ ±0.129 km2の範囲に収まる確率は約68.27%となりますが、ズレの値にそれぞれの予想される割合を乗じて合計することで求まる、ズレの絶対値の平均はσ√(2/π) ≒ 0.7979σ ≒ 0.103 km2に収束します。
このようにちゃんと計算すると、モデル(小数点以下第三位で四捨五入し、2000個合計した場合)における丸め誤差の標準偏差σ = a√(n/12)≒ 0.13 km2 と、絶対値のみを考慮した場合の丸め誤差の平均値|m| = σ√(2/π) ≒ 0.10 km2 は一致しません。まあ
[85659]で見積もった
2000前後の自治体でこの誤差を合算すると、二項分布を考えれば全国の面積合計で√2000 × 0.0025 ≒ 0.11 km2程度の丸め誤差は出て当たり前のはずですが、
の数字ともそんなに違わない値となりましたが、より正しい議論をすると以上のようになります。
以上をまとめると、小数点以下第三位で四捨五入した面積を約2000ほど足した場合、真の値との間に0.01 km2の誤差すら生じない確率はほとんどありえない(約3%程度)が、実際のズレは平均すると±0.10 km2程度ということになります。市区町村とその他未確定地域が合計約1万2000あった昭和10年の国勢調査であれば、丸め誤差の絶対値は平均0.25 km2にまで拡大します。1950年から2010年までの国勢調査報告書に記載の面積においては、総ての市区町村と未確定地域の面積の合計が全国・都道府県・郡市別面積と小数点以下第二位まで完全に一致しており、いささかの丸め誤差も存在しません。つまり2013年以前の面積調では、合計が一致するように端数を適当に処理し、実数とは異なる面積を公表していたことになります。
【追加修正:表に色々数字を追記し、説明文を修正】