コラム・特集

6.2 2変数の関係

IEハンドブック
第13部 IE技術者の定量的方法論

第6章 回帰と相関


6.2  2変数の関係

単純モデル
単純モデル(1説明変数モデル)の実際の使用はまれである。すなわち,現実のシステムがそれほど単純であることはまれである。しかし,回帰モデルの原理を検討するためには,単純モデルが十分役立つここでは説明のために,ある建物のスチーム消費量Yを表わす仮想デ ータをモデル化する。次の理由からこの目的変数が選ばれた(1)エネルギー利用は広範な関連と世界的な重要性をもち,(2)そのような非常に多数な目的をエネルギー・システムで確実に表現できること が,その理由である。

考察する建物は,ビル,工場,倉庫,病院,ホテルまたは家屋などである説明のために,サンプルは単に20の観測から成るものとする。各観測は4週間隔で取られた。 通常,1週間毎のデータが好まれる。しかし,20個のデータで各種の天候をカバーするように4週間隔が選ばれた。回帰分析の目的は,この建物のスチーム消費量の制御を確立することである。現在,天候を考慮してエネル ギーの過剰使用を防いでいる。

第1に, この建物の快適な暖房がスチームの主な使用であると仮定する。その使用量(ギガ英国熱単位gbtuでの計測)は日中温度(X)にかなりの関係があるにちがいない日中温度Xは65T(日中温度F/18=日中温度C)を中心に相対的に測定されており,単位期間毎に報告される 図表13.6.4は20個の観測値を示している。ここで,期間は1年間を分割して1から13まで番号を付け,各年には1,2および3の番号が付いている。スチーム使用量を日中温度と関係づけるために最小2乗法を用いよう。

 

最小二乗法の理由
線形重回帰では,変動を理解することが問題解決の基本である目的変数の変動は理論的に次の2つの部分からなる。

1.説明変数の変化に関係または反応しているシステムの変動(信号)
2.「残差誤差」または「実験誤差」と呼ばれる残りの変動(雑音)

実際にはその区別はそれほど明確ではない残りの誤差は,解析者が十分な時間,知識,根気と金とを持つならば,実際に測定し,モデルに含めうるような種々の事象と関係している。変動の原因のすべてを調べることはしないと解析者が決めただけである。残りの誤差に規則的なパターンが無いようなときに,またすべての説明変数のどれもが十分に検討され,または残差分散が目的に照らして十分小さいときに,解析者は調査を打ち切る。

観測した目的変数は,理論的モデルの真の係数と残差誤差とによって、

Yi=P∑j=0βjXij+ei                          (2)

と表わされる。ここで,Ciは Yに 関する 残差誤差で,(理論的に)分散σ :をもつ β jの推定値を含む推定(fitted)モデルは,

Yi=∑j0 βjXij                            (3)

である。ここで,Y上の曲折記号 ^ は目的変数の予測値または推定値を示す。平均値に横線を用いるのと同じである。実際,Yは空間の位置がXijで定義された場合の条件付平均であり,その位置または条件に対する目的変数の期待値,または真値の推定値である。

Yの観測値と推定値(fitted value)との差は残差誤 差または単に「 誤差」と呼び,

ei=Yi-^Yi=^ei           (4)

で ある .こ こ で ,ei`は “真の誤差” Crの推定値である。
実際 ,eiには解析者がモデルから除いたすべてのものを含んでいる。これは、標本分散、

s^2Y・X=s^2e=∑・X=s^2e=∑・X=s^2e=ni=[1(Yi-^Yi)^2] / (n-P-1)
=(∑ni=1 e^2i )/ (n-p-1)=ó^2∈        (5)

をもつ。この分散は理論的に“実験”誤差分散の推定値 である。添字Y・Xは「X値の特定の集合を含むモデルが与えられたときのYに対する」を意味している。ゆえに,S^2 y.xは,モ デルが与えられたときのYの残差分散の標本推定値である。

最小二乗法で,式(2)の 不偏推定値である式(3)の biの値を決定する。最小二乗推定は,正規分布の残差誤差に対する一様最小分散不偏推定値であって,残差誤差の分布形にかかわらず,すべての線形推定値(観測値Yの線形結合)の中で最小分散となる(Eisenhartを参照せ よ)この章の後部で用いる最小二乗解および関係式の導出は他の文献 6~10に示されている。本質的には,式(5)の分子,すなわち式(4)の ei の平方和を最小にするように切が決定される。このため,「最小二乗」と呼ぶ。

最小二乗直線の決定

例題に戻って,最初に幾何学的解釈を示す 図表13.6. 5は ,図表13.6.4の 日中温度に対するスチーム消費量の図である。回帰係数b1は 最小二乗直線の傾きを表わし , 角θの正接(tan θ)である。平方和を最小にするej は,点から 直線までY軸方向に測った距離である。距離 e4と e17が図に例示されている。

単純モデルの最小二乗解は,

b1=SPXY / SSX・b0=Y-biX             (6)  

である。ここで,

SPXY:XY対の修正積和
SSX :Xの修正平方和
Y,X:各変量の算術平均(最小二乗推定値である )。

これらの平均値と和は、
X=∑Xi / n         Y=∑yi / n

sPxy=Σ (χi-7)(yi-7)             =Σ xiyi ―n-^χ^y     (7)

SPXY =∑(xi-x)(yi-y)                =∑xiyi-nXY

SSX=∑(x1-x)^2                   =∑X^2-nX^2

である。例題では,式(6)と (7)は次の値になる。

X=12449/20=0623,  Y=17867/20=8.93
SPXY=129.33-20(0.623)(8.93)=18.06
SSX=12.085-211(0.623)2=4.32
b1=18.06/4.32=4.18
b0=8.93=4.18(0.632)=6.29

それゆえ,式(3)は Yi=6.29+4.18 Xiとなる。

残差分散
P=1で,式(5) はS^2x・y=SSRes/(n-2)となる。
ここで,SSResは次の残差平方和である。

SSRes=SSY― SSReg         (8)

SSYは Yの修正平方和,SSRegは 回帰平方和である。
式(8)の SSYは ,式(7)の SSXと同じ形である。SSYは, その自由度n-1で割るとYの二乗平均になり,Yの分散の推定に用いる。解釈の適不適にかかわらず,SSY/ (n-1)は説明したい目的変数の生の変動性の測度である。Xに関するSSYへの寄与がSSRegである。SS Regは,

S S Reg=blS PXY (9)

で与えられ,Yから回帰直線までの(Y軸方向の)距離の平方和である。図表13.6.5で は距離d4とd17で例示されている。例題では,

SSY=82.55        Sy=(SSY / 19)^1/2=2.08
SSReg=(4.18)(18.06)=75.49
SSRes=82.55-75.49=7.06
sY・X=(SSRes/18)^1/2=0.626

である。Sy・xはSyの単に30%である。すなわち,回帰式はYの変動の70%の縮約を表わしている。残差標準偏 差または残差標準誤差を評価する他の方法としては,Y の平均値とそれを比較することがある。

この場合には,それが平均値の100(0.626)/(8.93)=7.0%となり,ここでの目的にとっては十分な変動性の縮約を表わしている。YとXとの関連の評価,それゆえにその関連の非回帰部分の評価の他の方法は,次に述べる相関係数を用いるものがある。

相 関
相関の理論的な概念は2変量正規分布関数との関係で出てくる。2変量正規分布関数は5パラメータを含む。 2変数がXとYであるならば,パラメータは各変量の平均値(μx,μY)と分散 (σ^2x , σ^2y)および共変動性の測度(相関係数)Pである。この章の目的は,理論的な 2 変量または多変量正規分布を取り扱うことではないしかし ,標本相関係数rは線形結合性の有効な測度である。それは無単位(無次元)の率であって,-1.0(完全な逆線形関係)から0(直交または線形関係がない), +10 (完全な線形関係)までの範囲を変化する 標本相関係数 rは式(0で求められ,確率分布形に関する仮定なしに指 標として用いられる。

rXY=SPXY / [(SSX)(SSY)]^1/2=sXY / sX^sY         (10)

rXYの第1の 表現式は式(6)の b1の分子と同じであり , 同じ基本情報にちょうど比例している rxY=blSX/SYを示すのは容易である。式10の第2の表現式では, SXYが標本共分散である(標準偏差ではない)。SxYは SPXYおよびrと同一符号で,SxY=SPXY/(n-1)である。

rの平方は決定係数(coefficient of determinant: 寄与率ともいう)と 呼ばれる。決定係数は0か ら1ま で

の範囲を変化し,Xの変動によって説明される.Yの 変 動の部分(SSYで表わされる変動)と説明できる。それゆえに、式(8)から、

r^2XY=SSReg / SSY =1-(SSRes/SSY)     (11)

である。

例題のデータに式00を用いると、
rxy=18.06/[(4.32)(82.55)11′ 2=0.956
r^2XY=0.915

これは式(11)の結果,r^2xy=75.49/82.55=0.914と 少し の丸め誤差内で等しいことが分かる。ゆえに,Xの変動はSSYの91%を説明している。このことは,Yの変動でのS^2yからS^2y・xへ91%の縮約を主張することと近似的に同じである。

モデルの記述
物理的性質や化学的性質が十分理解されていない状況では,例えば,病気の“原因”を研究する場合には,問題は関係の統計的有意性(13部 5章参照)に集中する。標本中にある関係が実在するか,単に偶然的な関連の結果であるかを解析者は決定しようとする。既存の理論がモデルの優先的な記述を認める場合以外には,この解決方法が一連の目的にかなっている。

モデル記述は現実の適切な表現を選ぶ過程である。関係がまったく偶然的であるとき,現実の問題を解決するために推定値bJのふるまいを検定するモデルを解析者は 必要とするであろう。角=0(または他の適当な値)の帰無仮説のt 検定モデルを用いることが可能である。対立仮説は βj > 0 であるかもしれない。t分布を用いるこ とが中心極限定理によって適切である。関係が存在しないことを主張する,真の帰無仮説を棄却する危険率をαで表わすと, tn-2,αのtの臨界値に対して,tの値tjは

tj=bi/sbj                        (12)

となる。b0とb1の標準誤差は、

sb0=sY・X(∑X^2i / nSSX)^1/2        (13)

sb1=sY/X / (SSX)^1/2         (14)

である。例題のデータでは、Sb0=230 , Sbl=0.296,対応する t 比 (t ratio)は t0=27.5と t1=14.1で, t18, 0.05=2.10の臨界値と比較して高度に有意であって,両係数は統計的に十分0から離れていることを意味している。この章の後部でこの情報をもう少し適切に用いる。

モデルの検証
最小二乗法は,データから定数b0とb1を決定するときに用いた。このとき,データ集合のある観測が,1つ以上の変数に誤差または誤りを含んでいたり,モデルが表現しようとしていない異常な条件のもとで得られたりすることがありうる。Yi-^Yの値を,展開用データ集合について計算する“再代入”によって疑わしいデータ点を明らかにできる 一般に,±2 SY・Xを超す残差誤差のデータは疑わしい “局外者”を発見するこの種の問題について多数の文献がある始点となる論文は Barnettである。

モデルの安定性の検定は,新しいデータでモデルを検証することである。検証のためにこれらの残差誤差を検討し,それらの分散を展開のときの残差分散と比較する。例えば等分散性の検定に答えるよりも,取り扱われている問題に従ってこの問題を判断すべきである。この比較でまずくなったり,いくつかの点について乱暴な予測になるモデルは信頼できない。

係数の推定
既存の理論から,または調査,検定および検証によってモデルが記述され,それが適切であると判断できたと仮定しよう.また,再代入の残差誤差がうまくふるまったとしようそのとき,bjの値そのものに関心があったとしても,またはYの予測値を計算するのに単にbjの値をモデル式に用いても,βjを推定する精度は重要である・.点推定は式(6)から得られた。しかし,係数の推定は区間推定を行わなければ完全ではない 推定が目的であったり,また目的に達する一段階である場合には,有意な t 比を得ることのみでは十分ではない。

信頼区間の概念(13部 3章参照)の導入は記述と推定の 2段階を比較対照するのに役立つ 信頼区間にβを含ま ない危険がα=005以下であることが要求されたとき , 信頼区間CIは ,

100(1-α)CI=95%CI=bj±tn-2,0.005^5bj          (15) 

である設定した tに対して ,tSbは β の推定値に関する最大誤差を表わしていることに注意せよ工学者がよく5または10%以内の推定値を求めるように,百分誤差でこれを表わしうる。βを知ることなしに, bを基にした通常信頼区間を表わすのに用いる。t値2についての百分誤差Eは,

E=100tsb / b = 200sb / b                          (16)

となる。Sb/bが式12で用いた標本から計算した t 比の逆数であるので、

E=200 / t                                                      (17)

 

となり,10%または5%推定誤差の常識的な期待に合うためには,計算した t 値がそれぞれ20または40でなければならないことを式mは意味している。

式 (14)と(16)から,傾きを推定したときの誤差はSY・Xに直接比例し,(SSX)1/2に 逆比例していることが分かる。ゆえに,あらかじめ設定したEの値を実現するためには, 次の2条件のどちらかが成立することが必要である(1) 残差誤差を減少するために,改善した雑音の少ないモデルを見つけなければならない。または,(2)ssxを 増大するために大標本を得ることが必要である(このことに関する詳細な議論はSalemを参照せよ)一般に ,精度は近似的にnの平方根に比例して改善される。

直線上の一点に対する区間推定
説明変数のある値に対する目的変数の真値を推定する。ために,回帰式を用いることが可能である。これはYの条件付母平均の推定であり, 1変数設定での無条件の母 平均推定に類似している。この場合の信頼区間CIは,

100(1-a)CI=^Yc±tn-2,a^sYc
s^Yc=sY・X[1/n+(Xc-X)^2 / SSX]^1/2       (18)

である。ここで,添字Cは推定の行われるX値の条件を意味している。この平方根がXの平均値での区間の広さを決定すること,および距離Xcが標本平均値から離れるほど区間は広くなることを式(18)は意味している。

ほとんどの教科書は,全直線に対する信頼区間域を1組の曲線によって表わしている 式10はある設定した X 値を用いることを意味している。真値を含まない危険率としてαを維持するためには,n観測を選び,係数を計算し ,等々の全過程をXcの各値について行う必要があるかもしれない。もし解析者がすべての真値について危険率の成立することを望むならば,そうとう広い限界域が必要である。 Actonは,この問題に関する多くの概念について議論している。

予測値の計算
Xcでの予測値Ycの計算は,信頼区間と同じようにして回帰式から得られる。ここで,Ycは個々の値がその回りで変動すると考えられる平均値の推定値である Yの単一の予測値に対する予測限界の表現は、個々の値に関係する田の変動の原因を認めるにちがいない。予測区間をここでPI 略記して,例えばa=0.05に対して「95%PI」と呼ぶ。

100(1-a)PI=^Yc±tn-2,a^sY・X[1+1/n+(xc-X)^2/SSK]^1/2       (19)

この式で t を用いることは,個々の値が直線の回りに正規分布しているという付帯的な条件を前提にし ている 正規分布が成立しないならば, t を実際の分布(たぶん 非対称分布)を表わす他の定数と取り替えればよい。 ふたたび,この過程を単一予測に適用する。すべての予測値のある部分が限界内に入るならば,この限界を「許容限界」と 呼ぶ(より 詳しい議論についてはActonを参照せよ)図表13.6.6.はX (Kl)と X±2Sx(K2)の直線の回りの許容限界(TI)を得るための式側のKcの値を示している。曲線の許容限界の直線近似を得るために直線補間法を用いてもよい。すべての予測値の少なくとも95%を含む0.95信頼について,正規分布の逆補間を用いてKの値を得たそれは,

0.95/ 95%TI=Yc ± KcsY.X                     (20)

である。

 本コラムは絶版となっている「IEハンドブック(サルベンティ編・日本能率協会訳・1986)」をアーカイブとして掲載するものです。このハンドブックの各章は多くの事例と理論を通して生産性向上に対するアイデアを提供するべく専門家によって執筆されています。基盤をなしているIEの考え方・原則はインダストリアル・エンジニアリングにかかわるすべてのひとに有用でしょう。

関連記事一覧

2019ものづくり公開セミナーガイド

B2Bデジタルマーケティングセミナー

ものづくり人材育成ソリューション

マーケティング分野オンラインセミナー