コラム・特集

6.3 線形重回帰

IEハンドブック
第13部 IE技術者の定量的方法論

第6章 回帰と相関

6.3 線形重回帰

コンピュータ時代の回帰
この20年間に高速度・大記憶容量の電子計算機のもつ広範な有効性によって革命的な2つの変化がもたらされた。第1に,機械読込み可能な大量データ集合の利用が一般に可能になった。第2に,豊富な診断情報がある大規模モデルの線形重回帰分析が経済的に実現した。この2条件の結合は,統計的モデル化のためにす見無限の可能性を提供する。しかしながら ,この膨大な解析力とともに,誤用と誤った解釈の危険が発生するようになった。

これらの危険の多くは,非実験データ集合での説明変数間の内部相関と関係している。この説明行列(predictor matrix)は “欠陥がある”といわれたり ,不注意に“多重共線性”と呼ばれる多重共線性は実際には次の極条件を意味する。すなわち,多重共線性はXの幾つかが線形関係にあって,結果として解くことのできないシステムである。ここでは,「内部相関(inter-correlation)」を一般的な場合の説明変数間の非直交性を説明するために用いている。手動計算機では計算が困難であるため, かつてはそのようなデータ集合を回避してきた。このため,実験計画で直交性を達成してきた。 結果として,非実験データの取り扱いの適切な方法を開発する試みが最近まで行われなかった。電子計算機を利用することが可能になって,内部相関のあるデータ集合を計算することが容易になり,モデル化のための適切な方法が開発されている。上述の単純な場合(υ=P-n-1)の式に対応させて,基本的な関係と計算式を行列表記でここに示す。

内部相関の効果
回帰のモデル化を行う上で,内部相関は計算を困難にし,モデル化の過程に基本的な影響をもたらす。ここでは,電子計算機の使用を前提として,計算の困難さについては無視する。これらの影響は二次的で,必然的な多くの結果を生む。基本的な影響を理解するならば,それらを看取することは容易であろう。影響は次のとおりである。

1.bj の潜在的に大きな分散.
2.bj の内部相関のある推定値.
3.回帰平方和への個々の寄与の評価の不明確さ.

潜在的に大きな分散
“正しい″ モデルで,残差分散が一定である理論的な場合に,内部相関のある説明変数をモデルに付加すると, 式師の逆行列の結果としてbiの分散は大きくなるであろう(残差誤差分散の推定値を用いてbjの分散の推定値を得ることに注意せよ。それらの分散の真の理論値は σ^2nを用いて得られる)同様に実際の多くの場合には, 内部相関のある説明変数を付加するとS^2nは増大する。

このことは,逆行列による分散の増加が,説明変数の追加の結果として回帰平方和のS等。xによる分散の減少を相殺して余りあるためである。しかし,実際には逆行列の内部相関の効果を相殺するために,余分の説明変数を付加することで,しばしばS等。xが十分減少する。これらの考察が,最近の文献で論じられている,説明変数に関する種々の変数選択計画の核心である。この議論に関する十分な検討は本章の範囲を越えている(この話題ヘの導入としてHocking を参照せよ)。

内部相関のある推定
渕師の左辺には,対角要素の分散に加えて,非対角要素の回帰係数bj対の共分散がある。式00の変数間の相関係数に関するのとちょうど同じように, bjの共分散はbj の相関係数を意味する。その分布は,与えられたX行列に対するYのn個の値の繰返し 標本抽出から得られる。P= 2の場合には,biの 相関係数はXjの内部相関係数と大きさが等しく,符号が逆である(P>2の場合にも同様に,それらは大きさが等しく,符号が逆である傾向をつ)例えば,b2の無条件の標本抽出の範囲(Aで示されている)は ,β1の特定の推定値が与えられた場合のb2 の条件付標本抽出の範囲(Bで示されている)に比較して非常に大きいことに注意せよ。これらの2つの考察の重要な帰結は,βjを推定するときに含まれる誤差は, 内部相関関係のある説明変数間で補正される傾向があることである。そのため,内部相関関係は,βjの推定精度には有利に作用するが,予測のためにモデルを使用することには,あまり有利な影響を及ぼさないだろう。もちろん,最後の結論は,予測においても,標本にあったのと同じ状態にある説明変数間の内部相関関係に依存している。

寄与評価のあいまいさ
問題の基にある性質を理解することは容易である(現象の初歩的な幾何学的解釈についてはCrockerを参照せよ)しかし,特定の問題の特徴的な結果を解釈することは非常に難かしい。このことは,いまいさがP次元まであることからも理解できる。問題は基本的な2種類の内部相関のある。あいまいさが存在することによって,さらに複雑になる。P≧ 3に対して,あいまいさは階的なすべての組合せで同時に現われうる。最も単純な場合であるP=2について,2種類のあいまいさを対照的に説明することで問題を概略しよう。

多くの文献では,“ 内部相関のある”と“ 交絡のある ” (confounding)とを同意語と倣している。実際,交絡のあるとは上述の2種類の一方である。他方は名前を付けられていない。しかし,ここでは“分離している”(resolving)と名付けるモデルに共に現われるまでは,2以上の説明変数の単独の効果が分離されない(明瞭に分からない)ために「分離」と名付けられた。交絡と分離との比較を図表13.6.8が示している。ここで,図表の下部左の2円は2説明変数を示している。その面積は回帰平方和の値に比例し,重複した斜線部分は内部相関を示している。図表は, 2種類の内部相関効果とモデルの 2説明変数の可能な2順序とに対応させて,17SSReg単位の2説明変数への配分を示している。

交絡のある場合には,あいまいな6単位が第1の説明変数に配分される。第2説明変数は残りを説明している。分離のある場合には,第1の説明変数が図を明らかにした後に,6単位が第2の説明変数に利用される。全情報量 (17単位)は常に同じであることに注意せよ(この表の他の特徴については.続く節で他の診断測度を用いて検討する)この配分過程に関しては,式側の解釈に注意がはらわれるべきである。

この式は,全回帰平方和がbjと対応するSPX,Yとの積の和から得られることを示している。しかし,個々のSSRegjが同じ方法で発見できるとは主張していない。上述の議論から理解できるように,個々のSSRegiはモデルに現われる順序に依存している。しかし,全体は順序とは独立である。

非実験データ集合でしばしば極端な交路に出合う。まったく異なった2状況を理解することが重要である。本質的には,情報の重複,システムの冗長がある。ある状況では同一の情報が,異なった2価格指標のよにまったく異なった形で二度現われる。これはモデルの冗長性を現わし,冗長な説明変数を取り除くことで対処できる。対照的に,まったく異なった2効果が現われることがある。しかし,それらの効果は本質的に高度に内部相関があるために,それらの単独の寄与を統計的に識別することはできない。これはデータの冗長性を表わしており,推定が目的であるならば,一方または他方の説明変数を,任意にモデルから除外することは明ら かに危険である。一例は,企業で必要な技術要員数を評価するために研究開発費と資本支出を用いる場合である。この場合,両効果が実際に存在する。しかし,それらが高度に内部相関関係があり,それゆえに交絡していることを理解するのは驚くことではない。このジレンマは「リッジ回帰(ridge regression)」のような偏りのある推定技法の最近の発展動機となっている(Wichern and Churchill )を参照せよ。

偏相関係数の意味
2説明変数の場合の(第1次の)偏相関係数は

r2Y-1=(r2Y-r12r1Y) / [(1-r^212)(1-r^21Y)]^1/2          (32)

である。これは,Xlが与えられたときの(Xlを一定に固定したときの,または最初にXlの効果を除去したときの)X2の Yとの相関係数を意味する。r12が直交している場合(r12=0)と比較して,r12は YとのXlおよび X2の 2相関係数rⅣ ,r2Yの与えられた値に対して,式の値を絶対値で増大したり,減少したりするような影響を与える。直交している場合と比較して,偏りが減少するときには交絡が存在する。偏りが増大するときには分離が存在する。図表13.6.8の例に関する偏相関係数は, それぞれの場合に,丸で囲った(最後の)値に基づいている。通常の相関係数は丸で囲まれていない(最初の) 値に基づいている。これらの2つの値を解釈するために, 式tjの決定係数(寄与率)を用いることが可能である。

通常のr2はそのまま式uJを用いる。決定偏係数は,円で囲った値を分子に,第1説明変数の効果を除いた後の残りのSSYの正味の値を分母に入れたものである。図表13.6.9は SSY=27でのこれらの比を示している。

重相関係数:実際的な解釈
重相関係数をRで表記する重相関係数は,Yが Xの線形結合で表わされているときの,Yと Yとの相関係数である。特に個々のXは Yと正負のどちらにも相関関係をもちうる。このため,Rを任意に正であると仮定する。直接Rを実際的に解釈することは困難である。次の2つの変換は解釈を適切に行うために役立つ。第1の変換はR^2である。1次元モデルについては,R^2は決定係数であって,モデルによって説明されるSSYの部分を表わす(R^2=ssReg/SSY)説明変数が直交する場合には,

R^2=Σj=1 r^2jy. P=2では,R^2>r^2 1y+r^2 2yならば,X1とX2とは分離している。 R^2< r^2iY+r`Yでは,X1と X2とは交絡している。図表13.6.8はこれらの関係を示し,図表13.6.9はこれらを評価している。第2の変換は「除去Syの百分比」である。Syの 百分比縮約はRと次の関係がある。

 

除去Syの百分比=100{1-[(1-R^2)(n-1) / (n-P-1)]^1/2}   (33)

Rのさらに詳しい議論と式(33)のグラフについてはCrockerを参照せよ 少数標本には,損失自由度によってR^2を修正できる。Rを修正Rとすると,修正は,

R^2=1-(1-r^2)(n-1) / (n-P-1) = (S^2Y-s^2Y・Y )/ (s^2Y )    (34)

である。この修正決定係数は ,誤差分散の減少部分の標本推定と正確に比例している。

t 比の意味
本章62節 に示したように,t 比式(12) は,係数の推定値が0から離れる標準誤差の数を示す。多変量の場合にもこの解釈は正しい式(17)によって推定値の精度を評価するときにもこのことは有効である。しかし, t比はモデルでの関連する項の寄与,重要度,実際の意義,あるいは統計的有意さえも測定するものではない。説明変数の寄与を評価するために,この統計量を用いることは 注意深く限定しなければならない。これは,「この説明変 数独自の寄与による影響は何か」の問いに答える。“ 独自の”とはここでは“分離した後の影響”という意味である。それゆえに,この間は,モデルに最後に追加されたこの説明変数に対する影響が何であるかと問うことと同じである。

真についての科学的な間に答えるために,これはt比を慣習的に解釈している。そのS^2y・xを減少させる影響によって,ltl=1.0はどの1説明変数に対しても相殺値である |tl>1.0では,この説明変数を含めるとSY・ X を減少させる。統計的に有意であるためには,lt lは 適当な臨界値を越えなければならない βの推定が十分正確であるためには,lt lは20ま たは40近くでなければならな い(係数推定に関する項を参照せよ)解析者は,交絡の結果,小さなt値になる重要な項を除去しないように注意する必要がある。どの行動が適切かは,目的(13.6.1 節参照)および関係するシステムの知識に深く依存している。

モデル化での t と F との関係
単一説明変数に対する 順序付 F 比 (ordered F ratio) は,二乗平均(MS)の比,回帰/残差で定義される。

Fj=(MSRegj / MSRes = (SSRegj / 1) / [SSRes/(n-P-1)]         (35)

このF比は説明変数のSSRegを含んでいるので「順序付」といわれる。この量は図表13.6.8に示すように選択される説明変数の順序に依存している。j=Pのとき , Fj=t2jである。そのため,最後の位置にある各説明変数について得たそれぞれのSSRegの平方根に t 比は完全に比例している。

図表13.6.8の例では ,式13.5.1の分母は(27-17)/100= 0.1である。それゆえに ,順序付F値は 図表13.6.8の項の10倍であり,円で囲まれた値ついては t^2 と等しい。このため, t 比は実際  “偏った” t 比であり ,最後の位置にある SSReg の寄与との関係で最も良く説明されることが分かる。

相互作用の取り扱い
しばしば,内部相関関係を不注意に相互作用という。 まったく異なったこれらの概念は注意して区別されなければならない 内部相関関係はデータ の現象であって,回帰式の形式で決定されるものではなく,説明変数の観測値の特別な集合によって決定される相互作用はモデルの特性であって,そのモデルは複数の説明変数の積で表現される。このようなモデルでは,モデルの表現するシステムの相互作用のふるまいを測定することが行われる 式(36)は相互作用モデルを示している。ここで,X3= X1・ X2は 最初の2説明変数の相互作用を示す第3の説明変数である(添字 i は簡略化のために省略した)。

Y=b0+b1X1+b2X2+b3X3          (36)

相互作用は ,ある説明変数の効果が他の説明変数の値に依存していることを意味する。これは式(36)をX1で括ると容易に理解できる。説明のためにX1を用いよう。

Y=b0+(b1+b3X2) X1+b2X2             (37)

ここで,Xlの係数は(bl+b3X2)であるこのため, X1の効果 (その係数,b1+b3X2)はX2の値に依存じている対照的に逆もまた真である。

相互作用を評価するために特別な段階を踏む必要はない。前に議論したように,そのt比がSSRegへの付加的な寄与を評価する。しかし,関連する「主効果」を解釈するときには注意が必要である Xが原形のままである場合には,相互作用の項は相互作用を構成する説明変数,すなわち主効果と高度に交絡しているであろう。このことは,相互作用がかなり大きなSSRegに影響する場合(このためS2YXを減少させる場合)にも,これらの主効果の t 比を押し下げる傾向がある。しかし,このことは重要ではない。それは完全に任意な尺度の問題である。望むならば,積を構成する前にそれぞれの平均値を減じることで,相互作用を主効果に近似的に直交させることが可能である。

層別モデルの基礎
回帰モデルは数量的な説明変数を用いるだけではない。カテゴリー化,分類または論理的区別を表現することが できる。種類が1つであるならば,層別は必要でない。例えば,男性と女性の2種類あるならば,属性コードで

その2種類を層別するように追加変数Xが用いられる。被験者が第1の分類 (男性)に入るならば,X=0,第2の分類 (女性)に対して,X=1。用いる値は任意であるが,0,1コードが最も解釈しやすい。これは,「差分符号 (differenial coding)」であって,切片b0がX=0の 分類のY値を表わし, コード変数の係数が2群の間 のYの差を推定している。

例えば,(比較の基準として任意に選ばれた)月曜日と各週日との差違を測定するために,4追加変数が必要である。各変数は,観測値が対応する曜日を示すときのみ1をとる。他の場合には,変数は0をとる。一般に,追加変数の数は種類の数よりも1だけ小さい (C―1)このようなカテゴリカルなコード計画の効果を統計的に評価するときには,(C-1)の 自由度の単一検定の統計量 (single test statistic)を用いるべきである。

これは,個々の(単一自由度の)SSRegの寄与が比較する基準および任意の選択順序に依存しているためである。しかし,全体は基準や選択順序とは独立である。これらの項がモデルの最後に現われると仮定して,次式13.8.1 に示す F 比を用いて全体を評価できる。

Fc-1,n-P-1,a=[P∑Pj=P-c+2 SSRegj] /(c-1)] / MSRes      (38)

個々の自由度の効果に影響する 変数選択は ,カテゴリカルな構造を取り扱うには明らかに不適切である。

図表13.6.10は,数量説明変数,2分類属性の説明変数 ,およびこれらの2変数の相互作用をもつモデルを示している。 ここでは式 (36)を適用しており,それはX1の傾きが各分類で異なることを示している。

 本コラムは絶版となっている「IEハンドブック(サルベンティ編・日本能率協会訳・1986)」をアーカイブとして掲載するものです。このハンドブックの各章は多くの事例と理論を通して生産性向上に対するアイデアを提供するべく専門家によって執筆されています。基盤をなしているIEの考え方・原則はインダストリアル・エンジニアリングにかかわるすべてのひとに有用でしょう。

関連記事一覧

2019ものづくり公開セミナーガイド

B2Bデジタルマーケティングセミナー

ものづくり人材育成ソリューション

マーケティング分野オンラインセミナー