コラム・特集

6.1 回帰分析入門

IEハンドブック
第13部 IE技術者の定量的方法論

第6章 回帰と相関

6.1 回帰分析入門

回帰分析について
回帰分析は次の分析手法である。

・システムの変動を測定し,説明しえない部分を除いたシステム変動を説明する手法
・複雑なシステムの内 部関係を理解する助けとなるもの
・有効なシステムモデルを構成する過程
・予測を改善する方法
・重要な現象に 焦点を合わせる機構
・理論や考えを評価するシステム
・新し い理論を構成する助けとなるもの
・変動をより良く制御する方法 。
・関係式の係数を推定する技術回帰モデルの方法には,実際の問題や判断に関する間題,および多くの技法を含んでいる。この章は,技法の紹介や実際の使用方法を一覧することを意図するものではない。ここでは,手法に含まれる危険については明記するが,目的は統計モデルの基本的な原理を紹介することである。この方針のもとで,統計的に変動するシステムをモデル化するときに直面する種々の困難について議論する。また,概念的な展望や理論的な構成が,実際の手引きとしても調和することを意図している。

一般線形モデルの重要性

Yi=P∑j=1 bjXij                 (1)

の形式は ,一般線形モデルと 呼ばれる。こ の式で,Yは注目されているふるまいを示す変数である 。 数学の関数の概念から,Yを一般に 従属変数と呼んでいた。しかし,統計的なモデル化では,ほとんどの著者がYを目的変数と呼ぶようになっている。ここではこの慣習に従う。

式(1)で ,Yは P個 (P≧ 1)の X変数の線形加法関数である。数学的な意味から,Xは独立変数と呼ばれていた 現在Xは,「 回帰変数と呼ばれたり,予測が最終日的ではないが,「予測変数」と呼ばれたりすることもある。しかし,Xは一般的には説明変数注と名付けられている。

添字 j は説明変数の番号を示す一般形式の式(1)では疑似変数X0=1を含む。ここで,X0は変化しないため疑似と呼ばれる。X0は説明変数に数えないが,式(1)の 法記号には含まれている。係数b0は 定数項または切片であり,Yと同じ単位である。他の回帰係数bj(j=1,2,…,P)は斜き(説明変数の乗数)であり,Y/Xjと同じ単位である。これらのbiは解析の結果決定される未知係数であり,得られる値は真の未知係数βjの推定値である。式(1)は 幾何学的にP+1次元空間の直線,平面意たは超平面を表わしている。この分析過程は線形重回 帰分析として知られている 添字iは 1からnまでの一連の観測番号を示す。標本の観測単位と被験者毎に,説明変数と目的変数の各変数の値が観測によって与えられる。観測単位は,例えば, 1日 , 1人 , 1台 の車, 1仕事, 1事象, 1処理またはこの本の1章である。

当然,各観測単位で得られた元のデータの複雑な変換 を,X変数として用いることもできる 逆数,指数そし て対数さらに2個以上の説明変数の比や積がその例であ る。この線形加法形式は目的変数と説明変数の関係構造を非常によく表わすことが多い。すなわち,存在する多くの事象の変動性,すなわちふるまいが単純な加法過程の式によって非常によく記述でき,予測できることは意味深い。

有効性と付随する危険
変動は統計的モデル化の本質であり , ここでの問題である変動に情報が含まれており,変動がないときには情報はない。経営工学者の活動は,実質的に多変数シス テムの変動を取り扱うことに常に関係している 回帰分析の目的は過去の事象を評価または説明すること,および未来の事象を予測または制御することである。そのようなシステムの目的変数をモデル化することは通常複雑で困難である。データが計画的な実験で生成されるのではなく,正常動作中の現存システムから得られるために, 多くの場合に一部の困難が生じる(実験計画の本質と計画的な実験の利点については134章を参照せよ )。 このようなデータは非実験的,または“ 臨床的”と呼ばれることがある。

非実験データの取り扱いで生じる主な困難は,本質的に存在する説明変数の相互関係からくる。望ましくない相互相関は,説明変数を互いに無相関にさせることで,すなわち直交させる計画実験で除去できる。臨床的なデータの取り扱いに関するこの困難は他の分野と共通している科学的な実験技法を用い得る場合には,この種の困難には出会わない。

線形重回帰分析のすぐれた利点は,相互相関のある多数の説明変数を同時に目的変数に関係づけ得ること,すなわち非実験データを取り扱い得ることである。またそこに主な危険の原因がある。非実験データで成功したモデルはきわどい取り扱いになっている。しかし,危険のすべてが非実験データの本来もつ相互関係のみに関係するものではなく,解析者が困難に直面する仕方は問題の状況と同じぐらい多様である。回帰分析ほど誤用され,悪用される手法は多分他にない。このような理由から,回帰分析の利点や本来の用途を明確に理解していない解析者,および回帰分析を誤って説明している人々が,この一般的な手法に対して多大の批判をしている。しかし , 危険を認識し理解するならば,その危険を避けることも, また処理することもできる。この章の残りの多くは,直接または間接にこの危険に対する適切な安全策を与えることに費やされている。

目標の重要性
線形重回帰は目的を達成するために,あらかじめ決められた確立した分析過程を遂行するようなものではない

なぜなら,それは異なった目的には異なった解析的な取り扱いが必要であるためである。この章の最初に一覧したように回帰の目的はさまさまである。システムのモデル化 を試みる前に,モデルの意図するものが何であるかを知 ることが重要である 解析者が答えを期待されている間題は何か。ここでは経営工学の実際を取り扱っているために,科学的決定と実際的意思決定とを区別することがまず第1に重要である(Healyを参照せよ).科学的真理を立証するための統計的な要件は,意思決定を行うためよりも非常に厳しい。経営者は完全な真理の発見を待つことはできない。いま,経営者は決定を行わねばならない。普通,経営工学者はこの意思決定過程を支援するために働いている。もし決定過程が適時に行われるならば,経営工学者は経営者に役立つであろう。このことは , 軽率を示唆することでも,理論を無視することでもない。経営者は,強力な支援が有っても無くても,決定を行うという基本的な事実の認識をこのことは示している。不完全であるが確実に引き出されたモデルは,モデルがまったく無いよりも数段勝っている(13部 2章を参照せよ)

回帰分析の種々の目標は大きく5つの範疇に分類できる。これらの範疇は,お のおのが最終用途である4段階の自然な展開列を示している。

1.調査(Ex)一仮説の発見 (Finch参照 )
2.記述(S)一仮説検定(13.5章参照),モデル構 成の確認(最終的な目的ではまれである)
3.推定(Es)一十分な精度のモデル・パラメータ の推定(本章では,将来の事象を推定することを予測と呼ぶ )
4.予測(P)一予測のためのモデルの使用
5.制 御(C)一変更の指示および政策やシステムのふるまいの制御のためのモデルの使用

モデルの種類
モデルの種類は連続濃度ほど無数にあるように思われ る。このため,分類することは容易ではない 主なモデ ルは因果関係と密接な関係がある。その基準は,ば らば らの経験的なものから正確な因果関係の表現(機構)ま で幅がある。その基準に沿って解析者がどれだけ進むか は,対応する物理的な分野の成熟度,ま たは目的の要求 する必要性に依存している 。

因果関係を問題にしないモデルもある。このようなモデルは関係的といわれる この場合には,目的変数と説明変数の両変数は外的な影響で変動し,随伴的に ふるまう一例は,経済モデルでの主要指標の使用である他の例としては,冬の厳しさを予測するために前兆的な動物の特性や行動を使用することがある。毛深いクマの胸毛の増加が雪を降らせるとはおそらく誰も考えないだろう。原因が時間的にその効果に先行すべきであるという確信に適合しない場合には,因果関係は疑われる 。

このため,簡単な 分類 構成は図表13.6.1の形態になる。

統計量の適切な使用
重回帰プログラムの統計測度と診断は回帰モデルで本質的な役割を果たしている。しかし,これらを適切に利用することが必要である。これらの使用は目的と関係する。一般に,十分大きな線形重回帰プログラムのどれもが,必要でない多くの統計量を出力する。例えば,重相関係数Rが常に印刷される。それは重要ではないだろう。さらに,重要であっても,その値は問題の内容から判断されるべきである。統計量の意味は問題に依存している。解析者は答えるべき問題が何かを知らなければならない。 したがって,適切な統計測度を用いなければならない。

仮定の役割

回帰の論文や教科書では,ほとんどが何らかの仮定を行なっており,それを解析前のある種の儀式のように書 いている。さらに,仮定が問題設定を記述しているように扱われている。実際,これらの仮定は考察しているシステムに類似する,動作特性が既知である数学モデルの記述である。モデルの特性の仮定は統計量と同様に目的と関係している。問題のシステムが適切な仮説を満たすことはまれである。残る差異 (“仮定の違反”)のために解析者に予期される困難の厳しさは,判断や経験の問題であり,また問題の内容から切り離しえない。

図表13.6.2は,日標に対する仮説の概略的な関係を階層的な順序で示す(詳細な議論はEisenhartを参照せよ)。実際,すべての変数はほとんど誤差なしに測られる。Yのランダムな残差変動は,扱う問題にとって重要でない多数の小さな原因と関係がある。記述および推定では,均一性と正規性の通常の仮定が満たされていないことに注意すべきだ線形重回帰で得られる回帰係数の最小2乗推定は,線形推定のうちで一様誤差分散に対して最も有効な不偏推定であり,一様でない誤差分散に対しても不偏推定である。通常の平均化とまったく同様に,中心極限定理は,信頼区間の計算のために正規モデルを非正規データヘ適用することを許す非常に有効な保証を与える上述の特徴は表の下側ほど顕著である。
発展的なモデル化とチームの概念
図表13.6.3は ,モデルと目的との関係を図示しており,次の発展径路を説明し ている。種々の最終用途に導く, 左側の列の番号に対応する円で示したステップと結合する主要な3径路がある。予測は関係的(随伴的)モデルの唯一の最終用途である ステップ2と3(SとEs)はすべての径路で循環している 調査は,例えば,それ以上の研究や実験を指示するために用いる。経験的なモデルの最終用途である。そのような実験は仮説(記述)の検証に役立つこれも 最終用途である.結果として得られる 記述は,新しい理論を確立し,そしてモデル・パラメ ータ(β )の推定が最終用途である機構的な領域に入る現存する理論モデルの定数を推定することも可能である物理的モデルのどちらの径路も予測が最終用途である 最後に,機構的モデルのみが制御を最終用途としうることに注意すべきである。解析は最初のステップで終わっており,最後の2ステップ(予測と制御)は 合成を表わすことにも注意すべきである。
一般に,モデル化されるシステムを完全に理解することが成功を得るために必要である。しかし,そのような 知識や適切なモデル化の技術は同一人物に備わっていないかもしれない。このことはチームワークによる努力を示唆するどの変数が重要であり,またそれらの変数がどのような形式で現われるべきかについて,チームのシステム専門家が最初の目標を示唆する。その後,モデル作成者は,モデルを構成し,その診断出力を解釈するこのことは,目的の明確化,モデルとデータの変更,および詳細な調査とに導く問題を常に発生させる協同作業が重要である.解析者は何も無しにモデルを作りえないすなわち,問題の設定(目 的)とモデルの記述とはともに展開する。

 本コラムは絶版となっている「IEハンドブック(サルベンティ編・日本能率協会訳・1986)」をアーカイブとして掲載するものです。このハンドブックの各章は多くの事例と理論を通して生産性向上に対するアイデアを提供するべく専門家によって執筆されています。基盤をなしているIEの考え方・原則はインダストリアル・エンジニアリングにかかわるすべてのひとに有用でしょう。

関連記事一覧

2019ものづくり公開セミナーガイド

B2Bデジタルマーケティングセミナー

ものづくり人材育成ソリューション

マーケティング分野オンラインセミナー