一般化加法モデル;Generalized Additive Model; gam
■ 線形回帰といいながら、glmでは、logistic回帰ができてかなり重宝なのだが、一部のパラメータを2値化してモデル化しても、因子の影響度を考えるときに情報が限られる.
■ gamは、glmを含んだ、より広い関数とみてよい.ただし、係数が取り出しがたい.
■ しかし、連続な変数を生かして(情報を損ねず)考察するためには、「こんな感じで関与している」という機能は貴重だ.
■ よって、gamは使用すべし.
■ オーバーフィットらしきモデル異常が現れると標準化もままならぬ.
■ また、パラメータの中にU字にからむ因子が含まれる.
これは平滑化せずにおれない.gamがこれを回避する一般化加法モデルによる.Rのmgcvパッケージからgam を使用. Rでは、 s()により、平滑化スプラインが適用される.
■ 事例の、連続値を入れたモデルをglmと比較すればかなり、らしい係数(率)が推定される.
■ 2値解析一点張りlogistic onlyだった.poisson分布で交互作用項入り、一部平滑化のモデリングせざるを得ないので、ちょとややこしい.
■ 使用方法の参考は、
logics of blue 管理人 馬場 真哉 氏
著作:平均・分散から始める一般化線形モデル入門 2015/7/14
これはやりたいことのすべてが書いてある
■ 解析
・連続量と平滑化の比較
glm logisticによって、すっきり回帰しない因子があった.
logisticでは、因子を2値化、度数区切りを変え・・という操作を繰り返し、試行.s()で平滑化.
■ 平滑化して描かれた回帰曲線と因子の作用について考える.
gamのs()によって因子の連続量を平滑化するときのメモ.
・因子のパターンと解釈(シミュレーション).
リスク方向は+にとっておく.
L字 : 低濃度で因子の抑制が弱い.
因子が、作用に対して閾値をもつ場合も考えられそう.
ある種濃度依存的に作用していることも想定される.単純な関係.
線形回帰段階で、+に関与するとみえるとき、関与ない範囲での
因子説明がむつかしいパターン.
U字 : 線形で - の場合、両端の+の解釈が難しい.”過ぎたるはなお及ばざるが如し”
凸 : 中庸が好ましくない形.複雑そうなメカニズム.
U字とも共通するが、全体符号一致なら関与は決まる.水準を跨ぐと面倒そう.
中二階 : 複雑そう.現実遭遇するか?
くねくね波:
今扱っている因子には、ないとわかっている.因子1種類1つの性質でもって関与すると前提してs()解析するからこれが現れたら、何かが変.
もっとも、時間でくねくねを調べる解析もあるが、ここでは、時間は絡めなくてよい.
くねくねをみたらspを変える.因子そのものを再チェックすることになろう.
■ SE・|β|
いずれも線形ではSEがでかくて、係数が小さいはず.
平滑化して、その因子の範囲ごとの影響が”みえる”のは、当ブログの、計算、目で見えるよう図示・・のねらいに合致.
関連記事 gam係数の変化についての記事-> http://moruke.muragon.com/entry/116.html