一般化加法モデル；Generalized Additive Model; gam

2017/03/05 04:00

■　線形回帰といいながら、glmでは、logistic回帰ができてかなり重宝なのだが、一部のパラメータを2値化してモデル化しても、因子の影響度を考えるときに情報が限られる.
■　gamは、glmを含んだ、より広い関数とみてよい.ただし、係数が取り出しがたい.
■　しかし、連続な変数を生かして（情報を損ねず）考察するためには、「こんな感じで関与している」という機能は貴重だ.
■　よって、gamは使用すべし.

■　オーバーフィットらしきモデル異常が現れると標準化もままならぬ.
■　また、パラメータの中にU字にからむ因子が含まれる.
これは平滑化せずにおれない.gamがこれを回避する一般化加法モデルによる.Rのmgcvパッケージからgam を使用. Rでは、 s()により、平滑化スプラインが適用される.
■　事例の、連続値を入れたモデルをglmと比較すればかなり、らしい係数（率）が推定される.
■　2値解析一点張りlogistic onlyだった.poisson分布で交互作用項入り、一部平滑化のモデリングせざるを得ないので、ちょとややこしい.
■　使用方法の参考は、
　logics of blue 管理人　馬場真哉氏
　　著作：平均・分散から始める一般化線形モデル入門　2015/7/14 　
　これはやりたいことのすべてが書いてある
■　解析
　・連続量と平滑化の比較
　glm logisticによって、すっきり回帰しない因子があった.
　logisticでは、因子を2値化、度数区切りを変え・・という操作を繰り返し、試行.s()で平滑化.

■　平滑化して描かれた回帰曲線と因子の作用について考える.
　gamのs()によって因子の連続量を平滑化するときのメモ.
・因子のパターンと解釈（シミュレーション）.
　リスク方向は+にとっておく.
　L字　：　低濃度で因子の抑制が弱い.
　　　　　因子が、作用に対して閾値をもつ場合も考えられそう.
　　　　　ある種濃度依存的に作用していることも想定される.単純な関係.
　　　　線形回帰段階で、+に関与するとみえるとき、関与ない範囲での
　　　　　　因子説明がむつかしいパターン.
　U字　：　線形で - の場合、両端の+の解釈が難しい.”過ぎたるはなお及ばざるが如し”　
　凸　：　中庸が好ましくない形.複雑そうなメカニズム.
　　　　　U字とも共通するが、全体符号一致なら関与は決まる.水準を跨ぐと面倒そう.
　中二階　：　複雑そう.現実遭遇するか？
くねくね波：
　今扱っている因子には、ないとわかっている.因子１種類１つの性質でもって関与すると前提してs()解析するからこれが現れたら、何かが変.
　もっとも、時間でくねくねを調べる解析もあるが、ここでは、時間は絡めなくてよい.
　くねくねをみたらspを変える.因子そのものを再チェックすることになろう.
■　SE・|β|
　いずれも線形ではSEがでかくて、係数が小さいはず.
　平滑化して、その因子の範囲ごとの影響が”みえる”のは、当ブログの、計算、目で見えるよう図示・・のねらいに合致.

関連記事　gam係数の変化についての記事->　http://moruke.muragon.com/entry/116.html

morの解析ブログ

解析疫学、リスクにまつわるメモや計算

一般化加法モデル；Generalized Additive Model; gam