发帖回复
查看:15714|回复:27
When you buy via links in posts, huaren.us may earn a commission
Advertisement

问mm们一个统计建模中covariate的问题

头像
0操作1 #
头像
1 #
0
17-03-29 18:44操作
只看楼主AA分享不感兴趣
问mm们一个统计建模中covariate的问题
最近学校在上一些R统计课,social science的统计课,有些概念问题搞得不是很懂。比如把学生分成两组,independent variable是一个categorical variable(参加了某实验的和没有参加),dependent variable是学生的最近一次数学成绩, 目标是分析参加实验和没参加对于数学成绩的影响。
一般建linear regression的时候会加上一些covariate, 一般是continuous variable,比如学生之前的数学成绩,或是学生年龄等不受实验控制的变量。在实际建模中,对covariate的选择有什么要求,如果covariate对DV(dependent variable)的影响比IV(independent variable)还大,反客为主了怎么办。为了有助于选择到底放入哪些covariate, 用什么模型可以分析出covariate和dependent variable之间到底有什么关系,关系有多大?
头像
0操作2 #
头像
2 #
0
17-03-29 18:47操作
只看TAAA分享
可以先用correlation matrix简单看看各个variable之间有多大联系。model selection有很多方法,看你想设计多么复杂都行。至于你说的反客为主,不太理解,是说其他因素更加重要吗?问题是在现实问题中,很可能就是别的因素更加重要啊。尊重事实就是尊重模型。
Advertisement
头像
0操作3 #
头像
3 #
0
17-03-29 19:09操作
只看楼主AA分享
可以先用correlation matrix简单看看各个variable之间有多大联系。model selection有很多方法,看你想设计多么复杂都行。至于你说的反客为主,不太理解,是说其他因素更加重要吗?问题是在现实问题中,很可能就是别的因素更加重要啊。尊重事实就是尊重模型。
四处停停走走 发表于 3/29/2017 6:47:53 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482599#74482599][/url]
谢谢mm回答。我是想问有好多可以选择的covariates, age, gender, 还有很多个体差异的变量可以加,那怎么选择加哪些以及哪些重要呢?如果covariate之间自己就有correlation怎么办?
头像
1操作4 #
头像
4 #
1
17-03-29 19:19操作
只看TAAA分享
楼上说的好,可以先看一下correlation matrix 来看各个variables之间的correlation,对其有一个初步的认知,哪些紧密联系哪些没啥联系。加哪些var不加哪些方法有很多,可以选择用forward selection or backward elimination,逐个排查,看加了或者减去那个var是否significant, 然后把data分成training and test samples, 建模fit几个models, 如linear regression, quadratic regression, logistic regression, 观察mse.
头像
0操作5 #
头像
5 #
0
17-03-29 19:21操作
只看TAAA分享
你的research question到底是什么?你只关心某一个var对dv的影响?还是想知道哪些var对dv有影响?你如果只关心某一个var,比如你只想知道吃饭对身高的影响,那你放到model的其他covariate只是为了adjust confounding,最后你只看吃饭显著不显著。如果你想知道到底是哪些var会影响身高,那当然是哪些var显著哪些就对身高有影响,可能吃饭,睡觉,运动,父母身高都是显著的。
Advertisement
头像
0操作6 #
头像
6 #
0
17-03-29 19:26操作
只看TAAA分享
回复 [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482704#74482704]3楼callmemissmaybe的帖子[/url] 关于最后一个问题,Google multicollinearity
头像
0操作7 #
头像
7 #
0
17-03-29 19:39操作
只看TAAA分享
回复 [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482581#74482581]1楼callmemissmaybe的帖子[/url] 你说的confounding variable 吗?一般要涉及到control study吧
头像
0操作8 #
头像
8 #
0
17-03-29 20:17操作
只看TAAA分享
一般不说covariate这个词,很confusing,直接说feature,或者independent variable 做linear regression的,一般有stepwise,back-selection,forward-selection之类的,其实就是比较放不放某个variable前后,R-square 和Adj R-square的变化 对于更复杂一些的模型,这个叫feature selection/reduction,有许多算法给出你那些variable最有用的
头像
0操作9 #
头像
9 #
0
17-03-29 20:25操作
只看楼主AA分享
回复 [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482581#74482581]1楼callmemissmaybe的帖子[/url]

你说的confounding variable 吗?一般要涉及到control study吧
timeflies2015 发表于 3/29/2017 7:39:46 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482858#74482858][/url]
我在想一般linear regression或者anova 做出来的结果都可以是controlling confounding variable的,之后再用前面mm所说的backward或者forward selection来选var. 但如果普通的correlation matrix就很难看出来,要用上partial correlation才可以control confounding variable. 至于var之间互相关联,就是共线性问题,不知道怎么排查共线性。
头像
0操作10 #
头像
10 #
0
17-03-29 20:30操作
只看TAAA分享
我在想一般linear regression或者anova 做出来的结果都可以是controlling confounding variable的,之后再用前面mm所说的backward或者forward selection来选var. 但如果普通的correlation matrix就很难看出来,要用上partial correlation才可以control confounding variable. 至于var之间互相关联,就是共线性问题,不知道怎么排查共线性。

callmemissmaybe 发表于 3/29/2017 8:25:25 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483105#74483105][/url]
R里面的VIF
Advertisement
头像
0操作11 #
头像
11 #
0
17-03-29 20:39操作
只看TAAA分享
R里面的VIF

wfmlover 发表于 3/29/2017 8:30:52 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483129#74483129][/url]
正解
头像
1操作12 #
头像
12 #
1
17-03-29 20:45操作
只看TAAA分享
还有一般Linear model selection 中新加入的predictors p value 比较大的predictor(但如果单独作为single predictor p value 就比较小)就跟其它predictors highly correlated.
头像
0操作13 #
头像
13 #
0
17-03-29 20:47操作
只看TAAA分享
进来学习。
头像
0操作14 #
头像
14 #
0
17-03-29 21:05操作
只看TAAA分享
最近学校在上一些R统计课,social science的统计课,有些概念问题搞得不是很懂。比如把学生分成两组,independent variable是一个categorical variable(参加了某实验的和没有参加),dependent variable是学生的最近一次数学成绩, 目标是分析参加实验和没参加对于数学成绩的影响。
一般建linear regression的时候会加上一些covariate, 一般是continuous variable,比如学生之前的数学成绩,或是学生年龄等不受实验控制的变量。在实际建模中,对covariate的选择有什么要求,如果covariate对DV(dependent variable)的影响比IV(independent variable)还大,反客为主了怎么办。为了有助于选择到底放入哪些covariate, 用什么模型可以分析出covariate和dependent variable之间到底有什么关系,关系有多大?






callmemissmaybe 发表于 3/29/2017 6:44:03 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482581#74482581][/url]

这个搜索feature selection...其实现在计算越来越快,其实特别如果只是要精确的prediction, 这套都过时了。。。
头像
0操作15 #
头像
15 #
0
17-03-29 21:09操作
只看TAAA分享
linear regression注意不要有multicollinearity就可以了,就是covariate之间的correlation不要太高,VIF不要超过10,correlation最好不要0.8超过以上,要不然drop要不然transform一下
Advertisement
头像
0操作16 #
头像
16 #
0
17-03-29 21:35操作
只看TAAA分享

这个搜索feature selection...其实现在计算越来越快,其实特别如果只是要精确的prediction, 这套都过时了。。。


zzsummer 发表于 3/29/2017 9:05:40 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483346#74483346][/url]

re
CS的人都不懂STAT的人在计较什么
反正一锅扔进去就是了
头像
0操作17 #
头像
17 #
0
17-03-29 22:09操作
只看TAAA分享

re
CS的人都不懂STAT的人在计较什么
反正一锅扔进去就是了


wfmlover 发表于 3/29/2017 9:35:48 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483539#74483539][/url]
可以试一试regularization lasso,它会帮你select feature.
头像
0操作18 #
头像
18 #
0
17-03-29 22:31操作
只看TAAA分享
华人jms太厉害了都
头像
0操作19 #
头像
19 #
0
17-03-29 22:33操作
只看TAAA分享
生统里面好像有个概念叫confounding variable 就是既跟x 又跟 y都有关系 但是这明显会引起统计里面尽量避免的multicolinearity的问题 所以有时候生统和统计的理论是不一样的 还是请懂生统理论的人回答吧
头像
0操作20 #
头像
20 #
0
17-03-29 23:21操作
只看TAAA分享
说到covariate反客为主的问题,你用cov的目的就是要partial out cov对outcome的影响,除非cov与IV highly correlated,否则没关系,证明你选的cov很好。例如你看某个training programs对全校学生achievement score的影响,很明显grade就要作为一个cov,并且grade的影响很可能大于training program的影响。 如果是social science,选什么cov很大程度上取决于你的data是怎么选的(比如上一个例子)还有theoretical model是什么(即其他相关领域的研究中通常会用到什么cov)。怎么分析更要明确你的research question。
发帖回复
查看:15714|回复:27
Advertisement
打开收藏板块打开个人中心
边缘侧滑返回