当前位置:懂科普 >

综合知识

> 内生性检验可以删除对照组数据吗

内生性检验可以删除对照组数据吗

内生性检验可以删除对照组数据吗

内生性检验不可以删除对照组数据。对照组数据对于研究问题有重要作用,会影响结果,所以不能删。内生性,是模型中的一个或多个解释变量与随机扰动项相关,解决方法有工具变量估计、工具变量的优劣等。导致原因:遗漏变量,且遗漏变量与引入模型的其他变量相关;解释变量和被解释变量相互作用,相互影响,互为因果;自我选择偏误;样本选择偏误。最好收集数据之前就加以考虑,尤其是准备获取一手数据的情况下。考虑可以应用经济理论。

内生性检验不可以删除对照组数据。对照组数据对于研究问题有重要作用,会影响结果,所以不能删。内生性,是模型中的一个或多个解释变量与随机扰动项相关,解决方法有工具变量估计、工具变量的优劣等。导致原因:遗漏变量,且遗漏变量与引入模型的其他变量相关;解释变量和被解释变量相互作用,相互影响,互为因果;自我选择偏误;样本选择偏误。最好收集数据之前就加以考虑,尤其是准备获取一手数据的情况下。考虑可以应用经济理论。

小编还为您整理了以下内容,可能对您也有帮助:

如何用SPSS进行解释变量的内生性检验与效果检验

在SPSS中,您可以使用回归分析来进行内生性检验和效应检验。

首先,您需要准备好数据并将其导入SPSS。然后,打开“分析”菜单并选择“回归”>“线性...”。在“线性回归”对话框中,在“因变量”框中选择您希望预测的变量,并在“自变量”框中选择您希望用作预测因子的变量。

接下来,您可以在“选项”选项卡中选择进行内生性检验的方法。SPSS提供了多种内生性检验方法,包括Hausman检验、Arellano-Bond检验和Baum-Schaffer-Stillman检验。您可以在“内生性检验”下拉菜单中选择您希望使用的方法。

如果您希望进行效应检验,则可以在“输出”选项卡中选择“效应检验”复选框。这将在输出中生成对效应的检验统计量和p值。

最后,单击“确定”按钮运行回归分析。SPSS将生成输出,其中包含内生性检验的结果和(如果选择了)效应检验的结果。

内生性问题的解决方法

事实上,仅仅为了解决内生性问题,并不需要我们对内生性问题的缘起有很深入的理解。对于应用型的实证研究而言,我们只需要掌握解决内生性问题的具体方案即可。内生性问题的解决方案一共四种,理论上来讲,这四种方案应对内生性问题都很有效。但于我个人而言,我对四种方法的评价是有高低的,由高到低分别介绍如下。

1.自然实验法

所谓自然实验,就是发生了某些外部突发事件,使得研究对象仿佛被随机分成了实验组或控制组。

这是我最喜欢的方法,只是自然实验需要寻找一个事件,并且这个事件只影响解释变量而不影响被解释变量。遇着这种事件是一种缘分,还要能识别出来,这对学者的眼光也是一种挑战。

有很多文章声称使用了自然实验,但严格来讲,并没有做到对研究对象进行了随机分组。虽然如此,我对此类文章仍然很是喜欢。

2.双重差分法

Difference-in-Difference (DID)一般称为双重差分法,或倍差法。倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是用来研究这次冲击的净效应的。

其基本思想是,将受冲击的样本视作实验组,再按照一定标准在未受冲击的样本中寻求与实验组匹配的对照组,而后做差,做差剩下来的便是这次冲击的净效应。

双重差分法实际上是固定效应的一个变种,差分的过程实际上是排除固定效应的过程。ZERA在《计量论文写作和发表的黑客教程》有一个非常简明风趣的举例,我转述于此,以飨读者。

“大家都知道买房子靠不靠学校医院等设施还是有很大差别的。但是,影响房价的因素又不止学区那么简单。

学校旁边的学区房价格上升,难道一定是学区房因素导致的吗?

现在我们要使用双重差分法检验一个假设:学区房因素导致房价上升。

差分再差分,这个方法要凑效的秘诀是:学区房因素发生变化,而其他因素基本维持不变。例如教育管理机构重新划分学区,一个著名小学突然在某个没学校的地方建分校,或者一个著名小学搬迁,这些因素导致房子是否属于学区房发生了变化。

以建分校为例。建校后周围一片区域A的房子都属于学区房,这个区域以外附近区域(B)的其他房子就不算该校学区房。然后收集建校前后两个时间点上、A和B区域房价的数据。

所谓的差分再差分法,就是:A区域两个时间点上的平均房价差距 - B区域两时间点上的平均房价差距 = d,这个d就是建校对房价的影响了。d是两个差距之间的差距,所以才叫做差分再差分。用计量回归把这个d给估计出来,是有办法的:

P= b0 + b1*Da +b2*Dt + d*(Da*Dt) + Xb + e

P是房价,Da是虚拟变量,在区域A则为1,否则为0, Dt是时间虚拟变量,建校后为1,建校前为0。 STATA一跑,就把d估计出来了。为什么d可以如此表示?自己思考一下啦。实在想不出来,Wooldridge的书上有精确严格的解释。这里给出一个直观的粗略解释:北京所有区域的房价每个月都在上升,因此需要控制这部分因素,这就是时间因素Dt;区域不同自然也有差别,需要控制区域位置因素,这就是Da,这就控制了即使不建校也存在的差距;控制住其他因素X,那么剩下的Da*Dt就是建校带来的房价提升效应了。这下明白了哦。”

当然,如果你想看到更学术化的探讨,可以参考2015年第7期《数量经济技术经济研究》所刊文章《国内双重差分法的研究现状与潜在问题》。

3.工具变量法

这是一种处理内生性问题的经典方法,或者说被滥用最严重的方法。

这种方法相信大家都已经学过,就是找到一个变量和内生解释变量相关,但是和随机扰动项不相关。在OLS的框架下同时有多个工具变量(IV),这些工具变量被称为two stage least squares (2SLS) estimator。具体的说,这种方法是找到影响内生变量的外生变量,连同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。

工具变量法最大的问题是满足研究条件的工具变量难以找到,而不合乎条件的工具变量只能带来更严重的估计问题。

当然,我确实见过非常精巧的工具变量,譬如,殖民地时代的死亡率。

4. 动态面板回归法

基本思想是将解释变量和被解释变量的滞后项作为工具变量(IV)。其实,我是不认可这种处理方法,除非万不得已,我不推荐这种方法,我也不太相信这种方法能真正缓解内生性问题。可是,确实很多人都在用。算了,不多说了。

内生性检验方法

最近也在学习这个问题,还处于小白阶段,分享下我的理解。

内生性问题,是指解释变量x和残差项u之间存在相关性。导致内生性问题的原因有多个,所以也就有多个与之对应的解决内生性的方法。

首先有可能是遗漏变量,遗漏的变量和x相关。如果你知道遗漏变量是什么,直接加进来作为控制变量即可。这是最简单的一种。

如果不知道遗漏变量是什么,或者Y和X互为因果。可以使用工具变量法。工具变量法其实也就是2SLS回归(当你选的工具变量个数和内生性变量相同时),或者GMM回归(工具变量个数大于解释变量个数)。在使用工具变量时还要考虑工具变量是不是弱工具变量,是不是存在无效工具变量,这都要进行检验。

其次,导致内生性问题的原因,还可能是面板数据中,由于个体特异性没有考虑进去,这些个体特异性如果与解释变量相关,那么也会导致内生性问题(x与u相关)。这种情况下,如果你的自变量是随时间变化的,用固定效应模型;如果你的自变量是不随时间变化的,用hausman-taylor模型。

第三种,如果你的样本存在自选择的问题,也会导致内生性问题。这种情况下就会使用heckman二阶段检验。

至于具体的实现命令,你直接在stata里面 help+你想用的回归方式,stata里面提供的材料就挺清楚的了。楼主可以根据自己的需要看看。

刚开始这方面的学习,所以我的知识水平只到这。

至于你说的PSM倾向匹配得分法,DID双重差分,据我所知,是工具变量法的替代解决方式,工具变量法有个非常致命的弱点是好工具变量非常难找。但是具体背后的原理我还不是特别清楚。

以上,希望对楼主有所帮助。

内生性问题如何解决?

在Stata中,可以使用Hausman检验和Durbin-Wu-Hausman(DWH)检验来检验内生性问题。

1、Hausman检验:在执行固定效应模型(FE) 和随机效应模型(RE) 之前,可以使用hausman命令来进行检验。该检验的零假设是随机效应模型是一致且有效的,即不存在内生性问题。如果p值小于0.05,则拒绝零假设,表示存在内生性问题,需要使用固定效应模型。

2、DWH检验:执行回归后,先存储随机效应估计量和固定效应估计量,然后使用estimates store命令。接着,使用predict reghdfehat、predict xtfehat分别生成随机效应估计量和固定效应估计量的预测值。最后,使用dwatson2命令进行检验。

该检验的零假设是随机效应模型是一致且有效的。如果p值小于0.05,则拒绝零假设,表示存在内生性问题,需要使用固定效应模型。

内生性的问题通常由以下三个原因产生:

1、遗漏重要的解释变量,虽然也可加入被解释变量的滞后项,但结果可能不精准而产生其他的问题。而可以从其中主要是由于存在自选择和公司异质性的两个问题入手,对于自选择可以选择Heckman两阶段检验,而对于异质性则可以采取公司固定效应。但需要注意公司固定效应只能控制公司随时间不变的变量,却不能控制动态变化的变量。

2、变量之间实际上是属于联立方程、互相影响的关系,不是单纯的因果关系,可采取工具变量法解决。

3、测量误差,也可采取工具变量法。

稳健性检验与内生性检验区别

目标与内容的不同和应用领域的不同。

1、目标与内容的不同:稳健性检验:稳健性检验主要关注对数据中存在异常值、离群点或模型假设不满足等情况的鲁棒性。它旨在验证经济模型对异常情况的敏感程度,并保证在存在这些异常情况下仍能得到可靠的结果。稳健性检验通常采用一些鲁棒的统计方法或模型,如中位数回归、分位数回归等。内生性检验:内生性检验主要关注在经济模型中存在内生性问题,即因果关系的反向性或模型中存在遗漏变量等问题。内生性检验旨在识别和解决内生性问题,以确保模型估计的结果具有因果解释的有效性。内生性检验通常采用诸如工具变量、双重差分等方法来解决内生性问题。

2、应用领域的不同:稳健性检验:稳健性检验广泛应用于经济学和统计学中,特别是在处理具有异常值或非正态分布的数据时。它可用于回归分析、方差分析、聚类分析等各种统计方法中,以提高分析的稳定性和可靠性。内生性检验:内生性检验主要应用于经济学中的因果推断和处理内生性问题的研究。例如,在计量经济学中,研究人员常常使用内生性检验来验证经济模型中的内生性假设,确保因果关系的一致性和可信度。

内生性处理:工具变量法

内生性问题是解释变量与扰动项相关导致的,具体的表现形式有遗漏变量、双向因果和测量误差。

OLS能够成立的最重要前提条件是解释变量与扰动项不相关。否则,OLS估计量将是有偏且不一致的。

无偏是指估计量的期望等于真实值。一致性是指,随着样本的增大,估计量无限接近于真实值。

固定效应模型在 一定程度上 可以缓解内生性。因为使用固定效应模型的原因是存在个体效应、时间效应与解释变量相关。此时如果不用固定效应模型,这些个体、时间影响就会溜到扰动项中,就产生了内生性问题。

解决内生性问题常见的做法是使用工具变量。

工具变量:与模型中内生变量(解释变量)高度相关,但却不与误差项相关,估计过程中被作为工具使用,以替代模型中与误差项相关的解释变量的变量。

“找好的工具变量好比寻找一个好的伴侣,ta应该强烈地爱着你(强相关),但不能爱着别人(外生性)。”

IV法可以视为2SLS的特例。 当内生变量个数=工具变量个数时,称为IV法;当内生变量个数<工具变量个数时,称为2SLS

2SLS思路如下:

y=α+βx1+γx2+u,其中x1是严格外生的,x2是内生的,则至少需要1个工具变量,z1为工具变量。

第一阶段回归:内生变量和工具变量

x2=a+bz1+cx1+e

第二阶段回归:内生变量的预测值和被解释变量

y=α+βx1+γx2'+v

2SLS背后逻辑:

将内生解释变量分为两部分,有工具变量造成的外生部分和与扰动项相关的内生部分。

第一阶段:通过外生变量的预测回归,得到这些变量的外生部分。

第二阶段:把被解释变量对解释变量中的外生部分进行回归,消除偏误得到一致估计。

注意:为了保证2SLS的一致性,必须把原方程中所有的外生解释变量都放入第一阶段回归。

2SLS的难点在于恰当的工具变量选择。若存在N个内生解释变量,则至少需要N个工具变量。

假设回归模型

stata命令如下:

以上命令ivregress 2sls 和 ivreg2是等价的,只是 ivreg2显示的内容更为丰富。xtivreg2 相较于ivreg2,就是OLS和FE/FD模型的差别,ivreg2 ... i.Year i.id等价于xtivreg2 ... i.Year, fe。

针对工具变量有三大检验:

以上三大检验,优先做相关性检验。这是由于弱工具变量会对估计结果以及外生性检验结果产生影响。

(1)相关性检验

a.不可识别检验

不可识别检验的原假设是秩条件不成立,即工具变量与解释变量不相关。不可识别检验在一定程度上可以验证是否存在弱工具变量,但不能取代对弱工具变量的检验。关于弱工具变量的检验,可以分为单个内生变量和多个内生变量。

b.弱工具变量检验

如果方程中有一个内生变量,一个经验规则是在第一阶段回归中,如果F统计量>10,则可拒绝“存在弱工具变量”的原假设,不必担心弱工具变量的问题。

如果方程中有多个内生变量,Stock & Yogo给出了检验规则:如果弱识别检验的最小特征值统计量>15% maximal IV size对应的临界值,就可以认为工具变量不存在弱相关问题。

如果发现是弱工具变量,解决的方法有:

(2)内生性检验

首先假定内生性进行2SLS回归,然后假定不存在内生性进行OLS回归,最后使用豪斯曼检验。

当p值<0.1时,表明两个回归的系数存在显著的系统性差异,及关注的核心变量有内生性。

(3)外生性检验

在恰好识别的情况下,即工具变量数=内生变量数,此时公认无法检验工具变量的外生性,即工具变量与扰动项不相关。在这种情况下,只能进行定性讨论或依赖于专家的意见。在过度识别的情况下,可以进行“过度识别检验”。当p>0.1,接受原假设,说明工具变量具有外生性。

注意,如果误差项存在异方差或自相关,那么2SLS的估计虽然是一致估计量,但不是有效估计量。更有效的方法是“广义矩估计”GMM。 某种意义上,GMM之于2SLS,正如GLS之于OLS,前者可以获得有效估计量,后者只能获得一致估计量。

该方法的前提条件是:工具变量数>内生变量数,且2SLS存在异方差或自相关

综上,在使用stata进行2SLS时,推荐使用ivreg2或xtivreg2。

对于面板数据,建议先对模型进行变换,然后对变换后的模型使用2SLS:

参考资料:

《高级计量经济学及stata应用》

面板数据分析与Stata应用

测量误差及其对统计分析的影响

有人能讲讲工具变量和2SLS之间的关系吗?

工具变量法(五): 为何第一阶段回归应包括所有外生解释变量

xtivreg2和它的山寨者

内生性的检验

基本思想:直接比较OLS和IV估计值,若所有变量都是外生的,则OLS和IV估计都是一致的,若明显不同,则我们就断定解释变量有内生性。

操作前提:首先找到一个外生变量用做工具变量。

一个问题:工具变量本身的外生性如果检测?

对于面板数据模型内生性检验都有哪些命令

dmexogxt命令

你可以把你结果放上来,让我们看过。连老师在他的课程里有说过,hausman检验如果出现负值的话是拒绝原假设的征兆,但此时最好使用麦金农的dmexogxt命令。

内生性检验一定要做吗

内生性

就是模型中的一个或多个解释变量与随机扰动项相关。

中文名

内生性

外文名

Endogeneity

性质

数学模型

导致原因

遗漏变量

解决方法

工具变量估计!导致原因

1:遗漏变量,且遗漏变量与引入模型的其他变量相关。

2:解释变量和被解释变量相互作用,相互影响,互为因果。

3.自我选择偏误。

4.样本选择偏误。

解决方法

工具变量估计

工具变量:假定我们有一个可观测到的变量Z,它满足两个假定

(1):Z与U不相关,即与Cov(Z,U)=0;

(2):Z与X相关,即与Cov(Z,X)不等于0;

我们则称Z是X的工具变量(instrumental variable 简称IV)

举例:以双变量模型为例

Y=Q+WX+U;

其中X与U相关,因而OLS估计有偏,有X的工具变量Z,

于是有Cov(Z,Y)=Cov(Z,Q+WX+U)

=Cov(Z,WX)+Cov(Z,U)(Q为常数)

=WCov(Z,X)

所以有W=Cov(Z,Y)/Cov(Z,X)

工具变量的优劣

(1):Z与U不相关,即与Cov(Z,U)=0;

相关性越低,则越好

(2):Z与X相关,即与Cov(Z,X)不等于0;

相关性越高,则越好

Z与U相关性低,Z与X相关性高,这样的工具变量被称为好工具变量,反之则称为劣工具变量。

好的工具变量的识别

(1):Z与U不相关,即与Cov(Z,U)=0;

由于U无法观察,因而难以用正式的工具进行测量,通常由经济理论来使人们相信。

(2):Z与X相关,即与Cov(Z,X)不等于0;

将X对Z回归即可,看看X的系数是否显著异于零?

IV与OLS估计量的简单比较

IV估计量:C1=Cov(Z,Y)/Cov(Z,X)

而OLS估计量是:C2=Cov(X,Y)/Cov(X,X)

(1)因此,Z=X时,两者将完全一致,换句话说,当X外生时,它可用做自身的IV,IV估计量便等同于OLS估计量。

(2)若Z与X不相关,Cov(Z,X)等于0,则IV法无法给出估计量。

IV与OLS的取舍

(1)尽管当Z与U不相关,而Z与X存在着或正或负的相关时,IV是一致的,但当Z与X只是弱相关时IV估计值的标准误可能很大,Z与X之间的弱相关可能产生更加严重的后果:即使Z与U只是适度相关,IV估计的渐进偏误也可能很大。也即是说,当解释变量外生时,IV与OLS估计都是一致的,但IV估计不如OLS有效。

(2)所以,当内生性程度不严重或者好的工具变量找不到时,还不如用OLS。反之,当内生性程度严重时,就一定要想办法解决,否则,OLS估计就是不可接受的,当然,差的IV同样是不可接受的。

其它解决办法

(1)代理变量:某变量无法直接观测,而用其它变量替代。

(2)前定变量:用变量的前一期或前几期数据。

(3)面板数据模型。

检验

基本思想:直接比较OLS和IV估计值,若所有变量都是外生的,则OLS和IV估计都是一致的,若明显不同,则我们就断定解释变量有内生性。

操作前提:首先找到一个外生变量用做工具变量。

一个问题:工具变量本身的外生性如何检测?

对待态度

(1)需要重点考虑的问题之一;

(2)最好的收集数据之前就加以考虑,尤其是准备获取一手数据的情况下。如何考虑?应用经济理论。

内生性检验和稳健性检验的区别

内生性检验和稳健性检验的区别如下:

面板数据回归后,稳健性检验一定要做。

稳健性检验的方法:从数据出发,根据不同的标准调整分类,检验结果是否依然显著;从变量出发,从其他的变量替换,如:公司size可以用totalassets衡量,也可以用totalsales衡量从计量方法出发,可以用OLS,FIXEFFECT,GMM等来回归,看结果是否依然robust。

稳健性检验

考察的是评价方法和指标解释能力的强壮性,也就是当改变某些参数时,评价方法和指标是否仍然对评价结果保持一个比较一致、稳定的解释。通俗些,就是改变某个特定的参数,进行重复的实验,来观察实证结果是否随着参数设定的改变而发生变化,如果改变参数设定以后,结果发现符号和显著性发生了改变,说明不是稳健性的,需要寻找问题的所在。

概念和检验方法。

1、概念。稳健性检验是指在数据存在离群值的情况下,检验方法仍然能够保持有效性和稳定性的检验方法。而异质性检验是指在数据存在异质性的情况下,检验方法能够有效地检测出不同样本之间的差异性的检验方法。

2、检验方法。稳健性检验使用中位数等鲁棒性较强的统计量进行检验,以避免离群值对检验结果的影响。而异质性检验通常使用方差分析、卡方检验等方法进行检验,以确定样本之间的差异是否显著。

  • 文章版权属于文章作者所有,转载请注明 https://dongkepu.com/zonghezhishi/w7j9xr.html