洪永淼:区间数据在计量经济学中的应用

发布日期:2009-12-16 10:32    来源:北京大学国家发展研究院

1

 

永淼教授在第九届中国经济学年会上的演讲,未经作者本人审阅

  首先感谢中国经济学年会,感谢浙江大学,还有史晋川教授的邀请,非常抱歉我今天讲的内容可能跟主题没有什么关系,跟中国经济没有关系,跟金融危机也没有什么关系,我今天要讲的是我目前在做的计量经济学方面的研究,是跟中国科学院一位教授以及我们共同指导的一个博士生做的一个研究。
  为了说明跟题目还有一点表面上的关联,我首先来看看下面几个例子,这个例子是我们在考虑计量经济学的时候考虑到的一些具体问题。大家可能对中国经济的走势,比如说像经济的增长率以及对明年的通货预期有一些关心,我在这里想问的问题是明年中国GDP的增长率最高最快或者是最低的GDP的增长率大概是多少?另外的问题是中国明年的通货膨胀最高大概可以达到多少?最低是多少?或者是明年上海证券市场A股的指数价格最高和最低的价格会达到多少?这些问题的一个共同点就是预测经济变量的一个区间,而不是预测一个点。这就是我今天在这里要讲的一个最重要的问题,我今天在这边不会对中央经济变量做出具体的预测,预测这个期间大概是从哪里到哪里,但是我会告诉大家怎么去预测。如果讲完以后大家有兴趣要用我的方法去做预测的话,那么预测的好坏跟我没有关系。
  那么什么是区间呢?计量经济学大家都知道,我相信在座的很多人做这个实证都已经体会非常深刻了,实证的数据也就是说一个变量在一个时间点或者是在某一个时间段里面,它给你的数据是一个点,但是我这里要考虑的是数据的区间,就是给你一个下限和上限,所以具体的数字可能是在这个范围之内。从计量经济的角度来看,它其实是有它信息上的优势。大家知道,你如果是考虑一个点的话,作为一个点你根本不知道它靠近真实数据点有多远,也不知道它的变动的数据有多少?最近气候变化,包括全球变暖大家可能比较感兴趣,其实这个温度的区间数据对研究的气候变化是非常适合的,我们知道在一天之内,温度其实是在变化的,你可以把最低的和最高的温度拿出来组成一个温度的区间数据,大家看中央电视台每天的气候预报,不是简单的预测一点,还要告诉你最低和最高的温度,所以我们第一个例子其实就是温度的区间数据,不但是研究平均温度有没有变高或者是变低,而且研究温度变化的范围是在变大还是变小?
  另外就是研究一天的股票价格,大家知道从开盘到收盘,股票的价格也是连续在变化,这段期间你可以把最低和最高的价格弄成一个股票的区间。事实上在过去几年,用最高的股票价格减去最低的股票价格,就是这种区间数据已经广泛应用于金融学里面,用于测试这个波动。另外一个宏观经济学里面的GDP的增长率,大家知道一年里面有12个月,你可以把12个月里面最低的增长率和最高的增长率组成一个区间,我们算出来的增长率是一定会落到这个区间,所以你看到我现在给你的区间的数据包含的信息要比一年的平均增长率要丰富得多。同样地,通货膨胀率还有失业率以及利率的区间预测,区间的信息量应该比一点多得多。
  另外一个例子是跟劳动经济学或者说收入分配有关系。大家知道,在研究收入分配的时候,有一个叫基尼系数,但其实你可以用一个区间来表示收入不平均的程度,比如你用一个收入的区间数据,就是最低收入的10%的那点的收入水平,下面是高的收入水平,或者是你要研究城乡收入差距的话,你的区间数据的下界是农村收入的平均水平,上界就是城镇收入的平均水平。那么他们讲的性别工资差异,就是女性跟男性工资或者收入的差距是多少,这里我们就可以用一个女性的收入平均工资为下限,上限就是男性的收入的平均工资。现在美国人口调查现在问的问题,只是问的你的收入大概是处于哪一个范围之内,是不说你的收入确切的数据。所以说,虽然区间数据在经济学里面用得还很少,但是还是大量存在的。
  我有一个师兄提出的一个模型,就是对股票价格的变动范围――最高价减掉最低价――做出一个动态的模型。他发现区间预测的效果会比点预测出来的效果要好。他的解释是,用上界减掉下界得出的数据比一个点数据信息含量多。其实我们用的数据不先把它减掉,因为你减掉的话,本身这个数据会产生一个信息的损失。现在我们要讲的一个模型就是对区间的数据直接建模,比如,股票价格的上界是最高价,下界是最低价,对这个股票的价格区间直接建模,建完以后,本来你可能是想预测这个波幅,那也可以,我模型构建出来之后,就上界减掉下界,这样就回去了。这有一个什么好处?就是我把区间的数据作为一个整体来做计量经济学的分析,这样很多的信息就包含在里面,没有造成损失,估计上可能会相对比较精确一点。
  区间包含的信息比较多,不但包含了最大值,或者最小值,还包含了变化,因此在实际中可能大家做预测的时候,本身就预测这个区间,而不是做一个点预测。我常常看新加坡的《联合早报》,我记得去年他们曾经一个预测新加坡的GDP增长率,它的预测是明年新加坡的GDP增长会在6%到9%之间,这其实就是一个区间预测。我刚才说的最低最高温度,这也是同一个概念。更重要的一点是这个区间包含的信息比数据要丰富得多,因此从计量经济学角度来看,我们可以得到更好、更精确的参数估计。
  我现在就介绍一个非常简单的区间模型,首先Y在这里就是一个区间量,另外还有一些区间解释变量,你现在看到的无非就是把原来的点变量都变成区间的变量,只要这样考虑就可以了。那么我们现在要考虑的是,怎么去估计这个模型的参数?其实我现在介绍的是一个跟平常最小二乘法估计程序是一模一样的。我们要做这个估计的话,首先我介绍一个很简单的方法,什么简单的方法呢?现在首先把区间的上界和下界加起来除以二得到均值,这就是你得到的数据,或者是把区间的上界减掉下界就得到这个区间的变化,那这两个方法不管是均值或者是波动,都是点数据了,点数据的一个好处就是我现在就可以用最小二乘法来估计。但是,这个方法在我今天这里讲了不是一个好的方法,因为你不管是用均值或者是用波动,信息上都有损失,估计出来的参数,它的标准差比较大,你得到的估计参数可能比较不容易显著。所以,我们现在要讲的是一种新方法,这个新的方法主要是什么呢?主要是要真正去测度两个区间变量相近的程度是多少?所以大家看一下这个计量方程,这个Y就是我们要预测的区间,我们现在的模型本身是做一个预测,这个预测也是一个区间。所以我现在要的是选择这个预测值与实际值两个尽量靠近。现在,需要引入一个新概念――区间距离,如果是两点的话,它的距离就是两个点的差异。现在比较两个区间的差异就比较麻烦,但是数学家提出了一个方法帮助我们解决了,数学家提出了两个集合的距离概念,而且有不同的距离。我们用的是很简单的,这里写的是一个很简单的区间距离,具体技术上的原因我在这里不讲,因为时间的关系不允许深入下去。
  我们现在要强调的是,这个距离里面,牵涉到一个微分方程,就是一个所谓的Kernel函数,就是比较两个区间,要上限跟下限有四种可能性的交叉组合,分别给出一个权重,构成2*2的矩阵。为了让你们看一下,这个区间kernel函数最基本的概念是什么?我首先选择一个很特殊的例子,你现在看到的是1/4,这显示出来的结果是什么呢?是在比较两个区间的中位数。当然这个选择肯定不好,因为它利用的也是一个点数据中位数。另外一个选择是里面都是1,比较波动的范围,比较两个区间,两个不同的宽度和波动范围是什么,很明显这也不是很好的一种选择,因为它只是考虑这个波动变化的范围而已。
  我现在要用的是第三种,因为第三种是信息量比较大,你可以看到估计出来的结果也会比较精确一点。现在怎么估计呢?根据我现在定义的距离,我现在要用的这个参数估计方法就叫做minimum distance estimation。其实这个跟你们在用的最小二乘法是一模一样的道理。下面看这个公式的形式与最小二乘法其实是非常接近的,只不过以区间的数据表现出来而已。所以今天讲的新的计量经济学分析方法,其实在本质上是跟传统方法大同小异,只不过是从原来的点数据扩展到现在的区间数据。在这个基础上,我们也可以发展出一整套的估计、检验,还有统计推断。
  今天在这里介绍的就是一个新计量经济学方法就是怎么对区间数据进行建模。区间的数据包含的信息量比较大,因此从计量经济学运用的角度来看,应该说是一个比较新的、比较有前景的领域。谢谢大家!