中国投资者情绪指数简介

发布日期:2018-06-29 14:56:37    来源:北京大学国家发展研究院

中国投资者情绪指数简介

2018年6月

  1. 什么是中国投资者情绪指数?

中国投资者情绪指数(China Investors’ Sentiment Index, CISI)是在收集网络能反应投资者情绪的上亿条金融文本大数据的基础上,使用深度学习方法,度量文本信息反映的中国投资者情绪。它一方面刻画了2008年以来金融市场中投资者的情绪变迁,另一方面能够实时追踪当下投资者的情绪变化。

  1. 为什么需要投资者情绪指数?

“黑天鹅”、“灰犀牛”类事件的频发,对于理解和预测市场状况提出了新的要求。除了采用度量经济和市场基本面的常见“硬”指标外,监管部门和政策制定者、投资者、企业、金融机构和学界亟需能够反映金融市场当下以及未来波动的情绪类“软”指标。但是,现有中国投资者情绪指数或采用有限问卷收集信息、或频率低、地域窄、缺乏延续性、或包含了情绪之外的其他信息,无法满足需求。

学术研究中对于投资者情绪(Investors’ Sentiment)的定义主要有两类:(1)噪声交易者关于股票未来股价预期偏离理性套利者信念的程度(De Long等, 1990)。(2)投资者基于对资产未来现金流和投资风险的预期而形成的一种信念(Baker和Wurgler,2006)。

国外对于投资者情绪指标的选取主要包括以下三类:(1)客观指标。包括:封闭式基金折价,IPO发行量及首日收益,交易量,共同基金净赎回,股票发行与债券发行比例等。(2)主观指标。包括:个体投资者协会指数,投资者智能指数,证券分析师情绪指数,消费者信心指数。(3)复合指标。采用主成分分析法,将客观指标和主观指标等结合在一起。

国内现有关于投资者情绪的研究,参考国外投资者情绪指数构建方法为主。指标的选取类似于国外主观、客观指标,并结合国内实际情况做适当调整。各机构也编制了若干指数,以主观指标为主,包括:央视看盘指数,巨潮投资者信心指数,好淡指数,上海投资者信心指数。

但以上指标均存在一定的缺陷。基于交易行为的指标,是市场多种力量下的均衡结果,不止反映投资者情绪。主观指标虽然能够反映受访者填写问卷时的情绪,但不能全面反映投资者在投资过程中的情绪。此外,多数机构编制的指数存续期短,甚至不再更新。随着互联网和深度学习的发展,基于文本大数据的投资者情绪日益受到重视,但采用文本大数据全面度量投资者情绪的市场需求尚未满足。

  1. 中国投资者情绪指数新在何处?
  1. 团队新。研究团队由高校学者(北大国家发展研究院、杜克大学教授,北大国家发展研究院硕博研究生)和大数据分析公司百分点联袂组成,有谷歌高级工程师作为算法顾问。
  2. 数据新:全网收集A股所有上市公司相关文本数据。
  1. 体系新:全面度量与刻画中国投资者情绪。所有上市公司;频率:日频、月频、年度、可到小时;分板块、分行业、甚至公司级。
  2. 方法新:人类智慧与深度学习相结合,采用支持向量机、卷积神经网络等方法计算投资者情绪。
  3. 产品新:一部中国金融情绪辞典;一套涉及各板块、各行业、不同频率的指数。
  1. 中国投资者情绪指数构建方法
  1. 全网收集关于全部上市公司的投资者情绪相关的文本大数据。时间上从2008年7月开始,截止至2018年5月已收集约1亿5千万条文本信息。
  2. 利用中文分词技术对文本进行分词处理。
  3. 利用Word2Vec技术,将文本中的词语向量化。
  4. 对于国外的LM词典(Loughran和McDonald, 2011)运用翻译工具进行翻译和检查,构建中文版的LM词典。
  5. 在沪深300成分股中,选取200只股票,并对每只股票选取200条讨论帖子。由北京大学国家发展研究院教授、优秀博士和硕士生、市场投资者组成人工标注团队,对这4万条帖子进行人工标注。两人独立标注一条文本信息,根据其内容将其分为正、负、不确定三类,同时对每条帖子列出其包含的正、负关键词。标注完成后,保留标注分类一致的帖子,根据标注结果构建中国金融情绪词典(GB),并获得中国金融市场投资者情绪标注集。
  6. 运用多种文本情绪算法检验稳健性。算法选择包括传统的词典法和机器学习方法。对于词典法,词典选取两部:中文版本的LM词典,专业标准团队构建的中国金融情绪词典(GB)。对每个帖子,统计帖子中正面和负面词语的数量,分别采用等权重法(Equal-Weighted, EW)和词频-逆文档法(Term Frequency-Inverse Document Frequency, TF-IDF)计算帖子的情绪得分。对于机器学习方法,分别采用支持向量分类(Support Vector Classification, SVC)和卷积神经网络方法(Convolutional Neural Network, CNN)。在SVC方法下,结合两类词向量表示法,第一类为独热表示(One-Hot),第二类为词向量表示(Word2Vec)。
  7. 对于词典法,直接计算其在测试集上(样本外)的分类准确性。对于深度学习法,先在标注集上训练模型,并根据验证集上表现最好的结果来确定模型的参数,选出最优模型。比较各种模型在测试集上的分类准确性。其中,词典法的总预测准确率约为75.65%,SVC+Word2Vec的总预测准确率约为81.45%,CNN的总预测准确率约为81.24%
  8. 将训练好的最优模型应用到全部文本数据中,计算每个帖子的情绪得分。将不同股票帖子的情绪得分按照相应标准进行加总,构建不同指标体系的投资者情绪指数。
  1. 中国投资者情绪指数指标体系

    中国投资者情绪指数包含一级指标(代表全部沪深股票的市场情绪指数),和按行业、按时间频率和按板块等分类的二级子指数。其中按照行业分类(参照Wind行业分类标准和申万行业分类标准),包含八个大类:金融行业、制造行业、服务行业、信息行业(计算机、传媒、通信)、医药卫生行业、房地产行业、能源行业、消费行业。按照时间跨度分类,包含:月度频率、周度频率、日度频率(全天情绪、隔夜情绪、午间情绪)以及日内半小时情绪。按照板块划分,包含:沪深300、上证50、中证500、中小板、创业板情绪指数。

  1. 中国投资者情绪指数包含了什么信息?

(1)CISI包含了投资者对市场已发生状况的情绪反映(如:收益率、交易量、国际市场的表现)。投资者情绪指数和金融市场重大事件相吻合,如:2015年6月爆发股灾,此后股市开始大跌,而投资者情绪指数在7、9月分别处于历史(2008.07-2018.05)次低点和最低点。(2)CISI还包含投资者对市场未来信息的预期。实证研究发现,该指数对市场收益率、波动、交易量均具有一定预测能力。(3)不同时间段的投资者情绪表现出不同的特征。交易时间段的平均投资者情绪显著低于非交易时间段(隔夜情绪)的平均投资者情绪。(4)不同行业的投资者情绪在过去十年也具有不同的特征。在过去十年,医药行业的平均情绪最高,能源行业的平均情绪最低,消费行业的情绪波动最小,金融行业的情绪波动最大。

  1. 中国投资者情绪指数有什么用?
  1. 作为度量投资者情绪的工具, CISI不仅包含过去市场信息,也能在一定程度上反映投资意愿或投资者对市场走势的预期。
  2. 对市场收益率、波动、交易量均具有一定预测能力。
  3. 为政策制定部门和监管部门判断市场走势提供新的视角。
  4. 为学界理解市场运行规律提供的新抓手。
  5. 企业经营活动、金融机构存贷款决策、资产管理的新参考。
  1. 团队成员

沈艳,北京大学国家发展研究院经济学教授

李嘉,杜克大学经济学副教授,顶级金融计量期刊编审人

黄卓,北京大学国家发展研究院经济学副教授

杜晓梦,百分点首席数据科学家

黄伟,百分点研发总监

陈赟,北京大学国家发展研究院博士生

王靖一,北京大学国家发展研究院博士生

尤思宇,谷歌高级工程师(深度学习算法顾问)

北京大学国家发展研究院硕、博研究生、经济学双学位本科生、校外研究生也参与了相关工作。