腾讯分分彩组三杀号 > 数据挖掘 >

基于网络大数据挖掘的实证资产定价研究进展

2018-07-05 23:09

  内容提要:随着计算机科学的飞速发展和互联网的广泛使用,互联网记录了人们越来越多的网络行为,网络大数据为分析投资者关注和投资者情绪提供了可能,基于网络大数据挖掘的实证资产定价逐渐引起了国内外学者的重视。本文总结了近年文献中网络大数据与投资者关注和投资者情绪的主要研究方法,整理了基于四种类型网络大数据的研究,包括网络新闻数据、搜索引擎数据、社交网络数据和网络论坛数据,分析了投资者关注和投资者情绪对资产价格影响及其传递机制。

  传统经济理论一般认为股票市场是有效的,即资产价格已经反映了资产的全部信息,投资者不能获得经市场调整后的超额收益。然而,从20世纪80年代开始,金融市场的过度波动以及大量的市场异象,如盈余公告效应、动量效应、反转效应等不能被经典金融理论所解释。有效市场假说不断遭遇挑战和质疑,为了寻求解释,许多金融经济学家开始将注意力转向行为金融学。目前,行为金融领域的研究主要可以分为市场非有效性和投资者行为两方面。其中,在对投资者行为的研究中,如何准确刻画投资者的心理和行为至关重要。得益于互联网的飞速发展,投资者在使用互联网的过程中产生了大量信息,这些信息为刻画投资者行为和揭示投资者心理提供了新的思路。

  网络大数据已经引起了金融研究者的重视,这些研究主要集中在投资者关注和投资者情绪上。市场上的信息只有被投资者关注,其才能通过投资者的交易行为反映到资产价格中,而情绪则可以看成投资者在关注到信息之后对信息内容持有的平均乐观或悲观的程度。由于投资者关注和投资者情绪是市场反应前后相扣的两环,又都能通过大数据直接进行观察和度量,如果只从其中一个视角进行评述,将难以揭示网络大数据在实证资产定价中的适用性和规律性。本文首先评述了传统的投资者关注和情绪的研究文献,主要包括投资者关注和情绪的度量方法以及投资者关注和情绪与资产定价的相互关系和内在机制;然后,分类评述运用网络大数据进行资产定价的研究以及各资产数据下的具体度量方法、研究对象和研究结论。考虑到目前的研究趋势,本文对基于网络大数据挖掘的实证资产定价的研究进行了总结和归纳,希望能借此更好地理解二者的联系,并为以后的研究提供一些思路和启发。

  投资者关注是行为金融学一个重要研究主题。投资者由于时间和精力有限,无法在考虑所有股票后做出投资决策,只有当投资者注意到市场上的信息后,才会对这些信息做出反应,进而影响资产价格。投资者情绪对金融资产价格的影响也是行为金融学近年兴起的一个重要研究主题。传统资本资产定价理论和有效市场假说都假设投资者完全理性以及投资者具有同质预期。现实生活中由于有限关注等原因,投资者同质信念遭到挑战,不同投资者对资产未来价格持有不同情绪,进而影响资产价格。

  根据数据来源的不同,传统的投资者关注的度量方式可以分为以下两种:第一种方式是利用金融资产的交易特点度量投资者关注度。通常的做法是使用交易量、换手率、成交量等变量测度股票是否受到了投资者关注。第二种方式是基于财务报表和公告数据测度投资者关注。Grullon et al (2004)、Chemmanur & Yan (2009)使用广告费和营销方式代理投资者关注。Jiang(2012)使用共同基金的促销数据,包括费率折扣购买渠道、费率折扣代理商数量以及分销商中经纪公司和银行的数量,证明了共同基金通过促销能够吸引投资者关注,从而吸收资金净流入。

  根据情绪评价指标的客观性,投资者情绪的度量方式主要可以分为三种:第一种是用金融资产的交易特点等客观数据度量投资者情绪,包括使用封闭式基金的折价率、IPO数量及首日收益、新增投资者开户数等与市场交易相关的变量测度投资者情绪;第二种方式是通过分析公司董事、管理人员和分析师等人的情绪或者直接使用其他机构提供的市场情绪指标等主观指标度量投资者情绪;第三种方式是结合几种情绪代理变量,生成新的情绪度量指标,其中较为有代表性的为Baker & Wurgler(2006),他们基于封闭式基金折价、股票周转率、IPO数量、IPO首日回报率、股利溢价、股票新发行量六个变量,运用主成分方法构建了反映投资者情绪的BW指数,并能较好地预测股价;Huang et al(2014)运用PLS方法改进了BW投资者情绪指数的测度方法,提高了情绪指标在股票总体市场和在横截面上的预测力。

  以上数据能在一定程度上度量投资者关注和投资者情绪,但这些数据仍存在以下弊端:第一,传统数据缺乏对投资者关注和情绪的直接度量。第二,传统数据种类单一,缺乏以投资者为对象的数据,为深入研究投资者行为和心理带来了阻碍。第三,大多传统数据数量较少,计量误差较大。

  相较传统交易数据或财务报表数据,网络大数据具有其独特的优势:(1)规模性。网络数据的巨大规模为相关研究提供了理想的计量样本,提高了数据处理的容错率,保证了计量结果的准确性。(2)多样性。网络数据既包括投资者主动留下的信息,如个人基本信息、生活记录、网络留言等,又包括投资者非刻意留下的数据,如上网习惯、社交关系和情绪等。这些数据正是网络大数据用以刻画投资者心理和行为的关键优势。(3)高速性。网络大数据每时每刻都在记录着投资者的行为,能够直接揭示投资者心理状态。但同时,网络大数据中存在着较多噪声,研究者需要具备一定的大数据处理能力,以获得干净数据。

  常见被用来测度投资者关注和情绪的数据来源有以下四种:网络新闻数据、搜索引擎数据、社交网络数据以及网络论坛数据。根据2016的中国网民互联网应用的使用率数据,以上四类应用的网民使用率分别为:84%(网络新闻)、82.4%(搜索引擎)、37.1%(仅指微博)和16.5%(网络论坛)。四类数据来源同时也呈现出了相互影响、协同加强的新特点(表1总结了网络大数据挖掘与资产定价主要研究和结论)。

  在投资者关注方面,近年来运用网络搜索和社交网络等数据的文章发现,投资者关注能够较好地预测个股收益率和波动性、市场收益率和波动性、基金资金净流入等金融资产变量。投资者关注的度量以计数为中心思想,即通过统计网络大数据中能够反映投资者关注或者能够吸引投资者关注的变量来实现。下文列出了文献中常见的投资者关注度量方法,其中新闻覆盖率法和业绩排名法仍为被动型指标,而搜索量和发帖量则是主动型指标。

  1.新闻覆盖率法。许多研究使用证券或者上市公司被媒体报道的新闻报道的绝对数量、频率以及相对其他证券或者上市公司被报道的相对比率测度投资者关注度。Barber & Odean(2008)基于道琼斯新闻服务社每日推送内容中涉及的上市公司数量构建了指标。Sirri & Tufano(1980)使用了共同基金出现的新闻报道加权数衡量媒体关注度,并将媒体关注度看作投资者搜索成本的代理变量。Kaniel et al(2007)使用了新闻是否报道某基金以及被报道的频率作为媒体关注的代理变量,他们认为新闻报道的数量可以反映关注度的深度,而新闻报道的传播量则反映了关注度的广度,关注度的广度比关注度的深度对基金资金净流入的影响更大。Solomon et al(2014)使用报道比率衡量基金投资者的关注度,发现过去业绩好的基金中,被媒体报道的基金会吸引资金流入,而没有被媒体报道的基金的资金流入没有明显变化。Dzieliński et al(2018)将分析师数量作为投资者关注的代理变量,发现投资者关注在市场行情差的情况下更强烈,这种关注度的不对称性会影响股票收益率波动性的不对称性。

  2.业绩排名法。Seasholes & Wu (2007)发现股票交易的涨停报道会影响投资者的关注度并引起股价上涨,但一周内股价会出现向均值回调的现象。业绩排名法较多地被用在基金的投资者关注研究上,不少媒体定期根据基金业绩对基金进行排序,并且认为排序越高,越容易吸引投资者关注。基金业绩排名能够预测过去业绩不佳的基金的未来表现;排名较好的基金能够显著吸引大量资金流入。此外,基金的排名变化与资金流动净方向一致,基金星级的提高会增加基金的资金净流入(Guercio & Tkac,2008)。业绩排名法存在一定的内生性问题,因为存在这样一种可能:基金的业绩本身吸引眼球,从而影响后续资金流,而不是媒体报道行为所致。Kaniel & Parham (2017)采用了新颖的自然实验排除了排名所传达的信息干扰,证明了关注度与消费者投资行为之间的因果关系。他们的研究表明,相比那些没有进入华尔街日报基金业绩排名的基金,排名突出的基金的下季度资金净流入会显著增长31%。

  3.发帖量法。发帖量包括网络论坛针对某一只股票或基金的留言,也包括社交网络中博主发布的博客和微博等。使用发帖量衡量投资者关注的实证文献较为丰富。Antweiler & Frank(2004)基于雅虎财经和Raging Bull上关于道琼斯工业平均指数和道琼斯互联网指数中的45家公司的150万条帖子构造了投资者关注度指标,发现发帖数量可以预测每天的股价波动率和日内股价波动率。Leung & Ton(2015)通过对澳洲股票市场的HotCopper网站上的250万条发帖进行分析发现,发帖数量能够正向预测小盘股的回报率,并且在之后几天股价不会回落到之前的水平。Tumarkin & Whitelaw (2001)对Raging Bull上的发帖量进行统计分析发现,对于互联网行业的股票,当日超额发帖量与回报率和交易量的确相关,但无法预测未来的回报率和交易量。Sabherwal et al(2011)利用The lion网站每天公布当天网站内被讨论热度最高的十只股票进行研究发现,这些股票在上榜的前两天股价上涨,后两天股价下跌。

  4.搜索量法。基于网络搜索量来衡量投资者关注度的方法最早由Da et al(2011)提出。他将谷歌每周对股票代码的搜索量指数SVI(Search Volume Index)作为衡量关注度的变量。结果表明,高的搜索量预示着未来两周较大幅度的股价上涨,随后发生反转。根据对搜索对象的定义的不同,构建基于搜索量的投资者关注度指标的方法主要有以下两种:第一种方式是基于证券股票代码的搜索指数,如Da et al(2011)。第二种方式是基于证券简称或公司名称或关键字的搜索指数,如Tantaopas et al(2016)基于关键字的谷歌搜索量指数(SVI)探讨了投资者关注对各亚太地区股票市场的回报率、波动性和交易量的影响,证明了投资者关注能够降低回报率和波动性的可预测性,提高市场效率。

  投资者情绪的度量方法以分类为中心思想,通过文本分析将网络大数据中有效信息分为积极的情绪、消极的情绪以及中立的情绪。由于投资者情绪以人类语言即文本数据的形式存在于网络大数据中,因此分析文本数据的感情色彩是度量情绪的关键。而文本数据本身存在着字意复杂、词语歧义、句型多样等特点,计算机无法直接进行识别和计算,如何简化和提取文本的非结构化情绪信息是文本分析的关键。下面将对文献中主要的三种文本分类方法进行介绍。

  1.词汇分类法。该分类法是通过使用已经完成情感倾向分类的字典为比对,判断目标文本中词汇的情感倾向,并将某一类词汇在整个文本中出现的次数除以文本总字数得到文本的最终情感倾向。比如,积极词汇的比值越高则反映文本中积极情绪越高。针对英文词汇分类的字典较多,其中以《洛克伦与麦克唐纳字典》最为完备和严谨,近年来被广泛运用在该领域的研究中(Solomon et al,2014)。

  2.朴素贝叶斯分类法。该分类法是一种使用概率论进行分类的方法,通过利用类别的先验概率和特征分布相对于类别的条件概率计算文档类型的概率,是一种发展较为成熟的分类算法。Huang et al(2014)运用了朴素贝叶斯分类法分析了标准普尔500指数包含的公司的30多万份分析师报道,从中提取出积极情绪和消极情绪,发现分析师报告中的情绪积极程度能较好地预测该公司未来五年盈利增长情况。

  3.k-邻近分类法。该分类法使用矩阵进行分类,是最简单的分类算法,也是被研究者使用较多的分类方法。其主要思路是将待分类的文本与训练集文本进行比较,选取与训练集文本最接近的k篇文本,计算这k篇文本与待分类文本的相似度和权重,将待分类文本分到权重最大的类别中,从而完成分类。k-邻近分类法的优点在于算法思想简单,容易实现;缺点是分类不够精准,对于每个待分类的样本都需要一一计算其与训练样本的距离,计算量较大。

  上述三种分类方法中,朴素贝叶斯分类法和k-邻近分类法是两种机器学习的监督学习分类算法,也是近年被使用较多的分类方法。监督学习的思想是输入样本集,计算机从中计算目标变量的可能值,从而取得较为准确的结果。但这种方法也存在问题:如训练集通常由人工分类得到,缺乏统一的规范和标准。监督学习还包括决策树算法、支持向量机算法、Adaboost算法和Logisitic回归法(Harrington,2012)。原则上,这些算法都可以运用在文本分析情绪上,但文献中较多使用朴素贝叶斯分类法和k-邻近分类法,因此本文特别列出。

  从文本中提取出情绪信息之后,需要进一步对已分类的数据构建投资者情绪指标。文献上通常的做法是基于分类结果构建看涨指标和情绪分歧指标,然后通过实证方法验证指标与资产价格的影响。看涨指标以Antweiler & Frank(2004)提出的文本情绪指标为代表,较多文献引用该方法或者在此基础上稍作修改。Antweiler & Frank (2004)对发布在雅虎财经上150万条消息进行了文本分析,根据文本的看涨、看跌和中立情绪将文本分为三类,然后对分类后的数据构建了市场总体涨跌指标。

  网络新闻指媒体在互联网上发布的新闻,包括股票分析或上市公司动态等内容,被诸多学者用以研究投资者关注和情绪与资产价格之间的相关性。总的来说,基于网络新闻的数据具有数量大、时效高和种类多的特点。网络新闻并不能直接代理投资者对证券的关注,只有当投资者接收到这些信息后,才会对相应证券投以关注,Dzieliński et al(2018)还认为,投资者往往在市场行情差的情况下更愿意关注网络新闻。因此,基于网络新闻数据的度量方法仍然是一种间接的度量方法。

  基于新闻的投资者关注对股票价格的影响机制存在以下三种解释:(1)信息风险假说。当投资者个人面临较大搜索成本时,将会把媒体提到的金融工具纳入考虑(Merton,1987)。没有被新闻报道的股票受到低的投资者关注,因此具有更大的信息不对称性,需要更高的收益率作为风险补偿。(2)基于卖空限制市场下的价格压力假说。在卖空受限的市场下,投资者更可能买入新闻中的股票。一些学者发现,那些被新闻提到的公司即使不带积极或消极情绪,也比没有任何新闻的公司股票收益高。另一方面,从投资者情绪的角度,异质信念在卖空限制的条件下使悲观者的情绪无法表达,而乐观者会买入股票。在这种解释下,基于新闻的投资者关注度与股票收益率正相关。(3)基于有限关注的过度关注弱势理论。该理论认为短期内由于卖空限制,投资者对高关注的股票过度反应会导致股票收益率增加和交易量增加,但长期而言,投资者逐渐认识到资产价格缺乏基本面支撑,股价将回落到正常水平。因此股票收益率和关注度之间呈现短期正相关而长期负相关的关系。

  研究还发现,当基金家族出现了一只吸引投资者关注的基金时,投资者往往会认为该家族的其他基金也拥有相似的特质,从而会增加对基金家族的申购,受关注的基金产生明显的正向溢出效应。Kaniel & Parham(2017)以出现在华尔街日报上的基金业绩排名作为反映投资者关注的变量,发现排名突出的基金的资金流入会显著增加,同时其基金家族里的其他基金的资金流入也会显著增加,特别是那些小的基金家族。

  网络新闻可以被分为两种类型:客观类型和主观类型。客观类型指客观描述事件的新闻,主观类型指媒体通过调查和分析做出的具有倾向性的报道。正因如此,针对同一事件,不同的网络媒体会发布不完全相同甚至观点迥异的新闻。这些具有感情色彩的新闻评述会向大众传递积极或消极的情绪。Tetlock et al(2008)基于华尔街日报股票新闻构建了情绪指数,研究发现悲观情绪会导致股价下跌。Heston & Sinha(2015)使用路透社新闻数据,发现新闻中传递积极情绪多的公司在一周内股票收益率更高,而传递消极情绪多的公司在未来的一个季度内股票收益率更低。尽管文献就媒体报道覆盖率对股价的影响做了全面的研究,但新闻媒体报道与股票收益率之间的内生性问题一直难以克服,比如,即使证明新闻覆盖率与股票收益率存在正相关关系,也无法确定股价变动是由新闻覆盖率引发的投资者关注所带来。公司的利好新闻反映了公司较好的基本面情况,而较好的基本面情况本身就可能促使股价上涨。

  互联网搜索引擎的发展和移动设备的普及使人们能随时随地对吸引其注意的事物获取进一步的信息。投资者对证券的关注直接地体现在对相关证券信息的搜索中。基于搜索引擎的数据挖掘被学术界广泛用于研究投资者关注与资产价格之间的关系。

  根据研究结论的不同,此类文献主要可以分为以下三类:(1)研究投资者关注度与股票收益率之间的关系。多数学者支持过度关注弱势理论,认为股价在经历短期的高价之后将进入反转状态。另有研究表明,投资者关注与未来收益率负相关。(2)分析投资者关注度与个股股价波动率、市场波动率之间的关系。Andrei & Hasler(2015)认为投资者关注和不确定性都是资产定价的关键因素,并在理论框架下探究了投资者对信息的关注和对不确定性的学习对资产定价的共同作用。根据该模型,股票回报率的波动性和风险溢价都随着关注度和不确定性的增加而增加,并且呈现出二次性的关系。(3)探究投资者关注度对市场效率的影响。Preis et al(2013)发现搜索量与交易量正相关。Ben-Rephael et al(2017)认为机构投资者的关注引导了个人投资者关注,从而促进市场对新信息的消化,导致资产价格发生变化。

  除了直接利用搜索引擎数据外,还有部分学者使用金融终端内的搜索量作为投资者关注的度量指标。如Ben-Rephael et al(2017)将机构投资者关注和个人投资者关注加以区分:根据彭博金融终端上投资者对股票的新闻搜索和新闻阅读行为构建机构投资者异常关注指标,而将谷歌搜索行为视为个人投资者关注,研究发现,机构投资者对新闻事件的反应更加迅速。此外,也有学者将来源不同的数据量人工合成新的变量来衡量投资者关注。Drake et al(2012)使用网络搜索数据指数(SVI)、分析师预测公告、新闻报道以及上市公司季报和年报的下载量四个方面的搜索数据合成了新的度量指标。

  关键词所体现的情绪也被用来研究资产价格走势。Da et al(2011)基于2004-2011年间谷歌搜索中负面情绪的关键词数量构建了反映金融和经济态度的指标,研究发现,该指标能够预测短期股价反转、短期的股价波动率变化情况和共同基金的资金流出。Gao et al(2016)使用2004-2014年间40个国家的每周谷歌搜索中与经济相关的、排在前30个的、积极和消极词语的搜索指数构建投资者情绪指数,发现40个国家的数据都呈现出情绪与下周市场回报率负相关的关系,并且证明了当期情绪与市场回报率存在同步性。此外,他们还发现在信息程度更透明的市场上,投资者对情绪的反应更小,情绪对回报率的影响更小;在卖空限制下,市场纠正错误定价的能力下降,情绪对回报率的影响更大,并且积极情绪比消极情绪对市场的影响更大。

  Facebook、Twitter、微博、博客等社交网络是人们信息传递和交流的重要平台。基于社交网络的数据有以下两个特点:(1)社交网络的分享功能使得任何消息都能够迅速传播,为研究投资者关注与市场对信息的反应提供了合适的样本。一方面,根据DeMarzo et al(2001)的研究,由于人们往往高估其他人的意见,因此成为有影响力的发言者将有利可图,当市场均衡时,所有参与者都愿意从别人获取信息尤其是从一些更有影响力的人那里获取信息;另一方面,一旦人们通过学习形成了自己的观点,他们倾向于向其他个体传播。(2)不同于网络论坛上具有针对性的发帖,社交网络数据记录了大量独立的情绪,有利于研究异质性风险与市场效率。信息在社交网络中扩散,由于个人在网络中所处的位置差异,不同的个体收到信息的速度也不一样,因此个体形成信念或者情绪的速度不一样。投资者情绪不断影响投资者行为,最终影响资产价格。

  社交网络为实证研究投资者情绪提供了新颖便利的数据。Bar-Haim et al(2011)对StockTwits网站中人们发布内容的本文分类,将文本分为看涨和看跌两类,分析其与股票走势的关系,并将预测准确的发布者视为专家。Liew & Budavari(2017)根据StockTwits网站的发帖窗口为用户提供了点击看涨或看跌的选择,使用该网站2012年1月至2015年10月的发帖及用户自定义的情绪数据对情绪是否能预测股票超额收益率展开了研究,发现情绪可以作为资产定价的另一种因子。

  较多学者都使用了来自Twitter网站的大数据。Bollen et al(2011)将Twitter网站上人们的发布内容按照其体现的情绪差异分为六类:平静的警惕的确定的活力的宽容的愉快的,发现平静的情绪可以较为准确地预测道琼斯工业平均指数的变动。尽管他们的研究表明Twitter体现的情绪与股票市场相关,但并未将其与个股的价格走势联系起来。Liu et al(2015)分析了NYSE和NASDAQ市场上两只股票指数的走势与Twitter情绪的同步性,结果表明,拥有Twitter账户的公司的股票具有更高的同步性。Rao & Srivastava(2012)在研究了股票价格短期走势与情绪之后也得出了类似结论,他们认为短期的情绪在指数市场、股票市场和债券市场上扮演着重要的角色。Yu et al(2013)认为诸如Twitter的社交网络比传统媒体对股市具有更大的影响力。Leitch & Sherif(2017)基于对Twitter内容的数据挖掘构建了Twitter情绪得分,并发现该分数与同期股票回报率负相关。

  另有一些学者使用了Facebook网站中的数据。Siganos et al(2014)使用Facebook提供的情绪指数研究了情绪对金融市场的影响。不同于De Long et al(1990)提出的情绪的积极程度与股票收益率负相关,Siganos et al (2014)发现Facebook情绪指数与股票收益率正相关。此外,Sun et al (2016)使用Marketpsych网站从每天新闻内容和社交媒体内容中提取的各国金融市场情绪的数据研究发现,滞后半小时的投资者情绪能够预测日内标普500指数的回报率。

  投资者能在网络论坛通过发帖和留言实现互动。网络论坛主要指具备论坛功能的财经类网站,如东方财富股吧和雪球网。个人投资者可以在这些网站发布对证券市场的看法,以及阅读和评论别人的评论。在分析投资者行为和心理的研究中,基于网络论坛的数据具有显著优势:第一,网络论坛发帖内容能第一时间反映投资者关注和情绪;第二,网络论坛的发帖内容包含投资者的分歧意见,而情绪分歧与市场交易的发生相关;第三,网络论坛的发帖内容还包含部分非公开信息,而这些信息对预测股票收益率有显著作用;第四,财经类网络论坛具有一定的专业性,发帖者和阅读者有一定的金融市场知识,排除了一部分网络噪声。

  发帖量是一种能够直接度量投资者关注的指标。根据实证研究对象的不同,这类研究又可以分为以下三小类:(1)探究发帖量与股票未来收益之间的关系。较多研究发现高发帖数量与未来低回报率相关,这些结果可以为信息风险假说提供证明,即关注度低的股票信息不对称性更大,风险更大,所以需要更高的回报率作为补偿。也有一些学者证明,发帖数量能够正向预测小盘股的回报率,并且在之后几天不会发展反转。Sabherwal et al(2011)则发现股票在被热烈讨论的前一日和当日表现显著为正的超额收益,在之后两天变现出显著为负的超额收益。(2)研究发帖量的增加是否会引发更大的股价波动率。Antweiler & Frank (2004)认为发帖数量可以预测每天的股价波动率和日内股价波动率。(3)将发帖量的高低与成交量的高低相联系。多数学者都证明了发帖量增加会带来交易量的增加。

  学术界不仅针对网络论坛的发帖量展开投资者关注的研究,还对发帖内容进行分析,进一步判断投资者情绪与资产价格之间的关系。市场参与者之间的交流对于市场均衡具有重要作用,当投资者得知存在其他投资者与他持有相同的观点时可能将会参与交易。相关研究主要围绕以下两方面展开:从网络论坛文本提取的看涨程度指标是否能预测股票回报率和股票价格波动率?更大的情绪分歧是否与短期更大的成交量相联系?

  研究者对看涨程度对股票收益和波动性的影响尚未达成一致看法。Antweiler & Frank(2004)认为看涨指标无法预测股票收益率和波动性。而Sabherwal et al (2011)使用同样的指标计算了The lion网站帖子的看涨指标,表明该指标在对股票收益率、波动性和小盘股的成交量上,比发帖量和意见分歧指标具有更好的解释力。根据他们的研究,看涨指数与同期股票收益率正相关,与第二天的股票收益率负相关;与同期股价波动和第二天的日内股价波动率负相关。现有金融理论为回答分歧程度对成交量的影响提供了两种截然不同的观点。传统金融理论认为意见分歧有利于促进交易。而基于Milgrom & Stokey (1982)无交易理论,理性投资者在做交易决策时,会首先考虑对方与自己交易的动机,然后修正自己所获得的信息偏误和对市场的信念,导致交易终止。现有文献普遍支持更大的情绪分歧会增加交易量的观点。

  国内近几年来也涌现大量基于网络大数据挖掘的实证资产定价研究。刘锋等(2014)用媒体每日发布和转载的上市公司及其股票相关的新闻数量测度媒体关注度,发现投资者关注度与当期的股票收益率具有正相关关系,而媒体关注度与当期股票收益率具有负相关关系。宋双杰等(2011)基于谷歌搜索数据研究发现,IPO前的投资者关注引起的股票价格过度反应是造成首日高超额收益的重要原因,长期股价将随投资者关注度水平的正常化而向内在价值回归。俞庆进和张兵(2012)使用百度指数上证券简称和证券代码之和构建投资者关注度指标,发现非交易日的投资者关注度将显著影响下一交易日股票集合竞价时的价格跳跃。饶育蕾等(2010)通过考察基于新浪新闻的关注度发现,关注度越高的公司在未来一个月内的收益率越低,为基于有限关注的过度关注弱势理论提供了有力证据。朱南丽等(2017)发现基于新浪博客和微博数据的投资者关注度代理变量能够及时反映投资者对股票市场的关注度。刘海飞等(2017)用上市公司微博号的博文数量和粉丝数量构建了关注度指标,证明了上市公司的微博平台能显著影响股价同步性。唐国豪等(2016)对文本挖掘金融市场情绪的文献做出了较为详细的综述。杨晓兰等(2016)以股吧发帖内容为研究对象,使用k-邻近分类法将文本分为:积极、消极和中立三类,就投资者情绪倾向对股票市场的影响进行了研究,发现本地关注对股票收益率的影响取决于情绪。

  人们在参与金融活动时伴随着自主性、学习性以及人同社会互动产生的交互性,因此对于参与金融活动的人的心理和行为的分析难度较大。在互联网尚未兴起之前,此类研究面临较大挑战。得益于互联网的发展和网络大数据的可获得性,学者可以通过观察人的网络行为揭示投资者心理状态,分析投资者关注和情绪与资本市场的相关性。本文梳理了近年来资产定价领域通过网络大数据挖掘分析投资者心理与行为的研究。国外学者使用网络大数据挖掘开启了资产定价领域研究的新范式。国内相关的实证研究才刚刚起步,理论研究则更为稀少。网络大数据的处理和挖掘需要较大工作量。一方面,网络大数据多为非结构性数据,需要通过网络爬虫程序获得;另一方面,只有通过专业和深度的分析,才能发挥大数据自身优势,挖掘其蕴藏的研究价值。随着网络大数据的可得性不断提高,数据的来源渠道广泛,如何寻找高效、高质的数据具有十分重要的意义。

  进一步发挥网络大数据优势,既有利于实现数据的自身价值,又为资产定价领域提供了新颖的研究思路。我国学者应该重视该领域的研究:一是利用网络大数据构建的投资策略能否获得超过市场的收益;二是通过网络大数据检验政策能否促进证券市场效率;三是运用网络行为数据检验行为金融学经典理论,如过度自信和反应不足等行为偏差。