科技金融时报 数字报纸


00007版:【创新】

微博文本大数据挖掘的情感分析发现

  □ 湖州师范学院商学院院长 经济学博士 周建华教授

  从Twitter产生开始,微博就以它独特的媒介优势产生了巨大的影响力。中文微博产生虽然只有短短几年,但它的用户数和发帖量都成几何数增长,普通百姓、社会精英、政府机构、企业单位等具有了一个平等的话语平台和交流空间,在广大网络用户甚至整个社会中产生了深刻的反响。微博的独特优势使得微博成为民众获取信息、发布信息的首选载体之一,其涉及的领域也渗透到社会生活的各个方面。

  微博对金融和股市的发展也产生了深远影响,通过微博平台用户发布的消息分析投资者情绪,基于微博点击量和转发行为分析金融市场价格变化,微博用户情绪变化与股市收益、收益波动的相关性,基于微博情感和传播效果的股票价格预测,微博对股市多空双方报道的平衡性分析,微博舆情影响IPO抑价等都有了相关实证研究。微博中用户各种情感表达和产生的大数据直接影响了各级金融市场和股市的发展。

  在此背景下,不少学者从媒体传播、网络舆情等角度对微博展开了研究工作,史伟所著的《中文微博文本的大数据挖掘—情感分析的视角》从情感分析的独特视角,对微博中所蕴含的各种大数据进行了系统分析和挖掘,具有独特的价值和意义。

  此书开拓性地将微博文本所产生的大数据分为三种结构类型:一是结构化数据,用户注册微博时候所提交的个人信息、关注和被关注等所产生的数据;二是半结构化数据,如用户自己发布的信息、用户之间互动(转发、评论、私信)的信息等所产生的数据;三是非结构化数据,如用户的情感观点、在微博中留下的现实踪迹、用户之间互动等信息数据。针对这些微博文本中的大数据特点,此书提炼出“充分利用结构化数据,深度挖掘半结构化数据,有效开发非结构化数据,利用本体建模和情感分析技术,提升微博文本的语义理解力,进而探索微博用户情感及其演变规律”这一科学问题。

  概括起来,此书的主要观点,学术贡献和实践意义包括:

  一 建立了基于知网的模糊情感本体。目前多数情感词典和情感本体的构建都存在以下问题:(一)没有区分评价词和情感词,这两种词都是属于情感词汇,但它们在情感分析中的表达形式和作用是不一样的;(二)词汇情感语义大都采用精确的方法来描述,体现不出情感模糊的特点;(三)情感词汇隶属度确定的过程中大多采用模糊数学的方法(比如高斯函数等),方法单一,人工主观性明显。针对这些问题,本书将情感本体划分为评价词本体和情感词本体,利用模糊理论和知网相关概念,构建模糊情感本体的基本模型。根据评价词和情感词的各自特点,运用模糊化处理和语义相似度的相关理论,分别对模糊评价词本体和模糊情感词本体的情感类型和隶属度进行了相应处理。并通过与点互信息方法和NGD方法比较,验证了情感本体模型在自动获取情感类方面的有效性,最后进行了相关数据统计,总结了6862个评价词和2090个情感词为情感分析工作奠定了基础。

  二 提出了基于情感本体的微博文本特征识别和语义分析的方法。此书引入了情感空间模型,认为用户在线评论中的情感表达是多样的,既有针对产品特征的评价也有用户情绪的表达,挑选了8类情感类和2类观点评价类用于人工标注。对情感分析中的各类语义影响因素进行了量化分析,建立了从句子层到文档层的情感计算方法。在情感分析领域首次同时进行了产品特征评价和情绪分析工作,并研究了特征评价和情感类之间的关联关系。这些分析研究为微博文本全面地情感分析提供了技术参考。

  三 微博文本的半结构化数据挖掘。此书这部分主要是将基于语义和情感本体的情感分析技术应用于中文微博平台,对微博平台的产品(服务)评价和公众情绪进行了研究。针对产品评论运用规范化的TFIDF加权方法提取产品特征,结合已建立的模糊评价词本体和BMI方法进行了产品特征评价词提取,结合模糊评价词本体和微博文本中的语义因素构建了微博中产品评论的情感类型和强度计算方法。以新浪微博为平台分析了突发事件后公众的情绪状态和变化。提取八维情感类,应用已构建的模糊情感词本体,建立了微博文本的影响力和情感强度计算方法,这些方法可以为政府和相关部门通过微博进行舆情监测和分析提供参考。

  四 微博文本的非结构化数据开发。此书基于微博的情感分析进行了产品销量预测,通过构建的模糊情感本体和微博中的语义因素对微博文本进行情感计算,并将情感信息融入到自回归模型中,建立自回归情感预测模型,根据以往的票房和观众在微博中的情感表现对电影将来的票房进行预测,通过实验与其它模型(未考虑情感因素)比较,发现他的方法较其它方法具有更好的准确性和应用性。

  本书的优点很多,但诚如作者所言,依然任重道远,尚有许多有待进一步深入进行的研究工作:1.可以继续完善模糊情感本体的构建研究,纳入更多的情感词汇,建设更加全面的情感分析工具,除了情感本体,还可以建立产品特征本体库用于产品评论的挖掘。2.进一步研究基于语义的情感分析技术。中文中除了本文分析的语义因素外还有一些其它的语义因素也可以考虑,对于一些语义因素的处理也可以更加完善,情感分析中包括产品特征获取、情感计算方法、特征观点确定等方面都可以进行深入地研究。3.拓展对微博平台的应用研究,微博文本相较与其它Web文本有其自身的特点,将更多微博文本特点融入到其情感分析技术中,更深入地对微博文本进行情感分析的研究。


科技金融时报 【创新】 00007 微博文本大数据挖掘的情感分析发现 2019-04-09 2 2019年04月09日 星期二