基于时间序列的方面级网络舆情情感演化模型

董光文,袁 健

(上海理工大学 光电信息与计算机工程学院,上海 200093)

随着互联网的飞速发展,网络社交平台已经逐渐成为新兴的舆论载体。当面对一些热点新闻或者突发事件时,对网络社交平台中的相关言论进行有效分析,实时了解当前热点或新闻事件的舆情演变发展趋势,并在必要时采取行动施以重点监控,保障网络舆情平稳发展,从而为人们营造一个积极健康的良好网络环境。

常见的情感演化研究大多偏向于对静态文本的分析或以热门话题为基础进行主题词辨识,同时也要有海量数据作为支持,而舆情事件在热点初期却较难察觉,若能对舆论情感进行实时动态的细粒度分析就可以准确掌握舆情的动态和趋势,对舆情的预测和调整具有重要的实用价值。

1.1 情感分析研究

近年来,在情感分析领域,国内外学者已取得了可观成果,研究上也主要集中在情感极性分析、多分类情感分析和方面级情感分类三个方向。

常用的情感分析技术研发初期就是以情感词典为主的研究方法,这种方法需要依赖人工去构建词典,并要不断地扩充词典,情感分析效率并不高[1]。后来学者们分别使用有监督和无监督的机器学习方法来进行情感分析研究,在一些模型上取得了较好的效果,但在此过程中也需进行特征工程的构建,往往消耗不少人力[2-3]。目前,深度学习技术已经成为该领域主流的研究方法。特别是循环神经网络(RNN)、卷积神经网络(CNN)以及注意力机制在情感分析中的组合使用,使情感分析技术已然日臻成熟。Lv 等人[4]提出一种上下文和方面记忆网络(CAMN)方法来解决方面级情感分析问题,引入了深度记忆网络、双向长短期记忆网络和多重注意力机制,能够更好地捕捉文本中的情感特征,获得文本方面级情感分析结果。

1.2 情感演化研究

情感演变主要是对含有情感的主观信息进行分析,并从情感的态度和角度对情感在时间中的演变进行分析。面对各类突发情况下不断涌现的网络舆论热点事件,国内外的学术界从多个角度对其情感演变进行了全方位的分析和探讨。

在网络舆情情感演化分析方面,邢云菲等人[5]以“江歌案”为例,从情感的极端和情感的强弱入手,探讨了其演变及变化规律。钱进宝[6]以“穹顶之下”为例,建立以词汇相关性为基础的文字情感矢量模型,在K-medoids 中加入历史代价函数,可以对网络上的热门事件进行动态的情感演变分析,从而避免了以往仅限于对静止的数据进行分析的不足。戴杏云等人[7]在统计用户关系、用户影响力等指标的基础上,建立基于网络的动态情感图的分析模型,从而为控制和指导社会网络舆论提供了基础。张柳等人[8]以“学术不端”为例,从舆论发展的角度来分析情感演变的规律,运用了词云图和情感知识图谱,分别揭示了爆发期、蔓延期和衰退期用户使用高频率词和情感分配的演变规律。

综合前文论述可知,目前网络舆情情感演化的研究大多着重于舆情主题的挖掘、传播的特征和生命周期模型等方向展开研究。研究时则需要大量的数据做支撑,也就是只有当舆论成为热点时才能更好地选择准确的主题、抽取出特征或划分生命周期,而当某舆论处于发展阶段的初期时却较难被发现,这将导致舆论分析的效果欠佳。通常来说,人们对舆情的情感往往都是动态的,舆情情感的波动也会和某突发话题的发展趋势密切相关,若不考虑时间发展的维度,对网民们的情感动态演化很难做出有效判断。

基于此,本文引进了时间序列ARMA 模型,并在方面级情感分析CAMN 模型[4]的基础上,提出了基于时间序列的方面级网络舆情情感演化模型(Aspect -level network public opinion sentiment evolution model based on time series,ARMA-ALEE)。该模型的创新点如下:

(1)在方面级情感分析基础上获取方面词和情感极性,对方面词使用过滤和优化算法以提高其精度,并在方面词的基础上进一步提取主题词来做过滤优化后分析,进行更加细粒度的舆情演化分析。

(2)提出了ARMA-ALEE 情感动态演化模型,引入ARMA 时间序列模型,基于ARMA 对方面词、方面词强度和情感强度动态倾向性训练,实现网络舆情动态情感演化分析。

ARMA-ALEE 模型的整体结构如图1 所示,该模型先对实时文本数据集进行预处理,并按时间顺序进行划分,然后利用CAMN 模型对每个语料集进行处理,对处理后的结果进行方面词优化、情感强度计算和方面词强度的算法实现,接着将基于ARMA时间序列模型实现ARMA-ALEE 情感演化算法,最后进行情感演化分析及可视化。

图1 ARMA-ALEE 模型整体框架图Fig. 1 Overall framework diagram of ARMA-ALEE model

2.1 方面词的优化

使用主题词对舆情数据进行演化分析时,会有许多与数据集关联不大且没有实用价值的主题词,为了避免对网络舆情情感演化的影响,不少学者对无用主题的过滤也做了一定的研究[9]。本文将对文本数据中每个句子的方面级进行研究,确定每个句子的方面属性,采用方面属性代替主题词属性对网络舆情情感演化进行分析。

由于文本数据集中的长度参差不齐(尤其是针对微博),这就导致方面分类有时不精确、或者方面分类过多等问题,对网络舆情情感演化造成了一定的影响,本文将对文本数据集中获取的所有方面词进行优化操作。

2.1.1 方面词过滤框架

以时间为演化发展线索,利用CAMN 模型[4]获取到每个时间段内的方面词,对提取的方面词进行过滤处理,提高方面词对网络舆情中情感演化分析的效果。本文对方面词过滤的流程如图2 所示。由图2 可看到,首先把文本数据集以某个时间段为间隔划分开,将对应的数据集分配到相应的时间段内,基于CAMN 模型[4]获得每个时间段内的方面主题词及其个数。接下来,对方面词进行过滤,剔除一些没有价值的方面词,以防止在相邻时间段内对相关主题的辨识和判断。最后,通过算法对经过筛选后的方面词确定最优方面词个数和邻近时间段内方面词之间的相关性。

图2 方面词过滤图Fig. 2 Aspect words filtering diagram

2.1.2 时间段内方面词过滤

对于每个时间段内的方面词数,一些方面词在文本中出现的概率极低或毫无相关,不但加大运算的难度,还将导致与无关话题之间的不必要联系,从而对方面主题进行演化的正确分析产生不利的作用。如果一个方面词在数据集中出现的比例越高,那么该方面词在某个时间片段内的重要程度越大。相反,如果某个方面词在数据集中出现的比例越低,通常就可把该方面词视为不重要的词语,这种出现次数较少的方面词也不会形成网络舆论。本文对方面词进行过滤筛选分为2 个阶段,具体过程如下:

(1)基于方面词分布的边缘方面词辨识和筛选。利用CAMN 模型[4]获取到的方面词在每个时间段内分布概率差异较大,在同一时间段内发生频率较高的方面词,则是该时间段内较为核心的热点方面词,也是研究情感演化的关键因素。相反,出现概率较小的方面词,往往被边缘化或者说是毫无意义的,同时也会对情感演化的分析结果产生影响。因此,针对使用CAMN 模型[4]所获得的某个时间段内的方面词数,依据其在数据集中的分布情况来设定临界点,设定方式如下:在数据集中,计算每个方面词A累积的概率P,将一个时间段内的数据集总量N进行标准化处理,得出其在数据集中的权重值W,将权重W从大到小依次排序,并选取其平均值为筛选阈值,此处需用到的数学公式为:

其中,N表示数据集中所有方面词A的总数;
p(wi |z)表示单独一个方面词在N中所占的比例;
Pi表示单个方面词的累加概率之和;
Wi表示一个方面词在数据集中的权重。

(2)基于方面词分布的无用方面词的辨识和筛选。经过上一步筛选后,把方面词汇聚在一起进行概率的分布,这些方面词之间的关联意义通常是用来描绘某一话题相关意义或者发展趋势的。假如某方面词和大多数方面词毫无关系且也不具备发展联系,就会被视为无意义并筛选掉。

利用信息熵法对表达对象的方面词倾向性进行衡量。信息熵是一种信息不稳定的度量方法,一个方面词可以看作一系列随机的方面词,当其在数据集中出现的可能性越大时,其信息熵值越低,也就越能突出所要表达的内涵。对经过上一步筛选出的每个方面词进行信息熵计算,具体可由如下公式计算求得:

其中,Entropy(A)表示方面词A的信息熵;
Pj表示在方面词A中第j个词语出现的概率;
K表示一般的常数;
m表示方面词A中所包含的词语的个数。

2.1.3 相邻时间段内方面词相关性

在邻近时间段内的方面词中,仅有相互关联的方面词之间才可能会存在相互演化的关系。方面词的相似性是用来衡量方面词之间的相似程度,使用“方面词—单词”概率分布来计算方面词之间的相似性。

在相似度计算过程中,余弦相似度是用2 个矢量夹角的余弦值作为衡量矢量相似性的指标。经过滤后得到的每个时间段内的方面词是由一系列的词语组成,而不是以传统的字词矢量来表达,所以相对于余弦相似性,概率分布的距离公式在衡量方面词之间的相似度时略有优势。KL的离散、即KL距离或者相关熵是对同一时间点在2 种概率分布的重要度量,能够表示出2 个方面词之间的差异情况。当2 个方面词随机分布相同时,KL距离为0,而随着2 个方面词随机分配差异的加大,KL距离也随之增大。推得的计算公式可写为:

其中,KL(p‖q)表示2 个方面词概率分布为p和q的KL距离;
xi表示概率分布为p和q的第i个方面词;
n表示2 个概率分布为p和q的方面词的总个数。

由于KL散度是非对称化的,故根据其理论给出另一种变种JS散度,从而通过JS散度将KL散度转化为真实的距离度量,如式(6)所示:

JS散度的扩散系数一般为0 至1,JS散度的数值越低,则表示两者的相似度越高。

2.1.4 最优方面词的确定

经过方面词过滤算法处理后,每个时间段内方面词数量是不确定的,方面词的个数会影响对情感演化分析的效果。如果同一时间段内方面词个数太多,将会导致方面主题过于分散、且舆情方向过多,不能突出核心的演化方向。相反,如果同一时间段内方面词个数过少,舆情分析则容易向一个方向发展,就可能会忽略掉一些潜在的方面主题方向。

困惑度是衡量一个语言模型好坏的指标,困惑度越低,说明该模型具有较好的泛化能力[10]。给出的数学定义可表示为:

其中,Perplexity(D)表示该模型困惑度的大小;
D表示数据集中的测试集;
M表示测试集中含有的时间段数;
Nd表示第d个时间段中包含的方面词数量;
p(wd)表示第d个时间段中所含方面词分布的概率。

当潜在方面词的数量增多时,该模型的困惑度也就越低,但是往往会有一个拐点,表明该模型的泛化能力得到了显著的改善,从而可以通过这个拐点来估算方面词最佳数量。然而,仅靠困惑度来判断方面词数量通常不准确,还需要综合考虑其它的因素。

主题平均相似度是一种度量各个主题词之间相似度的平均差异程度的指标[11],通常使用JS散度对其进行较好的衡量,使用主题相似度来计算方面词的平均相似度,计算方法可由式(8)表示为:

其中,avgsim(Ti,Tj)表示所有方面词之间的方面平均相似度;
Ti和Tj分别表示不同的2 个方面词;
JS(Ti‖Tj)表示2 个方面词之间的JS散度。

JS离散指当2 个方面词的数值较大时,则表示相似性越大。当方面词数目增多时,方面词之间的相似程度总体上呈现上升的态势,但同时也会出现一个拐点。

当方面词数量增加时,方面词间的平均相似性会变大,而困惑度将会呈现变小的趋势,但也都会有显著的转折点,将二者结合起来确定最优的主题词个数,从而使模型的泛化能力得到显著的提高。

2.2 网络舆情情感演化实现方法

2.2.1 ARMA 时间序列模型

ARMA 时间序列模型也称为自回归移动平均模型,包括2 个方面:自回归模型(AR)和移动平均模型(MA)[12]。定义时间序列t =(t1,t2,…,tn),假设在一定的时间内,一个特定时间点的数值与前面的p个序列的数值和前面q个输入的随机干扰相关,从而可以对接下来的时间点进行预测。假定ti被前面p个时间顺序的数字所影响的自回归过程的计算方法具体见如下:

其中,η1,η2,…,ηp表示自回归系数,ei表示误差项。

在不同的时序上,误差项ei之间存在着相关性,其移动的平均值的计算方法如式(10)所示:

其中,μ1,μ2,…,μq表示移动的平均系数,εi表示白噪声序列。

联立式(9)~(10)得到ARMA 模型的计算公式,即:

进一步地,对ARMA 动态预测模型的流程步骤可做阐释分述如下:

Step 1首先对时间序列中的每个数值ti进行均值化处理,然后对数值ti进行稳定性检测。如果不稳定,就进行差分计算,直至差分后的数据平滑为止。

Step 2对稳定后的数据进行白噪声测试,当检测到平滑的白噪声数据时,利用自相关函数(ACF)和偏相关函数(PACF)求出ARMA 的阶p、q,并利用StatsModels 包来拟合ARMA(p,q),接着对不同组合(p,q)来计算最小信息准则AIC的值,接下来选择AIC(p,q)值中的最小阶数作为值(p,q)的估计。

Step 3利用最小二乘方法对所建立的模型进行求解,得到未知参数η和μ,对于i +1 时刻的动态预测计算方法见式(12):

其中,t"i表示零均值时间序列。

2.2.2 方面词强度计算

研究方面词强度在不同时间窗口内的发展趋向,能够反映出一个方面词的稳定性,能够把握一个方面主题的发展方向。用当前时间段内该方面词在所有方面词中所占的比例来表示,计算方法见式(13):

其中,AS(Ai)表示时间段内方面词Ai的强度;
P(Ai)表示一个方面词在时间段内出现的概率;
m表示一个时间段内方面词优化后的总数量。

2.2.3 情感强度计算

在进行方面级情感分类时,会根据每个方面词的情感极性值分成不同的类别,本文在进行情感强度计算时,选取时间段内的方面词并根据方面词的极性值进行累加求和得到该方面词的情感强度,计算方法的数学公式可表示为:

其中,EI(Ai)表示方面词Ai的情感强度;
PV(Ai)表示一个方面词的情感极性值;
m表示一个时间段内该方面词出现的次数。

2.2.4 情感演化算法实现

针对网上舆论活动中的文本数据进行动态方面级情感演化分析,本文给出了一种动态方面级情感演化分析模型ARMA-ALEE。ARMA-ALEE 情感动态演化模型的具体工作流程见如下。

输入网络舆情文本数据集

输出不同时间段内情感动态演化分析结果

Step 1对文本进行预处理。

Step 2舆情演化时间段划分。对数据集根据时间序列上的排序归类进行时间段的划分,本文以时间为单位把对应的数据集划分到一个时间段(根据具体情况以不同单位划分时间)。

Step 3使用CAMN 模型[4]对划分的每个时间段内的数据进行模型训练,获取每个时间段内的数据集所对应的方面词、情感极性值,并用标签进行标记。

Step 4方面词过滤和确定。根据式(1)~(4)方法筛选掉无用的方面词。根据式(7)~(8)确定最终的方面词个数。

Step 5方面词强度计算。根据式(13)求出每个方面词对应的方面词强度。

Step 6方面词相似度计算。根据式(5)~(6)求出方面词之间的相似度。

Step 7情感强度计算。根据式(14)求出方面词的情感强度。

Step 8以时间为线索统计数据集特征。将上述步骤中计算得出的方面词强度、情感极性值和方面词相似度按时序分段并合并成文本时间序列集合,数学表示形式如下:

Step 9网络舆情情感演化动态倾向性训练。把DT作为训练集输入到改进的ARMA-ALEE 模型中进行迭代训练,把损失函数降低到最小时得到最佳鲁棒性模型。将15%的训练集分割成验证集进行校验,然后在校验集上重复校验,获得最优化的超参量组合。接着将验证集和测试集结合,利用5 折交叉验证方法选取最佳模式,对i +1 时段下的情感趋势进行动态获取,以t"i+1的值作为该时间段内的舆情情感分析结果。

Step 10网络舆论情感演化分析。在划分的时间段内,根据每个时间段内情感倾向性结果得到每个时间段内方面词和情感极性的变化趋势,进而分析网络舆情情感演化的趋势。

3.1 实验数据集

本文以微博“北京冬奥会”为例,根据“北京冬奥会”关键字百度指数数据显示,这一舆情热点事件集中在2022 年2 月1 日至2022 年2 月25 日,本文爬取这25 天内的数据内容进行舆情情感分析。首先对爬取的数据文本进行预处理,对数据进行清洗,筛选掉一些无用的文本数据,最终获取到159 332条博文数据和67 213 672 条评论文本数据。

3.2 网络舆情情感演化分析

把数据集输入到模型中进行训练,得到“北京冬奥会”情感演化过程图,如图3 所示。

图3 网络舆情情感演化过程图Fig. 3 The evolution process of network public opinion

由于数据集过于庞大,本文选取2 月4 日至2月8 日爆发期的一段时间进行详细分析。根据情感演化方面词强度计算结果绘制出词云图,如图4 所示,本文根据图4 选取舆情热度较高的方面词“冰墩墩”进行分析,并获取该方面词的相关事件分析表,详见表1。

图4 舆情演化方面词词云图Fig. 4 Word cloud map of public opinion evolution

表1 “冰墩墩”情感演化事件分析表Tab.1 “Bingdundun” emotional evolution event analysis table

3.2.1 基于方面词的词频和主题的可视化分析

在数据集中,根据标签标注的方面词找到对应的文本句子,并将这些句子进行主题词提取优化处理(主题词优化方法同方面词优化方法),这样就可以清晰地看到该方面词所对应的主题词,进而便于进行细粒度的舆情分析。

词云图是文本数据集经过分词和去停用词等操作后,再进行词汇频率的统计,并对频率高的词汇在大小和颜色方面进行视觉上的对比,直观表现出文本数据集中所要表达的大致核心意思。本文对热度较高的方面词“冰墩墩”绘制出词云图,如图5 所示,由图5 便可直观得出该时间段内引起网友们对方面词“冰墩墩”高度关注的高频词汇。采用主题提取模型对该方面词内的主题词进行提取并对其优化处理,对应的主题提取表见表2。

表2 方面词“冰墩墩”主题词提取表Tab.2 The subject word extraction table of the aspect word“Bingdundun”

图5 方面词“冰墩墩”词云图Fig. 5 Word cloud map of the aspect word “Bingdundun”

3.2.2 方面词情感演化过程分析

方面词“冰墩墩”情感演化过程图如图6 所示。

图6 方面词“冰墩墩”情感演化过程图Fig. 6 The emotional evolution process diagram of the aspect word “Bingdundun”

从图6 中红线评论量曲线可以看出,网上关于冰墩墩的言论在2 月4 日之前也有一定的数量,随着冬奥会开幕式的来临,2 月4 日人气暴涨,达到了顶峰,在之后几天内的连续传播,并连续出现了高峰,仍有大量网民对此表达自己情感想法。对比情感极性中的积极、中性和消极三条曲线,人们对冰墩墩的评论始终是以积极的态度为主,只有少部分会产生中性和消极的情绪,这也说明了网民们对冰墩墩吉祥物的喜爱之情。

由图6 分析可知,蓝色积极情感极性曲线要远远高于橙色(中性)和绿色(消极)的曲线,分析其中的原因,在图5 中,可以看到“可爱”、“吉祥物”、“喜欢”等一些高频的词,体现出人们对“冰墩墩”所表达的积极情感,结合表2,在Topic1~6 这些主题词中,从“表达冬奥会开幕式的举办圆满成功、到表达对冬奥会上运动健儿的骄傲赞扬、到举办冬奥会中体现着中国科技的伟大、再到冰墩墩吉祥物和可爱等”言论中,大都体现着人们言论的积极情感。在图6 中,某些时间点人们也表达出了消极的情绪。在图5 中一些高频词“难买”、“抢购”等,这与网民出现情感消极的原因相关。在表2 的Topic7 主题词中,进一步表达出网民们的情感极性,表现出网民们对一墩难求的消极情感。

3.3 性能评价

为了验证ARMA-ALEE 模型的有效性,本文在准确率、召回率和F1值方面对模型的方面主题词的抽取和情感分类极性的判断性能进行评估。对数据集按时间顺序划分,选取3 个时间段内的数据作为验证数据集,并对这3 个时间段内的数据进行人工标注标记出主题词,选用TF-IDF、TF-IDF-Means主题提取算法和本文的模型算法进行比较,实验结果见表3。实验结果表明,本文提出的模型在主题词提取优化方面取得了较好的效果,其在准确率、召回率和F1值方面都取得了较好的结果。

表3 各种算法对主题词提取对比表Tab.3 Comparison table of various algorithms for subject word extraction

为了验证ARMA-ALEE 模型的效果是否可行,仍以上述选取的验证集作为实验数据,选取“JST 模型[13]”、“ASUM 模型[14]”和“主题-情感联合模型[15]”进行对比实验,实验结果见表4。

表4 各种模型情感演化性能评价表Tab.4 Emotional evolution performance evaluation table of various models

从表4 中可以看出,在验证数据集中模型ARMA-ALEE 在准确率、召回率和F1值三个指标上都有明显的提升,表明模型ARMA-ALEE 的性能是远远优于其它对比模型的。从实验结果分析可知,ARMA-ALEE 模型首先在方面级情感分析模型的基础上获取到方面词和情感极性值,又在ARMA 时间序列模型基础上对优化后的方面词、情感极性值和相似度进行训练,提高了舆情演化主题的准确率,并最终使用AMRA-ALEE 情感演化算法动态得到网络舆情情感演化结果。

为了提高主题词提取的精确度和实现动态网络舆情情感演化分析,本文提出了一种基于时间序列的方面级网络舆情情感演化ARMA-ALEE 模型。经实验验证,本文提出的ARMA-ALEE 模型在准确率、召回率和F1值方面都优于其它参考模型,证明了ARMA-ALEE 模型在对网络舆情动态情感演化分析上的优越性。由于新提出的模型要依赖于分类效果较好的方面级情感分析模型,这也是今后需要进一步深入研究的地方。

猜你喜欢 主题词时间段舆情 夏天晒太阳防病要注意时间段今日农业(2020年13期)2020-08-24《中国医学计算机成像杂志》2020 年第26 卷主题词索引中国医学计算机成像杂志(2020年6期)2020-03-14发朋友圈没人看是一种怎样的体验意林(2017年8期)2017-05-02消费舆情消费电子(2016年12期)2017-01-19舆情中国民政(2016年16期)2016-09-19舆情中国民政(2016年10期)2016-06-05舆情中国民政(2016年24期)2016-02-11《中国骨与关节杂志》2016 年第五卷英文主题词索引中国骨与关节杂志(2016年12期)2016-01-23不同时间段颅骨修补对脑血流动力学变化的影响医学研究杂志(2015年5期)2015-06-10我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词西北工业大学学报(2015年1期)2015-02-22

推荐访问:舆情 演化 序列