基于时序心脏模型样本均衡方法的心律失常分类

徐永红 王金萍 马佳越

(燕山大学电气工程学院,河北 秦皇岛 066004)

心血管疾病(cardiovascular disease,CVD)是全球发病率和死亡率最高的疾病之一。

美国国家健康与营养调查(The National Health and Nutrition Examination Survey,NHANES)2015-2018年数据显示,20 岁成年人CVD(包括冠心病,心衰,中风和高血压)的患病率总体为49.2%,且随年龄增长而增加[1]。

心律失常作为心血管疾病中的一种重要疾病,具有隐蔽性和突发性,不仅能单独发病,还能和其他疾病伴发。

心电图(electrocardiogram,ECG)作为一种低成本、无创的测试方法广泛应用于CVD 临床治疗,能够检测各种心血管疾病,如心肌梗死[2]和心律失常[3-4]。

通常心跳节拍由一个固定的PQRS-T 序列组成,临床分析中通常结合单个心拍的形态(振幅、宽度和形状)以及心拍间隔了解心脏状况[5-6]。

研究过程中,样本不均衡现象对于心律失常分类算法存在着不良影响,由于医疗数据的敏感性,使得数据的获取和应用受到严格的控制和监管[7]。因此,生成不含有任何个人细节的合成数据成为目前形势下的一种有效解决办法。

Clifford 等[8]根据三维矢量心电图公式,使用高斯核和为患者生成正常心脏偶极子,异常心拍被认为是对正常偶极子的扰动或新的偶极子轨迹。

利用一阶马尔科夫链实现正常和异常心拍之间的转换。

Li 等[9]基于数据流图生成心电信号,将P 波、QRS 波和T 波视为心电信号的一个片段,并对该片段进行时间序列处理,合成完整心拍。

心电信号的数据流图模型可用于心电信号发生器的设计。

McLachlan 等[10]提出在不使用真实电子健康记录的情况下生成接近真实的合成心电波形。

Mario 等[11]在Ryzhii 等[12]的基础上在心率变异性(heart rate variability,HRV)频谱中引入了呼吸性窦性心律失常和Mayer 波,生成了具有类HRV 谱的12 导联心电信号,可拟合真实受试者的临床心电图。

近年来,深度学习的快速发展使其在语音识别[13]、图像识别[14]、以及生物医学领域得到了成功的应用[15-16]。

深度学习的发展促进了基于迭代训练的仿真模型应用,合成数据可以单独或与原始数据一起用于模型训练和软件测试。

Zhu 等[17]提出由双向长短期记忆(bidirectional long-short-term memory, LSTM) 和卷积神经网络(convolutional neural network, CNN)构成生成对抗网络(generative adversarial network,GAN) 生成心电数据。

Hazra等[18]使用网格LSTM 为GAN 生成网络,以CNN 作为GAN 模型的鉴别网络。

利用该网络对四种生物医学信号(心电图、脑电图、肌电图、光体积描记图)进行了合成信号的实验。

Ye 等[19]提出一种名为RPSeqGAN 的新型生成对抗架构,该架构使用依赖于序列生成对抗网络( sequence generation adversarial network,SeqGAN)算法的训练过程。

通过SeqGAN 算法实现策略梯度(policy gradient, PG)和蒙特卡罗(Monte carlo, MC)搜索,解决了训练过程中的不稳定性和模型质量低的问题,然后生成不同模拟精度和不同周期的心电图片段。

Golany等[20]通过引入心电信号数学模型[21]对GAN 进行优化,对MIT-BIH 数据集的单导联进行数据扩增,得到了优秀的实验结果。

深度学习的训练过程是端到端的,输入端到输出端的黑盒操作忽略了生理机制。

因此,利用数学模型生成心电信号一直是研究热点。

McSharry等[21]开创性地提出了一种基于3 个耦合常微分方程的两阶段动态模型来生成仿真心电信号。

首先,通过指定一个真实R-R 速图的频谱参数和时间参数(平均心率和标准偏差)产生一个内部时间序列;
然后,构建了运动方程,在三维状态空间中生成运动轨迹,并指定了每个心跳峰值的位置和高度。

P波、Q 波、R 波、S 波和T 波分别用该轨迹模型内的一组高斯方程表示,对5 个基波求和得到合成心电信号。

通过调整轨道的角速度,可以改变RR 间隔波形。

心电图曲线代表了由与适当的动力系统相关的微分方程确定的轨迹。

通过考虑心率变异性,也可以产生长期的记录。

Ayatollahi 等[22]将建立心电信号生成模型分为两个步骤。

首先生成人工RR速图,控制R 波的位置;
然后是构建心电图的实际形状。

他们使用一个改进的塞曼模型来产生RR 速度图信号,结合了交感神经和副交感神经活动的影响,以便在HRV 的功率谱中产生显著的峰值。

使用改进的动态模型[21]构建单周期心电波形,建模出与心电图形状相关的心率异常。

基于上述背景,将数学模型与神经网络结合,利用时序心脏模型生成仿真数据,解决心律失常分类样本不平衡问题。

借鉴Golany 等[20]的方法对12导联数据进行心电数据生成实验,并将其作为所提方法的对比方案,证明方法的有效性。

且相较于处理单个心拍,处理的是包含更多特征的心电片段。

采用时序心脏模型对不均衡数据进行样本生成,利用深度残差网络对扩增后的数据集进行单导联信号分类,通过XGBoost 算法实现12 导联融合进一步提升分类精度。

同时采用对抗神经网络对数据集进行样本生成,对比两种方法的分类性能。

对第三方数据集进行独立实验验证,证明本方法的通用性。

1.1 时序心脏模型

时序输入输出自动机(deterministic timed I/O automaton, TIOA)模型[23]可用于模拟从心房到心室的动作电位传导过程,因此可以通过此模型模拟特定的心律失常类型。

模型中加入了起搏器模块,可与心脏模型组成闭环用于起搏器验证。

TIOA 心脏模型的结构如图1 所示。

其中,实线表示心房发出脉冲,长虚线表示心室发出脉冲,短虚线代表起搏器发出脉冲。

下面分别对模型各组分及脉冲传导方式加以介绍。

图1 TIOA 心脏模型结构Fig.1 TIOA heart model structure diagram

心房及结间束结构。

心房结构接受3 种脉冲的激励,分别是窦房结产生的正向脉冲、心室搏动产生的反向脉冲以及起搏器产生的起搏脉冲。

正向脉冲或反向脉冲到达心房,会产生抑制起搏器发出脉冲的信号。

当正向脉冲经过心房到达结间束,脉冲信号在此处产生延迟,延迟时间结束后,正向脉冲传导至房室结。

在延迟时间内,若有反向脉冲到达结间束,则会发生正向脉冲与反向脉冲的融合,导致没有脉冲向房室结或心房传导。

房室结、房室结延迟及房室束的结构如图2 所示。

房室结的动作电位变化包括缓慢去极化,快速去极化,不应期以及复极化。

缓慢去极化的时间决定不应期的初始时间,如式(1)所示。

在房室结去极化期间,若有正向脉冲或反向脉冲传到房室结,都会延长房室结的不应期时间,如式(2)和式(3)所示。

公式中的变量含义如表1 所示。

当去极化结束后,会发出正向脉冲或反向脉冲至房室结延迟结构。

正向延迟时间结束后,脉冲传导至房室束结构。

反向延迟结束后,脉冲传导至结间束结构。

假设不应期期间只有一个脉冲到达房室结。

图2 房室结电位变化示意Fig.2 Schematic diagram of AV junction potential change

表1 房室结组件中变量及其含义Tab.1 Variables in AV junction and their meanings

心室结构:心房发出的正向脉冲经过房室束的延迟,到达心室结构。

心室同样可以接受3 种脉冲的激励,来自心房的正向脉冲,心室搏动产生的反向脉冲以及起搏器产生的起搏脉冲。

两次心室脉冲间隔被记录为RR 间隔。

正反向脉冲信号均会抑制起搏器发出脉冲。

心室起搏产生的反向脉冲逆向传导至房室束,实现上述反向脉冲动作电位。

起搏器结构:起搏器是模型的外接结构,可在特定设置下工作。

起搏器内设有心房和心室的脉冲检测结构,以及用于调控心房和心室事件的脉冲生成结构。

起搏器工作时不断检测是否有心房或心室脉冲生成,当两次脉冲超过心房和心室的设定时间间隔时,起搏器发出起搏脉冲至心房或心室,模拟治疗心率过缓时植入心脏的脉冲发生器。

TIOA 模型模拟ECG 数据需要接收由真实心电数据计算得到的P-QRS-T 各特征波间隔参数,称为显参数,如表2 所示。

其中,RR 间隔作为窦房结脉冲间隔参数输入到窦房结结构,窦房结发出脉冲至心房结构,输出P 波产生位置。

PQ 间隔作为结间束延迟时间参数输入到结间束结构,是脉冲在心房与房室结之间的延迟。

当脉冲到达房室结时,输出Q 波产生位置。

脉冲在房室结内的传递由隐参数控制。

QR 间隔是房室结延迟结构和房室束结构的延迟时间参数。

当脉冲经过延迟到达心室结构时,输出R 波产生位置。

之后经过RT 间隔的延迟,心室完成复极化,输出T 波位置,完成一次心跳模拟。

表2 TIOA 模型脉冲传递参数Tab.2 TIOA model pulse transmission parameter

TIOA 模型对心脏内的不同生理结构建模,脉冲在心脏各模块间传递、延迟,同时模块发生状态的转换,对应人体心脏的收缩和舒张。

模型内设有多个参数,由真实数据中提取的参数称为显参数,包括波形的间隔、振幅、宽度。

而房室结模块中状态转换复杂,参数较多,被称为隐参数。

将显参数中的波形间隔作为延迟参数输入模型,隐参数由文献[23]中得到初始值,再从真实数据中不断学习优化。

模型的每次迭代均会计算仿真波形与真实波形之间的距离,引用高斯优化不断优化隐参数,找到二者距离最小值。

由于模型的动作变化和输出脉冲均与真实数据相关,因此所提模型是个性化的。

1.2 心电信号生成模型

2003年,McSharry 等[21]根据正常心电图的形态,提出用3 个常微分方程(ordinary differential equations,ODE)描述心电信号生成。

模拟得到的心电波形具有完整的P-QRS-T 波,也会产生规律的心率动态。

模型通过特定的心率统计数据参数化,比如心率的平均值和标准差以及心率变异性(HRV)的频域特征。

模型会生成一个三维的状态空间的轨迹,心电图的周期性主要反映在(x,y)平面上单位半径吸引极限环附近的运动轨迹上。

模型由3 个常微分方程组给出,如式(4)-(6)所示:受McSharry 等[21]的启发,将每个心拍波形用5 个高斯函数拟合,分别代表P、Q、R、S、T 这5 个基波,如式(7)所示。

其中,ai代表基波高度,li为高斯函数的均值,ci为高斯函数的方差。

对于每个基波,ai和ci对应真实数据中计算得到的波形振幅和宽度,li是TIOA 心脏模型输出的各基波的生成时刻。

于是,心脏模型生成的时间序列和心拍模型拟合的心拍数据共同合成出仿真心电片段。

1.3 数据集说明

使用2018年中国生理信号挑战赛(The China Physiological Signal Challenge, CPSC)(http:/ /2018.icbeb.org/Challenge.html)公开数据集中的标准12导联数据集,该数据库是从11 家医院收录而来,数据集由6 877 条数据构成,其中男性记录3 699 条,女性记录3 178 条。

数据集中有9 类样本,其中1类为正常信号(Normal),其余8 类为心律失常数据,分别为左束支阻滞(LBBB)、右束支阻滞(RBBB)、室性早搏(PVC)、房性早搏(PAC)、ST 段降低(STD)、ST 段抬升(STE)、心房颤动(AF)、I 度房室阻滞(I-AVB)[24]。

信号的采样率为500 Hz。

对实验数据的统计情况如图3 所示,横坐标表示数据集中每类患者数量,纵坐标是心律不齐类别。

可以明显看出,实验数据存在明显的样本不均衡问题。

因此将主要对LBBB、PVC、PAC、STD、STE 等5 种类别进行样本均衡化处理。

图3 CPSC 数据集统计Fig.3 Statistical chart of CPSC data set

1.4 仿真数据生成

数据集的每条记录只有一个标签,因此需要先对数据集进行分割与标注。

文献[25]对2018年中国生理信号挑战赛(CPSC)中的数据进行分割并对每个片段赋予标签,本实验采用文献[25]中的数据分割方法进行数据预处理。

数据分割完成之后,进一步对心电片段进行预处理。

通过截止频率为1 Hz 的巴特沃斯高通滤波器除基线漂移,采用小波变换去掉高频噪声的干扰。

心电信号生成模型如图4 所示,显参数由真实数据中提取,隐参数由文献[23]中得到初始值,再从真实数据中不断学习优化。

TIOA 模型生成的时间序列和心拍模型拟合的心拍数据共同合成出仿真心电片段。

图4 心电信号生成模型Fig.4 ECG signal generation model

为提高仿真数据的真实性,提出利用高斯过程优化模型的隐参数。

在隐参数集中选取AVdMin 和Vthres 两个参数进行优化。

其中AVdMin 表示脉冲在房室结延迟结构内延迟的最短时间,Vthres 表示房室结去极化阈值。

每次迭代均计算仿真数据与真实样本之间的距离,通过高斯优化寻找最佳隐参数对,不断缩小该距离值,使生成的数据更加具有真实意义。

如图5 所示,图片展示了LBBB 类心律不齐第一导联隐式参数的高斯估计训练与合成心电图波形间统计距离的优化。

图5 LBBB 类隐参数高斯优化Fig.5 Gaussian optimization of LBBB class implicit parameters

1.5 心律不齐分类

针对12 导联的心电信号,采用深度残差网络实现单导联的分类,而后通过XGBoost 算法实现12 导联融合,进一步提高分类精度。

残差网络结构类似于RESNET-18 框架,卷积核尺寸设置为32×32,特征图数目由12 起跳,dropout 设置为0.5,每一层卷积后都有L2 正则化项,优化器为SGD+Momentum,学习率初始值设置为0.1,并在后续采用staircase 式变化,droupout 为0.5,Batchsize 设置为128。

使用残差网络训练12 个网络模型得到12 组-9 类别的softmax 概率,每组取前8 个概率,共得到96 个数值作为特征,针对这些特征通过XGBoost 算法实现模型融合训练。

1.6 第三方数据集验证

为验证所提方法的通用性,对第三方数据集进行仿真实验。

选取PhysioNet/CinC 竞赛集中的PTB数据集[27]。

该数据集包含来自290 名患者的549条心电记录,每条记录的平均长度超过100 s。

该数据集提供了12 个常规心电图导联和3 个Frank 导联数据,采样率为1 000 Hz,为降低计算复杂度,将数据降采样至500 Hz。

数据集中患者的心脏诊断类型如表3 所示(22 名患者没有诊断结果,共268名患者诊断记录)。

由表3 可知,数据集存在明显的数据不平衡问题。

因此对数据量较少的心肌肥大、瓣膜性心脏病、心肌炎和混合类数据进行数据增强,对每个患者的15 个标准导联数据各扩增一倍。

将模型生成的仿真数据与真实数据混合后的数据集分割为10 s的心电片段,采用1.5 节中提到的残差网络进行单导联分类,再通过XGBoost 算法进行导联融合。

表3 患者诊断记录Tab.3 Patient diagnosis Record

在机器学习分类中,准确率(Accuracy)代表分类正确的样本数占样本总数的比例;
灵敏度(Sensitivity)代表所有正类中被预测为正类的比例;
特异性(Specificity)代表所有负类中被预测为负类的比例;
精确率(Precision)代表在预测为正类的样本中真正类所占的比例,如式(8)-(11)所示。

式中,TP 代表真阳性,即被模型识别为正的正样本数量;
FP 代表假阳性,即被模型识别为正的负样本数量;
TN 代表真阴性,即被模型识别为负的负样本数量;
FN 代表假阴性,即被模型识别为负的正样本数量。

2.1 仿真数据生成结果

按照1.4 节中所提方法依次扩增12 个导联的数据,每个导联的每种心律失常类型各扩增2 000个样本,目的是解决数据集中存在的样本不均衡问题,实现更好的分类效果。

5 种心律不齐类型的仿真波形及仿真数据分布如图6 所示。

从仿真波形可以看出,LBBB 类数据的QRS 波群增宽。

PVC类数据中存在提早出现、宽大畸形的QRS 波形,PAC 类数据的P-R 间期明显延长。

STD 和STE 类数据也对应出现ST 段的降低和抬升。

由此可见,所生成的仿真数据具有真实心电数据的波形特征。

图6 5 种心律不齐类型的仿真波形及仿真数据分布(左为仿真波形,右为仿真数据分布)。

(a)左束支阻滞;
(b)室性早搏;
(c)房性早搏;
(d)ST 段降低;
(e)ST段抬升Fig.6 Simulation waveform and simulation data distribution of 5 types of arrhythmia (The left is the simulation waveform, and the right is the simulation data distribution).(a)LBBB;
(b)PVC;
(c)PAC;
(d)STD;
(e)STE

2.2 心律不齐分类结果

采用F1-score 来评价心律失常分类任务。

如表4 所示第2 列表示10 倍交叉验证单导联中性能最优的模型分类结果,第3 列为导联融合但未进行样本均衡的分类结果,第4 列表示所提基于样本均衡与导联融合的心律失常分类结果,第5 列以目前主流方法即对抗神经网络方法进行样本均衡后的分类结果,最后一列为与文献[20]的对比结果,由于只对5 类不均衡数据类别进行了扩增和分类实验,因此表格仅展示5 类结果对比。

表4 不同方法的F1-score 对比Tab.4 F1 score comparison of different methods

针对导联融合后数据,对比分析样本均衡前后的准确率和召回率,作出PR 曲线,如图7 所示。

由图中曲线可以看出,所提样本均衡方法可以提升心律失常分类性能。

图7 样本均衡前后PR 曲线。

(a)样本均衡前PR 曲线;
(b)样本均衡后PR 曲线Fig.7 PR curve before and after sample equalization.( a) PR curve before sample equalization;

( b) PR curve after sample equalization

2.3 第三方数据集分类结果

按照1.5 节中方法将分类结果与使用相同数据集的其他文献结果进行对比,如表5 所示。

可以看出所提方法在PTB 数据集上的各分类指标均优于主流文献,验证了本方法的通用性和有效性。

表5 分类结果对比Tab.5 Comparison of classification results

尽管深度学习模型已广泛应用在心电信号分析中,但丰富和平衡的心电数据集的可用性仍然是一个挑战。

许多心电图数据集存在样本不足和不同类别样本数量不平衡的问题。

因此,对心电信号进行有效的数据增强是十分必要的。

本研究提出了一种新的基于时序心脏模型和心电信号生成模型的心电数据增强策略,以平衡不同类别的样本数量,增加数据集的多样性。

通过与原始数据集的分类结果对比,验证了数据增强的必要性。

从表4 可以看出,通过对LBBB、PVC、PAC、STD、STE 五类数据进行扩增,使多导联心律失常的分类性能大幅度提高。

实验在LBBB 类、STD 类、STE 类的表现尤其突出,分别由扩增前的0.706、0.684、0.524 提升至0.832、0.809、0.618。

图8 中均衡前后的PR 曲线对比,表明提出的样本均衡方法可以有效改善分类性能。

生成对抗网络是通过生成网络和判别网络不断博弈,进而学习到数据的分布。

对于样本量过少的数据集,生成对抗网络无法充分学习其数据分布特征,数据增强效果并不理想。

采用对抗生成网络进行的样本扩充与分类,其F1 分数均低于所提方法,其中STE 类F1 分数仅提升0.017,这是由于STE 类样本数量最少,无法发挥对抗网络的优势。

基于CPSC2018 挑战数据,也有其他针对数据不平衡的心律不齐分类研究。

Wang 等[35]提出联合辅助分类器生成对抗网络和基于堆叠残差网络并行连接LSTM 的分类模型。

通过生成小类的人工数据来重塑类平衡训练数据集,将增强模型的输出转化为分类模型。

在CPSC2018 挑战赛的参与者中,CPSC0236 引入注意机制调整权重,采用过采样策略增强数据集,联合15 层CNN 和双向门控循环单元实现心电信号的分类[24],CPSC0223 通过串联原始数据生成新的数据集,联合Inception V3 模型和LSTM 网络对均衡后的数据集分类[24]。

上述研究均未从数学模型角度进行数据生成,且机器学习算法不仅在很大程度上取决于数据集的选取和预处理,还是严格的黑箱程序,容易受到攻击[36]。

而所提方法利用数据模型和神经网络的结合进行数据增强分类,不仅可以平衡数据,还能调整参数使生成数据不带有个人特征,实现数据脱敏。

本研究所提方案可以生成不同疾病类型的心电信号,但其仿真速度仍需进一步完善。

后续工作将考虑针对特定心律不齐,根据原始数据确定参数阈值,以此提升仿真效率。

另外对于心律失常的分类研究是否可以考虑引入医学影像,理论上将心电信号与医疗影像的结合对于心律失常的分类研究将会更为细致精确,但两者为不同技术层面的信号,在深度学习盛行的现在,如果可以利用深度学习算法挖掘出两者之间的内在联系,建立两者间的对应关系,将会是更有意义的探索。

针对心律失常分类普遍存在的样本不均衡问题,以提高多导联心律失常分类性能为目的进行研究。

引用具有生理机制的TIOA 模型和波形仿真ODE 模型实现数据扩增,生成仿真数据解决样本不均衡问题。

以深度残差网络对单导联信号分类,通过XGBoost 算法实现12 导联融合进一步提升分类精度。

实验结果表明所提方法可有效提高心律失常分类性能,对心律失常的自动诊断具有重要的理论意义与实用价值,未来将研究更多的数据生成模型以解决实际中的样本不均衡问题。

猜你喜欢 房室导联心电 基于融合模糊聚类算法的异常心电多频段弱信号快速捕捉方法现代电子技术(2022年21期)2022-11-03心电导联向量的数理基础及其临床应用中西医结合心脑血管病杂志(2022年14期)2022-08-19食管心脏电生理检查中房室传导文氏阻滞点未能测出的原因浅析现代电生理学杂志(2022年1期)2022-03-22预激双旁路合并房室结双径路形成1∶2房室传导1例心电与循环(2021年4期)2021-08-03心电向量图诊断高血压病左心室异常的临床应用昆明医科大学学报(2021年4期)2021-07-23房室交接区期前收缩致复杂心电图表现1 例心电与循环(2021年2期)2021-04-09卡片式智能心电采集仪设计(2019年22期)2019-04-0118导联动态心电图的应用价值研究特别健康·下半月(2019年1期)2019-02-20“声名大噪”的跑步神器?消费电子(2017年10期)2017-10-31多类运动想象脑—机接口导联选择方法电子技术与软件工程(2016年23期)2017-03-06

推荐访问:心律失常 时序 样本