高分辨率遥感影像建筑物提取的注意力胶囊网络算法

许正森,管海燕,彭代锋,于永涛,雷相达,赵好好

1.南京信息工程大学 遥感与测绘工程学院,南京 210044;2.淮阴工学院 计算机与软件学院,淮安 223003

建筑物作为一种重要基础设施,其信息在土地利用、城市规划以及国防安全等方面都发挥着重要作用。及时、准确地更新建筑物数据库可为各种规划决策和评估提供指导,具有非常广阔的应用前景。随着光学遥感技术的发展,高分辨率遥感影像已成为快速更新建筑物数据库的重要数据来源之一。但是,由于建筑物材质多样、拓扑结构复杂、阴影覆盖以及高分辨率遥感影像同物异谱、异物同谱等问题,建筑物的自动、精确提取仍存在较大挑战。

目前,高分辨率遥感影像建筑物提取策略大致分为两种:建筑物边缘轮廓提取以及建筑物区域分割。前者主要进行建筑物区域边界线勾勒;
后者则逐像素标记建筑物区域。早期建筑物提取方法通常基于图像的隐式特征或者形态学特征,利用传统机器学习算法或者先验知识设置阈值(林祥国和张继贤,2017;
游永发等,2019;
胡荣明 等,2014)。例如,Zhang 等(2016)提出一种由粗到细的建筑物提取步骤,首先利用形态学特征(建筑物指数)实现建筑区域粗提取,再通过形态学空间模式分析精确提取建筑物。Bi 等(2019)通过构建多尺度滤波指数来抑制噪声,提高建筑物提取精度。Xu 等(2018)首先将一组由RGB-D 信息提取的特征整合到高阶条件随机场框架中,然后通过迭代优化策略实现建筑屋顶检测。Hao等(2019)根据影像中建筑物颜色和方向,提取并整合建筑物边缘以及区域特征信息进而识别建筑物。Wang 等(2020)通过提取建筑物光谱、形状、纹理以及多时相指数等多特征,构建多特征长短期记忆网络进行建筑物提取。Konstantinidi等(2017)根据建筑物的方向梯度直方图以及局部二元模式构建特征描述算子,并采用支持向量机将影像分类为建筑物与非建筑物。除此之外,位移阴影算法(Gao 等,2018)、多边形匹配技术(Qin 等,2018)以及多源数据融合方法(Chen等,2020)等也常用于建筑物提取研究。

然而,基于图像特征的传统建筑物提取方法受人为先验知识以及传统机器学习分类器性能的限制,无法获得高精度且泛化性能好的模型。而深度学习模型通过迭代训练学习图像的深度特征,无需较多的先验知识,故该技术在遥感图像建筑物提取领域应用广泛,并已取得较好效果(季顺平和魏世清,2019;
崔卫红 等,2019;
范荣双等,2019;
陈凯强 等,2020;
Shi 等,2019,2020;
Li 等,2020;
Chen 等,2021)。如Mnih(2013)提出结合深度卷积神经网络DCNN(Deep Convolutional Neural Network)和条件随机场(CRFs)的遥感影像目标地物的自动提取模型。Shao 等(2020)提出一个由预测模块和残差改进模块组成的全卷积网络FCN(Fully Convolutional Network)提取建筑物。井然等(2020)采用FCN模型提取建筑物的高阶特征,进行建筑物自动提取。王振庆等(2021)提出了一种端到端的全卷积神经网络IEU-Net,并结合其设计的IELoss 损失函数,通过忽略边缘预测策略进行建筑物提取。但是,上述FCN 模型会忽略像素间上下文关系,进而影响建筑物提取的可靠性。所以一些学者尝试将注意力机制引入神经网络模型中。注意力机制的基本思想是在运算过程中通过计算特征间的相关关系得到不同特征通道或者空间位置权重参数,从而使模型关注重要、显著信息,忽略无关信息。通过注意力机制模块学习上下文信息,模型可以获得更大的感受野,减少对外部信息的依赖,从而更容易捕获数据或特征的内部相关性。如Pan 等(2019)基于空间和通道注意力,提出基于生成对抗网络GAN (Generative Adversarial Network)的建筑物分割模型;
Guo 等(2020)通过将注意力模块嵌入U-Net模型抑制背景噪声对建筑物提取的影响;
Wang(2020)等将Non-local 注意力机制引入编码—解码网络中,进行长距离依赖建模,提升模型对抗背景噪声能力。

虽然注意力机制可以解决部分长距离依赖建模问题,但是由于传统卷积神经网络仅通过逐层卷积和池化操作实现局部连接和参数共享,存在无法有效对局部与整体特征以及简单和复杂对象之间的位置关系建模等问题(Zhu 等,2021)。相较于传统CNN,胶囊网络可以更有效处理对象局部到全局关系,并以视角不变表示增强同变性。此外,胶囊网络由于采用向量神经元这种表示形式,可以通过交叠处理(overlapping handing),更好解决对象重叠造成的场景拥挤问题,并且其在处理物体的姿态(位置、大小、方向)、变形、反照率、色调、纹理等方面也更有优势(Sabour 等,2017)。因此,胶囊网络可以通过更少的参数和训练数据取得较好的检测与分类性能。

因此,本文提出一个基于胶囊注意力的编码—解码网络,实现端到端像素级建筑物自动提取。通过利用胶囊网络同变性强的特点,实现高阶语义特征的有效表达,从而解决高分辨率遥感影像中同物异谱、异物同谱和空间异质性强问题。此外,本模型将通道和空间注意力模块整合到胶囊网络中,使模型更关注显著性强、信息量大的特征通道和空间位置,进一步增强胶囊网络特征提取能力,从而实现阴影和非建筑物不透水层等易受干扰区域的高精度建筑物自动提取。

2.1 胶囊网络模型

胶囊是一种包含多个神经元的载体,每个胶囊神经元表示图像中特定实体的各种属性。胶囊网络与普通标量人工神经元SN(Scalar Neuron)网络的主要区别在于其使用矢量胶囊神经元VN(Vector Neuron)。矢量胶囊神经元中矢量的长度和方向分别代表某个类别在图像某个位置存在的概率与类别的一些实例化参数,例如姿态(位置、大小、方向)、变形、速度、色相和纹理等(Sabour等,2017)。因此,胶囊网络不仅能检测某个类别的特征,也可以学习并识别特征的变化。具体而言,假设在胶囊网络中,第l层1 个胶囊,可表示为第(l-1)层胶囊网络神经元预测与加权动态整合,计算公式为

式中,aij为权重系数;
Uij为第(l-1)层胶囊神经元与其权值矩阵的加权和,其计算表达式为

式中,ui为第(l-1)层胶囊神经元;
Wij是特征映射函数的变换矩阵。

与标量神经网络中权重系数通过反向传播确定方法不同,胶囊神经网络的耦合系数主要通过动态路由迭代确定(Sabour等,2017)。具体而言,通过第(l-1)层胶囊神经元对第l层胶囊的“个体”预测以及第(l-1)层所有神经元对第l层胶囊的“共识”预测。通过这种迭代路由机制确定耦合系数,从而实现根据上一层胶囊的方向和长度激活下一层胶囊,最终实现稳定且高效的深度胶囊网络构建(Rajasegaran等,2019)。

由于胶囊输出矢量的长度代表某一个种类模式存在的概率,因此,胶囊网络通过设计“squashing”非线性激活函数将胶囊神经元矢量长度压缩到[0,1]区间。该函数定义为

通过式(3),长胶囊矢量长度压缩接近1,表述某一类别存在概率高;
短胶囊矢量压缩接近0,表征某一类别存在概率较小。

网络训练过程中,通常使用目标函数衡量网络预测值与真实样本标记之间误差。然而,由于胶囊网络允许多类别同时存在,其目标函数不能直接使用传统交叉熵损失函数,故而采用间隔损失函数(Yu和Tao,2019),其定义为

式中,k为分类类别数;
Tk为分类指示函数(k类存在为1,不存在为0);
m+为上界,惩罚假阳性预测,即预测k类存在但真实不存在;
m-为下界,惩罚假阴性预测,即预测k类不存在但真实存在;
λ为比例系数,调整两者比重。

2.2 双注意力胶囊编码-解码网络(DA-CapsNet)

(1)网络整体结构。为充分利用胶囊网络同变性强的特点和注意力机制增强特征表示的优越性,本文将二者结合提出双注意力胶囊编码—解码网络模型DA-CapsNet。如图1 所示,DACapsNet 主要包括编码器、解码器,以及跨层连接3 部分。其中,编码器用于提取多尺度建筑物胶囊特征;
解码器则结合编码器提取的多层次特征逐渐恢复特征图分辨率,最终生成高质量建筑物特征图;
跨层连接对编码—解码器相应尺度特征图连接,增强其特征表示能力。

图1 DA-CapsNet网络结构Fig.1 Architecture of the dual-attention capsule encoder-decoder network

DA-CapsNet网络结构具体如下所述:

1)编码部分:首先使用2 个常规卷积块提取待检测建筑物图像(其大小为N=H×W,H和W分别为图像高和宽)低级特征。该卷积块包含1 个3×3 卷积,输出通道数为256 的卷积层和修改线性单元ReLU(Rectified Linear Unit)激活函数。随后,将256 维特征图输入初级胶囊卷积层转换为64 个16 维胶囊矢量。之后,通过5 组不同尺度/空间分辨率的胶囊卷积组,获得不同尺度的胶囊特征。在每组胶囊卷积组末端采用卷积核大小为2×2的最大池化层进行0.5 倍下采样,逐渐降低建筑物特征空间分辨率。理论上,每个胶囊卷积组最深层输出最具代表性、最显著的特征。因而,本文选择每个胶囊卷积组最深层特征图进行特征融合与增强。

2)解码部分:如图1 所示,解码器与编码器结构几乎对称:同样由5组卷积胶囊组构成,并通过每组末端的胶囊反卷积层进行2倍上采样,逐步恢复建筑物特征图分辨率。为增强特征鲁棒性,通过跨层连接将解码器中上采样后的特征图与对应编码器中的特征图结合,充分使用编码器中的空间信息和细节特征。

(2)胶囊空间和通道注意力模块。由于卷积操作仅能抽象出建筑物图像的局部特征,而忽略像素间相互关系,从而导致对象类间不一致并极大影响建筑物提取的可靠性。注意力机制可以学习上下文信息并对长距离依赖建模,获得更大的感受野,从而更容易获取图像或特征的内部关联性。

通道注意力机制将特征图中每个通道都视作特征探测器,从而估算输入数据中不同特征通道的重要性(Woo 等,2018;
Zeiler 和Fergus,2014)。因此,根据Hu等(2018)的模型,本文提出了基于胶囊的通道特征注意CFA(Channel Feature Attention)模块,并将其连接在编码器中每组胶囊网络最深胶囊层之后,进行特征增强和校正。CFA 模块构架如图2所示:

图2 通道特征注意力(CFA)模块Fig.2 Architecture of the channel feature attention(CFA)module

1)CFA 首先使用1×1 卷积,将建筑物胶囊特征图转换为三维特征图A∈RH×W×64编码概率特征,其中H和W为输入特征图的高和宽;

2)特征图A逐通道全局平均池化为A∈R1×1×64,构建通道描述符,统计通道特征信息;

3)在通道描述符后加入2 层全连接层,解算特征通道间的依赖关系。每层全连接层后分别连接ReLU 和Sigmoid激活函数。通过第2个全连接层输出特征图编码特征重要性,构建通道注意力描述符C∈R1×1×64。

4)通道注意力描述符C类似权重系数,通过将其与输入特征进行矩阵相乘运算,对输入特征图的特征进行校正,增强重要特征信息,抑制不重要或者无用特征。

在解码器中,为增强建筑物特征空间上下文信息,本文在解码器末端胶囊卷积组中嵌入基于胶囊的空间注意力SFA(Spatial Feature Attention)模块进一步校正和增强建筑物特征。SFA模块结构如图3所示:

图3 空间特征注意力(SFA)模块Fig.3 Architecture of the spatial feature attention(SFA)module

1)SFA 首先使用2 个1×1 胶囊卷积将输入特征图转换成2 个三维胶囊特征图,B∈RH×W×64和D∈RH×W×64。由于SFA 模块仅置于解码器末端胶囊卷积组中,所以该模块输出特征图的大小与输入待检测影像相同;

2)将特征图B和D变形,分别生成2 个特征矩阵,E∈RN×64和G∈R64×N,其中N=H×W;

3)特征矩阵E和G相乘后,通过softmax 激活函数构建空间注意力矩阵S∈RN×N;

4)最后,将输入特征图转换为胶囊特征矩阵T∈RN×64×16与空间注意力矩阵S相乘,之后变形获得建筑物特征增强图。从而,SFA模块输出特征中所有像素都是其余像素特征与原始特征的加权和,可获得全局上下文视角并选择性整合语义信息。

2.3 数据介绍

(1) 谷歌建筑物数据集(Google Buildings Dataset)。谷歌建筑物数据集中的高分辨率遥感影像数据下载自BIGEMAP 软件(http://www.bigemap.com[2021-09-06])。该数据集包含2658000 张全球不同拓扑结构、纹理和状况的建筑物影像。每张图像大小为800 像素×800 像素,空间分辨率约为0.3 m,并逐像素标注为建筑物与非建筑物。本文随机抽取数据集中60%、5%和35%的图像组成训练、评估和测试集。

(2)武汉大学建筑物数据集(WHU Building Dataset)。此外,本文采用开源的武汉大学建筑物数据集(http://study.rsgis.whu.edu.cn/pages/download/[2021-09-06];
Ji等,2019)扩充样本量,对提出的模型进行训练、验证与测试。武汉大学建筑物检测数据集是一个由多源遥感影像组成的大型数据集,主要包括航空遥感和卫星遥感影像,每张影像的大小均为512 像素×512 像素。其中,航空影像共8189 张,空间分辨率约0.075 m,覆盖地面面积约450 km2;
卫星影像(Satellite Dataset Ⅱ(East Asia))共17388 张,空间分辨率约2.7 m,覆盖地面面积约550 km2,逐像素标注为建筑物和非建筑物。同样,随机抽取数据集中60%影像作为训练集、5%影像作为评估集,其余35%影像作为测试集评估模型表现。

(3) 马萨诸塞建筑物数据(Massachusetts Building d Dataset)。本文同样采用马萨诸塞建筑物数据集(Mnih,2013)(https://www.cs.toronto.edu/~vmnih/data/[2021-09-06])进行模型的训练和测试,进一步展现DA-CapsNet 模型的鲁棒性。该数据集涵盖美国波士顿地区城市和郊区中,如写字楼、个人住宅和车库等多种规模建筑物。数据集包含151 张大小为1500 像素×1500 像素,分辨率为1.0 m 的高分辨率遥感影像,覆盖地面面积约为340 km2。经过随机裁剪,得到图像大小为500 像素×500 像素的影像数据集。随机选取其中3000、200和1200张影像加入训练、评估和测试集。

3.1 网络训练

本文采用配置10 块Titan RTX 16GB GPU 和1 颗16 核CPU,运行内存为64 GB 的云计算平台进行模型构建。使用Pytorch 架构,采用端到端后向传播和随机梯度下降方法训练。训练前,将DACapsNet 所有层通过标准差为0.01 的高斯分布随机初始化。每个批次每个GPU 包含2 张影像并迭代训练1000次。训练中,前800次和后200次迭代学习率分别设置为0.001 和0.0001。同时,还采用批归一化策略避免网络的过度学习。

此外,为进一步减轻模型过拟合,本文通过数据增强尝试涵盖不同朝向和照明条件下的建筑物。具体操作为,水平翻转训练影像后,对2张影像以30°为间隔分别顺时针旋转3 次。之后,对生成的8张影像增减亮度。

3.2 评价指标

本文选取精度(P)、召回率(R)和F1-score(F1)对建筑物提取结果进行定量评估(式(5))。

式中,TP、FP和FN分别为真阳性、假阳性和假阴性预测像元数。精度表示所有预测为阳性样本中真阳性样本所占比例;
召回率表示正确预测出的阳性样本比例;
F1-score为召回率和精度调和值。

3.3 建筑物提取

为证明DA-CapsNet 在建筑物提取任务中的可行性和鲁棒性,将其与U-Net(Ronneberger 等,2015)、FCN(Shelhamer 等,2017)、DeepLab v3+(Chen 等,2018)、GAN-SCA (Pan 等,2019)、CNN(Li 等,2020)、BRRNET(Shao 等,2020)、AMU-Net (Guo 等,2020)、CapFPN (Yu 等,2021)、ENRU-Net(Wang 等,2020)和Mask RCNN(Chen 等,2021)模型的建筑物模型提取结果进行定量比较。为公平比较,对上述模型使用相同的训练集和测试集训练与验证,整体结果如表1所示。

表1 不同方法建筑物提取表现Table 1 Performance of different network on three datasets /%

(1) 谷歌建筑物数据集(Google Buildings Dataset)。利用谷歌建筑物数据集提取建筑物的挑战主要体现在以下几个方面:1)建筑物颜色和纹理差异大;
2)建筑物拓扑结构和尺寸变化非常大,空间分布各异;
3)建筑物周围环境复杂;
4)建筑物被周围物体或阴影遮盖。这要求建筑物提取模型具有足够的鲁棒性,能准确识别、定位、分割和提取建筑物。图4展示了本文算法部分建筑物提取结果。图4 中第1 行为原始影像数据,第2 行为建筑物真值标签数据,第3行叠加显示标签数据与本文模型建筑物提取结果,其中红色表示正确提取出的建筑物区域,蓝色表示未被提取出的建筑物区域,绿色表示错误提取为建筑物的背景区域。可以看出,本文提出的DA-CapsNet 整体表现较好,能够从复杂环境下高精度识别不同拓扑结构、空间分布、颜色和尺寸的建筑物。这主要因为胶囊编码—解码网络结构能提取并融合多尺度高阶胶囊特征;
同时,CFA 模块增强了建筑物特征通道重要性以及SFA 模块进一步关注建筑物空间特征。然而,有些建筑物被周围如树之类高大物体遮挡甚至完全覆盖,很难实现整体建筑物提取。此外,一些如水泥路面之类地物由于纹理特征和周围建筑物十分相似而被错误识别为建筑物。为了进一步展示本文算法建筑物提取性能,图5展示了不同网络模型的局部建筑物提取结果的视觉对比判读。由图5(c)可以看出,尽管本文模型提取受树冠遮挡而完全不可见的建筑物部分存在一定困难,但是可以完整提取受树冠阴影严重遮挡的建筑物。而如图5(e)、(h)、(i)和(k)所示,BRRNET、Mask R-CNN、ENRU-Net 和FCN模型预测结果右上方受较强阴影遮蔽的建筑物完全未被提取出。其余效果较好模型也仅可提取出受阴影遮蔽较轻微的建筑区域。此外,由于地面不透水层和建筑屋顶在可见光波段光谱相似性,如图5(g)、(i)、(k)、(m)所示,GAN-SCA、ENRU-Net 以及FCN 和DeepLab v3+等对比模型将非建筑不透水层误分类为建筑物而造成假阳性预测较多。综合对比图5 可知,使用胶囊网络的CapFPN 网络及本网络对不透水层及建筑物区分能力和抗阴影能力更强,表明胶囊网络向量参数对建模实体内在特征属性编码能力强且可以更适用于拥挤场景。但如图5(j)下方建筑物所示,与本文模型通过构建编码—解码网络结构以及通道和空间注意力增强和校正特征相比,CapFPN 仅通过胶囊网络编码特征,对抗阴影干扰能力仍较差。

图4 DA-CapsNet谷歌建筑物数据集提取结果Fig.4 Illustration of a subset of building extraction results on Google building dataset

图5 谷歌建筑物数据集不同建筑物提取模型细节结果展示Fig.5 Illustration of a close view of building extraction results by comparative methods on Google building dataset

定量比较如表1 所示,DA-CapsNet 在复杂的谷歌建筑物数据集中提取表现较好,其精度、召回率和F-score 分别为0.9316、0.9225 和0.9270。对比方法中,CNN、AMU-Net 和GAN-SCA 等3 种方法提取表现相对较好。DA-CapsNet 与CNN 相比较总体精度高2.87%;
与AMU-Net 相比较总体精度高3.11%;
与GAN-SCA 相比较总体精度高

2.98%。上述对比结果显示,深度胶囊编码—解码网络通过集成CFA 和SFA 模块得到的DA-CapsNet在谷歌建筑物数据集整体表现好于其他模型。其性能优势的主要原因为:首先,相较于基于标量神经元构造的传统卷积神经网络模型,胶囊网络将向量化表示的胶囊神经元作为其基本元素。胶囊神经元能够同时通过其长度来编码某一特征存在的概率,并且通过其向量参数来编码特征的内在属性以及不同特征实例的信息。因此,抽象出来的特征层次更高,表达能力更强。此外,胶囊网络可以通过重叠处理,更有效解决拥挤场景中的对象提取。其次,通过胶囊表示构造通道与空间注意力机制,提升有用通道的贡献度,同时突显前景区域的特征,能够进一步提升输出特征的质量以及鲁棒性。从而,高质量表达特征,提升建筑物提取性能。

通过上述(定性)和定量分析可知,胶囊网络相较于传统卷积神经网络同变性更强,能有效解决高分辨率遥感影像中同物异谱、异物同谱和空间异质性强的问题。同时,模型中的通道空间注意力模块可以进一步增强和校正胶囊网络提取特征能力,使模型更关注有意义的特征通道和空间位置,从而在受阴影和非建筑物不透水层干扰区域实现高精度建筑物自动提取。

(2)武汉大学建筑物数据集(WHU Building Dataset)。为进一步验证DA-CapsNet 模型的优越性和稳定性,在武汉大学建筑物数据集上进行对比实验。如表1所示,所对比方法大部分都能获得较好表现,检测精度均大于83%,而本文方法的精度、召回率和F1-score 分别为93.75%、94.28%和94.01%,均好于其余模型。相较于CapFPN,本文在胶囊网络模型基础上,加入通道和空间注意力机制校正通道特征和空间特征,提升特征表达能力,使建筑物提取精度相较CapFPN提升5.08%。

如图6所示,对武汉大学数据集中被树木遮盖或者出现建筑物纹理与非建筑不透水层纹理相似的影像进行定性分析,对比不同模型的建筑物提取效果。图中第1 行为原始影像数据,第2 行为标签数据,第3行所示为本文提取建筑物结果与标签数据叠加显示。第1列影像中很多独栋建筑物被树木完全遮蔽,从而造成一定假阴性预测。第2列和第3列数据由于建筑物纹理特性与道路及其附着物之间高度相似,产生一定假阳性预测。尽管这种完全遮蔽和纹理高度相似对目前算法都造成了一定的影响,但是,如图7 所示,相对于其他算法,本文算法检测效果更优。从图7 中可以看出,BRRNET、AMU-UNet、GAN-SCA 以及U-Net模型存在较多假阳性预测,如将背景白色汽车误检测为与其纹理相似的建筑物。DA-CapsNet 相比于CNN、MaskR-CNN、ENRU-Net 等算法,能够克服阴影造成的假阴性预测,实现较为完整的建筑物提取。

图6 DA-CapsNet武汉大学建筑物数据集提取结果Fig.6 Illustration of a subset of building extraction results on WHU building dataset

图7 武汉建筑物数据集不同模型建筑物提取细节展示Fig.7 Illustration of a close view of building extraction results by comparative methods on WHU building dataset

(3)马萨诸塞建筑物数据集(Massachusetts Building Dataset)马萨诸塞建筑物数据集的特点是样本量少且建筑物结构形状、反射色调和纹理更为复杂。因此,相较于前2个数据集,虽然本文算法在马萨诸塞建筑物数据集上提取结果的精度、召回率和F1-score 分别降低3%、2%和3.5%左右,但仍接近90%,且明显优于对比模型。图8所示为其中部分样本检测结果对比。如图8 第1、2 列所示,当建筑目标较小且受树冠部分遮蔽、反射率与其自身阴影相似时,DA-CapsNet 凭借大感受野实现建筑和阴影区分,从而相较于其余对比模型能准确提取较为完整的建筑物区域。此外,如图8第3、4 列所示,本文提出模型同样可以有效提取不同视角和阴影变化下多种尺度和形态的建筑物。

图8 DA-CapsNet马萨诸塞建筑物数据集提取结果Fig.8 Illustration of a subset of building extraction results on Massachusetts building dataset

3.4 消融实验

CFA 和SFA 模块分别通过通道注意力机制和空间注意力机制增强特征通道和空间位置重要性,从而提升特征表达能力。本节通过消融实验分别验证CFA 和SFA 模块对DA-CapsNet 模型性能影响,结果如表1所示。

(1)SFA 模块性能分析。从DA-CapsNet 中移除SFA 模块,并将修改后的网络模型命名为CapsNet-CFA。由此,仅使用通道注意力机制强调通道特征重要性,以期提升显著性通道贡献度并降低无用通道的特征干扰。公平起见,采用相同的训练、评估和测试集训练CapsNet-CFA 并验证其性能。CapsNet-CFA 在3 个数据集上的定量分析结果如表1 所示。其中,CapsNet-CFA 相较于DACapsNet 在谷歌数据集上精度、召回率和F1-score均下降约1.4%,表明模型假阳性和假阴性预测均增加。而CapsNet-CFA 在武汉大学建筑物数据集预测结果评价中,精度较召回率下降更显著,表明SFA 模块可以有效抑制高空间分辨率遥感影像的强空间异质性并增强不同类别间可分性。同样,在马萨诸塞建筑物数据上,CapsNet-CFA 在提取精度、召回率和F1-score 分别下降约2.04%,1.25%和1.65%。由此可见,SFA 模块可以有效突显前景区域的特征、覆盖更多待提取地物区域,从而提升建筑物检测表现。

(2)CFA 模块性能分析。将CFA 模块从DACapsNet 网络模型移除,并将修改后的模型命名为CapsNet-SFA。该模块只通过空间注意力机制对特征显著性进行调整,以期突显前景区域特征,同时弱化背景区域特征。同样,采用相同的训练集、评估集和测试集对CapsNet-SFA 进行训练和验证。CapsNet-SFA 在3 个数据集上的表现和消融前后差异如表1 所示。由表1 可知,与DA-CapsNet 相比,由于仅使用空间注意力模块,CapsNet-SFA 在3 个数据集上建筑物提取性能均显著下降,F1-socre分别下降2.57%、1.47%和2.07%。表明胶囊网络输出的特征图中存在干扰特征通道,通过引入CFA模块,模型可以关注特征图中的显著特征并抑制干扰特征,从而有效提升模型表现。同时值得注意的是,即使消融空间或通道注意力模块得到的DA-CapsNet-CFASFA 模型在精度、召回率和F1-score 等评价指标上相较其余对比模型仍有优势,表明胶囊网络相较于传统卷积神经网络在从空间异质性强且存在大量阴影干扰的高空间分辨率遥感影像中提取建筑物具有优越性。

通过以上消融实验可以发现,本文提出的CFA 和SFA 模块对网络特征的表达能力和提取性能提升都至关重要。结合CFA 和SFA 模块分别对通道特征和空间特征进行增强和校正,能有效提升模型建筑提取性能。

针对高分辨率遥感影像建筑物提取挑战,本文提出耦合通道和空间双注意力机制的编码—解码胶囊网络DA-CapsNet,实现高分辨率遥感影像建筑物高精度提取。首先,DA-CapsNet 区别于传统标量卷积神经网络,利用胶囊神经元的长度编码某一特征存在的概率,并且通过其向量参数编码特征的内在属性以及不同特征实例的信息。从而通过构建编码—解码结构胶囊网络,在不同尺度下学习高度抽象和高区分度的深度特征,增强模型同变性而更好地区分建筑物与背景;
其次,本文利用注意力机制在上下文信息获取中的优势,分别设计通道和特征注意力机制模块进行特征增强和校正,提升特征表达能力和模型鲁棒性,实现建筑物提取性能提升。对比实验和消融实验证明,本文提出模型能有效解决高分辨率遥感影像建筑物提取中同物异谱、异物同谱和空间异质性强以及建筑物受等阴影遮盖和不透水层相似光谱特征干扰等问题。

但是,由于高分辨率光学遥感影像光谱波段较少、光谱分辨率低、无法穿透树冠等遮挡物且受光照影响大等,之后研究可以从以下方面展开:(1)使用多光谱光学遥感数据,如增加热红外波段区分树木和建筑物;
(2)结合激光雷达点云数据或者其他摄影测量点云数据区分建筑与道路及其附着物。

猜你喜欢 卷积胶囊建筑物 基于全卷积神经网络的猪背膘厚快速准确测定农业工程学报(2022年12期)2022-09-09基于图像处理与卷积神经网络的零件识别计算技术与自动化(2022年1期)2022-04-15My Hometown考试与评价·七年级版(2021年4期)2021-08-14基于深度卷积网络与空洞卷积融合的人群计数上海师范大学学报·自然科学版(2019年5期)2019-12-13爆炸过后畅谈(2019年9期)2019-05-27胶囊要用凉开水服妇女之友(2018年8期)2018-09-17卷积神经网络概述中国新通信(2017年9期)2017-05-27火柴游戏小天使·二年级语数英综合(2015年12期)2015-12-04我有一颗神奇胶囊小学阅读指南·高年级版(2009年3期)2009-03-27服用胶囊的小细节家庭医药(2009年1期)2009-02-05

推荐访问:遥感 胶囊 建筑物