医学图像数据增强技术的研究现状与进展
王天任1 李伊宁1 王弘熠1 康 健1 赵 爽2 柳 岸1
1.中南大学湘雅三医院皮肤科,湖南长沙 410013;2.中南大学湘雅三医院耳鼻咽喉头颈外科,湖南长沙 410013
[摘要]人工智能辅助的医学图像识别诊疗系统应用面非常广泛,然而在当前医疗环境和社会背景下难以收集到足够多的数据来训练模型,利用数据增强技术对已有样本进行处理可以显著缓解训练数据缺乏的问题。本文就近年来出现的较为常用的图像增强技术进行简要概述,根据样本处理数量,将已有的数据增强技术分为单样本数据增强和多样本数据增强两大类。其中单样本数据增强又根据处理水平分为像素水平处理和整体水平几何处理;而多样本数据增强则主要介绍了以合成少数过采样算法(SMOTE)和生成对抗网络(GAN)等为代表的以整个样本集为操作对象,通过调整采样比例缓解类不平衡现象的算法。此外,本文还对每种方法的优缺点进行分析,总结了近年来上述算法的实现和改进,以期为相关从业者提供新思路。
[关键词]人工智能;数据增强;合成少数过采样算法;生成对抗网络
近年来,人工智能(artificial intelligence,AI)结合大数据的分析方法在医学图像领域得到长足发展并拥有强劲发展势头,截至目前为止,基于深度学习的图像识别系统已经覆盖病灶检测、病理诊断、放疗规划以及术后预测等几乎全部临床阶段,逐渐成为医生诊断的重要辅助技术手段[1]。其中一些样本量充足且易得的疾病诊断系统如基于X 线的肺部筛查[2]、乳腺钼靶筛查[3]和基于CT 影像的肺结节检测模型[4]已经显示出了较好的临床应用潜力,并向其他科室形成辐射,促进AI 辅助诊断行业发展。
在当前多种图像识别算法中, 卷积神经网络(convolutional neural networks,CNN)作为深度学习(deep learning)代表算法之一,是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks),通过仿造生物的视觉和感知,实现对某一领域的学习[5]。而此类系统能够实现对目标的充分学习进而得以完整运行,同时避免过拟合并保证识别成功率的基本前提是拥有由充足样本构成的训练集、测试集和验证集。
然而与其他图片来源广泛、种类相对单一的场景相比, 医疗行业采集图像数据的问题呈多样化态势,主要包括:①患者隐私保护意识日益增强导致病例图像数据获取难度增加;②疾病种类繁多且检查手段多样导致疾病的多模态数据呈现大跨度、低密度的特点;③需要鉴别的不同种类疾病之间样本数量差距较大并由此导致系统鲁棒性降低等。虽然语义迁移和正则化技术可以一定程度上缓解上述问题,但两者算法复杂,在相同收益条件下较之数据增强(data augmentation)技术需要花费更高成本。因此相对较为简单,方式方法更加多样的数据增强技术则获得其存在的必要性。广义数据增强除单纯扩增图片数据样本量之外,还包括增强样本质量如缓解类间样本数据不平衡问题、类间样本重叠问题以及边界样本难以区分等问题对系统性能造成的负面影响。多个研究团队已经尝试在智能图像识别系统中引入数据增强技术,如Sajjad 等[6]将CNN 应用于脑肿瘤分级,将采用数据增强技术组与空白对照组进行对比,结果显示,数据增强技术显著增强了CNN 图片识别的特异性和准确性。Noguchi 等[7]分别评估了三种不同类型的数据增强技术支持的骨骼CT 图像分割系统,最终在交叉验证中得到了0.983±0.05 的平均Dice 系数,表明应用数据增强技术的实验组获得的结果显著优于对照组。显然,从上述两个案例可以看出数据增强技术能在数据集很小的情况下仍然构建出准确而强大的模型。本文将分别介绍简单的单样本数据增强技术和以生成对抗网络(generative adversarial networks,GAN)等为代表的多样本数据增强技术,并简要分析每种手段的优缺点,为相关从业者提供参考。
1 单样本数据增强
所谓单样本数据增强即以单个图片样本为中心,在已有数据的基础上进行扩增处理,可以概括为图片整体层面处理和图像像素层面处理。
1.1 图像整体层面处理
一直以来,应用最为广泛的扩增方式便是对图像进行整体层面的处理。在采集特定病种的影像数据或病理图片后构建图像数据库,并对图像库中的图片进行旋转缩放镜像等物理几何操作,其中一些常用的具体操作方法包括如下。
1.1.1 旋转法 对原始图片选定一定步长后予以一定角度旋转,再对旋转后图片进行最近邻域法插入,保证图片的完整性[8-9]。但此方法可能存在不够精确的问题。
1.1.2 缩放法 对病理图片进行双线性插值,对图像的行列进行插入值, 对x、y 进行同比例的放大缩小[10],但插值过程存在平滑作用,会使图片细节退化。
1.1.3 镜像法 将图像进行水平方向或垂直方向的镜像处理, 即交换图像中左右两边或上下两边的像素值,之后相应的为新图片赋予标签即可。
1.1.4 平移法 对产生的医学图像可以进行等步长平移,可以一定程度增加CNN 的泛化能力[8]
在实际应用中可以将以上几种方法组合应用,对图片的扩增起到显著效果,同时,应尽量增加训练的迭代次数以尽可能使训练集中的图像均获得训练[11]
1.2 图像像素层面处理
即采用对图像细节进行处理的方法,往往在像素水平采用图像处理学对细节进行变换处理,一方面提高数据容量,另一方面可以突出目标区域。
1.2.1 噪声干扰法 在过去应用中,常对已采集图片采用随机添加噪声的方法, 即椒盐噪声和高斯噪声,此类添加噪声的方法虽然能够快速扩增图像, 但未能区分所需标记处和噪声区域, 有可能导致模型收敛速度过慢和识别准确性的下降[12-13]。现有研究可对图像进行区域分类, 并按分类分别产生细扩增样本和粗扩增样本,可以突出标记,对计算机图像学习产生正性影响[12]
1.2.2 高斯模糊 通过采用不同方差定义的高斯函数对需要扩增的图像进行模糊处理[14]。Hussain 等[13]将此方法应用于乳腺癌钼靶筛查工作的样本扩增之中,经高斯模糊处理过的实验组较之对照组准确率增加0.2,图像识别系统的性能得到显著提高。
1.2.3 图像抖动 通过对训练集样本图片的对比度进行不同程度的改变,即在某一个颜色空间内通过增加或减少某些颜色的占比比例,或改变颜色通道的顺序实现样本扩增[13]
2 多样本数据增强
与单样本数据增强相区分,多样本数据增强采用对多个样本进行处理来产生新的样本。可以用来解决不同医学数据样本数量不平衡、样本数量不足等问题。
2.1 合成少数过采样技术(synthetic minority oversampling technique,SMOTE)
在临床工作中,不同种类疾病之间的发病率存在极大差异,由此也导致获取得到的数据类间不均衡现象,即一个或多个类别的数据很少,而另一些类别的数据却足够。SMOTE 算法以插值思想为主要思想,力求解决样本不平衡问题,提升分类器效率[15]。目前该技术以少数类数据为操作对象,将每个样本对应到特征空间中的某一点,根据样本不平衡比例确定好一个采样倍率N,之后对每一个小样本类样本按照欧式距离找出K 个最近邻样本,从中随机选取一个样本点,将其与该样本点的K 最近邻点进行连线, 在该线段上再随机生成若干个其他数据点,以此实现对少数类数据集的扩充,直到大小样本数量均衡[16]。SMOTE 算法示意图见图1,SMOTE 算法在当前环境下较为简单友好,在实践中也取得了良好反响。但不容忽视的是,传统SMOTE 算法的数学基础并不牢固, 少数类数据特征数、数据量大小等因素都会不同程度地影响生成数据点的分布,对分类器性能产生不良影响。至今已有更加关注类间边界数据点的Borderline-SMOTE,通过综合边界信息以生成新的少数类数据点的最近邻样本以扩大生成数据的决策范围,使新增加的样本更加有效[17-18]。除此之外,为避免由随机过采样导致的过拟合而开发的Random-SOMTE[19]、结合欠采样和过采样的SMOTEBoost[20]、扩大数据集分布范围的Gaussian SMOTE 和Adaptive-SMOTE 等算法[18]相继问世,已经使此类算法性能得到明显提高,能更加从容地处理繁复的医疗图像数据。

 
图1 SMOTE 算法示意图
本示意图以经典Iris 鸢尾花数据集作为实验对象,通过对花朵花萼的长度和宽度进行统计比较以判断采样鸢尾花所属品种。其中菱形点代表多数类数据集,正方形点代表少数类数据集,圆点代表通过SMOTE 方法生成的新样本用于扩大少数类样本量
2.2 GAN
GAN 是以二人零和博弈思想为主导思想的新型神经网络。主要包括两个部分即生成器G(generator)和判别器D(discriminator),G 以随机噪声为图像生成源头,生成与目标图片相类似的“假图片”,并将这张假图片与真图片共同输入D 进行二分类神经网络训练,D 输出区别度并输入G 为后续“假图片”的生成提供参数调整意见,这样,二者实现了动态的博弈过程,直至达到纳什均衡点。GAN 示意图见图2。目前GAN已经开始逐步应用于临床医学,Muramatsu 等[21]利用循环GAN 生成不同纹理形状的肿瘤组织切片图像为进行乳腺癌良恶性肿瘤鉴别的神经网络提供学习样本;Bisneto 等[22]则将GAN 应用于对视网膜视盘的分割和青光眼病理图像的识别。值得注意的是,该算法属于无监督自主学习,极大降低了人工成本,且相比于其他传统神经网络,GAN 采用的对抗训练方式只用到了反向传播,而舍弃了复杂的马尔科夫链,简化了数据增强的繁杂程序; 优化了对数似然的下界,使GAN 产生了更加清晰和真实的样本。但由于GAN 属于完全无监督学习,导致此类方法在图片体积较大时创造的新样本往往太过随意而失去期望拥有的标签,因此CGAN 被提出以对新生样本特定特征进行约束,以生成具有新特征和原标签的新样本[23]。目前已有团队将CGAN 应用于胸部CT 图像降噪、乳腺肿瘤分割和形状识别[23-24]。除此之外,通过将全连接层替换为卷积层从而增加训练稳定性的DCGAN, 通过引入Earth-Mover Distance 和梯度惩罚机制以改进损失函数从而增加训练稳定性的WGAN[25]等都逐渐代替原始GAN 应用于医学图像识别,大大提高了系统性能,识别成功率也随之增长。

 
图2 GAN 示意图
2.3 Samplepairing 和Mixup
Samplepairing 算法由Hiroshi Inoue 于2018年提出,与上述提到的两种方法不同,产生新样本的方法原理极其简单,通过从训练集中随机抽取两张图片分别经过基础数据增强操作(如随机翻转、平移、镜像等)处理后经像素以取平均值的形式叠加合成一个新的样本,标签则选取原样本标签中的一种。这种方法对样本来源要求宽泛, 两张图片甚至不限制为同一类别,使得此类算法应用范围大幅增加。另有研究表明[26],采用此类增强方法的系统更加适用于训练数据集有限的任务,尤其是医学图像识别工作。目前此类方法在医学领域实践较少。
Mixup 算法由Facebook 人工智能研究院于2018年提出,利用线性特征向量的混合导致相关目标的线性混合的先验原理,采用线性差值的方法得到新样本数据。数据生成方式如下:

其中(xn,yn)是差值生成的新数据,而(xi,yi),(xj,yj)是训练集随机选取的两个数据,λ 的取值范围介于0和1 之间。本方法实现简单,且大量实验验证情况下保证了此类算法对学习模型的正面影响。
综合来说,Samplepairing 和Mixup 思路上具有相似之处,即均尝试将离散样本点连续化以拟合真实样本分布,但二者开发时间晚,案例实践少,还有待于进一步发掘和完善。
3 总结与展望
本文介绍了目前在临床工作中可以得到广泛应用的几种数据增强的方法。依据样本数据量分为单样本数据增强和多样本数据增强,其中单样本数据增强主要集中于对单个样本的图形学和几何学变换,多样本数据包括以SMOTE 和GAN 为代表的算法则以协调类间采样比例不平衡和扩大少数类数据类型样本量为手段,实现对神经网络分类性能的提高。总结来说,数据增强技术的本质在于在不降低网络容量以及不增加计算复杂度与参数数量的前提下提高模型的泛化能力,提高数据集的规整化程度,是与其他显式正则化方法的明显区别和优势所在。
目前医疗环境下,医疗数据模态多样化日趋明显,辅助诊疗系统的数据体量明显呈现爆炸式增长,而且患者对于生命健康更加重视,传统的几何变化和基于单个样本的有监督型数据增强技术往往不能满足追求高准确率、低人工参与的大规模系统,因此对于数据增强技术来说,今后的辅助诊疗系统必将以基于多样本的无监督型数据增强技术为主,更加致力于参数空间的缩减和潜在策略数量的扩大,并最终转化为基于无监督的方法生成数据和学习增强操作的组合,以期提高AI 辅助疾病诊疗准确度, 并对当前医疗资源相对短缺以及分布不均衡的困境有所缓解,成为解决就医困难的新抓手。
[参考文献]
[1]Schwendicke F,Golla T,Dreher M,et al.Convolutional neural networks for dental image diagnostics:A scoping review[J].J Dent,2019,91:103 226.
[2]Kasinathan G,Jayakumara S,Gandomi AH,et al.Automated 3-D lung tumor detection and classification by an active contour model and CNN classifier[J].Expert Syst Appl,2019,134:112-119.
[3]Gao F,Wu T,Li J,et al.SD-CNN:A shallow-deep CNN for improved breast cancer diagnosis[J].Comput Med Imaging Graph,2018,70:53-62.
[4]Liu X,Hou F,Qin H,et al.Multi-view multi-scale CNNs for lung nodule type classification from CT images[J].Pattern Recognit,2018,77:262-275.
[5]Gu J,Wang Z,Kuen J,et al.Recent advances in convolutional neural networks[J].Pattern Recognit,2018,77:354-377.
[6]Sajjad M,Khan S,Muhammad K,et al.Multi-grade brain tumor classification using deep CNN with extensive data augmentation[J].J Comput Sci,2019,30:174-182.
[7]Noguchi S,Nishio M,Yakami M,et al.Bone segmentation on whole-body CT using convolutional neural network with novel data augmentation techniques[J].Comput Biol Med,2020,121:103 767.
[8]池凯凯,蔡荣辉,丁维龙,等.基于深度学习的智能骨龄评估[J].计算机科学,2019,46(S2):89-93.
[9]Krell MM,Su Kyoung Kim.Rotational data augmentation for electroencephalographic data[J].Annu Int Conf IEEE Eng Med Biol Soc,2017,2017:471-474.
[10]彭礼烨,梁倍源,黄思钊,等.基于数据增强和Mask RCNN 模型的肤质自动识别方法与流程[P].专利申请号:201910806679.6
[11]向俊,卢宏涛,官青,等.一种甲状腺肿瘤细胞学涂片图像分类方法及其装置[P].专利申请号:CN201810318242.3
[12]熊继平,叶灵枫,叶童.一种图像数据扩增方法与流程[P].专利申请号:CN201811309890.9
[13]Hussain Z,Gimenez F,Yi D,et al.Differential Data Augmentation Techniques for Medical Imaging Classification Tasks [J].AMIA Annu Symp Proc,2018,2017:979-984.
[14]van der Walt S,Sch nberger JL,Nunez-Iglesias J,et al.scikit-image:image processing in Python[J].Peer J,2014,2:e453.
[15]Fotouhi S,Asadi S,Kattan MW.A comprehensive data level analysis for cancer diagnosis on imbalanced data[J].J Biomed Inform,2019,90:103 089.
[16]Elreedy D,Atiya AF.A Comprehensive Analysis of Synthetic Minority Oversampling Technique(SMOTE)for handling class imbalance[J].Inform Sci,2019,505:32-64.
[17]Wang KJ,Adrian AM,Chen KH,et al.A hybrid classifier combining Borderline-SMOTE with AIRS algorithm for estimating brain metastasis from lung cancer:a case study in Taiwan[J].Comput Methods Programs Biomed,2015,119(2):63-76.
[18]Pan T,Zhao J,Wu W,et al.Learning imbalanced datasets based on SMOTE and Gaussian distribution[J].Inform Sci,2020,512:1214-1233.
[19]Dong Y,Wang X.A New Over-Sampling Approach:Random-SMOTE for Learning from Imbalanced Data Sets,in Knowledge Science,Engineering and Management[J].Editors,2011,343-352.
[20]Chawla NV,Lazarevic A,Hall LO,et al.SMOTEBoost:Improving Prediction of the Minority Class in Boosting[C]//European Conference on Principles of Data Mining and Knowledge Discovery.Springer,Berlin,Heidelberg,2003.
[21]Muramatsu C,Nishio M,Goto T,et al.Improving breast mass classification by shared data with domain transformation using a generative adversarial network[J].Comput Biol Med,2020,119:103 698.
[22]Bisneto TRV,Filho AODC,Magalhes DMV.Generative adversarial network and texture features applied to automatic glaucoma detection[J].Applied Soft Computing,2020,90:106 165.
[23]Kim HJ,Lee D.Image denoising with conditional generative adversarial networks (CGAN) in low dose chest images[J].Nucl Instrum Meth Phys Res A,2020,954:161 914.
[24]Kumar Singh V,Rashwan HA,Romani S,et al.Breast tumor segmentation and shape classification in mammograms using generative adversarial and convolutional neural network[J].Expert Syst Appl,2020,139:112 855.
[25]Wei Z,Zou J,Zhang J,et al.Automatic epileptic EEG detection using convolutional neural network with improvements in time-domain[J].Biomed Signal Process Control,2019,53:101 551.
[26]Li H,Boimel P,Janopaul-Naylor J,et al.DEEP CONVOLUTIONAL NEURAL NETWORKS FOR IMAGING DATA BASED SURVIVAL ANALYSIS OF RECTAL CANCER[J].Proc IEEE Int Symp Biomed Imaging,2019,2019:846-849.
Current status and research progress on medical image data augmentation technology
WANG Tian-ren1 LI Yi-ning1 WANG Hong-yi1 KANG Jian1 ZHAO Shuang2 LIU An1
1. Department of Dermatology, the Third Xiangya Hospital of Central South University, Hu′nan Province, Changsha 410013, China; 2. Department of Otorhinolaryngology, Head and Neck Surgery, the Third Xiangya Hospital of Central South University, Hu′nan Province, Changsha 410013, China
[Abstract] Artificial intelligence-assisted medical image recognition diagnosis and treatment system has been used extensively. However, it is difficult to collect enough data to train the model under the current medical environment and social background. By data augmentation technology on processing existed samples, shrotage of data can be greatly eased. This article briefly summarized the common image augmentation techniques used in recent years. According to the number of samples processed, the existing data augmentation techniques are divided into two categories: singlesample data augmentation and multi-sample data augmentation. The former is further divided into pixel-level processing and overall horizontal geometric processing according to the different processing levels; while the latter mainly introduces the object of operation in the entire sample set represented by synthetic minority oversampling technique(SMOTE) algorithm and generative adversarial networks (GAN), and solves the imbalance by adjusting the sampling ratio. Additionally, this article also analyzed the advantages and disadvantages of each method, and summarized the performance and improvement of the above algorithms in recent years to provide new ideas for related practitioners.
[Key words] Artificial intelligence; Data augmentation; Synthetic minority oversampling technique; Generative adversarial networks
[中图分类号] R445
[文献标识码] A
[文章编号] 1674-4721(2021)1(c)-0034-05
(收稿日期:2020-05-21)