基于深K近邻和朴素贝叶斯分类算法的肿瘤诊断

时间:2023-10-01 17:20:05 来源:网友投稿

摘要:本文试图将深k近邻和朴素叶贝斯分类算法来解决肿瘤诊断的问题。肿瘤现在已经成为我国乃至世界范围内的常见病和多发病,尽早诊断和治疗对肿瘤患者的未来至关重要。异型性是肿瘤异常分化在形态上的表现。肿瘤细胞异型性小,与正常组织相似,分化和低恶性。肿瘤细胞异型性大,与正常组织相似度小,分化程度低,恶性程度高。区别这种异型性的大小是诊断肿瘤,确定其良性、恶性的主要组织学依据,但最大的问题在于准确诊断存在困难。本文从概率的角度,结合深K近邻与朴素贝叶斯分类算法开展研究,对尽可能准确的诊断提出合理的算法。

关键词:K最近邻分类算法;朴素贝叶斯分类算法;深度学习;机器学习

中图分类号:TP391.41   文献标识码:A   文章编号:1672-9129(2020)16-0067-01

1 深K最近邻算法肿瘤诊断的原理

K最近邻(Deep-k-Nearest Neighbor,DNN)分类算法是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近样本的大多数属于某一个类别,则该样本也属于这个类别。

本文建立在深度神经网络上,索引为λ的层将前一层fλ-1的输出作为其输入,并应用非线性变换来计算其自己的输出fλ。这些非线性行为通过一组参数θλ来控制,这些θλ是每个层的特定参数,这些参数将给定层的神经元链接到其前面的层的神经元。因此,对于给定输入x,神经网络f执行以下计算以预测其类:

fθ,x=fl-1(θl-1,fl-2(θl-2,…f0(θ0,x)))

2 朴素贝叶斯分类算法原理

设w为肿瘤组织与正常组织异型性的特征向量,表示组织异型性数值大小是否达到恶性肿瘤的值,1表示异型性达到,0表示未达到。用ci表示肿瘤的类别,分为良性肿瘤和恶性肿瘤,1表示恶性肿瘤,0表示良性肿瘤,则核心公式如下:

pci|w=p(w|ci)p(ci)p(w)

由于对肿瘤组织与正常组织异型性的诊断需要对多个节点进行测试,可以进一步将w扩展为多个属性节点Xi,令每个属性节点相互独立,只与该节点的相应组织C相关。那么各属性节点与组织C的关系就可表示为一个离散随机变量的有限集X1,X2,…,Xn,C,条件属性值xi是属性Xi的取值,条件属性值ci是属性C的取值,则本组织属于ci类肿瘤的概率由贝叶斯定理可表示为:

pci|w=p(x1,x2,…,xn|ci)p(ci)p(x1,x2,…,xn)

3 基于K最近邻算法和朴素贝叶斯分类算法的肿瘤诊断流程

DNN分类算法的主要思想是:首先算出待分类样本与已知样本之间的距离,进而找到距离与待分类样本数据最接近的K个样本,再根据这些样本所属的类别来判断待分类样本数据类别的分类。因为同时使用多个参数值不同的DNN算法对待同一特征数据分类得到的结果相互独立,符合朴素贝叶斯算法中所有属性相互独立的假设,所以结合朴素贝叶斯算法可以提高DNN分类的性能。

组合算法构造算法步骤如下:

Step 1:设样本集

D={(x11,x12,…,x1n,C1),(x21,x22,…,x2n,C2),…,(xm1,xm2,…,xmn,Cm)}为提取的组织C和该属性的属性节点特征向量的集合,其中Ci(i=1,2,…m)表示样本类别,取值为c1,c2,…,cn。

Step 2:将样本集D分为训练集Dtrain和测试集Dtext两部分。

Step 3:分别对属于Di的子样本集进行计算,计算出其中特征Xi=ai的概率,p=(Xi=ai|C=Ci)

Step4:计算训练集样本数据和测试集样本数据的距离,为测试集样本数据选择若干个与其距离最小的样本,对每个测试样本统计出最邻近若干個样本中大多数样本所属的分类。

Step5:针对测试集Dtext,得到C(C1,C2,…,Cn)对每个特征属性计算所有划分的概率PC=Ci|X=xtext=p(C=Ci)Πnj=1p(Xj=xtextj|C=Ci)。

4 结论

本文实现了将朴素贝叶斯分类算法合并到k深度近邻算法之中,以便提高它的效率,提高诊断的准确率,为抽象的据概率分类的算法整合出具体的步骤。虽然肿瘤诊断需要考虑的因素更加复杂,本文中形成的简单系统总体上可能不如更加复杂的系统有效。尽管如此,考虑到明显简化而达成的算法,可以认为这种简化的系统是有效的。

参考文献:

[1]李双杰,张开翔,王士栋,王淑琴.基于加权K近邻的特征选择方法[J].天津师范大学学报(自然科学版),2020,40(02):63-67.

[2]何伟. 基于朴素贝叶斯的文本分类算法研究[D].南京邮电大学,2018.

作者简介:申淑逸(2000—),女,汉族,籍贯:山东临沂,学历:本科,单位:曲阜师范大学,计算机学院。

猜你喜欢机器学习深度学习基于词典与机器学习的中文微博情感分析电子技术与软件工程(2016年22期)2016-12-26有体验的学习才是有意义的学习江苏教育·中学教学版(2016年11期)2016-12-21电子商务中基于深度学习的虚假交易识别研究现代情报(2016年10期)2016-12-15MOOC与翻转课堂融合的深度学习场域建构新教育时代·教师版(2016年23期)2016-12-06大数据技术在反恐怖主义中的应用展望法制与社会(2016年32期)2016-12-01基于网络搜索数据的平遥旅游客流量预测分析时代金融(2016年27期)2016-11-25前缀字母为特征在维吾尔语文本情感分类中的研究科教导刊(2016年26期)2016-11-15深度学习算法应用于岩石图像处理的可行性研究软件导刊(2016年9期)2016-11-07基于深度卷积网络的人脸年龄分析算法与实现软件工程(2016年8期)2016-10-25基于支持向量机的金融数据分析研究科学与财富(2016年28期)2016-10-14

推荐访问:近邻 朴素 算法