何喜军 张 佑 孟 雪 武玉英
(北京工业大学 经济与管理学院 北京 100124)
知识图谱(Knowledge Graph,KG)是大数据时代用于海量知识管理和智能服务的新兴技术[1],能捕捉和呈现领域概念之间错综复杂的关系,为解决“知识孤岛”提供理想的技术手段[2-3]。专利作为科技创新成果的主要表现形式,蕴含丰富的知识且具有重要的经济价值[4-5],是知识图谱构建的重要数据源[6]。目前,专利知识图谱(Patent KG,P-KG)的构建主要包括公开号、申请人等结构化信息,以及专利的技术点、技术功效等非结构化信息,并通过多维关系实现实体关联,例如:专利与申请人间的申请关系、专利与技术点的包含关系等。P-KG的应用则聚焦知识服务,包括:领域本体构建[7]、专利检索[8]、技术热点及空白点分析[9,10]等。
目前已有P-KG的研究,其知识图谱的构建多依赖于基于规则的方法与基于传统机器学习的方法[11]。但基于规则的方法需要依赖领域专家来构造规则,不仅需要耗费大量人力,且规则的可移植性很差[12];
而基于传统机器学习的方法虽然可以自动识别实体,但仍需要图谱的构建者从原始数据出发人工构造特征[13]。大规模结构化和非结构化专利供需信息中自动化或半自动化提取可靠和一致的知识,并构建专利供需知识图谱(Patent Supply-Demand KG,PSD-KG)仍面临挑战[14]。
此外,由于获取专利信息的重要数据源—德温特创新索引(Derwent Innovations Index,DII)数据库中转让及许可等信息缺失,现有的P-KG均未融合交易信息,例如:专利的转/受让人、转/受让日期。交易信息的缺失使得目前基于P-KG的应用多局限于专利信息的检索、挖掘技术热点及空白点等[15]。而技术成果转化所需要的供需挖掘、技术交易推荐等重要应用难以开展。
燃料电池具有污染小、能量转化效率高、可靠性高等优点,成为各国科研机构和产业关注的热点领域[16-17]。2019年全球燃料电池出货量约为1.1GW,较2018年增长40%,技术需求旺盛,但燃料电池领域PSD-KG的构建及应用研究还未多见。于是本文以DII和IncoPat数据库为数据源,探索燃料电池领域PSD-KG的半自动化构建方法,并在技术供需热点挖掘、交易网络演化、信息检索等方面挖掘应用场景,也为基于PSD-KG的交易推荐提供知识库。
1.1 专利技术知识图谱及应用场景
P-KG是以专利涉及的多种实体为节点,以实体间关系为边的语义网络,用来构建、描述、分析和挖掘专利知识及知识之间的相互关系[18],其基本单元由两节点及其关系所构成的三元组组成。通过文献研究,对现有P-KG中包括的实体、关系及应用场景总结如下(见表1)。
表1 P-KG中实体、关系及应用场景
由表1发现,上述领域的P-KG均未包含专利交易方面的实体及关系信息。
1.2 P-KG的构建方法
P-KG的构建主要包括实体识别、关系抽取、知识存储与可视化等步骤。其中:语义实体存在于专利标题以及摘要中,包括技术点和技术功效等;
非语义实体存在于专利著录项中,包括申请人、IPC等。语义关系指通过计算语义相似度建立的关系,如:技术点间相似关系;
非语义关系包括专利与转让人间的转让关系,专利与技术点之间的包含关系等。
a.实体识别方法。
实体识别是从专利文本中识别出指定的技术实体,将它们归类到预先定义好的类别中[26]。其中:技术点和技术功效是两类重要的语义实体,常通过标题及摘要等短文本记录,主题特征不显著[27],且申请人在专利的撰写中会尽可能少地披露信息[28],使得该类实体识别需要相当多的领域经验和知识,是P-KG构建的重点和难点。主要方法包括三类:
基于词典与规则的方法:该方法主要依赖语言学家手工构造的实体词典和规则模版,需要耗费较大的人力和时间,且对于词典和规则中未涵盖的实体识别效果不明显,不同知识领域间无法移植[29]。
基于机器学习的方法:该方法将实体识别视为序列标注问题,利用大规模语料来学习标注模型,有较好的移植性,但对特征抽取的要求较高。特征抽取是从文本中选择对实体识别有影响的各种特征,并加入到特征向量中[30]。主要包括隐马尔可夫模型(HMM)、最大熵模型(MEM)和条件随机场(CRF)[31]等。其中:HMM不能考虑上下文的特征,限制了特征的选择;
MEM可以任意选择特征,但只能找到局部最优值,并具有标注偏执问题,即训练语料中未出现的情况将被忽略;
CRF能够将所有特征进行全局归一化,求得全局最优值。该类方法在特征抽取时仍需大量人工参与,且依赖于语料库,识别效果有待提升。
基于深度学习的方法:该方法通过获取数据特征和分布式表示,避免繁琐的人工特征抽取,具有良好的泛化能力[32]。Hammerton等[33]使用单向的长短期记忆网络(LSTM),进行序列建模,弥补了CRF中人工抽取特征的不足。Guillaume Lample 等[34]提出双向长短期记忆网络(BiLSTM)和CRF结合的神经网络模型,能够获取上下文的序列信息,在实体识别中被广泛应用[35-36]。
上述基于机器学习或深度学习的方法,多采用Word2idx、Word2Vec、GloVe等方法将文本转化为词向量,以便于机器识别,但受限于模型的表征能力,得到的词向量无法充分考虑词序信息和一词多义[37]。谷歌团队Jacob Devlin等[38]提出一种BERT(Bidirectional Encoder Representation from Transformers)语言预处理模型来表征词向量,能进一步增强词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,更好地表征不同语境中的句法与语义信息。
b.关系抽取方法。
关系抽取旨在发现并建立两个实体间的联系,包括基于规则、共现、本体和统计机器学习的方法。基于规则的方法依靠领域专家定义的规则抽取关系[39];
基于共现的方法认为如果各类实体在同一专利著录项中共同出现,则认为实体间存在联系[18];
基于本体的方法将抽取到的新实体与本体中已有实体进行映射,并基于本体中的实体及其关系为新实体建立联系[40]。基于统计机器学习的方法分为无监督、半监督、有监督的方法[41],其本质是分类问题,首先基于机器学习模型学习已有语料的特征,然后进行特定关系的匹配识别和抽取,适用于实体间关系类型具有不确定性的场景,常用于通用知识图谱的关系抽取。
c.知识存储及可视化技术。
KG有多种存储方案,包括:基于Disk或Main Memory的原生数据库、关系型数据库、非关系型数据库等。其中:非关系型数据库中图数据库的存储结构有利于发现实体之间的潜在关系,且提供了更有效的关系和网络建模方法,应用广泛。目前主流的图数据库有美国Neo Technology开发的 Neo4j 数据库、微软开发的 Graph Engine 数据库、北京大学开发的Gstore数据库[42]等。其中:Neo4j是一个原生的图数据库引擎,支持分布式,对Java平台具有很好的兼容性,有利于后期的工程开发。
综上,本文重点研究燃料电池领域PSD-KG的半自动化构建方法及创新应用场景。
PSD-KG半自动化构建主要包括4个步骤,①规划PSD-KG的实体以及关系;
②构建专利技术领域词典,基于BERT-BiLSTM-CRF模型,识别语义实体,提高PSD-KG构建的自动化程度;
③利用共现方法抽取实体间非语义关系,并利用词嵌入方法进行语义关系计算;
④利用Neo4j进行知识图谱存储和可视化,挖掘应用场景,流程图如图1所示。
构建BERT-BiLSTM-CRF模型进行语义实体识别,是实现PSD-KG半自动化构建的关键步骤。模型结构如图2所示。
图1 PSD-KG构建框架
图2 BERT-BiLSTM-CRF模型结构
该模型分为3层,首先,标注语料经过BERT预训练语言模型获得相应的序列向量,然后,把序列向量输入到BiLSTM层对上下文的语义特征进行建模,最后,利用CRF层对BiLSTM层的输出结果进行解码,得到一个预测标注序列,通过对序列中的各个实体进行提取分类,完成实体识别。
3.1 BERT层
BERT是一种以双向Transformer为特征编码器的预训练语言模型,Transformer是一种基于自注意力机制的深度神经网络[43]。BERT利用Transformer学习文本中词语之间的上下文关系,并利用关系调节权重提取文本的重要特征[44]。
专利摘要中的每个句子在领域词典的基础上,首先经过BIEO模式的自动化标注,然后经过WordPiece操作[45],将单句分割成更小的单元以压缩词表大小,处理未登录词,并在句子首尾分别嵌入[CLS]和[SEP]标记句子的开始和结束。经过上述操作的句子被转化成词序列W=(w1,w2,…,wn-1,wn) (n为专利摘要中词的个数),然后经过Token Embedding、Segment Embedding和Position Embedding进行词、句子、位置嵌入后得到初始的输入向量V=(v1,v2,…,vn-1,vn),并通过Transformer 进行特征提取,得到含有丰富语义特征的序列向量X=(x1,x2,…,xn-1,xn)。BERT模型的结构如图3所示。
图3 BERT模型结构
3.2 BiLSTM层
图4 BiLSTM模型结构
3.3 CRF层
BiLSTM对序列中各个标签进行独立分类,无法处理相邻标签间的依赖关系,可能出现实体标签混淆问题。CRF同时考虑输入的当前状态特征和各个标签类别转移特征[53],通过邻近标签的关系获得一个最优的预测序列来弥补BiLSTM的缺点[54-55],实现全局最优解。因此,在BERT-BiLSTM之后引入CRF对序列上下文标签关系进行建模。
CRF层引入转移概率矩阵A约束输出标签,Aij代表标签i转移为j的概率,标签得分矩阵L作为状态概率矩阵,对于词序列W=(w1,w2,…,wn),预测的标签序列Y=(y1,y2,…,yn) 的得分为转移概率和状态概率之和,公式如下[34]:
(1)
利用softmax函数对所有可能的序列路径进行归一化,得到标签序列Y产生的概率:
(2)
为简便运算,两边取对数得到标签序列Y的似然函数:
(3)
4.1 数据采集及查全率查准率检验
查阅燃料电池相关资料包括(《GB/T 20042.1-2017质子交换膜燃料电池第1部分:术语Proton exchange membrane fuel cell - Part 1: Terminology》、《GB/T 28816-2012燃料电池术语 Fuel cell - Terminology》、《GB/T 24548-2009 燃料电池电动汽车术语 Fuel cell electric vehicles - Terminology》)等,人工筛选领域词汇,构建专利检索表达式。基于德温特数据库检索专利信息,并通过IncoPat数据库映射并采集专利转让及许可等供需信息。由于IncoPat中仅包括中国和美国专利的转让信息,因此筛选公开国别为中国、美国的有效发明授权专利,共16040件进行实证研究。
为保证PSD-KG构建的准确性和完整性,检验数据检索的查准率和查全率。
(4)
“检索到的领域相关专利数量”的确定方法为:人工阅读样本专利的标题和摘要,若描述内容为燃料电池领域的技术或功效,则属于领域相关专利,否则为无关专利。通过多次从检索结果中随机抽取其中的1%作为数据子集[56],经人工判断,平均查准率为96.38 %。多次检索结果,查准率及具体判断示例如表2、表3所示。
表2 多次检索结果及查准率
表3 领域相关/无关专利判定示例
(5)
首先,选择专利申请数量排名前5的申请人作为查全率的抽样对象[56];
然后,分别在IncoPat和本文专利库中(16040件)检索每个抽样对象在燃料电池领域申请的专利,其中:在IncoPat的检索结果为“母样本”,本文专利库的检索结果与母样本的交集为“子样本”;
最后计算所有抽样对象的查全率的平均值,得出查全率为96.31%。表4为抽样对象情况。
表4 抽样对象申请专利及查全率
4.2 规划PSD-KG的实体及关系
借鉴已有P-KG中包括的实体及关系[7-8,20],并扩展供需实体及关系,规划本文PSD-KG中包括的实体及关系。本文PSD-KG共包括12类实体,14类关系,具体如表5所示。
表5 PSD-KG的实体及关系
4.3 实体识别
a.语义实体识别。
基于BERT-BiLSTM-CRF 模型进行技术点及技术功效识别,步骤包括:专利领域词典构建、语料半自动化标注、语义实体识别、模型评价。
第1步,专利领域词典构建:首先,对国家标准《GB/T 28816-2012燃料电池术语 Fuel cell - Terminology》中的术语进行总结,获得105个技术术语作为技术点种子词典。然后,对IncoPat数据库中“技术功效TRIZ参数”和“技术功效1级”字段中包含的技术功效词进行人工筛选和分类,构造技术功效种子词典,共224个功效术语。由于种子词典中包含的词汇多为基础术语,如:catalyst、cost,难以覆盖复合技术点和技术功效词,如:alloy catalyst、graphene catalyst、processing cost、manufacturing cost。利用StanfordNLP工具对专利摘要进行依存句法分析,获取依存关系为“compound”的词构建复合术语表。最后,在复合术语表中筛选包含技术点、技术功效种子词的复合名词,与技术点、技术功效种子词进行合并,得到18155个技术点和14931个技术功效词汇。
第2步,语料半自动化标注:目前,对于特定领域的实体识别,多通过人工标注数据[4,55],耗费大量人力和时间。本文参考Wang等[57]的研究,基于专利领域词典实现半自动化数据标注。选择BIEO标注模式[36],并以“Technology”和“Effect”区分技术点和技术功效两类语义实体。具体为:对专利摘要进行分词,遍历技术点和技术功效词典,将匹配到的词视为实体,按照表5的模式标注,不属于实体的词标记为O,样例见表6。
表6 数据标注模式及示例
第3步,语义实体识别准确性:由于在训练集和测试集划分过程中,如果训练集的比例过大,可能会导致训练出的模型更接近于用总样本训练出的模型;
比例较小,结果又会不够准确[58]。于是本文按照留出法以研究常用[59]的8∶2比例将16 040个专利数据随机划分为训练集和测试集。其中:基于领域词典自动标注训练集,测试集由人工标注。针对自动标注的训练集,提出BERT-BiLSTM-CRF模型进行实体识别,采用准确率P、召回率R、F1指数[40]评价模型精度,并与CRF和BiLSTM-CRF模型对比。P=识别正确的实体数/识别的实体总数,R=识别正确的实体数/文本中包含的实体总数,F1=(2×P×R)/(P+R)。结果如表7所示。
表7 实体识别结果评价与对比
基于上表得出:BERT-BiLSTM-CRF模型的实体识别精度最优。
b.非语义实体识别。
组织类型实体识别:构建组织分类的关键词表,将组织划分为6类包括:企业、高校、科研机构、政府机构、个人、金融机构,利用Python实现类型映射。
组织所在城市识别:利用JavaScript语言调用百度地图API和谷歌地图API,通过模糊查询和人工检索的方式检索出组织所在的城市信息。
表5中其他非语义实体识别均通过“正则表达式+爬虫技术”从结构化数据中获取。
综上,识别12类实体的数量如表8所示。
4.4 关系抽取
利用共现的方法抽取实体间的非语义关系,并利用词嵌入方法进行语义关系计算[60],抽取14类关系的数量如表8所示。
表8 实体及关系数量
5PSD-KG应用
总结已有研究中P-KG的应用场景,并与本文构建的PSD-KG可实现的应用场景进行对比,结果见表9。其中P和O分别表示可实现和不可实现的应用。
表9 传统P-KG与PSD-KG的应用场景对比
下面将从宏观-中观-微观等多维度挖掘PSD-KG的新应用场景。
5.1 宏观维度的技术供需热点挖掘
图5 技术供给热点演化图
图6 技术需求热点演化图
从图5、6发现:第一,专利技术供给和需求热点具有一致性,按照上述热点筛选规则,图6中15个技术需求热点在图5的供给图中出现了14个,说明在燃料电池领域的专利市场中,筛选出属于技术需求热点的技术点,同时也属于技术供给热点的程度较高。第二,根据供需热点演化趋势,将技术点分为3类:持续热门技术点、新兴热门技术点和潜在热点技术。
持续热门技术点:指供需两图中长期处于高热度的技术点,也代表燃料电池领域的基础性核心技术,包括:Anode Catalyst、Cathode Catalyst、Catalyst、Membrane Electrode、Membrane Electrode Assembly等。其中:催化剂(Catalyst)是影响燃料电池效率的关键技术,能够通过铂纳米粒子催化氧化还原反应。催化剂中的关键元素铂是一种稀有资源,其提取成本占燃料电池制造成本的30%至40%[64]。因此,降低催化剂的铂含量或提高铂的重复利用率,一直是科研机构和企业关注的重点问题[65]。通过碳基、钯合金基等进行催化来摆脱催化剂对铂基依赖的相关研究,也一直是当前燃料电池领域寻求突破的重要方向[66]。但非铂基物质如何为氧还原反应提供出高活性、低成本的催化剂仍处在探索阶段[67]。膜电极组件(Membrane Electrode Assembly,MEA)作为质子交换膜燃料电池(Proton Exchange Membrane Fuel Cell,PEMFC)的重要组件,直接决定PEMFC的性能、寿命和成本[68]。制备高功率密度、长寿命、低成本的MEA,对PEMFC大规模商业化发展来说尤为关键。综上,上述两类技术点是燃料电池的关键性和基础性的技术和组件,属于持续热门的技术点。
新兴热门技术点:指在某时间点后供给与需求热度快速上升的技术点,代表燃料电池领域的热点技术,例如:Fuel Cell Vehicle(燃料电池汽车)。虽然早在2000年,燃料电池汽车就开始示范运行和技术攻关研究[69-70],但直到2008年正式发布了燃料电池汽车的概念车后,该领域才开始迅速发展[71]。伴随基础设施(如加氢站)的建设,以及2015年丰田Mirai和Clarity的发售和租赁,燃料电池汽车正式进入市场[72]。该领域的相关技术也得到快速发展,如对燃料电池汽车的控制系统、能量管理等成为热门研究领域[73]。
潜在热点技术:指技术需求热度长期高于供给热度的技术点。最新研究表明,增材制造(Additive Manufacturing)是一种快速成型技术,具有缩短制造时间、提高原材料利用率和降低制备成本低等优势,增材制造不锈钢双极板(Additive Manufactured Stainless Steel Bipolar Plate,AMSSBP)是经济高效生产PEMFC的方式之一[74]。2015年增材制造技术快速发展,带动双极板的需求增长快速,供给略显不足,因此,基于增材制造技术制造的AMSSBP或将成为未来研究的潜在热点。
5.2 中观维度的技术交易网络研究
基于PSD-KG进行技术交易网络挖掘是又一特色。首先,统计2000-2019年参与专利技术交易网络的卖方、买方数量以及交易频次,如图7所示,揭示该领域专利交易网络规模的演化趋势及市场交易的活跃度,发现:在买方和卖方数量稳定的基础上,买卖频次在2009年和2014年出现两个高峰,进一步研究发现,2009年美国海军研究实验室(NRL)的离子虎(Ion Tiger)试飞成功,其关键技术是利用氢为动力的燃料电池;
2014年ix35 FCEV汽车投入量产,标志着氢燃料电池车在美进入商业发展阶段,这或许是推动燃料电池领域专利交易活跃度的重要因素之一。此外,输入技术点,可以绘制各年的交易网络图,研究包括某技术点的专利技术供需交易的演化趋势,例如:输入技术点“Cathode Electrode”,图8、9展示了包含该技术点并且发生交易的专利以及买卖双方,相比2018,2019年的交易活跃度较弱。
图7 2000-2019年专利技术交易网络规模
图8 2018年技术供需交易图
图9 2019年技术供需交易图
5.3 微观维度的供需信息检索
已有研究中构建的P-KG在专利信息检索方面应用丰富[4,8-19],为专利导航在内的诸多专利服务提供决策支持。本文构建的PSD-KG,除了能够完成P-KG的检索功能之外,还可实现多维度的供需信息检索。例如:输入“技术点”,可检索出包含该技术点的专利的供给组织或需求组织及组织所属城市,以辨识卖方和买方及区域分布,帮助用户寻找潜在交易及合作伙伴;
输入“组织名称”,可检索该组织转出、转入专利以及交易伙伴等,识别组织的技术需求或技术优势;
输入“时间”和“技术点”,可检索该时间周期内,在某技术点的活跃买方和卖方以及区域分布等,识别城市的技术需求、技术优势以及关键组织等,为政府政策制定提供支持。举例如下:输入技术点“Cathode Electrode”,检索2000-2019年其技术供方、需方及所在城市如图10和11所示。
图1 0 供方信息检索结果
本文提出了PSD-KG半自动化构建的方法,以燃料电池领域为例构建图谱,并与已有研究中图谱构建的方法以及应用场景对比,验证了PSD-KG的优势。主要结论如下。
图1 1 需方信息检索结果
第一,在传统P-KG基础上,通过多个数据库的信息采集与融合,拓展专利交易方面的实体及关系,规划了由12类实体和14类关系组成的PSD-KG,提出面向供需信息挖掘与交易推荐的专利知识图谱构建思路。
第二,建立专利领域词典以实现语料自动化标注,并提出了基于BERT-BiLSTM-CRF模型识别语料库中的专利语义实体,弥补了传统P-KG构建中语义实体识别时规则覆盖不全面、过度依赖专家知识等局限。通过与CRF和BiLSTM-CRF两类方法对比,验证了基于BERT-BiLSTM-CRF模型的语义实体识别精度最高(均高于85%)。同时,通过语料自动化标注增强了图谱构建的半自动化水平。
第三,构建燃料电池领域的PSD-KG,从宏观、中观、微观多维度挖掘图谱的新应用场景,其中,基于技术供需热点识别及演化,识别出三类技术热点,包括:持续热门技术点、新兴热门技术点和潜在热点技术;
同时,在交易网络分析、供需信息检索等方面挖掘新应用场景,拓展了专利图谱的应用空间,为专利推荐和交易推荐提供知识库。
后续研究将聚焦燃料电池领域PSD-KG,探索基于路径和基于图结构的专利及交易伙伴推荐算法以及应用研究。
猜你喜欢燃料电池检索实体燃料电池题解法分析中学生数理化(高中版.高二数学)(2020年2期)2020-04-21前海自贸区:金融服务实体中国外汇(2019年18期)2019-11-25试驾丰田氢燃料电池车“MIRAI未来”后的六个疑问?车迷(2017年12期)2018-01-18实体的可感部分与实体——兼论亚里士多德分析实体的两种模式哲学评论(2017年1期)2017-07-31两会进行时:紧扣实体经济“钉钉子”领导决策信息(2017年9期)2017-05-04振兴实体经济地方如何“钉钉子”领导决策信息(2017年9期)2017-05-04燃料电池的维护与保养电子制作(2017年10期)2017-04-18专利检索中“语义”的表现专利代理(2016年1期)2016-05-17Hyundai公司的iX35燃料电池车汽车与新动力(2014年4期)2014-02-27国际标准检索质量与标准化(2010年5期)2010-05-03