PMapp以知识地图的形式全面整合了60个数据库,其主要框架包括4个部分,即基因及其产物、生物信号通路和分子网络、致病变异以及药物。在第一部分中,PMapp收存了41,700个编码人类基因和38,943个非编码人类基因,178,562个RNA以及20412个人类蛋白质,这些基因及其代谢产物构成了PMap实体存储库的基因及其产物部分。其中在方面,PMapp收集了致病变异约2500多万,除此之外还收录了15000多种药物和488条通路。关于网路,知识库包含22,907实体和1,804,000关系。整个常规通路和网络总共涵盖31,264个生物实体(节点)和1,804,000个相机作用(边)。PMapp融合2000万+条精准医学实体、5000万+条精准医学知识。

PMapp平台可以支持在输入框内输入基因、药物、疾病、突变和通路名称、别名或是相关字符等,网页将返回相关的直接和间接关系的信息作为结果,如果是检索网络/通路相关内容,PMapp平台可以对网络/通路进行可展示可视化已经个性化编辑。PMapp平台不仅可以支持检索和智能搜索还可以进行数据分析等功能。基因注释分析包括基因表达量的定性或是定量注释分析以及按照用户不同需求展示分析结果。生物学通路分析可以提供通路的富集分析的不同形式的展示,也为用户提供通路图展示的同时展示目标展示以P-Value 值等富集分析结果。

PMapp平台的精准医学知识图谱PMKGG部分,是在海量异质生物医学知识库查询的基础上,实现所查询知识点之间的自动关联。迄今尚未出现基于海量异质生物医学知识库的此类工具。PMKGG 填补了该领域的国际空白。PMKGG包含三种查询功能:Entity查询,ShortestPath查询,Adjacent查询.

目前PMapp的应用体现在几个方面,1)PMapp知识库支持了决策支持系统的专病知识库的构建;2)知识库推送系统的开发;3)临床基因检测报告系统的开发;4)为广州实验室的生物医学科研基础平台建设提供了在线分析应用和知识图谱中的部分功能;5)为全景式呼吸系统疾病的数据资产智能化协调平台提供了基于临床诊疗的知识图谱和基于文献挖掘的知识图谱。

通过知识图谱PMKGG建立了面向专病或专题知识图谱的构建及其多模态推理的方法,可发现可靠的新知识,并为特定疾病领域提供通用的预训练知识。通过该方法构建了包含5种癌症、6种非癌症重大专病知识图谱数据集SDKG-11。该成果发表在2022年的Bioinformatics期刊上。


图1 PMApp首页



图2 PMapp精准医学知识一键检索


图3. PMapp精准医学多维知识发现


图4.PMKGG中“KRAS”和“hypertension”之间的最短路径查询


图5.PMKGG中TP3到PathWay的查询结果展示网络图


6 PMKGG中查询ace2的邻接节点的网络图


图7.知识图谱推理技术