产品
随着信息技术的高速发展、数据库管理系统的广泛应用,人们积累的数据量急剧增长,大量的信息给人们带来方便的同时,也带来了诸如:信息过量难以消化,信息真假难以辨识,信息安全难以保证,信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而 展起来的数据处理技术。
大数据挖掘是伴随者互联网的普及应用和传统信息检索技术的不足提出并发展起来的。大数据挖掘是从大数据中发现有用的模式(其中的数据可以存放在数据库、数据仓库或其他信息库中),它旨在解决数据挖掘、信息检索、知识抽取以及更广泛的商业问题。面向大数据的挖掘比面向数据库和数据仓库的数据挖掘要复杂,因为大数据往往是无结构的,通常是用长的句子或短语来表达文档类信息;有些则可能是半结构化的,当然也包括大量的异构信息、冗余信息等,对诸如广告、导航条、动画等无关信息的甄别与处理也都是需要考虑的问题。大数据挖掘也是一个交叉学科,它涉及信息检索(信息检索可以看成是大数据挖掘的初级阶段)、人工智能、机器学习、概率论以及数据库等。在大数据搜索和检索中,常常需要对结果进行处理和内容挖掘。应用数据分析与挖掘方法,可以帮助人们从海量网络信息中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。由于大数据的海量、冗余、异构等复杂特点,给传统的数据挖掘技术提出了很多亟待解决的难题。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时 的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。