知识有什么用?
如果说波士顿动力的翻跟头是在帮助机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个工作的机器人大脑。
“目前,机器还不可能理解人类语言。”中科院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你开心的Siri、能写诗的萧冰,还是能“把脉”的沃森,他们都没有真正明白自己在做什么,为什么要做。
让机器学会思考,靠的是“谱”。这个“谱”被称为知识图谱,意在将人类世界产生的知识构建到机器世界中,进而形成一个可以支持类脑推理的知识库。
为了在中国构建一个全新的知识图谱产学研合作模式,近日召开了知识图谱研讨会。来自大专院校和工业团队的研究人员共同努力,建立了全球知识图谱系统,并建立了世界领先的人工智能基础设施。
技术原理:将文本转化为知识
“对于‘姚明是上海人’这样的句子来说,它只是存储在机器里的一串字符。这串字符‘活’在人脑里。”孙乐举例说。比如提到“姚明”,人们会想到他是前美国职业篮球运动员,“小巨人”和中锋,“上海”则会让人想到东方明珠和繁华都市。但是对于机器来说,仅仅说“姚明是上海人”并不能像人类一样理解背后的含义。机器要理解一段文字,首先需要了解背景知识。
那么如何把课文变成知识呢?
“借助信息抽取技术,人们可以从文本中抽取知识,这是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三重”存储模式。三元组由两个点和一条边组成。点代表一个实体或概念,边代表实体和概念之间的各种语义关系。一个点可以从多面延伸,形成多种关系。比如姚的点就与出生地上海滩、效力NBA以及2.26米的身高有关。
“如果这些关系足够完善,机器就有了理解语言的基础。”孙乐说。那么如何让机器有这样的“悟性”呢?
“20世纪60年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目中使用实体之间的语义关系来表达问题和答案的语义,剑桥语言研究系的Margaret Mastman在1961中使用语义网络对世界知识进行建模,可以视为知识地图的前身。”孙乐说。
随后,国内的Wordnet和Hownet也是手工构建知识库。
“这包括主观知识,比如人们在社交网站上是否喜欢或不喜欢某个产品;场景知识,比如在特定场景下做什么;语言知识,比如各种语言的语法;常识性的知识,比如水、猫狗,教人认的时候可以直接指向,但是计算机很难理解。”孙乐解释说,从这些初步的分类中,我们可以感受到知识的浩瀚,更不用说高层次的科学知识了。
构建模式:从人工劳动到自动提取
“2010之后,维基百科开始尝试众包,每个人都可以贡献知识。”孙乐说,这大大加快了知识图谱的积累,百度百科、互动百科也采取了类似的知识收集方式,动员大众大大缩短了“积沙”环节的时间,大大提高了效率,无数知识从四面八方涌来,迅速聚集,只等“建塔”了。
面对如此大量的数据,或者说“文本”,知识图谱的构建自然可以不再是手工劳动,“让机器自动提取结构化的知识,自动生成‘三元组’。”孙乐表示,学术界和产业界已经开发了不同的框架和系统,可以自动或半自动地从文本中生成机器可读的知识。
在孙乐的演示课件中,有一个生动的画面。如果你吃了一大堆文件纸,计算机会立即将其转化为“知识”,但事实远非如此简单。不同行业对结构化数据的自动抽取没有统一的方案。在“百度知识图谱”的介绍中是这样写的:将提交给知识图谱的数据转化为遵循图式的实体对象,进行数据清洗、对齐、融合、关联等统一的知识计算,完成图谱的构建。“然而,我们发现,基于维基百科,从结构化和半结构化数据中挖掘出的知识图谱仍然不足,因此目前所有的工作都集中在如何从海量文本中提取知识上。”孙乐说,例如,谷歌的知识库和美国国家标准与技术研究所主办的TAC-KBP评估也在推广从文本中提取知识的技术。
在权威的《知识库自动构建国际评测》中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取和情感抽取四个部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所-搜狗联合团队获得综合性能指标第三名,事件抽取单项指标1名。
"在这个领域,中国可以和国际水平竞争."孙乐介绍,中科院软件所提出了基于共同引导的实体获取算法和基于多源知识监督的关系抽取算法,大大降低了文本知识抽取工具的建模成本,提高了性能。
最终目标:构建人类所有的知识。
据《旧约》记载,人类合力建造了巴别塔,希望通往天堂。现在,创造AI的人类正在建造这样一座巴别塔,帮助人工智能达到人类的智能。
自动练习使知识量开始形成规模,达到可以支撑实际应用的量级。"但是这种转变还远远没有达到人类知识的水平."孙乐说,再说了,人类的知识一直在不断增加、更新、动态变化,理解也要与时俱进地体现在机器的“大脑”中。
“因此,知识图谱不会是一个静止的状态,而是会形成一个循环,这也是美国卡内基梅隆大学等地提出的永无止境学习的理念。”孙乐说。
数据显示,目前谷歌的知识图谱中记录了超过35亿个事实;Freebase记录了超过4000万个实体、数万个属性关系和超过24亿个事实。百度百科收录10万词条,联想搜索功能在百度搜索中应用。
“还有医学领域、人际关系等特定领域的专门知识图谱。”孙乐介绍,亲属关系描述人物之间的亲属关系,包括104个实体,26个关系,10800个事实;UMLS用135个实体、49个关系和6800个事实描述了医学领域中医学概念之间的关系。
"这是一幅充满光明前景的宏伟蓝图."孙乐表示,知识图谱的最终目标是将人类所有的知识形式化、结构化,并利用它来构建基于知识的自然语言理解系统。
虽然令业界满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”也仅仅停留在基础层面,但相关应用已经展现出广阔的前景。比如在百度百科中输入“冷冻电镜”,石会出现在右边的竖条中,输入“币”,王思聪等相关条目会直接出现在搜索词中。它包含了机器对人类意图的理解。