从早期的数字图书馆、专家系统到如今的搜索引擎,人们一直致力于追求快速、准确的信息获取方法。目前,网络上的数据资源浩如烟海、错综复杂,而用户的信息需求又千变万化、千姿百态,基于关键词组合的信息需求表示方式和基于浅层分析的语义分析这类传统的信息检索技术俨然不能满足当下用户的需求,智能问答技术通过对数据的深度加工和组织管理、以更自然的交互方式满足用户更精确的信息需求。
智能问答技术可以追溯到计算机诞生初期的上世纪五六十年代,其中,代表性的系统包括baseball[1]和Lunar[2]。baseball是最早的以“未来的人机交互将是以自然语言进行的交流方式”为目标构建的系统。Lunar系统是为了方便月球地质学家查询、比较和分析美国阿波罗计划从月球带来的大量岩石和土壤分析数据而开发的问答系统。早期的这些系统大多针对特定领域而设计,一般处理的数据规模不大,因为只接受限定形式、限定领域的自然语言问句,也不需要强大的自然语言理解技术,其性能也与系统针对特定领域的定制程度相关。这类系统终归因为没有足够支撑应用的大量数据资源而难以被广泛应用。
进入到二十世纪九十年代,随着互联网技术的发展,人们希望利用日益丰富的网络数据资源解决智能问答中的数据匮乏问题,特别是随着九十年代中期的TREC-QA[3]评测技术的推动,检索式问答技术取得了巨大的进展,这种系统的主要特点是:利用信息检索以及浅层自然语言处理技术从大规模文本或网页库中抽取答案。但是,由于用户需求的多样性和自然语言的复杂性,这种浅层的语义分析技术难以提取出有用的信息和准确理解用户查询意图(比如,大部分检索式问答系统假设包含答案的句子至少含有一个问句中的词汇,但是这一假设在很多情况下不适用),因此这类检索式问答技术也为未得到真实应用。
长期以来,阻碍智能问答技术发展的两大瓶颈是高质量的知识资源和高效的自然语言分析技术。随着Web2.0 的兴起,包括Wikipedia 、ODP 等应用在内的众多基于用户协同生成内容(User-Generated Content, UGC)的互联网服务产生了越来越多的高质量数据资源,以此为基础,大量的知识库以自动或半自动方式构建了起来(比如Freebase 、YAGO 、DBpedia 等)。另外,随着九十年代初统计机器学习方法和经验主义方法的兴起,自然语言处理中的各个任务都取得了突飞猛进的进展,无论是在基于语义分析的知识工程(如Reverb [4])还是在大规模开放域问句深度理解方法都取得了长足的进步(如SEMPRE [5])。可以说,智能问答系统中所需要的知识资源和自然语言分析技术正逐步被科研人员解决。
近年来,不少智能问答产品取得的成果引起了社会公众对智能问答技术的关注,例如:IBM研发的问答机器人Watson在美国智力竞赛节目《Jeopardy! 》中战胜人类选手;苹果公司研发的 Siri 系统在智能手机中的真实应用取得了良好效果。实际上,Siri系统内部的知识问答是提交给WolframAlpha 处理的。Watson和WolframAlpha成功的关键因素包括:1) 强大的知识资源:前者定义了自己的知识框架,并从大约2亿页的图书、新闻、电影剧本、辞海、文选和《世界图书百科全书》等资料中抽取知识,而后者对各个领域定义了自己的知识结构并抽取大量事实;2) 深层语义分析技术:Watson开发的DeepQA系统集成了统计机器学习、句法分析、主题分析、信息抽取、知识库集成和知识推理等深层技术。
值得注意的是,以智能问答技术为核心的智能聊天机器人近年来在国内发展地如火如荼,除了已面世的微软公司的 “小冰”、百度公司的“度秘”和华为公司的“小诺”,众多企业和研究团体也在该领域发力突破。这类聊天机器人从目前来看虽然还不能解决太多真实信息需求,但是可以把智能问答的研究进展以用户喜闻乐见的方式带给大众是使其走向成熟的关键步骤。下面将介绍智能问答系统中涉及的主要关键技术:知识的抽取和表示,问句的语义理解和知识的推理。
知识抽取
智能问答的实现需要强大的知识资源作为基础,这就需要通过对大规模数据资源的理解和萃取,抽取和转换成计算机可以处理的形式进行表示和存储。事实上,长期以来,科学家们一直致力于建构规模更大更完备的知识资源库。
早期的知识资源大多是通过专家知识构建的,可以把智能问答系统中所用到的知识粗略地分为语言知识和世界知识。语言知识为对自然语言中词、短语等语义单元知识的组织,如词义信息,上下位关系等,该类资源最典型的代表包括:英文词汇知识库WordNet 、frameNet 、中文词汇知识库HowNet 等。而世界知识是对现实世界中实体和事实的组织和表示,最典型的代表是早期的Cyc ,该项目是在人工智能鼻祖Douglas Lenat带领下实现的当时全世界最大的完全人工建立的常识知识库。虽然目前它已经涉及五十万个概念,三万个关系,数百万条事实,但远远不能满足开放领域智能问答系统对知识资源的需求。
实际上,大量的知识存在于非结构化的文本数据中。为了突破知识资源的瓶颈,学术界希望通过从文本数据中利用信息抽取技术自动获取大规模知识来建立知识资源库。该过程中需要涉及实体识别、实体分类、实体消岐、关系抽取、事件识别和抽取等关键技术。得益于Web2.0群体智慧的结果,网络上包含了大量语义明确的高质量数据资源,其中Wikipedia最具代表性。大量的工作直接或间接地利用Wikipedia资源进行知识抽取。德国的马克斯普朗克研究院(Max Planck Institute)的YAGO通过融合Wikipedia和WordNet构建了一个大规模的知识库类别体系,并定义了几十种关系描述实体之间的关系。其它有代表性的工作还包括:华盛顿大学图灵实验室的TextRunner [6],ReVerb [4],R2A2 [7],WOE [8],OLLIE [9];德国柏林工业大学DSIM组的Wanderlust [10],KrakeN [11]等。CMU的NELL[12]系统通过不间断地从互联网上抽取和挖掘知识,构建可以支持多种智能信息处理应用需求的海量规模网络知识库。
目前,机器自动方式构建的知识资源还难以达到实用的要求(主要是准确率不够),工业界从另一个角度进行全新的探索——以群体智慧的方式建设知识资源,并且取得了丰硕成果。Wikipedia已经涵盖了287种语言的知识条目3000多万条。以Wikipedia为基础,各单位构建了多个可利用的知识库,其中DBpedia、早期的Freebase都是基于Wikipedia自动生成的本体。这些知识资源能够搜集不同领域的知识,并且它们的内容随着网络资源的增长而不断丰富,因此引起了搜索引擎巨头的极大关注。Google于2010年收购了Freebase 后一直致力于构建相互关联的实体及其属性的巨大知识图谱Knowledge Graph 并据此建立Google语义搜索。在国内,众多互联网企业也不甘示弱,分别推出了雄心勃勃的计划,比如百度的知心和搜狗的知立方。
问句理解
有了知识还不够,智能问答还需要理解人提出的问题,问题理解就是将自然语言转化为计算机可以理解的形式化语言。让计算机理解自然语言是非常困难的,这也是自然语言处理技术的核心问题。解决这一问题有两种不同的思路。
第一种是语义解析方法 (Semantic Parsing)。这种方法符合人们的直觉,它将一个自然语言句子,按照特定的语法,解析成逻辑表达式,这些逻辑表达式可以容易地转变为知识库的查询语言,因为他们已经是没有歧义的表达语句。
研究人员设计了很多方法来完成这样的转换 [13][14][15][16]。其中,比较常见的是利用组合范畴语法CCG [13][17]。CCG的核心是词汇,将自然语言的词汇映射到逻辑表达式的词汇。除了词汇之外,CCG还有一系列的语法规则,按照这些规则将词汇组合起来,就得到了最终的逻辑表达式。
然而,在这类方法中起到至关重要作用的词汇一般都是人工生成的,这样的词汇缺乏领域适应性,如果问答系统从一个领域换到另外一个领域,就要重新生成一批特定词汇。自动学习这种词汇成为了研究的重点[16][17][18]。另一方面,CCG有多种语法组合规则,有时候,一个问句会有不同的解析方式,因此,如何选择正确的解析方式也成为一个问题,使用概率化的CCG[19]可以解决这一问题。
第二种是基于信息检索的方法。这种方法避开了最难的自然语言理解部分,将语义解析问题转化为检索问题。首先,找到问句中所涉及到的知识库资源;然后,按一定的规则(可以是学习得到的规则),将这些资源组合成规范查询语言。这种方法相对来说比较简单易用,而且通常不用人工去设计词汇,所以适用于多个领域,相应的缺点是不如语义解析方法精确。
如果我们只针对一个特定的知识库,例如Freebase,来做简单的事实性问答,那么可以使用更加简单但效果明显的检索式方法[20]。即先用命名实体识别工具得到问句中的主实体,然后再找出问句中所提问的关系,或者说属性。一般来说,命名实体识别这个步骤相对容易,因为一个实体的表示方式有限。而找到关系则更困难,因为自然语言描述同一关系的表达方式多种多样。例如,中文里表达“配偶”这一关系的说法就有妻子、丈夫、结婚等等多种说法,因此重点就是找到问句所询问的关系。好在知识库中和某一实体相关的关系数量是有限的,可以排除很多无关的关系。在Freebase这样的知识库问答中,这种方法是很有优势的。当然,这种方法的缺点也很明显,就是无法处理复杂的问句。
受其启发,近年来有很多工作利用神经网络的方法继续对其进行了改进。文献[21]使用了卷积神经网络来映射关系。值得一提的是,最近的一些工作[22][23]更进一步地利用端到端的方法,直接将问句和最终的答案做匹配,绕开了最困难的问句理解步骤。神经网络在其中起到了重要作用,并且这种方法也取得了不俗的效果。
综上,问句理解是问答系统中最核心的环节,因为正是这个过程将人类的自然语言转化为计算机可以处理的形式。这种困难不只是智能问答所需要克服的,而是整个人工智能领域所面对的共同难题。
知识推理
智能问答中,不是所有问题都可以利用现有知识库进行回答,主要原因是知识库本身覆盖度有限,也就是说问题中所涉及的概念和事实尚未收录到知识库中。除了抽取到的知识,还有大量的隐含知识存在于知识库和人脑中,例如,知识库中包括了一个人的“出生地”信息,但是没包括这个人的“国籍”信息,虽然知识库中对于人物对应了“国籍”属性,但是由于没有直接给出该属性的值,因此还是不能回答诸如“某某是哪国人?”这样的问题,但是实际上我们都知道,一个人的“出生地”所属的国家就是他(她)的“国籍”,这些隐含知识存在于大部分人脑中,在知识工程中,有很多类似的隐含知识未被编码进去,但是对于问答系统,就需要通过推理的方式学习到这样的模式。知识推理任务就是要得到这些隐含的知识,总体来说,知识推理可以分为推理出抽象知识(归纳推理)和具体知识(演绎推理)。
早期的知识推理方法大多学习和利用从现有知识归纳出符号逻辑的推理规则,比如华盛顿大学开发的夏洛克-福尔摩斯系统,通过共现模式挖掘,可以对知识库中没有显式表达的知识进行推理 [24];而CMU开发的推理系统PRA可以利用已有的知识推理出知识库中不存在的知识 [25]。这些基于逻辑符号的推理方法未能有效考虑符号本身的语义,加上推理规则的个数随其中关系个数指数增长,因此难以扩展到大规模知识库中。近年来,随着深度神经网络技术的快速发展,表示学习技术在各个领域都取得突破性的进展,在知识推理领域,也有大量工作[26]基于表示学习技术,在全局条件下对知识库进行编码,把概念和关系表示为低维空间中的对象(向量、矩阵等),通过在低维空间中的数值计算完成知识推理任务。虽然就目前来说,这类推理的效果离实用还有段距离,但是我们认为这是值得探寻的方法,特别是融合符号逻辑和表示学习的知识推理技术[27]。
总结
综上所述,近年来,一方面,得益于Wikipedia等众多高质量的开放资源,知识工程取得了突飞猛进的进展,另一方面,基于统计机器学习的自然语言理解技术和工具日益发展成熟。这两方面分别为智能问答技术奠定了资源基础和技术基础,使得智能问答技术更加快速地走入人们的生活。然而,基于知识的智能问答系统仍面临以下关键性问题。
一方面,知识难以描述和统一,人们在不同领域为了不同的任务定义和管理了各自的知识库,造成了大量异构数据的存在,这些数据在局部范围内是组织良好的信息资源,但是若不能把这些异构分散的知识资源整合在一起,也只能是形成了一些独立的信息孤岛,不能满足用户的统一查询需求。目前类似BabelNet 等项目也只是简单地融合不同知识库中的相同概念,实现异构知识资源的融合和联合查询是当前知识管理和知识服务技术发展中亟待解决的问题。
另一方面,虽然词性标注、主题抽取、文本分类等自然语言处理任务日趋成熟,但是在需要深层语义理解的任务中,例如语义角色标注、语义解析、篇章结构分析等,还停留在抽取简单的普通关系和结构层面上,对于深层的小众的情况还远未涉及,例如当前很少有问答系统能处理到量词辖域问题。要做到真正的语言理解就需要处理非限定形式的语言现象。在技术上,不仅需要建立语言符号和世界知识之间的丰富关联,还需要构建快速的语义组合机制,使得他们能够面对庞大知识库上的搜索空间。诚如Kenneth Church在文章“钟摆摆得太远” [28]中所言,我们目前只是摘取了较低较容易的果实,还有大量的处于更高更深的语义果实有待挖掘。因此,目前还需要大规模高效率的面向非限定领域的自然语言深度语义理解技术。
最后,网络上有大量新的信息和知识不断涌现,基于固定模式(schema)的知识表示和服务方案难以满足用户的需求,如何提取新知识、挖掘隐含知识,是智能问答等知识服务系统是否能实用的有效指标。另外,人类的知识是非常复杂的,不仅包括后天习得的世界知识和语言知识,还包含大量的先天知识和社会知识,目前的语言知识库、世界知识库虽然数量有了显著的变化,但是远远不能涵盖人类知识。目前的世界知识库的知识类型主要是事实性的知识,欠缺常识知识。常识知识在人类推理过程中具有非常重要的作用,而很多常识知识难以规范化。因此,如何在智能问答中融合常识等知识进行推理是也是智能问答中的关键问题。
注:本文曾刊于《人工智能学会通讯》2016年第六卷第01期。
作者简介
何世柱:中国科学院自动化所博士研究生, 主要研究方向为智能问答、知识工程以及自然语言处理。
张元哲:中国科学院自动化所博士研究生, 主要研究方向为问答系统、知识关 联以及自然语言处理。
刘康:博士,中国科学院自动化所副研究 员,主要研究方向为问答系统、观 点挖掘和自然语言处理。
赵军:中国科学院自动化所模式识别国家 重点实验室研究员,博士生导师, 主要研究方向为信息检索、信息提 取、网络挖掘、问答系统等。
参考文献
[1] Green Jr, B. F., Wolf, A. K., Chomsky, C., and Laughery, K. baseball: an automatic question-answer. In Papers presented at the May 9-11, 1961, western joint IRE-AIEE-ACM computer conference (1961), ACM, pp. 219–224.
[2] Woods, W. A. Progress in natural language understanding: an application to lunar geology. In Proceedings of the June 4-8, 1973, national computer conference and exposition (1973), ACM, pp. 441–450.
[3] H. T. Dang, J. Lin, and D. Kelly. Overview of the TREC 2006 question answering track. In 15th Text REtrieval Conference, Gaithersburg, Maryland, 2006.
[4] Fader, A., Soderland, S., and Etzioni, O. Identifying relations for open information extraction. In Proceedings of the Conference on Empirical Methods in Natural Language Processing(2011), Association for Computational Linguistics, pp. 1535–1545.
[5] Berant, J., Chou, A., Frostig, R., and Liang, P. Semantic parsing on freebase from question-answer pairs. In EMNLP (2013), pp. 1533–1544.
[6] Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. Textrunner: Open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, NAACL-Demonstrations ’07, pages 25–26, Stroudsburg, PA, USA. Association for Computational Linguistics.
[7] Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland, and Mausam Mausam. 2011. Open information extraction: The second generation. In IJCAI, volume 11, pages 3–10.
[8] Fei Wu and Daniel S. Weld. 2010. Open information extraction using wikipedia. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, ACL ’10, pages 118–127, Stroudsburg, PA, USA. Association for Computational Linguistics.
[9] Mausam, Michael Schmitz, Robert Bart, Stephen Soderland, and Oren Etzioni. 2012. Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, EMNLP-ConLL ’12, pages 523–534, Stroudsburg, PA, USA. Association for Computational Linguistics.
[10] Alan Akbik and Jügen Bro. 2009. Wanderlust: Extracting semantic relations from natural language text using dependency grammar patterns. In WWW Workshop.
[11] Alan Akbik and Alexander L?ser. 2012. Kraken: Nary facts in open information extraction. In Proceedings of the Joint Workshop on Automatic Knowledge base Construction and Web-scale Knowledge Extraction, AKBC-WEKEX ’12, pages 52–56, Stroudsburg, PA, USA. Association for Computational Linguistics.
[12] T. Mitchell, W. Cohen, E. Hruschka, P. Talukdar, J. Betteridge, A. Carlson, B. Dalvi, M. Gardner, B. Kisiel, J. Krishnamurthy, N. Lao, K. Mazaitis, T. Mohamed, N. Nakashole, E. Platanios, A. Ritter, M. Samadi, B. Settles, R. Wang, D. Wijaya, A. Gupta, X. Chen, A. Saparov, M. Greaves, J. Welling. In Proceedings of the Conference on Artificial Intelligence (AAAI), 2015.
[13] T. Kwiatkowski, L. Zettlemoyer, S. Goldwater, and M. Steedman, Lexical generalization in ccg grammar induction for semantic parsing, in Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, 2011, pp. 1512–1523.
[14] P. Liang, M. I. Jordan, and D. Klein, Learning dependencybased compositional semantics, in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, 2011, pp. 590–599.
[15] J. M. Zelle and R. J. Mooney, Learning to parse database queries using inductive logic programming, in Proceedings of the National Conference on Artificial Intelligence, 1996, pp. 1050–1055.
[16] Y. W. Wong and R. J. Mooney, Learning for semantic parsing with statistical machine translation, in Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 2006, pp. 439–446.
[17] L. S. Zettlemoyer and M. Collins, Learning to map sentences to logical form: Structured classification with probabilistic categorial grammars, in Proceedings of the 21st Uncertainty in Artificial Intelligence, 2005, pp. 658–666.
[18] T. Kwiatkowski, L. Zettlemoyer, S. Goldwater, and M. Steedman, Inducing probabilistic ccg grammars from logical form with higher-order unification, in Proceedings of the 2010 conference on Empirical Methods in Natural Language Processing, 2010, pp. 1223–1233.
[19] S. Clark and J. R. Curran, Log-linear models for widecoverage ccg parsing, in Proceedings of the 2003 conference on Empirical methods in natural language processing, 2003, pp. 97–104.
[20] Yao, Xuchen, and Benjamin Van Durme. Information extraction over structured data: Question answering with freebase. Proceedings of ACL. 2014.
[21] W.-t. Yih, X. He, and C. Meek, Semantic parsing for singlerelation question answering, in Proceedings of the 52th Annual Meeting-Association for computational Linguistics, 2014.
[22] Bordes, Antoine, Jason Weston, and Nicolas Usunier. Open question answering with weakly supervised embedding models. Machine Learning and Knowledge Discovery in Databases. Springer Berlin Heidelberg, 2014. 165-180.
[23] Bordes, Antoine, Sumit Chopra, and Jason Weston. Question Answering with Subgraph Embeddings, in Proceedings of the conference on Empirical methods in natural language processing, 2014.
[24] Stefan Schoenmackers, Oren Etzioni, Daniel S. Weld, and Jesse Davis. 2010. Learning first-order horn clauses from web text. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, EMNLP ’10, pages 1088–1098, Stroudsburg, PA, USA. Association for Computational Linguistics.
[25] N. Lao, T.M. Mitchell, W.W. Cohen. Random Walk Inference and Learning in A Large Scale Knowledge base. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2011.
[26] Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng. 2015. Embedding entities and relations for learning and inference in knowledge bases. In International Conference on Learning Representations (ICLR).
[27] T. Rocktäschel, S. Singh, and S. Riedel. Injecting logical background knowledge into embeddings for relation extraction. In Proceedings of the 2015 Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 2015.
本文地址:http://sjzytwl.xhstdz.com/quote/65737.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多