之前的文章NLP场景应用中的本体论中提到,场景本体(也称为OEC模型)是面向场景的形式化模型,是以本体论为指导,对场景应用中,NLP语义分析的业务目标(需求)进行形式化描述,并对场景相关的领域模型、要素模型、概念模型进行形式化描述,提高场景知识的共享、复用能力。
智能辅助建模(也称为OEC智能辅助建模)将介绍如何利用机器学习算法和语义资源,辅助场景业务人员,自动或半自动化地构建具体场景应用中的OEC模型。本文是辅助建模系列文章的第一篇,将介绍辅助建模的概念、工具和基本功能。
一个场景模型示例
在下边这个本体场景实例,是银行领域客服投诉分析挖掘的场景本体模型,可用于对银行客服投诉进行自动分析。输入是客服投诉文本,是自然语言表示的文本,输出结果是客服投诉的自动分类。
客服投诉模型,包括3部分:
1、本体模型:形式上由一个本体树和领域模型构成。本体树是类目体系的形式化描述,这里指客服投诉的分类。领域模型,是本体树对应的推理规则的形式化描述,这里指客服投诉分类相关的业务知识。领域模型支持两种类型:概念模型、机器学习预训练模型。上图中的本体表达式,是概念模型的形式化规则,说明客服投诉的业务知识,一般是用客服人员-态度-不好这样的三元组表示,其中客服人员是投诉对象要素,态度是投诉涉及的属性要素,不好是投诉中对投诉对象涉及属性的评价性描述。
2、要素模型:是对领域相关实体概念的形式化描述。这里指银行领域相关投诉对象(对象要素)、投诉对象相关属性(属性要素)。如工作人员的对象要素,可包括下级要素,如柜员、客服人员、保安、大堂经理等,工作人员的属性要素,可包括下级要素如态度、效率、业务水平等。
3、概念模型:是对领域无关的语言概念的形式化描述。这里指对象和属性的评价概念,如不好、恶劣、怠慢等。概念模型可理解为传统意义上的语言资源形式化管理。
场景本体辅助建模
场景本体模型是业务知识的形式化表示,一般由业务人员主导构建。面向场景应用开发的工具——DINFO-OEC平台,提供专业、方便、易用的建模IDE集成环境,支持场景化业务建模,可通过概念规则,构建形式化的业务规则,也可通过数据标注,指定机器学习(包括深度学习)算法,来训练机器学习模型。建模工具支持两种类型领域模型。
为了提高建模效率,DINFO-OEC平台也提供OEC智能辅助建模工具,支持利用机器学习算法,对业务数据进行自动学习。辅助建模中涉及到的机器学习算法(包括深度学习)、知识资源及各种功能模块,均由DINFO-OEC平台提供。
辅助建模工具
辅助建模工具,提供可视化辅助建模环境,支持业务人员通过拖拉拽的方式,实现各种建模操作。
辅助建模工具的3个分区:
1、组件区:在建模工具左下角。该区提供相关算法组件,如用于本体模型辅助的分类聚类,用于要素模型、概念模型中的实体抽取,用于本体模型中本体表达式辅助的关联发现、规则生成等组件。每个组件对可以对应一个或多个算法,业务人员无须了解算法的具体细节,只需要在辅助建模工具中拖拽组件(如分类、聚类组件),即可完成自动聚类的任务。组件区也提供建模常用操作,如选择语料,可以选择客服投诉语料来作为辅助建模的数据等。
2、建模区:在建模工具左上方。该区支持业务人员将组件区的组件和操作,通过拖拉拽的方式,形成一个处理流程,用以实现多级建模。
3、结果区:在建模工具右方。该区展示当前流程的输出结果,业务人员可对结果进行合并、修改、删除等操作。
辅助建模功能示例
以上述客服投诉模型为例,辅助建模工具在以下4个环节中,支持业务人员对客服投诉的文本数据进行分析,提高客服投诉模型的建设效率:
1、分类体系建模:针对本体模型中本体树建设,辅助自动发现本体树节点。
2、要素发现:针对要素模型中要素树建设,辅助自动发现客服投诉场景下的实体对象。
3、评价概念复用:针对概念树中概念树建设,可直接复用平台提供的语言资源。
4、本体表达式发现:针对本体模型中,一个本体树节点的业务规则,从客服投诉文本中,辅助发现要素与概念的组合关系,自动形成本体表达式。
作者:晋耀红博士,神州泰岳首席科学家,人工智能研究院院长,北京师范大学教授,博士生导师。