从什么维度评价机器人的服务能力?
想要全面评价一个机器人,首先必须想清楚它的任务目标。机器人是替代人工客服去承担客户服务工作,它必须具备怎样的能力才能合格地完成这项工作。就像人工客服需要一套人力资源的评价标准,机器人也需要构建一个能力模型。该模型通常由接待能力和应答能力两个方面组成。
首先,企业一般会从节能增效,帮助企业释放人力的目标出发,启用智能机器人。因此,评价机器人能够接待多少提问用户,在何种程度上替代人工是一个必要的维度,我们称此为机器人的接待能力。接待能力越高,表明机器人可替代的人工量越大,机器人节能增效的效果越好。
其次,机器人在接待用户后,根本的任务是要能够回答用户的问题,而这要从两个子维度去评判,一个是机器人能否回答用户的问题,另一个是机器人的回答是否正确(图1)。
图1:机器人应答能力判别维度
“能否回答问题”是由机器人的知识范围决定的。
如果某企业机器人知识库的范围是APP操作相关知识,那么当用户问到与APP操作无关的问题时,如“为什么A产品不卖了”,机器人无法解答,只能给出类似“这对我来说有点难呢,还需要继续努力,再换种问法试试呗”的拒识回复(图2)。
图2:机器人拒识回复
而“问题回答是否正确”是由机器人知识库质量决定的。
其质量的好坏体现在,针对业务范围内的知识,它能否准确识别用户意图,匹配正确答案,例如,当用户用长难句表达“之前的密码,说我错误,不可能啊,上个星期才登过”的时候,机器人能否识别用户遇到的问题是“密码失效,无法登录”。或者在用户意图模糊的情况下,机器人能否引导用户明确意图,最终匹配到能够解决用户问题的答案。例如,用户说“我要开卡”,机器人能否引导用户明确是开借记卡,还是信用卡(图3)。
图3:问题回答是否正确示例
以上两个子维度,我们综合称为机器人的应答能力。应答能力是机器人的内功,内功不佳,无法解决用户问题,用户难免还是寻求人工帮助,那么机器人接待能力也会随之下降。因此应答能力是智能客服机器人最关键的一个能力。
然而,保证机器人的应答准确性,机器人的能力就是最佳了吗?
并不尽然。
在实际情况中,用户常常希望得到的答案简洁明确,也希望客服人员能够耐心温柔,态度亲切。因此机器人也需要注意回复内容的形式、态度,注重用户体验。如果一个复杂业务的解决方式已经通过文字的形式告知用户,但用户操作起来仍然很繁琐,体验很不好,那就需要更换一种回复方式。因此,为了提高用户体验,精益求精,机器人的服务满意度也需要被关注。
图4:机器人三个能力维度
通过图4三个维度,可以较全面得评价一个智能客服机器人的服务能力。
如何量化评价?
确定机器人能力的评价维度后,针对各项能力具体如何评价,没有一个可量化的指标,评价工作还是无法落到实处。然而用以评价的指标,需要明确且容易计算,对业务有代表性,对问题有指向性,在帮助企业观测机器人能力表现的同时,还可以指导业务优化。
一般来说,行业内通常会采用“业务识别率”和“准确率”来评价机器人的应答能力,用“拦截率”评价机器人的接待能力,用“满意度”或“差评率”评价机器人的服务满意度(表1)。
表1:行业通用机器人能力判别指标
1、应答能力评估体系
1)业务识别率
业务识别率指在整个人机对话中,被机器人识别为业务问题的数量占总提问数的比例。
例如,某企业知识库范围是APP操作相关知识,机器人日志中用户总提问数有2W,被识别为与APP操作有关并给出相应答案的有1.8W,另外的0.2W可能都是跟APP操作无关的对话,那么该企业智能机器人的业务识别率就为1.8w÷2w=90%。
其中,业务匹配数=总提问数-拒识问题数-非业务回复数。
“拒识问题数”指机器人无法明确用户意图,回复未知问题话术的提问;“非业务”指机器人将用户的提问识别为如“你好”、“谢谢”等与业务无关的意图,并做出对应回复的问题。
2)准确率
准确率指回复正确的对话数占考察范围内对话数的比例。
考察范围内对话数不等同于总提问数。范围如何确定,需要企业根据自己的业务及服务要求进行判定。有的企业认为超业务范围问题是否给出拒识回复是需要考察的,闲聊类问题是否进行恰当的闲聊回复也需要考察,而有的企业只关心业务范围内的问题。
某企业,抽样数据如表2。总日志量为2万,随机抽样1000条,其中非业务、超范围问题数共有100条,业务范围内问题900条,业务范围内人工判断回复正确的为820条,非业务、超范围问题数回复正确的为70条(进行了恰当的闲聊回复或拒识回复视为正确)。
表2:抽样数据表
如果只计算该机器人业务范围内准确率,则计算基数只取业务范围内问题900条,正确的为820条,则准确率为820÷900=91%。倘若,该企业同时要考察闲聊与超范围问题准确率。则计算基数应为抽样的总1000条,业务回复正确与非业务、超范围回复正确共890条,则机器人准确率为890÷1000=89%。
倘若该企业的考察范围再进行变化,那么机器人的准确率也必然会随之改变。因此真实场景的准确率计算,依赖于具体选定的业务范围,不同的企业客户,计算的方式各有差异。
但通用的是,判断什么是正确回复的方法。机器人回复是否正确,主要体现在针对用户意图是否匹配了正确的知识点,但这一点机器人无法自证,需要人工介入。线上数据通常流量很大,人工全量复检可行性低,建议采用人工抽检或标准测试集复检的方式来判断。
关注业务识别率和准确率,不只可以观测到机器人的质量表现,更重要的是可以明确机器人的短板,找到提高改进的方向。
2、接待能力评估体系
机器人的接待能力,可以通过“拦截率”评价。
拦截率对应的是用户提问由机器人解答之后,用户没有进一步要求人工服务,而直接结束了本次会话的情况,可以通过以下方式计算:
设置机器人的目的就是替代人工回复用户问题,但用户与机器人进行多番交互后,仍然得不到满意的答案,可能就会转人工。用户与机器人的多番交互则为一次会话。它指某个用户登录开始与机器人交互到用户退出或者在一定时间内没有回复的,算作一次会话。而上文提到的对话或提问数指用户与机器人的一轮交互,用户提出一个问题,机器人给出一次答复,就记为一次对话。因此一个会话包含多轮对话。
拦截率的计算必须是基于有效会话的,否则会非常不客观。
一些用户进入场景后一言不发就退出,还有一些用户进入场景后,直接要求人工服务,未向机器人询问任何问题。这些没有实际交互的会话属于无效会话。
无效会话的产生在一定程度上反应了用户对智能客服的接受度。一些企业的业务本身比较复杂,或者一些业务点如银行错账,引发用户焦急情绪,用户不信任机器人,所以一进线就转人工。还有一些用户可能年龄层偏大,没有养成通过互联网获取信息的习惯,依赖人工服务,因此也会进线即转人工。这种由于业务特点或者用户习惯产生的转人工会话是机器人无法拦截的,不属于有效的转人工会话。
另有两种情况属于需要设定转人工回复的情景。
一种情况是,一些业务问题,机器人只能做基础回答或不做回答,需要进一步或直接引导用户转人工解决。例如快递业的“特殊物品催派”,机器人会采用提醒用户转人工的策略。
另一种情况,用户可能触发一些敏感词,需要转人工回复。这两类问题是不属于机器人需要拦截的问题,转人工是业务所需的配置策略,因此在计算拦截率时,是应当剔除的。
所以,如果一个机器人的总会话量为1w,没有进行任何交互的为500,要求转人工的会话为2000,其中进入机器人就要求转人工的为300,触发设定的转人工场景而转人工的为200,则该机器人的拦截率为1-(2000-300-200)÷(10000-500-300-200)=83.3%。
拦截率的统计,关键是要客观。采用有效数据计算拦截率,可以客观地评价机器人本身对人力的取代程度。
3、服务满意度评估体系
服务满意度即通过“满意度”指标进行评价。
满意度通常以主动推送,邀请用户评价的方式进行,可以实施于对话维度,也可以实施于会话维度。满意度指标相对主观,它主要取决于用户接受机器人服务后的感受是否良好,一般可以通过统计满意数或者差评数来评估机器人服务的满意度。但是,多数客户在得到满意的回答后会直接退出服务场景,不会给出评价,而在不满意的时候倾向给出反馈,留下差评。所以关注差评率是更客观的评价方式。
满意度是一个结果指标,无法直接指明问题所在。影响用户使用体验的因素很多,所以指标本身不能指明改进方法,需要通过指标追溯具体原因,才能提升用户体验。
具体来说,导致用户不满意的原因可能是用户对答案不满意,或者觉得交互方式太死板等等。而收集具体信息的方法,可以是企业通过用户调研等方式进一步分析,又或者在用户提交差评的同时直接让用户选择不满意的原因,收集后分析,针对性优化。
结语
综上所述,智能客服机器人评价体系包含三个维度,分别为接待能力评价、应答能力评价和服务满意度评价。三个维度分别可以通过“拦截率”、“业务识别率”和“准确率”、“满意度”指标进行量化分析。
智能客服机器人已经成为客服行业不可阻挡的一股升级趋势。通过使用量化评估体系对智能客服机器人进行客观评价,我们可以及时发现机器人或知识库的内在问题,明确运营优化方向,提高知识运营水平,让智能客服机器人发挥出最大的效力。