01
背景
排队峰值指的是因为业务突发性异常,或者人力服务能力短时间内下降,产生比较严重地供需不平衡,从而导致的用户集中排队的现象。
因为人力服务能力短时间内下降这种情况是可以尽量避免的,所以本文会重点介绍业务突发性异常导致的排队峰值,这种情况在客服行业中是一种比较典型的现象。
预测师一般会根据经验值来预测第二天的进线量,假如第二天业务线出现了一个问题,比如某个活动完成了一个任务,没有给到应得的奖励。那么这部分受影响的用户就会集中的进线导致排队峰值。以美团为例,因其业务非常广泛,所以基本每月都会有数十个此类的排队峰值情况。等业务线发现了这个问题并且快速修复后,排队峰值的情况就会马上好转。
从上面的例子来看,突发性异常导致的排队峰值会有突发性、暂时性两个特点。突发性是指事先没法预测在某个时间段会产生大量的进线。暂时性是指一般这类峰值持续时间都比较短,业务线收到问题反馈后会尽快修复问题,问题修复后,排队就会逐渐回归到正常水平。
但是因为具备突发性和暂时性两个特点,所以在峰值期间,接线人力通常来不及准备,没法短时间内增加到数倍,而且因为峰值的时间比较短,等发现问题并且协调了其他业务线的支援同事,开通权限准备上线时,往往峰值也就恢复了。如果很多客户在峰值期间得不到问题的有效解答,也比较容易发生舆情事件。
02
以往是怎么样处理峰值的?
在峰值处理中,会有接线客服、现场管理、业务线人员和客服业务运营几类角色。
一般现场管理会人肉盯盘,发现服务水平异常或者持续处于排队高位时,会找接线客服管理进行问题的确认,等确认确实出现了排队峰值后,会通知当前业务线需要周知的相关人员,一般会有客服业务运营和业务线人员同步集中问题情况,并且由客服业务运营人员拿到话术,同步到客户端和客服端。峰值期间涉及到的角色如图1所示。
(图1:峰值期间角色图)
在过去处理峰值的流程中,会存在如下的一些问题:
发现及同步排队峰值信息时间长:过去发现峰值完全靠人工上报,确认峰值并且拉群基本需要10分钟左右。
排队峰值发现不稳定:排队峰值是否能够顺利同步,比较依赖于现场管理是否能够及时发现。
没法短时间内确定集中问题和问题大小:问题的发现需要依靠客服的人工上报和抽查工单的情况来确认,没办法确定问题影响的范围和大小,也会影响对于后续的处理动作。
峰值手段比较单一:对于怎么处理当前的峰值,在客户侧往往也只能在发现问题的业务中上线一个通用公告。上线公告的速度也比较依赖于公告的编写速度和对于当前场景的判断。同时相关处理的话术也需要层层传达到全国的多个职场。
跨业务支援时间比较久:多个业务同时出现排队峰值的概率比较小,所以一般在某一条业务发生排队峰值的时候,现场会安排其他业务线培训过发生排队峰值业务线的客服进行支援,但是支援的流程从确认支援方案到最终支援人员开通权限上线接线往往需要15分钟左右,不能及时地发挥支援作用。
03
如何依托技术更好地解决峰值?
从峰值处理过程来看,我们可以分为发现、确认、解决、复盘四个阶段。每一个阶段都可以通过技术方式做一些优化,下面来分析下每一个阶段的目标和具体的实现方式。
第一阶段
发现
发现的目标是能够更准确、更快速地把当前线上已经发生的排队峰值情况同步给相关的人员。
这一块主要是需要两个能力,第一个是主动监控的能力,第二个是主动构建沟通环境的能力。
主动监控需要监控每一条业务线目前的排队或者服务水平的情况,系统负责采集每分钟的排队或者服务水平数据,然后根据事先设定的分级阈值进行匹配,一旦超过阈值,就进行响应级别的告警,并且在告警之后还需要做持续的监控,一旦发现峰值级别有上升或者缓解,也及时地对峰值级别进行相应的调整。
主动构建沟通环境主要是在系统发出峰值告警之后,根据事先配置的通知人员,组建一个沟通群,并且在群里同步当前峰值的最新情况,数据一般会包含峰值的级别,当前的进线和接线客服数据等,如图2所示。
(图2:系统触发峰值信息沟通群)
在这个过程中,我们需要根据峰值级别的提升,再自动拉取其他需要同步的管理者或者PR相关的同事进行信息同步,方便后续辅助方案决策。为了方便群内人员及时了解到更快信息,系统除了定期同步最新的数据之外,群里也提供了一个群智能助手,通过主动向群智能助手进行询问,可以得到最新的排队数据、天气情况以及用户和客服侧最新进展(该点在解决阶段也会提到),通过群智能助手还可以把一些方案快速地在客服侧和用户侧进行执行,在执行的同时,也把执行时间和方案本身同步给群内成员。
第二阶段
确认
确认的目标是辅助现场管理和业务快速确认排队峰值产生的原因,以便精细执行后面的解决方案。
用户咨询服务系统集中诉求的TOP问题,抽象后称之为峰值现象,通过峰值现象来辅助执行后续的方案。
如何表示当前峰值的峰值现象?
用户与在线座席沟通过程中会通过文字来表达自己意图,用户意图可能需要多句话来表达,且表达方式多样,因此通过用户输入关键词集合表示峰值现象,具体实现流程见图3。系统通过采集在线客服系统最近10分钟(经验值)的用户输入,经过分词器,并过滤掉StopWord,经过textRank算法进行关键词提取,获取TOP3关键词和相应的权重,通过之前预设好的峰值现象和关键词的映射关系,来输出最终的峰值现象。
(图3:如何表示当前峰值的峰值现象)
第三阶段
解决
解决的主要目标是减缓峰值带来的影响。
解决主要通过服务体系外部和服务体系内部两部分来解决,对于业务线系统故障或者运营故障导致的排队峰值,服务侧会定时同步最新的峰值信息给到业务线,推动服务体系外部进行代码的修复或者方案的制定,并且同步最新的方案给到服务体系,从而传到客户侧和客服侧。
服务体系内部会从智能侧和人工侧两部分来分别解决。
智能侧的手段是提高预设方案的执行效率,能够让受峰值影响的客户更快地享受到智能的解决方案,给客户更多可选择的解决渠道。人力侧的手段主要是调整座席的并发和进行峰值支援,接下来解决环节分别会从智能解决和峰值支援两个部分进行具体展开。
智能解决
下图展示的是客户从进入服务页面到进入人工分配前所需要经历的各个环节和每个环节可以做的事情(图4):
(图4:客户从进入服务页面到进入人工分配前所需要经历的各个环节和每个环节可以做的事情)
对于峰值场景来说,因为客服的处理能力有限,所以大量的客户积压在了排队中。因此,我们需要把解决的方案最快同步到还在服务门户中和排队中的客户,让他们了解目前最新的异常情况和公司内部对于这个异常的处理方案,缓解客户的焦虑情绪,同时也会把相关的话术通过系统下发到排队积压客服业务的接线客服那边,提高客服处理问题的效率。
对于具体一个业务线来说,引发峰值的现象基本是收敛的,可以提前预设好方案,然后在峰值期间只要直接启用就好。
比如说支付状态的显示异常、12306的系统故障、天气异常导致的外卖配送慢/超时、飞机的航变等。在峰值发生的时候,可以直接通过系统,或者在群助手的协助下通过人工干预的方式进行峰值现象的确认,系统可以自动地执行对应这个峰值现象的所有操作,提高方案的执行效率。如果是新的峰值现象,业务运营和业务线的同事共识好处理方案后可以在峰值群助手的协助下快速生效方案,同时可以新增到系统中,后续发生类似现象造成的峰值时,就可以直接使用。智能的执行框架如图5所示。
(图5:智能的执行框架)
峰值支援
峰值支援是指当某个业务产生峰值的时候,通过人力调配,将空闲客服调配到峰值压力业务,缓解峰值压力,同时也能提升客服整体资源使用率。
过去的峰值支援主要是现场管理、线下去沟通,这流程中具体包括两个方面:
1.线下查找历史维护的可能具有支援业务线技能的员工,然后和相关员工组长、员工本人沟通圈定支援人员。
2.待员工结束手头工作后,与权限负责人沟通支援人员权限的开通和回收。
由于线下的沟通比较耗时,从峰值发生到真正人力支援上线平均需要15分钟以上,整体过程线下沟通比较耗时,支援调配效率不高。
针对以上问题,我们主要也从两个方面着手:
1.员工技能储备库;
2.支援流程。
通过将这两个方面需要的员工数据(排班、具备技能等)做线上化处理,也为后续实现峰值支援的自动化、智能化打下基础。
员工技能储备库:针对原有的线下沟通,圈定支援人员耗时的痛点,我们通过将员工相关维度的数据聚合打通,构造一个客服人才储备库,方便现场管理快速筛选出可支援的座席。
储备库包括的维度信息如图6所示。
(图6:储备库包括的维度信息)
通过人才储备库,目前现场管理可以快速筛选出符合支援的员工,下一步,我们准备结合峰值业务场景和员工储备库,在峰值发生的时候推荐出一批可支援的员工,方便现场管理的操作。
支援流程线上化:
ⅰ员工支援权限包前置审批,提前配置需要支援业务的权限(图7)
(图7:需要支援业务的权限)
ⅱ 邀请支援流程线上化(图8)。
原有的支援流程都是线下沟通、效率较低,新的支援流程中员工的筛选、邀请、确认支援、替换权限、回收权限等流程都是系统自动化处理,支援员工可以快速上线,支援上线时间能够缩短到5分钟。
(图8:邀请支援流程线上化)
第四阶段
复盘
通过标准化复盘,记录峰值发生场景,分析峰值产生原因,沉淀避免峰值发生运营策略,分析峰值期间方案执行的效果和待改进的空间,减少峰值发生次数和缓解峰值的影响。
采取公司技术故障复盘模式,内容包括7个部分:1. 峰值现象;2. 客户影响 ;3. 时间轴 ;4.原因分析 ;5. 经验教训 ;6. 正确做法 ;7. 待办事项。复盘旨在记录峰值发生场景,分析峰值产生原因,持续推进改善峰值期间的执行方案和运营能力的建设。
如何让业务提前验证峰值来的时候方案能够按预期执行?
怎么验证下次类似峰值来了,系统可以按照预先设置的方案执行呢?就和技术上处理压测一样,我们可以提供一套给业务使用验证的模拟客服峰值的演习环境。
具体的实现如图9所示。
(图9:模拟客服峰值的演习环境)
在发生峰值的时候,服务系统会把当前峰值期间客户聊天的数据都记录在系统里面,然后运营同学可以选择一个历史的峰值进行回放。这样可以让历史发生的峰值重新执行一次,可以比较方便地验证新配置的方案是不是能够在类似峰值到来的时候顺利执行。
04
总结
通过上面的四个环节,能够让服务系统遇到排队峰值的时候比较标准化地执行流程。通过系统主动预警拉群,速度较之前平均提升10分钟,更快地发现问题,同时能够给业务线的同学更多时间解决业务问题,从而降低排队峰值的影响量。
通过智能解决的框架,可以让有方案的峰值执行速度更快,比较集中的方案甚至可以自动化地运行,客服和客户可以在更短的时间内看到智能的方案,客户也可以有更多的选择,而不是一味焦虑地进行排队。
峰值期间,速度非常重要,通过峰值支援系统的研发,能够有效地提升峰值支援的速度。
未来,我们会通过对峰值期间的时段进线预测,以及对人工和客户体验的实时观察,通过系统来预判人力的缺口,指导峰值支援的调度和智能策略的调度,更好地保障峰值期间客户的体验。