通信世界网消息(CWW)现行的运营商网络投诉工单自动稽核方式是以关键字匹配为主要手段,缺乏智能性和灵活性,规则非严即松,造成回单部门无法充分、到位地表述投诉原因定位、投诉处理措施以及客户满意度回访等内容。而如果完全摒弃这种自动稽核方式,仅靠人工方式质检又会给人力成本带来较大压力。
因此,开发一套面向网络投诉工单的智能化语义自动稽核系统,从而充分挖掘回单文本中自然语言与若干结构化字段间的关系,并输出质检工作所需的语义相似度等量化结果,是对现行以关键字匹配为主要手段的投诉工单自动稽核方式的全面提升,也可对进一步压降人力成本起到积极作用。
一、确定特征
首先,根据网络投诉工单回复内容标准化的相关规定,确定如下六方面要素为稽核主要关注目标:投诉是否已经解决,投诉处理过程中是否与客户取得过联系,客户对投诉处理结果是否满意,投诉是否仍需热线人员进行跟进回访,处理投诉的主要措施,投诉涉及的基站名称。
二、数据标注
然后,随机筛选天津移动EOMS系统中3750张历史工单,在投诉处理人员所填写的“处理说明”文本中,利用人工稽核经验,对此六方面要素分别进行正向和负向特征词标注,共收集到82个特征词,基本可以涵盖网络投诉回单的全部语义特征。
三、分词
将随机筛选出的10000条EOMS历史投诉工单作为基础训练语料,使用开源软件jieba对工单文本做分词处理,把所有句子切分成单词的形式,然后统计词频,得出语料中每个单词出现的次数。再在这些单词中去掉停用词(包括频率非常高和非常低的词),用剩下的单词组成训练语料的词典。
四、词向量化和模型训练
相似度计算模型目的是计算两个文本在语义层面上的相近程度,词向量化实现主要依据Word2Vec算法,包括CBOW模型和Skip-gram模型,在数据量较多时,使用Skip-gram模型训练词向量。因为运营商有足量工单原始数据,因此选择使用Skip-gram模型训练词向量。
接下来将训练语料分批次喂入Skip-gram模型进行迭代训练。
设定取词窗口为k,则每轮训练时用当前单词预测上下文共2k个单词。具体的,随机初始化词典中每个单词的词向量,为每个单词随机生成一个一维向量表示,再把训练语料对应的词向量输入Skip-gram模型。
语料经过神经网络的隐藏层,进入输出层。经过softmax变换,得到分类到各单词上的概率结果。在具体计算时,为了减少运算量,使用了层次softmax变换(哈夫曼树)对隐藏层向量进行输出计算。隐藏层输出从哈夫曼树的根节点开始,逐层经过logistics分类器,直到到达某个叶子节点,即最终预测单词。训练过程中,所有logistics函数的参数不断更新迭代,使神经网络的预测结果和真实值趋于一致。当Skip-gram语言模型训练目标趋向最大的稳定值时,神经网络停止更新。在这一过程中,不仅所有logistics分类器参数不断更新,随机初始化的词向量也会逐渐更新到稳定状态。由于语言模型包含了训练语料的上下文关系,生成的词向量也包含一定的语义关系,可用于文本的相似度计算。
得到训练完成的词向量后,采用余弦相似度计算两个词向量之间的距离。
根据上述标注的特征词,计算每个特征词的泛化相似词:对于每个特征词,计算它和词典中所有单词的余弦相似度,再按照余弦相似度得分从高到低排序,取得分最高的若干个单词作为特征词的泛化相似词。
整体模型结构如下所示:
五、构建稽核规则
1)对于“解决情况”、 “是否联系客户”、 “满意度”3个语义字段,把特征词和泛化词作为通用的专家规则。当工单中包含有某个字段对应的正向特征词或正向泛化词时,将该字段判断为正向语义;当工单中包含有某个字段对应的负向特征词或负向泛化词时,将该字段判断为负向语义。
2)对于“是否需要后续处理”语义字段,根据“解决情况”和“满意度”字段的语义结果制定规则。当“解决情况”为正向语义,“满意度”为正向语义时,“是否需要后续处理”为负向语义;当“解决情况”为正向语义,“满意度”为负向语义时,“是否需要后续处理”为正向语义;当“解决情况”为负向语义,“满意度”为正向语义时,“是否需要后续处理”为负向语义;当“解决情况”为负向语义,“满意度”为负向语义时,“是否需要后续处理”为正向语义。
3)对于“处理措施”语义字段,需要对多个特征词或泛化词进行组合。对于一种特定的处理措施,当且仅当“处理说明”文本中包含其所有的特征词或泛化词时,将该字段判断为正向语义。只要工单文本中缺失了一个特征词或泛化词,则将该字段判断为负向语义。
4)对于“基站名称”语义字段,需要先根据实体识别方法识别出工单中的地址名词,再根据预先设置的基站列表,检索出工单中包含的基站名词。在识别出工单中的地址名词后,再和全量基站名称列表进行比对。地址名词与全量基站列表的重合部分,即工单中包含的基站名称。
六、模型应用
采用HTTP请求方式,语义稽核应用将判断结果实时回送至天津移动EOMS系统投诉工单中,自动呈现工单是否稽核通过的判断结果,如未通过则一并给出原因说明,供回单人参考。