当前位置:主页 > Palazzani中国 >

追一技术分享 AAAI、ACL、EMNLP等顶会论文成果分享-互联网专区

发布日期:2021-06-29 12:51   来源:未知   阅读:

  118论坛坛118网址之。随着NLP技术的不断进步,基于人工智能的人机交互系统能够大规模商业化应用。追一科技在前沿技术领域上保持不断探索,在信息抽取、文本语义理解、情感分析以及语音识别(ASR)等多个NLP与语音领域开展研究。在这篇文章中我们主要介绍已经发表在ACL、EMNLP、AAAI、ICASSP等国际顶级学术会议上的多篇论文,如果读者想了解更多相关研究,可以在Arxiv上找到更多在投的其他论文。这次介绍的内容包含以下几个方面

  我们将相关的研究成果应用到AIForce产品矩阵中,追一科技的AIForce智能平台能与业务场景深度融合,提供不同类型的AI数字员工,满足企业和用户服务、营销、运营、办公等多种场景的智能化需求,目前已服务了来自金融、互联网、地产、零售、汽车、政企、能源、运营商等多领域超300家头部客户与合作伙伴,共计部署数十万数字员工,有效帮助企业降本提效,改善用户体验,驱动创新和增长。

  自从大型预训练模型开始流行后,当前文本分类的标准做法是使用大型预训练模型进行微调来完成分类任务。然而,在实际落地应用时,除了要考虑分类准确率等指标以外,模型的性能也是很重要的一个因素。大型预训练模型一般都有非常大规模的模型参数,这就导致了模型体积庞大,占用资源较多并且在推理服务时耗时较高。因此如何在保证模型效果的前提下降低模型大小、提升模型速度则是以实际场景为出发点的重要研究方向。追一科技发表在国际人工智能顶级学术会议AAAI2021上的论文ACT:anAttentiveConvolutionalTransformerforEfficientTextClassification则正是从这一角度出发,提出了新的模型结构(ACT)以代替目前大型预训练模型中使用的标准transformer结构。实验结果表明,ACT结构不仅比transformer有更少的参数量,并且在文本分类任务上有着比transformer更优的表现。

  我们在论文中提出了一种新的网络结构ACT(AttentiveConvolutionTransformer)。ACT受到卷积神经网络(CNN)的启发,在利用CNN进行文本编码时(例如TextCNN)卷积核的卷积操作可以看作是对局部位置的n-gram进行特征提取。根据这一思路,每个卷积核本身可以被认为是在训练过程中学习到了文本中n-gram的一些模式,ACT则是建立在这个理解角度上的。

  它的思路是首先利用CNN对词进行卷积操作,通过设置卷积核的大小为n,我们可以认为卷积出来的特征是捕捉了相邻n个词的相关信息(n-gram)。得到整句话所有的n-gram特征后,采用这些特征去对卷积核本身进行加权。设输入的文本为Q=[q1,q2,…,ql],其中l为输入的文本序列长度,qi∈Rd为第i个token的编码,而d则是编码的维度,token的编码可以采用经典的词向量方式获得。同时设F=[f1,f2,…,fm]为m个卷积核,其中为fi∈Rnd第i个卷积核,而n则为卷积核的宽度,利用卷积F对Q文本进行卷积计算:

  其中*为卷积操作,M∈Rm×1。具体来说,针对第i个卷积核fi在第j个位置的卷积可以用如下的方式计算:

  其中函数f为激活函数,Cat(,)为拼接操作。根据在开头介绍的思路,每个卷积核fi都可以看作是文本的n个token的某种特征抽取器,那么卷积核本身就会学习到n-gram的一些模式。因此与transformer结构最不同的点在于,ACT中采用对卷积核进行类似attention的加权求和操作,在每个token位置输出的则是卷积核的加权输出O,具体计算如下:

  其中O=[o1,o2,…,ol]∈Rnd×1为对卷积核进行加权的表征,注意这里我们实际上没有采用transformer中常规的softmax的权重来进行加权,而是直接使用卷积后的值来对卷积核进行加权。这个表征可以看作是对捕获了n-gram模式的卷积核的加权,因此可以认为这个输出包含了文本的n-gram局部信息。除了这种局部信息外,ACT还通过如下方式来进行全局特征的计算:

  其中g∈Rnd,而maxpool(M)是对M的每行进行最大池化,并以此为结果来加权卷积核。直观的理解是,我们希望得到长度为的序列的全局信息来对卷积核进行加权,那么在序列维度上做最大池化则是选出了某个位置上最为明显的特征来加权卷积核。

  同时我们借鉴了transformer的多头注意力机制,在ACT上也采用了多头机制来进一步增强特征的提取能力。针对输入的文本表征Q,我们采用线性变换扩展为Q′∈R×hd,然后分别进行h次上述的ACT操作,最后将得到的输出拼接起来:

  而与BERT使用[CLS]来表征完全的序列不同的是,ACT融合考虑了局部特征O,全局特征g以及位置向量P来进行最后整个序列表征的计算。设P∈Rd×1为一组可学的位置编码,那么最终的文本表征h∈R为:

  从上面的表格可以看到,ACT的模型大小约为Transformer的三分之一,但是推理的速度则加快了一倍以上。针对ACT特殊的n-gram式的attention模式,我们还对比了它与transformer在attention可视化上的区别:

  上图中截取的两个例子中,上面一行为transformer结构的注意力可视化,下面一行为ACT的注意力可视化。可以看到transformer结构更加倾向于对更多的词进行关注,而ACT的关注点则更加集中与准确。

  情感分析是NLP当中的一项重要任务。而在实际应用中,情感分析在质检,交互,风控,舆论监督等方面都有着重要的应用。企业可以通过情感分析把握客户的感情偏向,从分析结果中企业可以发现客户希望的服务内容,以及发现当前服务所存在的问题,以便进一步提高服务质量、获客量以及客户满意度。随着通讯技术的发展,当前的沟通方式从单模态的文本形式逐渐发展到包含音频通话的多模态形式,因此情感分析技术也需要从原来只对文本进行情感分析的单模态情况,延伸到结合语音与文本双模态方式。而从技术角度来说,模态的增加也意味着输入信号的增加,是可以进一步提升仅基于文本的情感分析的表现效果。因此追一科技从实际以及技术趋势两个方面出发,在双模态情感分析领域进行研究,并在国际声学及信号处理领域的顶级学术会议ICASSP2021发表了论文EfficientSpeechEmotionRecognitionusingMulti-scaleCNNandAttention,并以实验表明论文中提出的方法比此前的双模态情感分析方法有更好的效果。

  首先对于音频我们提取MFCC特征,得到[a1,a2,…,aN],其中N为音频的帧数;对于文本我们提取词向量得到[t1,t2,…,tM],其中M为句子中token的个数。MSCNN通过一组卷积核分别对这两者提取特征,设单个卷积核为Ks×d,其中s为沿着序列方向的卷积核大小,我们对输入的特征X进行如下的卷积操作:

  其中Ma=(s,d)代表单个卷积核Ks×d卷积得到的特征矩阵,而Ma=(s,d)[i,j]代表特征矩阵的第i,j个元素。按照上述的方法,我们可以分别用多个卷积核对音频与文本都提取特征。然后使用SPU(StatisticalPoolingUnit)对提取出来的特征进行进一步处理。SPU单元采用了多种池化机制来完成对卷积特征的进一步处理,具体的做法是采用三种池化在沿着序列长度的方向进行统计量进行池化,设卷积特征为Md×l,其中l为序列方向的维度,则

  其中cy∈Rd,而γ∈{max,avg,std},分别代表最大池化、平均池化以及方差池化三种不同的操作。按照上述的方式,我们分别对音频以及文本进行相同的操作得到两者的SPU特征:

  然后attention机制将两种模态进行融合,具体来说,使用音频的SPU特征对文本卷积编码的每个位置进行加权,设hk为文本卷积的第k个位置的输出,则

  最后,我们将得到的注意力特征、两个模态所有的SPU特征以及SWEM特征(即用词向量直接平均池化,最大池化)拼接起来作为模型输入分类器前的最终特征使用。

  我们在双模态情感分析数据集IEMOCAP上与多个不同的双模态情感分析方法进行了对比,结果表明在双模态时,我们的模型表现全部优于此前的方法,达到了该数据集目前的最佳成绩。

  同时我们对论文中提出的集中新的模型结构进行了消融实验,结果表明所有的结构都对最后的效果有帮助作用,而其中音频部分的SPU特征提供了最大的贡献。

  关系抽取是利用算法,在文本中抽取出相关的实体,并判断它们之间的关系。例如对于文本「美国在白宫发表讲话……」,关系抽取的目标是得到(美国)这样的实体关系。而这一抽取过程在通常的做法下则是采用分步的方式,第一步先确定句子中的实体(例如“美国”),第二步对抽出的实体进行关系判断,实体关系判断则对应了第二步中的任务。通常来说在给定的句子以及实体后,实体之间的关系可以对应多种描述。例如上面的例子中,这个关系等,因此在进行关系判断时如果能够借助外界知识进行辅助,可以对判断的准确程度有明星的帮助。基于这一情况,我们在国际自然语言处理应用的顶级会议EMNLP2019发表了论文mprovingRelationExtractionwithKnowledge-attention,通过知识注意力(Knowledge-attention)的方法,将外部知识引入关系判断的模型中来增强模型的表现。

  这篇论文聚焦的是关系抽取问题。创新点在于提出了利用知识注意力(knowledge-attention)的方式引入外部知识来提升关系抽取的效果。在这个任务中的外部知识是由与“关系”有相同语义的一组词组成。例如关系「就读于」,通过外部的知识图谱找到与这个词组语义相关的其它词组,比如「毕业于」。具体来说,我们采用FrameNet这一图谱来帮助构建外部知识,FrameNet将文本拆分为三种语义结构,分别是“事件”、“对象”与“关系”,而我们则使用FrameNet中所有的“关系”。我们把FrameNet中描述每种“关系”的词或者短语抽出,然后再查看这些词组中的近义词对,保留那些意思相近的词作为最终输入模型的外部知识。针对每个“关系”的描述词以及它的近义词,我们使用它的词向量与POS向量相拼接作为表征,最终我们获得了3000个与各种关系相关的词(或短语)K={k1,…,km},其中m=3000,ki∈Rdk。在进入模型时,这些关系词被看作为attention中的key部分,而输入的文本句子则视为query部分,具体来说,设输入的句子表征为Q={q1,…,qn},其中qi∈Rdk也是通过将词向量与POS向量拼接获得的,然后通过attention计算获得表征H:

  其中我们将得到的特征减去关系特征的均值来让与输入本文相关的关系词获得更大的输出。

  另外我们注意到token与实体之间的距离实际上对判断该token是否是在描述关系有很大的帮助,因此在这里我们也将这个位置信息一起放进模型当中。具体地说,设i第个tokenχi与目标实体之间的距离为^pi,我们用下面的函数来对过长的距离做一个衰减处理:

  通过上面的方法,我们可以得到当前位置i相对于主体s的位置psi以及相对于客体o的位置poi。然后通过这两个相对位置通过位置向量编码矩阵Wp得到xi最终位置编码

  三元组关系抽取是比关系判断更加难的任务,在上一个部分中我们介绍了实体关系判断是对已经给定的实体进行关系判断,而三元组关系抽取则直接抽取出(主体,关系,客体)三元组。通过三元组关系抽取可以从文本中构建出关系图谱,是一种将非结构化知识转变为结构化知识的方法。

  三元组关系抽取通常采用pipeline式的方法,即先抽取出文本当中的实体,然后再判断抽出实体之间的关系(如上一部分介绍的关系判断方法)。但这种方法存在一个明显的问题,就是无法处理文本中不同关系的实体出现重叠的情况。因为对抽取出的实体进行分类背后的假设是这对实体只存在一种关系,但从上图中的第二个例子可以发现,实际场景中相同的一对实体有可能出现多种关系。为了解决这个问题,我们提出了一种新的实体关系抽取方法,并在国际顶级自然语言处理技术会议ACL2020上发表论文ANovelHierarchicalBinaryTaggingFrameworkforRelationalTripleExtraction。

  三元组关系抽取任务的目标是对给出的文本,抽取出文本中包含的所有(主体,关系,客体)三元组,其中有些关系之间会共享同一个主体或者客体。通常的方案是将主体与客体先抽取出来,然后在判断它们之间的关系,而我们的方案则采用了另一个角度来理解关系抽取问题:我们将关系视为一个函数过程,而主体则是这个函数过程的输入,客体则是这个函数过程的输出。按照这个思路,关系三元组的抽取流程变成了:1.从句子中找到所有可能的主体;2.将每个找到的主体带入关系函数中;3.每个关系函数在出入主体后,应该给出相应的客体(给出的可以为空,则代表该主体与关系函数的组合不存在联系)。在具体的方案中,我们采用神经网络来模拟关系函数。

  分别代表第i个token是实体开始或者结尾的概率。那么对于文本的向量表征H,主体s的概率为:

  其中l为序列长度,Ⅱ{x}为指示函数。也就是说我们在每个输出位置预测两个0、1标签,分别来代表该位置上的token是否为某个主体片段的开始或者结束。而在推理时,我们将开始和最邻近的结束位置之间的片段看作是提取出的一个主体。然后针对每一个主体我们将关系视为一个函数过程,用来预测客体。具体地说,关系函数也采用SubejctTagger的形式(即线性层+sigmoid),那么对于关系r∈{1,…,R},一共有R种关系。针对第k个主体的第r个关系,我们通过如下的方式抽取对应的客体:

  是主体片段sk的token的表征的平均值。通过上述方法,类似地可以计算出针对关系r的客体预测概率。这样我们可以同时优化主体抽取以及对应的关系-客体,得到最后的关系三元组。

  我们在NYT与WebNLG两个关系抽取数据集上与此前的最佳方法进行了对比。

  其中HBTrandom代表编码器部分的transformer为随机初始化的,而代HBTLSTM表采用LSTM作为编码器。从结果上看HBT方法即便是不使用预训练模型,其结果也好于此前的最佳方案,而使用BERT作为编码器可以进一步加强HBT的表现。

  表格检索技术是利用输入的文本片段,对表格进行召回的一种方法。虽然都是与表格这一结构化数据相关,但表格检索与NL2SQL不同之处在于,NL2SQL技术是针对输入的完整文本,从表格中找到完整的回答;而表格检索的输入则大多时候是不完整的文本片段(例如输入相关的词、实体等),然后从大量的表格中检索出与输入内容相关的表格,如下图中的第二个例子,输入的是2018北京奥运,目标则是找到与之相关的表格。

  由于被检索的表格众多,并且表的大小不一,因此无法让模型将整个表格都编码,对此我们采取了筛选过滤的方式,只选取表格中与输入文本最相关的一部分内容进行编码。通过观察我们发现,表格检索包含了三种不同的情况,第一种是输入的文本与需要被检索的表格的列相关,如上图中的第一个例子;第二种是输入的文本与被检索的表格的行相关,如上图中的第二个例子;第三种则是与被检索的表的某个值相关,如上图的第三个例子。因此,我们根据这个观察将一张表格转换为三种不同的列表{c1,…,cm},表中的每个元素ci可以为表格的一行、一列、或者一个单元格。然后针对列表中的每个元素与输入的文本计算显著性,以此来作为筛选的依据。设q={k1,k2,…,kl}代表长度为l的文本,k代表一个token。设vk代表k的词向量,我们计算三种不同显著性

  其中w为列表中元素c的token,三个显著性指标从不同的侧面描述列表元素与输入文本的相关程度。利用三种显著性指标可以基于输入文本对列表中的所有元素进行排序,然后选取头部的元素编码入模型。

  选取的头部列表元素会与输入的query文本,以及表格的描述文本整合为一个长的序列输入到BERT模型当中,例如[[CLS],q,[SEP],p,[SEP],c1,[SEP],c2,[SEP]...,Cm,其中p代表表格的描述部分(图中的contextfields)。此外,如果还有额外的特征(例如手工特征)则可以同样作为最终检索的特征进行使用,设额外特征为fa,我们采用剑店的线性变换处理以后与BERT提取的[CLS]特征进行拼接,作为最终特征进行回归来预测表格的排序。

  我们在WikiTables数据集上与此前的最优方案STR进行了对比,在实验中我们比较了不同的显著性与列表党员的组合,具体如下表所示

  根据实验结果,我们发现采用Row-Max作为显著性衡量来进行表格的截断可以在WikiTables上达到最佳效果。

  数据标注是语音识别任务中一项繁重又十分重要的工作,而现有的语音识别系统动辄需要几千小时的标注数据才能达到较好的效果。如何有效利用大量的无标注语音数据,是语音识别中一个非常重要的问题。主动学习是解决此类问题的一种有效方法。主动学习中有一种基于委员会的方法,需要构造多个训练集,训练多个模型,系统复杂度高,且构建时间较长。追一科技在自动语音识别与理解国际顶级会议ASRU2019中发表了论文ADROPOUT-BASEDSINGLEMODELCOMMITTEEAPPROACHFORACTIVELEARNINGINASR,提出了一种基于DROPOUT的单模型委员会(DSMC)的主动学习方法。与以往基于委员会的主动学习方法相比,DSMC在通用性,解码效果和系统构建时长方面均表现出了优势。

  DSMC方法的框架如图所示。可以分为两个阶段:1)委员会构建阶段。使用标注数据训练目标模型,目标模型即需要不断改进的语音识别器。使用目标模型通过dropout构建种子模型,目标模型和种子模型构建成委员会。2)数据选择阶段。在数据选择阶段,委员会从未标注数据中选择最有价值的样本(即模型犯错最多的样本)进行标注,然后将这些数据补充到训练集,通过迭代提高目标模型的性能。

  构建过程如图所示。我们通过在目标模型推理过程中开启dropout来构建种子,采用不同的dropoutrate,可以构建不同的模型。DSMC方法以种子模型与目标模型推理结果的差异作为选择数据的标准。我们可以通过dropoutrate来控制选择的数据量,我们使用的选择dropoutrate的公式为:

  数据选择阶段如图所示。在构建了模型委员会后,我们使用委员会中的两个模型来解码未标注数据。在DSMC方法中,我们使用WMER和CM作为选择准则。计算WMER的方法与计算WER的方法相同,但采用目标模型的结果作为groundtruth。对于CM,我们只使用目标模型来计算置信度。

  DSMC方法与传统committee方法有三个优势:1)效果好,系统简单,通用性好。2)对目标模型的改进具有更强的容忍度。在其他方法中,种子模型不会随着目标模型一同改进,在DSMC方法中,目标模型和种子模型性能一同提高。因此DSMC方法对目标模型的改进具有更强的容忍度。3)在模型委员会构建过程中,DSMC速度要更快。

  我们与随机采样方法,HNN-based方法进行对比,分别选择100,200,300,400小时数据,对比目标模型性能的提升。左图目标模型为TDNN-LSTM,右图目标模型为CNN-TDNN。可以看到DSMC要明显好于随机采样方法,而且在使用了更简单的系统情况下,与HNN-based方法保持了相当的性能。

  我们对比了不同方法对目标模型性能提升的容忍度。当目标模型由TDNN-LSTM(表中为标为TDNN)换成性能更好的CNN-TDNN(表中为标为CNN)时,DSMC收益要大于HNN方法,两种方法之间的差距均有变小。

  我们还对比了HNN方法和DSMC方法的构建时间,由于HNN的委员会由TDNN模型和LSTM模型组成,其训练时间为两者之和。DSMC为训练初始目标模型的时间。实验结显示DSMC委员会构建时间仅为HNN方法的75%。

  对话型语音识别是一项极具挑战性的任务,因为在对话型的语音环境中,总是包含着比较自由的说话风格和比较长的语境信息依赖。如何充分的利用对话中的上下文信息,提高语音识别系统的性能,是一个重要的研究方向。在之前的研究中,有些方法通过训练上下文敏感的语言模型来提高系统对上下文信息的敏感度。有些方法通过改进RNNLM重打分进行较长上下文的建模,以此提高系统捕获上下文信息的能力。但是目前的方法中很难捕捉跨语句的对话信息。追一科技在中文口语语言处理国际会议ISCSLP2020中发表了论文Context-awareRNNLMRescoringforConversationalSpeechRecognition,为了进一步利用对话语境中的信息(如对话者,对话主题,意图信息等),我们提出了一种新的Context-awareRNNLM训练方法和基于Lattice拼接的重打分方法,以更好的捕捉对话中的上下文信息。

  如图所示,本文提出的Context-awareRNNLM训练的核心思想是通过Tag拼接对话中的语句,构建上下文相关的训练语料。其中Tag包括分隔符(SP),说话者ID(SID)和意图信息(INT)。将拼接后的文本作为新的语料训练语言模型,以此提高模型跨语句捕获对话信息的能力。另外后续在进行基于Lattice拼接的RNNLM重打分时,lattice边界也会加入Tag,以适配本文提出的RNNLM。

  一般的语音识别系统在进行一轮解码之后,会得到一个包含最有可能的几条路径的Lattice。Lattice的每条路径上分别带有声学模型的代价和语言模型的代价,重打分的思想是用一个更好的语言模型来调整Lattice中的语言模型代价。传统的重打分方法只针对当前语句进行重打分,无法利用对话中的上下文信息。我们提出的基于Lattice拼接的重打分方法可以有效的利用对话信息,提高最终的解码效果。如图所示,其中(a)为前一句话解码得到的Lattice,(b)为当前语句解码得到的Lattice。在对(b)进行重打分时,我们首先会把(a)和(b)通过上文提到的Tag进行拼接,然后使用上文提到的Context-awareRNNLM进行重打分,以此利用上一句话中的对话信息来影响当前句Lattice的语言模型的代价。

  下表通过一个例子来展示了传统RNNLM重打分和本文提出方法的对比,可以看到使用本文提出的方法,可以较好的利用对话的上下文信息,改善识别结果。

  追一科技以业务实际应用为出发点,不断积累并拓展自然语言处理技术,在文本语义分类、情感分析、信息抽取等多个方向上发表过篇国际顶级学术会议论文,在验证自己技术实力的同时也为推动技术发展做出贡献。

  随着NLP技术的不断进步,基于人工智能的人机交互系统能够大规模商业化应用。追一科技在前沿技术领域上保持不断探索,在信息抽取、文本语义理解、情感分析以及语音识别(ASR)等多个NLP与语音领域开展研究。在这篇文章中我们主要介绍已经发表在ACL、EMNLP、AAAI、ICASSP等国际顶级学术会议上的多篇论文,如果读者想了解更多相关研究,可以在Arxiv上找到更多在投的其他论文。这次介绍的内容包含以下几个方面

  我们将相关的研究成果应用到AIForce产品矩阵中,追一科技的AIForce智能平台能与业务场景深度融合,提供不同类型的AI数字员工,满足企业和用户服务、营销、运营、办公等多种场景的智能化需求,目前已服务了来自金融、互联网、地产、零售、汽车、政企、能源、运营商等多领域超300家头部客户与合作伙伴,共计部署数十万数字员工,有效帮助企业降本提效,改善用户体验,驱动创新和增长。

  自从大型预训练模型开始流行后,当前文本分类的标准做法是使用大型预训练模型进行微调来完成分类任务。然而,在实际落地应用时,除了要考虑分类准确率等指标以外,模型的性能也是很重要的一个因素。大型预训练模型一般都有非常大规模的模型参数,这就导致了模型体积庞大,占用资源较多并且在推理服务时耗时较高。因此如何在保证模型效果的前提下降低模型大小、提升模型速度则是以实际场景为出发点的重要研究方向。追一科技发表在国际人工智能顶级学术会议AAAI2021上的论文ACT:anAttentiveConvolutionalTransformerforEfficientTextClassification则正是从这一角度出发,提出了新的模型结构(ACT)以代替目前大型预训练模型中使用的标准transformer结构。实验结果表明,ACT结构不仅比transformer有更少的参数量,并且在文本分类任务上有着比transformer更优的表现。

  我们在论文中提出了一种新的网络结构ACT(AttentiveConvolutionTransformer)。ACT受到卷积神经网络(CNN)的启发,在利用CNN进行文本编码时(例如TextCNN)卷积核的卷积操作可以看作是对局部位置的n-gram进行特征提取。根据这一思路,每个卷积核本身可以被认为是在训练过程中学习到了文本中n-gram的一些模式,ACT则是建立在这个理解角度上的。

  它的思路是首先利用CNN对词进行卷积操作,通过设置卷积核的大小为n,我们可以认为卷积出来的特征是捕捉了相邻n个词的相关信息(n-gram)。得到整句话所有的n-gram特征后,采用这些特征去对卷积核本身进行加权。设输入的文本为Q=[q1,q2,…,ql],其中l为输入的文本序列长度,qi∈Rd为第i个token的编码,而d则是编码的维度,token的编码可以采用经典的词向量方式获得。同时设F=[f1,f2,…,fm]为m个卷积核,其中为fi∈Rnd第i个卷积核,而n则为卷积核的宽度,利用卷积F对Q文本进行卷积计算:

  其中*为卷积操作,M∈Rm×1。具体来说,针对第i个卷积核fi在第j个位置的卷积可以用如下的方式计算:

  其中函数f为激活函数,Cat(,)为拼接操作。根据在开头介绍的思路,每个卷积核fi都可以看作是文本的n个token的某种特征抽取器,那么卷积核本身就会学习到n-gram的一些模式。因此与transformer结构最不同的点在于,ACT中采用对卷积核进行类似attention的加权求和操作,在每个token位置输出的则是卷积核的加权输出O,具体计算如下:

  其中O=[o1,o2,…,ol]∈Rnd×1为对卷积核进行加权的表征,注意这里我们实际上没有采用transformer中常规的softmax的权重来进行加权,而是直接使用卷积后的值来对卷积核进行加权。这个表征可以看作是对捕获了n-gram模式的卷积核的加权,因此可以认为这个输出包含了文本的n-gram局部信息。除了这种局部信息外,ACT还通过如下方式来进行全局特征的计算:

  其中g∈Rnd,而maxpool(M)是对M的每行进行最大池化,并以此为结果来加权卷积核。直观的理解是,我们希望得到长度为的序列的全局信息来对卷积核进行加权,那么在序列维度上做最大池化则是选出了某个位置上最为明显的特征来加权卷积核。

  同时我们借鉴了transformer的多头注意力机制,在ACT上也采用了多头机制来进一步增强特征的提取能力。针对输入的文本表征Q,我们采用线性变换扩展为Q′∈R×hd,然后分别进行h次上述的ACT操作,最后将得到的输出拼接起来:

  而与BERT使用[CLS]来表征完全的序列不同的是,ACT融合考虑了局部特征O,全局特征g以及位置向量P来进行最后整个序列表征的计算。设P∈Rd×1为一组可学的位置编码,那么最终的文本表征h∈R为:

  从上面的表格可以看到,ACT的模型大小约为Transformer的三分之一,但是推理的速度则加快了一倍以上。针对ACT特殊的n-gram式的attention模式,我们还对比了它与transformer在attention可视化上的区别:

  上图中截取的两个例子中,上面一行为transformer结构的注意力可视化,下面一行为ACT的注意力可视化。可以看到transformer结构更加倾向于对更多的词进行关注,而ACT的关注点则更加集中与准确。

  情感分析是NLP当中的一项重要任务。而在实际应用中,情感分析在质检,交互,风控,舆论监督等方面都有着重要的应用。企业可以通过情感分析把握客户的感情偏向,从分析结果中企业可以发现客户希望的服务内容,以及发现当前服务所存在的问题,以便进一步提高服务质量、获客量以及客户满意度。随着通讯技术的发展,当前的沟通方式从单模态的文本形式逐渐发展到包含音频通话的多模态形式,因此情感分析技术也需要从原来只对文本进行情感分析的单模态情况,延伸到结合语音与文本双模态方式。而从技术角度来说,模态的增加也意味着输入信号的增加,是可以进一步提升仅基于文本的情感分析的表现效果。因此追一科技从实际以及技术趋势两个方面出发,在双模态情感分析领域进行研究,并在国际声学及信号处理领域的顶级学术会议ICASSP2021发表了论文EfficientSpeechEmotionRecognitionusingMulti-scaleCNNandAttention,并以实验表明论文中提出的方法比此前的双模态情感分析方法有更好的效果。

  首先对于音频我们提取MFCC特征,得到[a1,a2,…,aN],其中N为音频的帧数;对于文本我们提取词向量得到[t1,t2,…,tM],其中M为句子中token的个数。MSCNN通过一组卷积核分别对这两者提取特征,设单个卷积核为Ks×d,其中s为沿着序列方向的卷积核大小,我们对输入的特征X进行如下的卷积操作:

  其中Ma=(s,d)代表单个卷积核Ks×d卷积得到的特征矩阵,而Ma=(s,d)[i,j]代表特征矩阵的第i,j个元素。按照上述的方法,我们可以分别用多个卷积核对音频与文本都提取特征。然后使用SPU(StatisticalPoolingUnit)对提取出来的特征进行进一步处理。SPU单元采用了多种池化机制来完成对卷积特征的进一步处理,具体的做法是采用三种池化在沿着序列长度的方向进行统计量进行池化,设卷积特征为Md×l,其中l为序列方向的维度,则

  其中cy∈Rd,而γ∈{max,avg,std},分别代表最大池化、平均池化以及方差池化三种不同的操作。按照上述的方式,我们分别对音频以及文本进行相同的操作得到两者的SPU特征:

  然后attention机制将两种模态进行融合,具体来说,使用音频的SPU特征对文本卷积编码的每个位置进行加权,设hk为文本卷积的第k个位置的输出,则

  最后,我们将得到的注意力特征、两个模态所有的SPU特征以及SWEM特征(即用词向量直接平均池化,最大池化)拼接起来作为模型输入分类器前的最终特征使用。

  我们在双模态情感分析数据集IEMOCAP上与多个不同的双模态情感分析方法进行了对比,结果表明在双模态时,我们的模型表现全部优于此前的方法,达到了该数据集目前的最佳成绩。

  同时我们对论文中提出的集中新的模型结构进行了消融实验,结果表明所有的结构都对最后的效果有帮助作用,而其中音频部分的SPU特征提供了最大的贡献。

  关系抽取是利用算法,在文本中抽取出相关的实体,并判断它们之间的关系。例如对于文本「美国总统特朗普在白宫发表讲话……」,关系抽取的目标是得到(美国,总统,特朗普)这样的实体关系。而这一抽取过程在通常的做法下则是采用分步的方式,第一步先确定句子中的实体(例如“美国”,“特朗普”),第二步对抽出的实体进行关系判断,实体关系判断则对应了第二步中的任务。通常来说在给定的句子以及实体后,实体之间的关系可以对应多种描述。例如上面的例子中,“总统”这个关系,也可以表达为“国家领导人”等,因此在进行关系判断时如果能够借助外界知识进行辅助,可以对判断的准确程度有明星的帮助。基于这一情况,我们在国际自然语言处理应用的顶级会议EMNLP2019发表了论文mprovingRelationExtractionwithKnowledge-attention,通过知识注意力(Knowledge-attention)的方法,将外部知识引入关系判断的模型中来增强模型的表现。

  这篇论文聚焦的是关系抽取问题。创新点在于提出了利用知识注意力(knowledge-attention)的方式引入外部知识来提升关系抽取的效果。在这个任务中的外部知识是由与“关系”有相同语义的一组词组成。例如关系「就读于」,通过外部的知识图谱找到与这个词组语义相关的其它词组,比如「毕业于」。具体来说,我们采用FrameNet这一图谱来帮助构建外部知识,FrameNet将文本拆分为三种语义结构,分别是“事件”、“对象”与“关系”,而我们则使用FrameNet中所有的“关系”。我们把FrameNet中描述每种“关系”的词或者短语抽出,然后再查看这些词组中的近义词对,保留那些意思相近的词作为最终输入模型的外部知识。针对每个“关系”的描述词以及它的近义词,我们使用它的词向量与POS向量相拼接作为表征,最终我们获得了3000个与各种关系相关的词(或短语)K={k1,…,km},其中m=3000,ki∈Rdk。在进入模型时,这些关系词被看作为attention中的key部分,而输入的文本句子则视为query部分,具体来说,设输入的句子表征为Q={q1,…,qn},其中qi∈Rdk也是通过将词向量与POS向量拼接获得的,然后通过attention计算获得表征H:

  其中我们将得到的特征减去关系特征的均值来让与输入本文相关的关系词获得更大的输出。

  另外我们注意到token与实体之间的距离实际上对判断该token是否是在描述关系有很大的帮助,因此在这里我们也将这个位置信息一起放进模型当中。具体地说,设i第个tokenχi与目标实体之间的距离为^pi,我们用下面的函数来对过长的距离做一个衰减处理:

  通过上面的方法,我们可以得到当前位置i相对于主体s的位置psi以及相对于客体o的位置poi。然后通过这两个相对位置通过位置向量编码矩阵Wp得到xi最终位置编码

  三元组关系抽取是比关系判断更加难的任务,在上一个部分中我们介绍了实体关系判断是对已经给定的实体进行关系判断,而三元组关系抽取则直接抽取出(主体,关系,客体)三元组。通过三元组关系抽取可以从文本中构建出关系图谱,是一种将非结构化知识转变为结构化知识的方法。

  三元组关系抽取通常采用pipeline式的方法,即先抽取出文本当中的实体,然后再判断抽出实体之间的关系(如上一部分介绍的关系判断方法)。但这种方法存在一个明显的问题,就是无法处理文本中不同关系的实体出现重叠的情况。因为对抽取出的实体进行分类背后的假设是这对实体只存在一种关系,但从上图中的第二个例子可以发现,实际场景中相同的一对实体有可能出现多种关系。为了解决这个问题,我们提出了一种新的实体关系抽取方法,并在国际顶级自然语言处理技术会议ACL2020上发表论文ANovelHierarchicalBinaryTaggingFrameworkforRelationalTripleExtraction。

  三元组关系抽取任务的目标是对给出的文本,抽取出文本中包含的所有(主体,关系,客体)三元组,其中有些关系之间会共享同一个主体或者客体。通常的方案是将主体与客体先抽取出来,然后在判断它们之间的关系,而我们的方案则采用了另一个角度来理解关系抽取问题:我们将关系视为一个函数过程,而主体则是这个函数过程的输入,客体则是这个函数过程的输出。按照这个思路,关系三元组的抽取流程变成了:1.从句子中找到所有可能的主体;2.将每个找到的主体带入关系函数中;3.每个关系函数在出入主体后,应该给出相应的客体(给出的可以为空,则代表该主体与关系函数的组合不存在联系)。在具体的方案中,我们采用神经网络来模拟关系函数。

  分别代表第i个token是实体开始或者结尾的概率。那么对于文本的向量表征H,主体s的概率为:

  其中l为序列长度,Ⅱ{x}为指示函数。也就是说我们在每个输出位置预测两个0、1标签,分别来代表该位置上的token是否为某个主体片段的开始或者结束。而在推理时,我们将开始和最邻近的结束位置之间的片段看作是提取出的一个主体。然后针对每一个主体我们将关系视为一个函数过程,用来预测客体。具体地说,关系函数也采用SubejctTagger的形式(即线性层+sigmoid),那么对于关系r∈{1,…,R},一共有R种关系。针对第k个主体的第r个关系,我们通过如下的方式抽取对应的客体:

  是主体片段sk的token的表征的平均值。通过上述方法,类似地可以计算出针对关系r的客体预测概率。这样我们可以同时优化主体抽取以及对应的关系-客体,得到最后的关系三元组。

  我们在NYT与WebNLG两个关系抽取数据集上与此前的最佳方法进行了对比。

  其中HBTrandom代表编码器部分的transformer为随机初始化的,而代HBTLSTM表采用LSTM作为编码器。从结果上看HBT方法即便是不使用预训练模型,其结果也好于此前的最佳方案,而使用BERT作为编码器可以进一步加强HBT的表现。

  表格检索技术是利用输入的文本片段,对表格进行召回的一种方法。虽然都是与表格这一结构化数据相关,但表格检索与NL2SQL不同之处在于,NL2SQL技术是针对输入的完整文本,从表格中找到完整的回答;而表格检索的输入则大多时候是不完整的文本片段(例如输入相关的词、实体等),然后从大量的表格中检索出与输入内容相关的表格,如下图中的第二个例子,输入的是2018北京奥运,目标则是找到与之相关的表格。

  由于被检索的表格众多,并且表的大小不一,因此无法让模型将整个表格都编码,对此我们采取了筛选过滤的方式,只选取表格中与输入文本最相关的一部分内容进行编码。通过观察我们发现,表格检索包含了三种不同的情况,第一种是输入的文本与需要被检索的表格的列相关,如上图中的第一个例子;第二种是输入的文本与被检索的表格的行相关,如上图中的第二个例子;第三种则是与被检索的表的某个值相关,如上图的第三个例子。因此,我们根据这个观察将一张表格转换为三种不同的列表{c1,…,cm},表中的每个元素ci可以为表格的一行、一列、或者一个单元格。然后针对列表中的每个元素与输入的文本计算显著性,以此来作为筛选的依据。设q={k1,k2,…,kl}代表长度为l的文本,k代表一个token。设vk代表k的词向量,我们计算三种不同显著性

  其中w为列表中元素c的token,三个显著性指标从不同的侧面描述列表元素与输入文本的相关程度。利用三种显著性指标可以基于输入文本对列表中的所有元素进行排序,然后选取头部的元素编码入模型。

  选取的头部列表元素会与输入的query文本,以及表格的描述文本整合为一个长的序列输入到BERT模型当中,例如[[CLS],q,[SEP],p,[SEP],c1,[SEP],c2,[SEP]...,Cm,其中p代表表格的描述部分(图中的contextfields)。此外,如果还有额外的特征(例如手工特征)则可以同样作为最终检索的特征进行使用,设额外特征为fa,我们采用剑店的线性变换处理以后与BERT提取的[CLS]特征进行拼接,作为最终特征进行回归来预测表格的排序。

  我们在WikiTables数据集上与此前的最优方案STR进行了对比,在实验中我们比较了不同的显著性与列表党员的组合,具体如下表所示

  根据实验结果,我们发现采用Row-Max作为显著性衡量来进行表格的截断可以在WikiTables上达到最佳效果。

  数据标注是语音识别任务中一项繁重又十分重要的工作,而现有的语音识别系统动辄需要几千小时的标注数据才能达到较好的效果。如何有效利用大量的无标注语音数据,是语音识别中一个非常重要的问题。主动学习是解决此类问题的一种有效方法。主动学习中有一种基于委员会的方法,需要构造多个训练集,训练多个模型,系统复杂度高,且构建时间较长。追一科技在自动语音识别与理解国际顶级会议ASRU2019中发表了论文ADROPOUT-BASEDSINGLEMODELCOMMITTEEAPPROACHFORACTIVELEARNINGINASR,提出了一种基于DROPOUT的单模型委员会(DSMC)的主动学习方法。与以往基于委员会的主动学习方法相比,DSMC在通用性,解码效果和系统构建时长方面均表现出了优势。

  DSMC方法的框架如图所示。可以分为两个阶段:1)委员会构建阶段。使用标注数据训练目标模型,目标模型即需要不断改进的语音识别器。使用目标模型通过dropout构建种子模型,目标模型和种子模型构建成委员会。2)数据选择阶段。在数据选择阶段,委员会从未标注数据中选择最有价值的样本(即模型犯错最多的样本)进行标注,然后将这些数据补充到训练集,通过迭代提高目标模型的性能。

  构建过程如图所示。我们通过在目标模型推理过程中开启dropout来构建种子,采用不同的dropoutrate,可以构建不同的模型。DSMC方法以种子模型与目标模型推理结果的差异作为选择数据的标准。我们可以通过dropoutrate来控制选择的数据量,我们使用的选择dropoutrate的公式为:

  数据选择阶段如图所示。在构建了模型委员会后,我们使用委员会中的两个模型来解码未标注数据。在DSMC方法中,我们使用WMER和CM作为选择准则。计算WMER的方法与计算WER的方法相同,但采用目标模型的结果作为groundtruth。对于CM,我们只使用目标模型来计算置信度。

  DSMC方法与传统committee方法有三个优势:1)效果好,系统简单,通用性好。2)对目标模型的改进具有更强的容忍度。在其他方法中,种子模型不会随着目标模型一同改进,在DSMC方法中,目标模型和种子模型性能一同提高。因此DSMC方法对目标模型的改进具有更强的容忍度。3)在模型委员会构建过程中,DSMC速度要更快。

  我们与随机采样方法,HNN-based方法进行对比,分别选择100,200,300,400小时数据,对比目标模型性能的提升。左图目标模型为TDNN-LSTM,右图目标模型为CNN-TDNN。可以看到DSMC要明显好于随机采样方法,而且在使用了更简单的系统情况下,与HNN-based方法保持了相当的性能。

  我们对比了不同方法对目标模型性能提升的容忍度。当目标模型由TDNN-LSTM(表中为标为TDNN)换成性能更好的CNN-TDNN(表中为标为CNN)时,DSMC收益要大于HNN方法,两种方法之间的差距均有变小。

  我们还对比了HNN方法和DSMC方法的构建时间,由于HNN的委员会由TDNN模型和LSTM模型组成,其训练时间为两者之和。DSMC为训练初始目标模型的时间。实验结显示DSMC委员会构建时间仅为HNN方法的75%。

  对话型语音识别是一项极具挑战性的任务,因为在对话型的语音环境中,总是包含着比较自由的说话风格和比较长的语境信息依赖。如何充分的利用对话中的上下文信息,提高语音识别系统的性能,是一个重要的研究方向。在之前的研究中,有些方法通过训练上下文敏感的语言模型来提高系统对上下文信息的敏感度。有些方法通过改进RNNLM重打分进行较长上下文的建模,以此提高系统捕获上下文信息的能力。但是目前的方法中很难捕捉跨语句的对话信息。追一科技在中文口语语言处理国际会议ISCSLP2020中发表了论文Context-awareRNNLMRescoringforConversationalSpeechRecognition,为了进一步利用对话语境中的信息(如对话者,对话主题,意图信息等),我们提出了一种新的Context-awareRNNLM训练方法和基于Lattice拼接的重打分方法,以更好的捕捉对话中的上下文信息。

  如图所示,本文提出的Context-awareRNNLM训练的核心思想是通过Tag拼接对话中的语句,构建上下文相关的训练语料。其中Tag包括分隔符(SP),说话者ID(SID)和意图信息(INT)。将拼接后的文本作为新的语料训练语言模型,以此提高模型跨语句捕获对话信息的能力。另外后续在进行基于Lattice拼接的RNNLM重打分时,lattice边界也会加入Tag,以适配本文提出的RNNLM。

  一般的语音识别系统在进行一轮解码之后,会得到一个包含最有可能的几条路径的Lattice。Lattice的每条路径上分别带有声学模型的代价和语言模型的代价,重打分的思想是用一个更好的语言模型来调整Lattice中的语言模型代价。传统的重打分方法只针对当前语句进行重打分,无法利用对话中的上下文信息。我们提出的基于Lattice拼接的重打分方法可以有效的利用对话信息,提高最终的解码效果。如图所示,其中(a)为前一句话解码得到的Lattice,(b)为当前语句解码得到的Lattice。在对(b)进行重打分时,我们首先会把(a)和(b)通过上文提到的Tag进行拼接,然后使用上文提到的Context-awareRNNLM进行重打分,以此利用上一句话中的对话信息来影响当前句Lattice的语言模型的代价。

  下表通过一个例子来展示了传统RNNLM重打分和本文提出方法的对比,可以看到使用本文提出的方法,可以较好的利用对话的上下文信息,改善识别结果。

  追一科技以业务实际应用为出发点,不断积累并拓展自然语言处理技术,在文本语义分类、情感分析、信息抽取等多个方向上发表过篇国际顶级学术会议论文,在验证自己技术实力的同时也为推动技术发展做出贡献。新街口一大厦消防监控室无人值班 将被立案查处