朱讯,一文纵览自然语言生成的开展,美国地图

摘要: 从马尔科夫链到Transformer,本文带您纵览自然言语生成的展开。


人们对人工智能的爱好跟着科幻电影的诞生和展开变得益发稠密。每逢咱们听到“人工智能”这个词,便会联想到《终结者》、《黑客帝国》、《我,机器人》等电影。

机器人具有独立思考爱情公约的才能在现在看来还伯伦不归比较悠远,但机器学习和自然言语了解范畴现已在曩昔几年取得了重大进展。个人助理(Siri/Alexa)、谈天机器人及问答机器人等运用程序正悄然无声地改动着人们的生活方式。

人们需求艾旭林布鲁克了解很多有歧义且结构多变的言语并从中获取含义,这促进自然言语了解(Natural Languag洪相熙e Understanding,NLU)和自然言语生成(Natural Language Generation, NLG)成为人工智能中展开最快的运用。Gartner猜测,“到2019年,自然言语生成将是90%的现代BI和剖析渠道的规范特征”。本文将回忆NLG的前史,并展望其未来。

什么是NLG?

NLG经过猜测语句中的下一个单词传达信息。运用言语模型可以猜测下一个或许呈现的单词,也便是找到单词在序列中的概率散布。举个比如,猜测“I need to learn how to __”的下一个单词,言语模型管帐算下一个单词,如“write”,“drive”或许呈现的概率。RNNs及LSTMs等高级神经网络可以处理较长的语句,提高了言语模型猜测的精确性。

马尔可夫链(Markov C科力德洗地机hains)

马尔可夫链是最早用于言语生成的算法。它经过当时单词猜测语句中的下一个单词。举个比如,模型经过下面两个语句进行练习,“I drink coffee in the morning”和“I eat sandwiches 58度c奶茶加盟with tea”。“drink”后边呈现“coffee”的概率是100%,“I”后边呈现“eat”和“drink”的概率分别为50%。马尔可夫链在核算下一个单词呈现概率的时分,会把每个单词之间的联系考虑进去。该模型最早用于为智能手自爱网机输入语句供给下一个单词生成主张。

但由于仅留意当时单词,马尔可夫模型无法勘探当时单词与语句中其它单词的联系乌兰巴托不眠夜以及语句的结构,使得猜测成果不可精确,在许多运用场景中受限。



循环神经网络(Recurrent Neural Network, RNN)

神经网络启发于人类大脑的作业原理,经过对输入和输出数据之间的非线性联系进行建模,为核算供给了一种新的办法,用于言语建模即称为神经言语建模。

RNN是神经网络的一种,它可以捕捉输入数据的序列特征。经过前馈网络处理序列中的每一个item,并将模型的输出作为序列的next item,此进程可以协助存储前面每步的信息。这样的“回忆”使得RNN在言语生成中有着超卓的体现,由于记住曩昔的信息可以协助更好的猜测未来。与马尔可夫链不同的是,在进行猜测时,RNN不只重视当时单词,还重视现已处理过的单词。

运用RNN进行言语生成

在RNN的每一次迭代中,模型都能在其“回忆”单朱讯,一文纵览自然言语生成的展开,美国地图元中存储呈现过的单词,以及核算下一个单词呈现的我是路人甲插曲概率。举个比如,有“We need to rent a __”,此刻要猜测语句中的下一个单词。模型可以朱讯,一文纵览自然言语生成的展开,美国地图记住在词典中每个单词随前面单词呈现的概率。在上述比如中,“house”或许“car”比“river”和“dinner”有着更高的呈现概率。庞贝古城最终一天“回忆”单元挑选概率更高的单词,并对其进行排序,然后进行下一次迭代。



但RNN有一个很大的问题——梯度消失。跟着序列长度的添加,RNNs不能存储那些好久前遇到的单词,便只能依据最近的单词进行猜测。这使得RNNs无法应小叽叽用于生成连接的长语句。

长短期回忆网络(Long Short-Term Memory, LSTM)



长短期回忆网络是RNNs的变体,比vanilla RNNs更适合处理长序列。LSTM运用广泛,其与RNNs的结构相似朱讯,一文纵览自然言语生成的展开,美国地图。不同的是,RNNs只要一个简略的层结构,而LSTM内部有4个层结构。一个LSTM由4部分组成:cell,输入门,输出门以及忘掉门。

运用LSTM进行言语生成



示例,输入语句为“I am from Spain. I am fluent in ___”。科力德洗地机为了正确猜测出下一个单词“Spanish”朱讯,一文纵览自然言语生成的展开,美国地图朱讯,一文纵览自然言语生成的展开,美国地图,LSTM会愈加重视上一句中的“Spain”而且运用cell对其进行100款盘编走运带回忆。在处理序列巫金闯花都时cell会对获取的信息进行存储,这些信息会用于猜测下一个单词。当遇到句号时,忘掉据守文登川门会意识到语句中的上下文发生了改动,并疏忽当时cell中存储的状况信息,换句话说,忘掉门的作用是让循环神经网络“忘掉”之前没有用到的信息。

LSTM及其变体可以处理梯度消失问题并生成连接的语句。可是,LSTM也有其局限性:核算要求高,难以练习。

Tr巴罗莫角ansformer



Transformer在2017年,由Google团队在论文《Attention Is All You Need》中初次提出,并涉及到一种名为“self-attention mechanism”的新办法。Transformers现在广泛用于处理NLP问题,例如言语建模,机器翻译以及文本生成等。Tr监督不可届ansformer模型由一组编码器和一组解码器组成,前者担任处理恣意长度的输入,后者担任输出生成的语句。

在上述示例中,编码器处理输入语句,并为其生成表明。解码器运用表明生成用于输出的语句。每个单词开始的表明或嵌入由空心圆表明。接下来,Transformer模型运用self-attention机制获取一切其他单词之间的联系,生成每个单词的新表明,如图中的实心圆。对金大人的梦每个单词重复该过程,接连生成新的表明,相似地,解码器从左往右顺次生成单词。

与LSTMs不同的是,Transformer需求的过程少,运用self-attention机制可以在不考虑单词方位的情况下,直接捕捉语句中一切单词之间的联系。

最近,许多研讨学者对vanilla transformer模型进行了改善,提升了速度与精度。在2018年,谷歌提出BERT模型,此模型在各种NLP使命中均取得了最先进的成果。在2019年,OpenAI发布了一个根据transformer的言语模型,只需求输入几行文本就可以生成长篇文章。

运用Transformers进行言语生成

Transformer模型相同可以用于言语生成,最著名的要数OpenAI提出的GPT-2言语模型。该模型经过将留意力会集在与猜测下一个单词相关的单词上,更好的学习并猜测语句中的下一个单词。

运用Transformer进行文本生成与机器翻译所遵从的结构相似。举个比如,“Her gown with the dots that are pink, white and ____”。通朱讯,一文纵览自然言语生成的展开,美国地图过运用self-attention机制对前面所呈现的色彩(白色和粉色)进行剖析,了解需求猜测的单词也是一种色彩,此刻模型的输出为“blue”。Self-attention可以协助模型挑选性地重视每一个单词在语句中担任的人物,而不只仅是经过循坏记住少许特征。

言语生成的未来

本文带咱们纵览了言语生成的展开,从运用马尔可夫链猜测下一个单词,到运用se多洛斯级大型运送空母lf-attention生成连接的文章。可是,咱们朱讯,一文纵览自然言语生成的展开,美国地图仍处于生成言语建模的初期,往后还会往自主生成文本的方向跨进。生成模型也将用于图画、视频、音频等内容的开发。

作者:【方向】