要啥给啥的写作AI:新闻评论小说都能编,题材风格随便...

 

AI编故事,一模更比一模秀。
这里“一模”,自然是OpenAI横空出世的GPT-2。但今日更秀的另一模型,来自Salesforce——全球最大的SaaS提供商,虽然之前AI能力展露不多,但这一次,绝对一鸣惊人。
作家知道会沉默,评论水军看了要流泪。因为定向化编故事、生成文案评论的能力,实在太强了!
给它一把刀,它编出了这样的“恐怖故事”:
刀柄从洞里拔了出来。当刀击中我时,我吓了一跳,惊恐地睁大了眼睛。除了呜咽声,我只听到她的尖叫声。 蜘蛛准备挖她上面的拱顶时,碰到了她的脚,小家伙的眼泪开始流下来。蜘蛛抬头看着她,回望着我,眼里充满了热泪。我的心开始狂跳……
刀是一种工具,这个很好用。这是我买给我丈夫的。他拿到它们之后就一直用它们来切肉。 他说它们很锋利,所以使用时要小心,但这似乎不是什么大问题。从鸡胸肉到牛里脊肉,他都切过……
相比无脑好评的水军,AI给出的结果很难想象是机器写的,核心信息点、细节,全都有了。
但写得好、写得真假难辨,还不是重点!
更关键的是,这个模型的独特之处——只需要给出条件,它就能“定向”编故事,写命题作文,指哪打哪,想写什么风格就写什么风格。
与脑洞过于天马行空的GPT- 2 相比,它更能够被人驯服利用。
于是模型放出后,很快就引起了业内人士的关注。也有人给出评价:
虽然同样担心模型被滥用,但在研究人员看来,开放可能会更好,能让更多的人参与进来,一起抵抗。
所以,他们直接在GitHub上放出了多个全尺寸的、经过训练的 CTRL 版本。而不是像GPT- 2 一样,挤牙膏开源。
而且,它还是个全能选手,不仅能编故事,比如在Reddit论坛健身、理财板块发表不同的评论。
那么这是一个怎样的NLP模型?
这个模型,有一个非常有“灵性”的名字:CTRL,全称为Conditional Transformer Language,基于条件的Transformer语言模型。
自从有了Transformer,文本生成领域的大前辈就一个接着一个,这厢BERT开创先河,那厢GPT- 2 都能写论文了。
但是,与人类的创作方法不同,生成的文本再以假乱真,语言模型前辈们也不能按照特定的主题来写作内容。
这是一个拥有多达 16 亿参数的条件Transformer语言模型(GPT- 2 模型参数 15 亿),采用无监督学习,并且正如其名,能够对文本生成的内容进行更精准的控制。
GPT- 2 生成的内容是这样的:
CTRL以控制代码c为条件,学习分布 p ( x | c )。这一分布可以用概率链规则分解,并通过考虑控制代码的损失来进行训练。
即使给出的提示(prompt)相同,控制代码也允许生成多样化的内容。并且,就算不给提示,CTRL一样能生成特定风格的文本。
比如在OpenWebText版本中,在每一个文档后面加入URL地址,作为输入序列的开头。
这样,CTRL在训练过程中,就会学习这些URL的结构和文本之间的关系。在推理过程中,URL可以指定各种功能,包括域,子域,实体,实体关系,乃至日期。
除此之外,还有一小部分控制代码是与问答、翻译这样的特定任务相关的。这些控制代码相对复杂。
好玩的是,混合控制代码会产生一些有意思的文本。
比如把翻译控制代码混合到饮食这个标签中,生成的文本就拥有了两种不同语言的版本:
再比如说把政治和法语提示混到一起:
值得一提的是,CTRL的训练文本数据多达140GB,包括维基百科,Gutenberg上的书籍,OpenWebText2 数据集(GPT- 2 网页文本数据集克隆版),大量新闻数据集,亚马逊评价,来自ELI5 的问答,以及包括斯坦福问答数据集在内的MRQA共享任务等等等等。
数据集虽然没有开源,但Salesforce表示,他们会发布与数据收集相关的代码。
以及,由于控制代码和用于训练模型的文本之间存在直接关系,CTRL能判断出新文本生成时对其影响最大的数据源是哪一个。
最近最为人关注的是一次大规模商业并购:豪掷 157 亿美元收购大数据公司Tableau。
Salesforce Research是其内部的研究部门,核心目标是用AI来解决业务中的问题,已经在NLP领域颇有建树。
目前,这一部门由Salesforce的首席科学家Richard Socher领导。
他博士毕业于斯坦福大学计算机系。 2016 年,自己创办的公司被Salesforce收购后,加入Salesforce。
根据他个人网站信息,仅在 2019 年他就发布了 11 篇顶会论文,其中ACL 20193 篇;ICLR 20196 篇;CVPR 20191 篇;ICML 20193 篇。
他也是这篇论文的作者之一。这篇论文的其他作者,都是Salesforce Research的研究员。第一作者有两位,分别是Nitish Shirish Keskar和Bryan McCann。
其中,Nitish Shirish Keskar是Salesforce的高级研究员,博士毕业于西北大学,研究方向为深度学习及其在自然语言处理和计算机视觉方面的应用。他的个人页面显示,已经发表了 14 篇论文,其中不乏ICLR等顶会。
Bryan McCann也是Salesforce高级研究员,毕业于斯坦福大学,曾经担任过吴恩达机器学习课程的助理,研究方向是深度学习及其在自然语言处理方面的应用。个人网站显示,他发表过 7 篇论文,不乏ACL、NeurIPS、EMNLP等AI顶会。
这一研究成果,也引起了大家对模型参数的讨论。
但也有人给出冷思考,表示参数很多并不是优点,而是一个弱点。阿姆斯特丹大学的助理教授Willem Zuidema说:
确实,假设性能相同,较小的模型更好。但事实证明,只要你在大量的训练数据上训练它,语言模型的性能和记忆事实的能力与大小是密切相关的。

模型相关资讯

RoBERTa中文预训练模型,你离中文任务的「SOTA」只差...
有了中文文本和实现模型后,我们还差个什么?还差了中文预训练语言模型提升效果呀。 对于中文领域的预训练语言模型,我们最常用的就是 BERT 了,这并不是说它的效果最好,而是最为方便。昨天,国内开发...
NLP模型超越人类水平?你可能碰到了大忽悠
一个军方训练的神经网络声称可以分类图像中的坦克,但实际上,它只是学会了识别不同的亮度,因为一种类型的坦克仅出现在明亮的图片中,而另一种类型仅出现在较暗的图片中。 一个游戏AI在学会了在第一关的最...
数据不出本地,还能享受大数据训练模型,联邦学习提供...
雷锋网AI科技评论按:近日,联邦学习概念的提出者之一 Blaise Aguray Arcas 在韩国针对全球做了一个关于联邦学习的在线workshop。 Blaise Aguray Arcas是...
怎样不在朋友圈浪费时间?数学模型给你答案
信息爆炸时代,注意力是个人最稀缺的资源。从获取信息的角度,多久刷一次朋友圈比较合理呢?问题很复杂,近期一项研究中,研究者把社交媒体的使用问题,简化成了一个数学最优化问题,并给出了如何“高效”刷朋友圈的...
3D 打印正在手术台上进化,几百美元就可制作出器官模型
3D 打印正在手术台上进化,几百美元就可制作言承旭 林志玲 出器官模型 DeepTech深科技 06-3019:55 3D 打印模型正言承旭 林志玲 在广泛应用于不同的领域。6 月 14 日,一篇发表在 Cardiology ...
本站查询结果均来自网络,不保证数据的准确性!

Copyright 2009-2010, tool. All rights reserved.

苏ICP备12075365号-3

合作联系 294223859@qq.com