Quantcast
Channel: InfoQ - 促进软件开发领域知识与创新的传播
Viewing all articles
Browse latest Browse all 1056

GPT-2和Transformer很好用,但不是AI生成文本的最终目标

$
0
0

2019年2月,OpenAI发表了一篇论文,描述了基于AI的文本生成模型GPT-2,该模型基于Transformer架构,针对互联网大量的文本上进行训练。从文本生成的角度来看,所包含的演示是令人印象深刻的:在很长的时间范围内,文本是连贯的,语法和标点符号近乎完美。

image

与此同时,其允许任何人下载模型(考虑到完整的模型可以被滥用于大规模地生成假新闻,这里给的是较小的版本)的Python代码和加载下载的模型并生成预测的TensorFlow代码已经在GitHub上开源了

Neil Shepperd创建了一个OpenAI仓库的派生,该存储库包含额外的代码,允许在自定义数据集上微调现有的OpenAI模型。不久之后创建了一个笔记本,该笔记本可以复制到Google Colaboratory,并把Shepperd的仓库克隆到微调的GPT-2,该GPT-2由一个免费的GPU支持。从那时起,GPT-2生成文本开始扩散:Gwern Branwen等研究人员制作了GPT-2 Poetry,而Janelle Shane制作了GPT-2 Dungeons和Dragons人物简介

我等着想看看是否有人会制作一个工具来帮助精简这个微调和文本生成工作流,像我已经为基于递归神经网络的文本生成所做的textgenrnn。几个月后,还没有人做。因此,我就自己动手做了。输入GPT-2-simple,这是一个Python包,用来将Shepperd的微调代码封装在函数式接口中,并为模型管理和生成控制添加了很多实用程序。


Viewing all articles
Browse latest Browse all 1056

Trending Articles