OpenAI发布缩减版的GPT-2语言模型

OpenAI今天宣布计划发布GPT-2版本，该版本是先进的对话式AI模型，在2月份发布后引起了争议。今天发布的版本是7.74亿个参数，并在2月和5月为选定的研究人员发布了较小版本。

OpenAI今天还分享了一个开源法律协议，以帮助创建大型AI模型的公司建立自己的模型共享协议。尽管OpenAI表示已与5月自2月份开始复制该模型的组织进行了交谈，但尚未发布具有大约15亿个参数的完整模型。

OpenAI研究人员和哈佛大学研究助理Ariel Herbert-Voss今天在白皮书中提供了有关OpenAI GPT-2方法及其分阶段发布方法的详细信息。

本文还描述了OpenAI为什么选择延迟完整版本。

“随着跨模型的性能(例如生成连贯文本的可靠性)随着模型尺寸的增加而趋于改善，由于担心较大的模型被滥用，我们决定不同时发布所有四个GPT-2模型。通过错开发布，我们有时间进行风险分析，并使用较小模型的发现来告知较大模型所采取的措施。

由于担心恶意行为者滥用和伪造Deepfake的潜在可能性，OpenAI选择在GPT-2于2月首次亮相时不共享该模型的所有四个版本，从而在一系列任务上取得了最新的成果。GPT-2使用40 GB的互联网文本进行了培训。

最初对OpenAI的方法提出批评的人说，未能发布源代码对缺乏资源来复制模型或其结果的社会和科学家构成了潜在威胁。

其他人则称其为OpenAI的宣传特技，该公司最近从Microsoft筹集了10亿美元，并于3月改变了其非营利业务状态。

为了使错误信息传播的风险低于发布GPT-2时所认为的可能性，OpenAI与安全专家合作，监控了人员对GPT-2的使用，并“对自动检测，偏差，和滥用潜力。”

为了继续探索滥用的可能性以及如何安全发布GPT-2等大型模型，OpenAI与俄勒冈大学建立了合作伙伴关系;德克萨斯大学奥斯汀分校米德尔伯里国际研究学院;和康奈尔大学。

相反，本文引用的GPT-2的潜在积极用例包括帮助作家完成工作，为软件工程师提供代码自动化，更好的聊天机器人以及回答有关健康的问题。

康奈尔大学研究人员在本月初发表在《外交》上的分析发现，超过70%的人读过GPT-2生成的文字后认为它是可信的，这是《纽约时报》的一篇文章。

本文引用了艾伦人工智能与拥抱面孔NLP的交错发布方法，作为将来发布大型语言理解模型的一种可能方法。

研究人员在一篇博客文章中说：“我们认为分阶段发布和基于伙伴关系的模型共享相结合可能是AI中负责任发布的关键基础，尤其是在强大的生成模型的情况下。” 协议和书面文件。

“随着时间的推移，大型模型固有的问题将越来越多，而不是减少。我们希望我们与GPT-2的合作将有助于提供AI界在思考AI研究某些部分固有的出版挑战时可以借鉴的证据。