“ChatGPT可能泄露训练数据,侵犯隐私,谷歌的DeepMind称”

ChatGPT可能洩漏訓練資料,侵犯隱私,谷歌的DeepMind稱

chatgpt-extract-fig1poem.png

通过重复一个单词,如“诗歌”、“公司”或“制作”,作者们能够促使ChatGPT透露出其训练数据的部分内容。被打码的项目包含个人可识别信息。

人工智能(AI)科学家越来越发现破解生成型AI程序(如ChatGPT)的安全性方法,特别是“对齐”过程,即使得程序在界限内运作,扮演一个有益的助手而不产生不可接受的输出。

最近,加州大学的一组学者通过给生成型程序提问一系列不可接受的问题来打破对齐,正如ENBLE报道的那样。

同时也可以参考:使用人工智能的五种负责任方式

如今,谷歌DeepMind团队的研究人员发现了一种更简单的方法来破解OpenAI的ChatGPT的对齐。通过在提示框中输入一个命令并要求ChatGPT不断重复一个单词,如“诗歌”,研究人员发现他们能够强制程序输出包含其训练数据的整段文学作品,即使与对齐的程序不应该发生这种泄露。

该程序还可以被操纵以重复个人姓名、电话号码和地址,这是一种侵犯隐私且可能带来严重后果的行为。

同时也可以参考:最佳人工智能聊天机器人:ChatGPT和其他值得注意的替代品

研究人员将这种现象称为“可提取记忆”,这是一种强迫程序泄露其存储在内存中的内容的攻击行为。

“我们开发了一种新的对抗攻击方法,使模型从其聊天机器人风格的生成中脱离出来,并以比正常运行时高150倍的速度泄露训练数据,”主要作者Milad Nasr和他的同事在正式的研究论文“从(生产)语言模型中可扩展地提取训练数据”中写道,该论文已发布在arXiv预印本服务器上。他们还编写了一个更易理解的博客文章

他们对生成型AI的攻击的关键是使ChatGPT脱离其编程对齐并回归到一种更简单的操作方式。

生成型AI程序(如ChatGPT)是由数据科学家通过培训的方式构建的,即在其初始状态下,该程序经受了来自公共互联网来源(如维基百科)和出版书籍等的数十亿字节的文本训练。

培训的基本功能是使程序能够模仿输入的任何内容,将其进行压缩然后再解压缩。理论上,一旦训练完成,程序可以重新呈现训练数据,只需提交维基百科的一小段文本并引发镜像响应。

同时也可以参考:AI的现今繁荣将放大社会问题,我们必须立即采取行动

但是,ChatGPT和其他经过对齐处理的程序接受了额外的培训。它们被调整为不仅仅是输出文字,而是通过回应帮助性的输出,比如回答问题或帮助撰写书评等,来做出反应。这种通过对齐创建的有益助手形象掩盖了底层的镜像功能。

研究人员写道:“大多数用户通常不与基本模型进行交互,而是与经过对齐以根据人类偏好“表现更好”的语言模型进行交互。”

为了迫使ChatGPT从它有用的自身中解脱出来,纳斯尔想出了一个策略,要求程序无休止地重复某些单词。 “最初,[ChatGPT] 重复单词’诗歌’几百次,但最终被禁用。” 该程序开始漂移到各种毫无意义的文本片段上。”但我们表明,只有小部分生成目标会被禁用以进行记忆:有些生成目标直接从预训练数据中复制而来!”

ChatGPT在某个时刻停止重复相同的词语,漂移到无意义的内容,并开始透露出训练数据的片段。

最终,这些无意义的内容开始显露出整个训练数据的部分(以红色突出显示的部分)。

当然,研究团队需要找到一种方法来确定他们所看到的输出是训练数据。因此,他们编制了一个大规模的数据集,称为AUXDataSet,该数据集几乎有10 TB的训练数据。它是最大的生成AI程序使用的四个不同训练数据集的汇编:The Pile,Refined Web,RedPajama和Dolma。研究人员用高效的索引机制使这个汇编可搜索,以便他们可以将ChatGPT的输出与训练数据进行比较以寻找匹配项。

然后,他们进行了数千次的实验-无休止地重复一个单词,并数千次地将输出与AUXDataSet进行比对,作为他们的“攻击”的一种“扩展”方式。

研究人员称其恢复的数据中,“最长的提取字符串超过4,000个字符”;几百个记忆的训练数据片段超过1,000个字符。

与此相关的研究人员表示:“在包含’书’或’诗歌’这些单词的提示中,我们获得了小说中的逐字段落和完整逐字复制的诗歌,比如《乌鸦》。当我们要求模型重复一个不适合工作环境的单词时,我们会恢复各种包含不适合工作环境内容的文本。”

他们还发现了“数十个人的可识别个人信息”。在尝试了15,000次攻击中,约有17%包含“记忆的可识别个人信息”,例如电话号码。

另外:AI和先进应用正给当前技术基础设施带来压力

作者们试图量化训练数据能泄漏多少。他们找到了大量的数据,但搜索的范围受到一个事实的限制,那就是运行可能会一直进行下去的实验需要花费金钱。

通过反复的攻击,他们找到了从数据集中“记忆”的内容的10,000个实例。他们假设如果攻击继续进行,可能会发现更多的内容。他们将ChatGPT的输出与AUXDataSet进行比较的实验是在Google Cloud的单台机器上进行的,该机器使用了一台具有1.4 TB DRAM的Intel Sapphire Rapids Xeon处理器。这个实验持续了几个星期。但是,访问更强大的计算机可以让他们更全面地测试ChatGPT并找到更多的结果。

纳斯尔和团队写道:“在我们有限的200美元预算下,我们提取了超过10,000个独特的示例。” 但是,把ChatGPT API作为查询花更多的金钱的对手可能会从中提取更多的数据。

他们在谷歌搜索中手动检查了近500个ChatGPT输出的实例,并发现从Web中提取的记忆数据的数量大约是这个数值的两倍,这表明尽管AUXDataSet的规模很大,但ChatGPT中记忆的数据仍有更多。

另外:领导力警报:形势将永远不会稳定,生成AI可以提供帮助

有趣的是,某些单词重复时的效果比其他单词要好。实际上,单词“诗歌”是相对效果较差的。而单词“公司”是最有效的,研究人员在一个图形中展示了不同单词的相对强度(有些单词只是字母):

关于ChatGPT为什么会透露出记忆的文本,作者们并不确定。他们提出了以下假设:ChatGPT在训练中的“epochs”数量比其他生成型人工智能程序多,这意味着该工具会多次经过相同的训练数据集。他们写道:“过去的研究表明,这可以大大增强记忆能力。”

要求程序重复多个单词并不能起到攻击的效果,他们表示,ChatGPT通常会拒绝继续回答。研究人员不知道为什么只有单个单词的提示有效:“虽然我们无法解释为什么这是真的,但这一效果是显著且可重复的。”

作者们于8月30日向OpenAI披露了他们的发现,OpenAI似乎已经采取了措施来应对这种攻击。当ENBLE通过要求ChatGPT重复单词“诗歌”来测试攻击时,该程序会重复该单词约250次,然后停止,并显示一条消息称:“此内容可能违反我们的内容政策或使用条款。”

从这项研究中可以得出一个结论,即对齐策略作为一个普遍领域来探索是“有希望的”。然而,“现在明显的是,在最坏的情况下,这还不足以完全解决安全、隐私和滥用风险问题。”

另外:AI伦理工具包已更新,增加更多评估组件

虽然研究人员对ChatGPT采取的方法似乎不能推广到其他类似的机器人,但Nasr和他的团队对于那些开发生成型人工智能的人有一个更大的道德警示:“正如我们一再强调的,模型可能具备做坏事的能力(例如,记忆数据),但如果你不知道该如何询问,它就不会向你透露这种能力。”