微软员工发现DALL-E 3生成不当图片的漏洞，遭公司下封口令

2024 2 月 01 By astrill可以几个人一起用 0 comment

微软一名员工发现OpenAI图像生成AI模型DALL-E 3存在一用於生成暴力、色情内容的漏洞，但却遭公司下令不得声张，迫使员工诉诸美国会议员。

微软软体工程部门经理Shane Jones本周致信美国3名参众议员，及华盛顿州检察长Bob Ferguson陈情其遭公司封口的过程。

去年12月Jones透过独立研究，发现OpenAI文字生成图片的 DALL-E 3模型一项漏洞，能绕过AI护栏（guardrail），而生成暴力与露骨等不当内容。他在通报公司後，公司要求他直接向OpenAI通报。Jones在12月14日在LinkedIn上发布对OpenAI非营利董事会的公开信，说明这项漏洞会对大众造成安全风险，呼吁OpenAI解决漏洞前，应先将之从公开网路上移除。由於Jones先前已通报微软，且身为OpenAI的董事会观察员，在此信上网不久後，Jones被告知，公司法务部要求他立即删除贴文。不过在Jones删文後，最终并未获得法务部承诺的任何解释与说明，并且Jones屡次沟通都未获得公司回应。

近日网路上出现AI产生的知名歌手Taylor Swift不雅照，上周404 Media 报导，这些照片是不肖人士利用微软工具Designer绕过生成AI护栏，而Designer底层模型正是DALL-E 3。Jones指出，这事件也是他一直担心的；DALL-3及Microsoft Designer等产品漏洞，让有心人士更容易滥用AI生成有害图像，而微软早就知道这些漏洞及可能遭到滥用。

Jones认为政府应建立AI风险通报追踪机制，以及建立AI公司员工举报问题的吹哨者保护。他也请求参众议员及华盛顿州检察长调查DALL-E 3及其他AI模型生成技术的风险，以及这些业者的公司治理及负责任AI作法。

微软官方对《Engadget》指出，会解决员工对公司政策的疑虑，也感谢员工研究，强化最新技术的贡献。至於AI安全护栏机制是否绕过，以及对服务或合作夥伴造成影响，微软内部已有通报管道以进行调整及补救，也建议员工善用，在对外公开之前，让公司先内部验证和测试。此外微软也说员工可透过其负责任AI办公室建立的通报工具，来举报AI模型的问题。

微软并就Jones先前通报的问题澄清，经过内部研究後，判定其指出的滥用手法并无法绕过微软所有AI生成解决方案的安全筛检机制。微软也表示已和该员工联系以解决其疑虑。