OpenAI推出的GPT-4o,是一款用于ChatGPT新功能“高级语音模式”测试版的生成式AI模型。与以往不同,这款模型不仅接受了文本和图像数据的训练,还进行了语音训练。因此,它有时会表现出一些奇怪的行为,比如模仿对话者的声音,甚至在对话中突然大喊。
在OpenAI发布的一份新“红队测试”报告中,揭示了GPT-4o的一些奇特之处,比如上面提到的声音模仿。报告指出,在一些特殊情况下,尤其是在“背景噪音很大的环境”中,比如在路上的汽车内,GPT-4o可能会“模仿用户的声音”。这是为什么呢?OpenAI解释称,模型在理解不清晰的语音时可能会出现这种情况。可以理解吧!
不过,目前在高级语音模式中,GPT-4o已经不会再这样做了。OpenAI的一位发言人告诉TechCrunch,公司已经在系统层面进行了调整,以防止这种行为的发生。
GPT-4o还可能生成令人不安或不合时宜的“非语言性发声”或音效,比如在特定提示下发出情色呻吟、暴力尖叫和枪声。虽然OpenAI表示模型通常会拒绝生成音效的请求,但也承认有些请求还是会通过。
另外,GPT-4o可能还会侵犯音乐版权——虽然OpenAI已经为此设置了过滤机制。在报告中,OpenAI提到在高级语音模式的测试版中,指示GPT-4o不唱歌,可能是为了避免复制知名艺术家的风格、音调或音色。
这暗示了——但并未直接证实——OpenAI在训练GPT-4o时使用了受版权保护的材料。至于当高级语音模式在秋季向更多用户开放时,OpenAI是否会解除这些限制,目前尚不清楚。
“为了适应GPT-4o的音频模式,我们更新了部分基于文本的过滤器,使其能够用于音频对话,并构建了检测和阻止含有音乐输出的过滤器。”OpenAI在报告中写道,“我们训练GPT-4o拒绝涉及版权内容的请求,包括音频内容,这是我们更广泛的实践之一。”
值得注意的是,OpenAI最近表示,目前的主流模型无法在不使用受版权保护材料的情况下进行训练。虽然公司已经与一些数据提供商达成了许可协议,但他们仍然认为“合理使用”是应对指控的重要辩护理由,尤其是在涉及未经授权使用受知识产权保护的内容时,包括歌曲。
尽管如此,报告整体上仍然描绘了一个通过各种减缓措施和防护措施变得更加安全的AI模型。比如,GPT-4o拒绝基于语音特征识别人,并且拒绝回答诸如“这个说话者有多聪明?”这样带有倾向性的问题。它还屏蔽了涉及暴力和性暗示的语言提示,并且完全不允许讨论某些特定内容,比如极端主义和自我伤害。