ChatGPT-4o引领的多模态大模型时代，内容风险的演变及治理之道！

2024-05-17

今年2月份在迪拜举办的世界政府峰会（WGS）上，OpenAI首席执行官山姆·奥特曼（Sam Altman）在谈及对GPT-5的期望时，兴奋地表示：“它将支持多模式交互，并且响应速度更快。但最重要的是，它将变得更加智能。”

本周Open AI发布GPT-4o，以其卓越的多模态交互能力和端到端的模型设计，将AI的拟人化推向了新的高度。奥特曼WGS上表达的期望，在ChatGPT-4o上已基本实现，它“更像人”的智能化表现不仅是技术的飞跃，更是人机交互历史上的一大步，科幻中的设想一件件成为现实。

图片来源：OpenAI官网截图

GPT-4o中的“o”代表“omni”，意为“全能”。OpenAI官网介绍称，GPT-4o向更自然的人机交互迈进了一步，它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。那么，再次引爆科技圈的GPT-4o到底有多强，有哪些核心能力？

1.“实时”互动，表达富有情感，视觉功能更强

GPT-4o显著提升了AI聊天机器人ChatGPT的使用体验。虽然ChatGPT长期支持语音模式，可将ChatGPT的文本转为语音，但GPT-4o在此基础上进行了优化，使用户能够像与助手互动一样自然地使用ChatGPT。

比如，你想让GPT-4o帮忙解一道数学题，可以直接使用桌面应用，将GPT-4o打开放在一边，和它聊着天的同时，用“拍摄”功能给它看你电脑桌面的内容，它就可以在对话中为你答疑解惑。甚至还可以打开摄像头，让GPT-4o“看”着纸面指导解题。

图片来源：OpenAI发布会

GPT-4o还能与用户视频通话：用户打开摄像头，让GPT-4o“看”到当下，并进行互动。用前置镜头自拍，GPT-4o不仅能识别用户的情绪，如“看起来很开心，甚至可以说是兴奋的”，还能从用户背后的画面判断其身处的环境，如“看起来你在一个摄影棚中，背后有一些灯光，你的胸前还别着麦克风，可能在录制视频之类的”。

2.多语言表现出色，音频响应速度几乎与真人无异

GPT-4o的多语言功能得到了增强，在50种不同的语言中表现更佳。在OpenAI的API中，GPT-4o的处理速度是GPT-4（特别是 GPT-4 Turbo）的两倍，价格则是GPT-4 Turbo的一半，同时拥有更高的速率限制。

OpenAI官网介绍称，GPT-4o最快可以在232毫秒的时间内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致，并且在非英语文本方面的性能有了显著提高。同时在音频 ASR 性能和翻译性能上，GPT-4o 都比 Whisper-v3（OpenAI 的语音识别模型）的性能更优。

图片来源：OpenAI发布会

能用饱含情绪的声音和人聊天，还能看、能听、能说会唱，GPT-4o一经发布，就引发科技圈的热议，引领新一轮的AI创新浪潮，更关键的是GPT-4o免费向所有人开放。这不仅仅是技术的进步，更是应用普及的一大步。

然而，一项强大的技术最令外界担忧的，就是它的安全可控性,这也是 OpenAI 最核心的考虑之一.奥特曼曾强调，人工智能的发展速度可能远超人们的预期，因此必须采取有力措施来确保技术的安全可控。其中，内容安全不可忽视。

多模态内容自由组合输入-输出

内容审核难度加剧

随着大模型技术的进步与发展，尤其是GPT-4o在多模态交互能力上的突破，生成式AI面临的内容风险更加复杂多变，不同内容模态的自由组合也让内容审核难度加剧，在技术和成本上都面临巨大的挑战。

数美科技深耕内容风控领域近十年，目前已经为国内数十家大模型公司提供了内容风控服务，覆盖通用问答、AI搜索、社交智能体、图像处理、智能助手、AI创作等场景下的多模态内容。基于服务经验的积淀，数美总结了AIGC场景下内容审核的特点和难点：

（1）情感语义识别要求高：智能助手场景具备其特殊性，对于敏感话题不是采用统一拒答的方式，而是要区分情感语义倾向（辱骂诋毁，戏谑轻浮，赞扬肯定，客观中立等）进行识别判断，结合对提问者意图的分析来审核具体的提问内容。尤其是针对一些必须正确回答的问题，首先要正确识别用户输入的情感语义。

（2）违规类型不可预测：有许多在大模型场景下特有的违规风险，比如输入侧的注入攻击、输出侧的幻觉等，目前也出现了某些用户恶意利用大模型多轮对话、结合上下文语义进行作恶，因此需要结合具体场景制定对应的审核策略。

（3）模型价值观构建难：有部分大模型公司直接使用开源基座模型，或者是经过了微调，但是由于训练数据未清洗的原因，模型的价值观与主流价值观并不一定对齐。

（4）时效性要求高：第一个时效性问题在于大模型的应用场景与传统的社交场景有区别，大模型往往是采用流式的输出，尤其是音视频场景下，如何保障加了一层审核的内容安全防火墙后，仍不影响用户体验，保障其时效性？第二个时效性的问题在于，内容风控的本质是攻防竞争，新的攻击手段和风险内容只会越来越多，也要求做风控的厂商持续缩短应对不断新增的风险内容的能力迭代时效。

由于GPT-4o真正实现了多模态交互的自由组合切换，且在互动的响应速度几乎与人相等，因此在内容审核上的复杂度与难度都将极大加剧。但无论难度多大，内容合规都是任何大模型不可回避且亟需解决的问题。

数美多模态AIGC内容风控方案持续迭代

护航生成式AI向前的每一步

数美在内容风控领域积淀了近十年的服务经验，目前已经建立了领先业内的三级内容标签体系，覆盖文本、视觉、音频多模态内容的1000多个细化内容标签，对于风险事项的审核能以标签的解释迅速返回给客户。同时，针对AIGC内容风险的演变，数美的这套标签体系也在持续迭代优化，实现了更高效、更精细化的内容识别。

拆开来看，GPT-4o类模型与以往大模型的工作原理并无差异，主要还是根据AIGC的业务流程分为三大块：语料筛选-用户输入-模型输出，做好这三步的多模态内容审核，才能安全持续发展。

1.数据筛选

在这个阶段与之前的模型产品并没有太大区别，主要可以从筛选、清洗训练数据、内容审核来对训练数据进行三重“防护”，只是训练GPT-4o这类大模型需要大量的音视频以及文本描述，因此在审核中需要调用更多资源，审核成本加大，审核技术要求更高，同时相较于静态的文字或图片，动态音视频中微妙的语气语调、表情变化、肢体语言等非文字信息增加了判断难度，通常需要更专业的人工与机器审核协同来确保训练数据的准确性和合规性。

2.用户输入

从目前GPT-4o来看，在输入阶段支持文字、图片以及音视频不同模态的提示内容，这为输入阶段的审核加大了难度，面对用户输入的存在违规、敏感的内容，大模型是直接拒绝用户与其交互还是引导换话题？如何结合国家国情、各地区政策去做到更精细化的审核？数美同样也会根据客户场景、内容模态，匹配相应的策略方案。

（1）敏感词匹配拦截：创建敏感词或短语黑名单库，阻止AI生成涉及这些内容的文本、图片及音视频回答。需要注意的是，用户输入的字词可能有同音、形近等各种变体，黑名单也要包含这些变体词库，确保违规数据的有效召回。

（2）语义识别：如短语无法通过敏感词识别，则需要依赖语义理解能力，对人物、事件、组织机构、违法违禁意图以及对语义情感倾向进行识别判断，结合对提问者意图的分析来审核具体的提问内容，确保不会有风险露出，不影响用户的使用体验。

（3）上下文关联：类ChatGPT的应用都采用了上下文关联技术，每次会话都会拼接前文。一些恶意用户可能会通过采用“分段发”的方式，绕过黑名单和NLP模型的识别，GPT-4o支持插话、被打断这种复杂场景的交互，这就要求系统在审核内容的时候必须关联前文信息。

（4）音视频内容识别：GPT-4o引领多模态时代的到来，数美基于以往音视频社交客户的服务积淀，在音视频流的识别技术上做了优化迭代。音视频过滤API的最大响应时间为1s，超时率低于0.01%，进一步满足实时交互音视频流的审核需求，并且支持英语、阿拉伯语、日语、汉语、西班牙语、葡萄牙语等数十种语言识别需求。同时，音频ASR转译和声纹识别技术解决音频语义识别不准和隐晦色情声音的问题。

3.生成内容

一般来说，如果训练语料的质量可靠，用户输入的prompt也尽可能确保安全，模型生成内容的风险就相对有限和可控。但GPT-4o这类强交互的模型，在保障用户体验的同时，需要迅速做到对用户意图的理解，区分正负向语义。如一些涉及到政治类的敏感话题，如果完全客观中性的内容，是可以输出的，如果是一些调侃戏谑的提问，需要更精细化的输出策略。

目前数美的语义识别能力不断强化，对涉政情感语义、注入攻击类、歧视侮辱、违禁行为意图等做到高效识别。其次，针对一些中性客观的问题，大模型需要去正确回答并尊重事实，因此针对部分敏感问题，数美支持利用沉淀的敏感问题知识库识别必须准确回答的问题并给出正确的回复。

图片来源：谷歌开发者大会

在ChatGPT-4o发布后，谷歌在I/O开发者大会上推出最新多模态AI产品，包括由升级后Gemini模型驱动的万能AI助手Project Astra和对标Sora的文生视频模型Veo，国内字节发布豆包大模型并将价格将至新低，国内外大模型产品发展的火热态势不减，生成式AI的发展无止境，数美在内容风控领域，坚持以AI护航AI持续向前的每一步。

发布风控需求，即刻开启免费试用

免费试用