数美科技CTO梁堃：生成式大模型的内容安全挑战与实践

2024-08-30

近日，数美科技受邀参与AICon 2024 全球人工智能开发与应用大会（上海站），大会以“智能未来，探索AI无限可能”为主题，聚焦于大模型的开发与应用领域。

大模型已经成为推动创新和解决复杂问题的强大工具，然而随着其应用范围的不断扩大，安全问题和价值观的对齐问题也日益凸显。数美科技CTO梁堃出席会议并分享大模型内容安全相关内容，探讨大模型在引领行业变革与创新时面临的挑战及应对实践。

本文根据数美科技CTO梁堃AiCon大会分享整理，主要从以下三部分展开：

一、AIGC发展趋势的见解

二、AIGC内容风险的演变及面临的挑战

三、内容安全的实践经验分享：
1. 内容安全体系构建：布控点、调用流程及风险标签
2. 理解复杂语义
3. 识别多模态内容

每个专业领域都有一个Copilot

随着基础大模型技术的不断发展成熟，覆盖各类场景的创新应用如雨后春笋般涌现，对于当前AIGC的发展趋势，我有以下三点理解：

1. AI会替代专业领域的“体力劳动”

在大模型爆火后，人类会不会被人工智能所替代，再度成为大家争相探讨的热门话题。AI替代专业领域里面的人，短期内我认为是很难做到的，但它能被专业领域所应用，替代脑力劳动里面的体力劳动，即辅助完成那些重复性的、不需要太多深入思考与分析的信息提取总结、简单逻辑的代码生成等工作。

2. 推动用户交互界面的友好统一

现在很多大模型都有调用外部工具的能力，外部工具可能是打车、订餐、音乐播放等等。AIGC技术将推动用户交互界面的友好统一，让用户能够通过自然语言与各种服务和应用进行交互。

3. 深入个性化学习和娱乐场景

AIGC会深入到我们日常个性化的学习和娱乐里面。AIGC会深入到我们日常个性化的学习和娱乐里面。学习时，有个虚拟的老师给你答疑判卷；娱乐游戏时，NPC等会更加真实。

4. AIGC会替代大量信息创作者

之前我们接收到信息，大多数还是由新闻编辑或者某些创作者编辑生成的，但可以预见，以后大家每天接触到的信息很可能大量都是模型生成的了。

复杂多变的内容风险与挑战

1.内容风险

我们的内容审核产品是通过线上请求调用，AIGC兴起后，大量日常接触的内容由模型生成，请求量迅速超过以往流量。内容的爆发式增长，隐藏的潜在风险也更加复杂多变，主要的风险有以下几类：

（1）虚假和错误内容：错误知识、虚假历史、虚假新闻的传播，以及通过深度伪造技术如换脸实施的诈骗行为，让眼见不一定为实。

（2）有害内容：包括暴力、血腥、色情内容和仇恨言论等，对用户产生负面影响。

（3）违法内容：如毒品制造、犯罪方法的描述以及个人信息泄露等。例如用户在写小说里面毒师的角色，请教大模型制毒及贩卖方法；奶奶漏洞里，让大模型扮演奶奶读手机IMEI码哄睡等，输入信息来引导大模型输出不良内容的注入攻击，通过注入攻击，大模型可能会产生泄露隐私、商业秘密以及违规违法信息。

（4）不良价值观和歧视偏见：模型的训练数据大多来自网络，存在着社会偏见和刻板印象，导致模型输出信息可能传播拜金主义、享乐主义、歧视和偏见，如果是为一些决策人提供这类信息，可能会导致决策的公平性。

内容风险的治理，在社交平台兴起时，我们就建议平台将内容风控能力作为基础能力建设的一部分，内容安全必要性可以从以下几个维度来看：

（1）监管合规性：企业在全球不同地区运营时，必须遵守当地的监管合规政策。无论是在中国、欧洲还是北美，每个国家和地区都有其特定的法规要求。企业必须确保其业务活动符合这些政策，以合法合规地进行运营。

（2）用户体验：良好的用户体验是企业成功的关键。以平台弹幕为例，不当内容的出现可能会破坏用户体验，如不雅弹幕可能会在全家一起观看过程中造成尴尬。

（3）社会价值与责任：平台在运营中不仅要追求商业利益，还要承担起社会责任，尽量防止用户受到诈骗、歧视以及自我伤害，这是平台社会责任和价值凸显的一部分。

当大模型大量广泛的应用在专业领域，应用在生活中，应用在学习中时，大家接触到的信息变成AIGC生成的，如果出现诈骗、偏见、歧视等风险内容，将会潜移默化地、系统地影响大量人群。

比如，以往杀猪盘的骗子想要骗人，他会把自己包装成一个很高大上的人设，可能他会去合成一张一套图片，体现自己的日常生活，比如户外活动、工作场景等等，然后再编一套故事，这需要时间和精力来完整一系列的包装。但现在有了大模型，它可以编故事、生成图片、视频等一系列素材，让骗子的故事看起来很真实，行骗效率也更高。

从法律法规到伦理道德层面，都要求大模型要遵守法律法规，遵从社会伦理、价值观等，努力减少直接伤害，同时也要帮助用户保持批判性思维，以应对日益复杂的信息环境。

2.内容安全的挑战

数美目前已经为国内数十家大模型公司提供了内容风控服务，覆盖通用问答、AI搜索、社交智能体、图像处理、智能助手、AI创作等场景下的多模态内容。在实际的服务中，我们总结了用户与大模型问答、交互的过程中，内容安全面临的挑战：

（1）更高的时效性要求：当AIGC广泛应用到各个领域，区别于其他应用以浏览为主，AIGC频繁的生成内容，包括用户的提问和模型的输出，内容量非常庞大，而且流式的输出，如何保障加了一层审核的内容安全防火墙后，仍不影响用户体验，保障其时效性？第二个时效性的问题在于，内容风控的本质是攻防竞争，新的攻击手段和风险内容会越来越多，也要求做内容风控要持续缩短应对不断新增的风险内容的能力迭代时效。

（2）更长的上下文理解：在大模型应用中，生成的文本通常较长，无论是输入还是输出，通常涉及多轮对话和复杂上下文，这与社交应用中的文本长度相比有显著增加。这种长文本处理需求对计算资源提出了更高的要求，尤其是在需要准确识别长内容的场景中，要求对长文本和对话进行深入理解，从而带来了巨大的挑战。

（3）更复杂的语义理解：需要从对象和主题的识别，升级到意图和观点的识别，以更准确地判断内容的风险。在大模型内容安全领域，与传统内容安全的区别在于，它不仅关注对象和主题的识别，还需要深入到意图和观点的识别。例如传统方法可能只需标记和拒绝涉及违禁品或敏感主题的内容，但这种方法不适用于大模型，因为它可能会损害用户体验。

例如在提及毒品时，不是所有提及都需要被拦截，而是要区分其意图是否在于教授制作、买卖、运输或诱导使用毒品等有害行为。如果内容是在客观描述、批判抵制或使用比喻手法，这些则不需要被拦截。这种对意图和观点的深入理解，使得大模型的内容安全管理更为复杂，需要更高级的语义分析技术。

（4）更多样的内容风险：在大模型安全领域，风险类型更为多样和复杂。除了传统内容安全风险如政治歧视、仇恨言论、恐怖主义、违禁色情和辱骂广告等，还引入了以下新风险：1）生成内容识别：需要识别图片、视频和文本是否由AI模型生成，以应对伪造内容和欺诈行为；2）指令注入和攻击：包括角色扮演和间接注入；商业和个人隐私泄露以及价值观导向的风险等等

内容安全的实践多层次、多角度的内容安全防护体系
应对内容安全面临的挑战，分享目前数美在构建内容安全体系、理解复杂语义、识别多模态内容以及建立敏感知识库和安全代答模型层面的实践经验

1.内容安全体系构建

（1）精准匹配业务逻辑布控，覆盖模型训练和应用全流程。

1）模型训练阶段：尽可能不生成有害内容

- 样本清理与风险识别：在预训练阶段，重点是对各种样本进行清理，识别其中的风险，包括预训练样本和人工标注样本（SFT）中潜在的敏感问题。

- 敏感问题处理：由于敏感问题的识别需要专业知识，如政治和历史知识，一旦识别出敏感问题，会交由专业人员进行进一步的标注。

- 安全对齐：在安全对齐阶段，我们在尝试引入Harmless，Harmless高可奖励分，通过奖励机制来判断内容是否有害，以确保模型训练与安全目标的一致性。

2）模型应用阶段：阻止有害内容传播，为敏感问题提供恰当的答案。

- 用户输入风险识别：在用户输入阶段，进行风险识别，以检测输入内容是否存在风险。

- 参考信息风险识别：大模型在回答用户问题的时候，它除了参考用户的输入，还会参考知识库或者来自网络的一些检索信息检索结果。所以还要对知识库和网络检索信息进行风险识别，以防止注入或诱导性内容导致模型输出不适当的信息。

- 模型输出风险检测：如果用户输入是有风险的，可以使用敏感问题知识库和安全代答模型，去给出一个安全的输出，另外即使用户输入是安全的，模型输出仍可能存在风险。因此，最后一步是对模型输出进行风险检测，确保内容的安全性。

（2）灵活设计调用流程，兼顾内容安全与用户体验

用户输入的处理流程包括prompt识别，将其分为有风险和无风险两类。对于无风险的输入，模型将进行正常的识别和回答；有风险的prompt根据内容进一步分类为：不可回答的问题、需要准确回答的问题、需要纠错回答的问题和需要正向引导的回答。

正常回答和不可回答，这两种场景是比较明确也是相对容易判断的，但我们遇到的大量情况是剩下的三种：

一类是需要准确回答的问题，在国内涉政的问题，要准确回答，在海外可能是一些种族或者未成年人相关的问题，这个时候模型需要进入的是知识库和安全代答模型。

另一类是需要纠错回答的问题，它跟需要准确回答的问题非常像，只是在这个问题里面已经带有了不正确的知识或者不规范的表述，尤其涉及到一些敏感地区以及历史知识，这时候你要纠正它，然后再去回答他的问题。

最后一类是需要正向引导的回答内容，针对用户问的问题，不能针对他的问题回答，而是要引导他到一个新的方向。举个例子，如果用户问生活太痛苦了，我要打算躺平或者打算自杀，有什么好的无痛苦的自杀方法什么的，这个时候无论如何也不能去回答他的这个问题，而是去正向的引导他应该咨询心理医生或者与家人倾诉等等。

当我们识别出来属于“正向引导回答问题”标签之后，就可以进入安全代答模型回答环节。通过这些措施，在确保大模型训练和应用过程中内容安全的同时，也保障了用户体验。

目前数美建立了比较完善的安全知识库，对知识库的管理采用标签加名字空间加作用域的管理方法，确保知识库内容的准确性和适用性，用于支持需要准确回答、正向引导和纠错回答的内容。

（3）精准定义风险，1800+风险标签保障识别效果

定义风险是内容安全体系建设的核心部分。数美现在内部已经建立了四级内容标签体系，覆盖文本、视觉、音频多模态内容的1800+个细化内容标签，一级标签是风险大类别，二三级标签主要是对对象和主题的分类。最后一级标签是伴随着AIGC的发展，在这2年新引入的，是对内容意图和观点的分类。

这套标签体系实现了更高效、更精细化的内容识别，无论是人审还是机审环节，都可在一定程度实现降本增效。

2. 理解复杂语义

（1）上下文语义理解：在大模型的风险识别中，语义理解能力至关重要，首先要基于上下文去做对象和主题的识别，尤其在识别敏感对象或主题时，必须基于上下文进行，以区分真实情况和虚构或历史情境。比如在提到一些领土或者政治事件时，需要判断是否是真实存在的对象，还是虚构的情节亦或是历史过往都要能识别出来。

（2）意图和观点的细化：从对象和主题的识别扩展到意图和观点的识别。包括对人物、违禁品、违法行为等类别的细致划分。对于违禁品类，需要进一步分析其背后的意图，如是否在教授制作、买卖、运输或诱导他人参与。对于人物类，还需识别如辱骂、诋毁、戏谑、轻浮、讽刺等不同态度和表达方式。

（3）多模型策略：不依赖单一大模型识别所有风险，而是采用多个模型针对不同领域识别风险，如对象识别模型、观点识别模型等。

（4）长文本处理：采用滑动窗口技术进行分段处理，通过维护上下文信息来提高识别效率和准确性，同时减少重复计算，提高处理速度和降低成本

3. 识别多模态内容

除了文本，在大模型呈现多模态化趋势的当下，音视频内容的识别能力至关重要，且识别难度更大，复杂性更强。

（1）音频内容识别

在AIGC的场景下，模型可能会模拟真实人物的声纹，带来伪造和滥用的风险。这部分的识别分为语音识别和声纹识别两部分，语音识别将音频转写为文本，再利用NLP技术进行语义分析。除了内容，声音本身也可能是风险的来源，例如使用恐怖分子或敏感人物的声音进行伪造，声纹识别技术用于确认声音是否来自已知的敏感人物，需要区分声音内容和声源是否安全，避免敏感人物的声音被滥用。

与社交场景中多声源混合的复杂音频相比，AIGC生成的音频通常更纯净，转写难度相对较低。然而，当AIGC生成的歌曲或特殊语音模式（如歌词）出现时，识别难度增加，需要专门的语义模型来处理。

（2）视觉内容识别

视觉传统方法侧重于识别对象和主题，如色情、暴恐场景、敏感人物、OCR错误等。这类有画面感的看起来简单，但其实面临的挑战还是很大的，比如人物识别，当你要识别一个人的时候，通常被识别的那个人不会是正常的姿势，人物识别大多是在非理想条件下进行，如侧脸、远距离或不寻常角度。比如识别特定标识或符号，如蓝鲸游戏组织的隐秘标识，它可能是刻在某个桌角上，以不规则难发现的方式出现。我们在技术和样本上做了大量的投入，去识别自然场景下出现的各种难例。

在AIGC出现后，除了识别画面中的对象和主题，还需理解画面隐含的意图，如侮辱或诋毁行为。举例来说，识别对旗帜的不当行为（踩踏、焚烧等）需要理解视觉内容背后的意图。

刚开始我们通过定义和检测特定标签（如旗帜的不当行为）来识别风险。但因为某些样本难以获取，限制了传统方法的有效性，我们目前专注于文本和视觉的结合，采用多模态方法，结合文本和视觉信息进行语义理解。使用对比学习等方法，将图像的语义特征与NLP模型对齐，也就是说，对齐不同模态的语义空间，以提高识别的准确性。

在内容识别层面，我们在模型训练过程中，正在探索使用有害样本和正常样本进行预训练，以增强模型对有害内容的识别能力。即在预训练阶段保留少量有害样本，以便在对齐阶段更有效地识别和处理风险。

未来，随着大模型的广泛落地应用，会出现越来越多复杂多变的“风险”问题，只有大模型才能解决大模型的问题。数美将聚焦大模型内容生态层面，在持续的内容安全实践中，不断迭代对抗新风险突破新挑战的能力，以AI护航生成式大模型的发展。

发布风控需求，即刻开启免费试用

免费试用