切换到宽版
  • 5阅读
  • 1回复

[智能应用]破解AI“安全与性能”难题:华为浙大发布DeepSeek-R1-Safe大模型 [5P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
113908
金币
5195
道行
19523
原创
29359
奖券
18038
斑龄
200
道券
10556
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 23521(小时)
注册时间: 2007-11-29
最后登录: 2025-09-22
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 19:33

IT之家 9 月 21 日消息,在 9 月 18 日的华为全联接大会 2025 上,华为技术有限公司与浙江大学联合发布了国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型。

浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎详细介绍了 DeepSeek-R1-Safe-671B 基础大模型的核心创新。
据介绍,研发团队从底层入手,构建了一套覆盖“高质量安全语料 — 平衡优化的安全训练 — 全链路自主创新软硬件平台”的全流程安全后训练框架。

在算力平台搭建方面,团队首次实现基于昇腾千卡算力平台的千亿级参数满血版大模型安全训练,系统性地解决了训练环境中的关键问题,构建了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具。
测试结果表明,DeepSeek-R1-Safe 针对有毒有害言论、政治敏感内容、违法行为教唆等 14 个维度的普通有害问题整体防御成功率近 100%,针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%。其综合安全防御能力达 83%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 8% 至 15%。

此外,在 MMLU、GSM8K、CEVAL 等通用能力基准测试中,DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内。这些结果表明 DeepSeek-R1-Safe 不仅显著提升了安全防护能力,也保障了模型的可用性,达成了安全能力与通用性能之间的有效平衡。

▲ 任奎
中国工程院院士陈纯指出,浙江大学计算机科学与技术学院已组建起一支涵盖多位海内外优秀青年人才的科研团队,并已成功依托昇腾生态,实现了自主全流程后训练框架,完成了国内首次千卡集群大模型安全训练。这次 DeepSeek-R1-Safe 的发布旨在打造安全可信的示范应用,推动大模型安全能力与产业生态协同发展。他表示希望团队未来与华为展开更深入合作,共同推动我国 AI 技术进步。

华为昇腾计算业务总裁张迪煊表示,华为在此次大会上也正式推出了昇腾新一代 AI 硬件与全系列软件开源开放战略,覆盖编译器、运行时驱动等核心组件,致力于通过深度开放协作,联合高校与产业伙伴共同推动基础软件创新与 AI 安全能力建设。

IT之家注意到,该模型已在 ModelZoo、GitCode、GitHub、Gitee 及 ModelScope 等多个社区全面开源。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
187680
金币
426510
道行
2004
原创
2428
奖券
3015
斑龄
38
道券
1101
获奖
0
座驾
设备
摄影级
在线时间: 41960(小时)
注册时间: 2008-10-01
最后登录: 2025-09-22
只看该作者 沙发  发表于: 昨天 20:20
华为与浙江大学联合发布DeepSeek-R1-Safe基础大模型

在9月18日的华为全联接大会2025上,华为技术有限公司与浙江大学联合发布了国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。这一发布标志着中国在人工智能安全领域的重大突破。

核心创新与技术亮点

全流程安全后训练框架
- 高质量安全语料:研发团队从底层入手,构建了一套覆盖高质量安全语料的全流程安全后训练框架。
- 平衡优化的安全训练:通过平衡优化的安全训练方法,确保模型在训练过程中能够有效抵御各种有害信息。
- 全链路自主创新软硬件平台:利用全链路自主创新的软硬件平台,实现了高效、安全的模型训练。

算力平台搭建
- 昇腾千卡算力平台:团队首次实现基于昇腾千卡算力平台的千亿级参数满血版大模型安全训练,系统性地解决了训练环境中的关键问题。
- 开发工具:构建了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具,提高了训练效率和安全性。

测试结果与性能表现

安全防御能力
- 普通有害问题防御成功率:针对有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题,整体防御成功率近100%。
- 越狱模式防御成功率:针对情境假设、角色扮演、加密编码等多个越狱模式,整体防御成功率超过40%。
- 综合安全防御能力:综合安全防御能力达83%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型8%至15%。

通用能力基准测试
- 性能损耗:在MMLU、GSM8K、CEVAL等通用能力基准测试中,DeepSeek-R1-Safe相比于DeepSeek-R1的性能损耗在1%以内,表明其在提升安全防护能力的同时,也保障了模型的可用性。

行业影响与未来展望

专家评价
- 中国工程院院士陈纯:浙江大学计算机科学与技术学院已组建起一支涵盖多位海内外优秀青年人才的科研团队,并已成功依托昇腾生态,实现了自主全流程后训练框架,完成了国内首次千卡集群大模型安全训练。这次DeepSeek-R1-Safe的发布旨在打造安全可信的示范应用,推动大模型安全能力与产业生态协同发展。

华为昇腾计算业务总裁张迪煊:华为在此次大会上也正式推出了昇腾新一代AI硬件与全系列软件开源开放战略,覆盖编译器、运行时驱动等核心组件,致力于通过深度开放协作,联合高校与产业伙伴共同推动基础软件创新与AI安全能力建设。

开源社区
- 全面开源:该模型已在ModelZoo、GitCode、GitHub、Gitee及ModelScope等多个社区全面开源,为全球开发者提供了宝贵的研究资源和技术支持。

结语

DeepSeek-R1-Safe基础大模型的发布,不仅展示了中国在人工智能安全领域的最新成果,也为全球AI技术的发展提供了新的思路和方向。未来,随着更多高校和企业的加入,AI技术将在安全性和实用性方面取得更大的突破。

如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个