2024年1月19日 ,网络网络安全大模型评测平台SecBenc正式发布,安全该平台由腾讯朱雀实验室和腾讯安全科恩实验室,大模联合腾讯混元大模型、型评清华大学江勇教授/夏树涛教授团队、测平香港理工大学罗夏朴教授研究团队 、网络上海人工智能实验室OpenCompass团队共同建设,安全主要解决开源大模型在网络安全应用中安全能力的大模评估难题,旨在为大模型在安全领域的型评落地应用选择基座模型提供参考,加速大模型落地进程 。测平同时,网络通过建设安全大模型评测基准,安全为安全大模型研发提供公平 、大模公正、型评客观、模板下载测平全面的评测能力 ,推动安全大模型建设 。
行业首发,弥补大模型在网络安全垂类领域评测空白
自2022年11月ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮,大模型的落地进程也随之加速。然而,在网络安全应用中 ,大模型研发人员如何选择合适的基座模型,当前大模型的安全能力是否已经达到业务应用需求 ,服务器租用都成为亟待解决的问题 。
SecBench网络安全大模型评测平台,将重点从能力 、语言 、领域 、安全证书考试四个维度对大模型在网络安全领域的各方面能力进行评估 ,为大模型研发人员 、学术研究者提供高效、公正的基座模型选型工具和研究参考。

图 1. SecBench网络安全大模型评测整体设计架构

图 2. GPT-4在能力维度、语言维度以及安全领域能力的评估结果

图 3. GPT-4在各类安全证书考试中的评估结果(绿色为通过考试)
图1. 为SecBench网络安全大模型评测初期规划的源码下载架构,主要围绕三个维度进行构建:
一是积累行业独有的网络安全评测数据集 。评测数据是评测基准建设的基础 ,也是大模型能力评测最关键的部分 。目前行业内还没有专门针对大模型在网络安全垂类领域的评测基准/框架,主要原因也是由于评测收据缺失的问题。因此 ,香港云服务器构建网络安全大模型评测基准的首要目标是积累行业内独有的网络安全评测数据集,覆盖多语言、多题型、多能力、多领域,以全面地评测大模型安全能力。
二是搭建方便快捷的网络安全大模型评测框架