您现在的位置:首页 >> 环保新闻

吃到“有毒”数据,大模型反而更听话了|港科大&华为诺亚方舟实验室

时间:2024-01-29 12:20:04

静态通过借助对有误的假定控制能力对有误顺利进行系统特质,进而促使其转化控制能力。

就像这样,“从有误中的研修”可以准确识别系统服务器命令当中的的潜在风险,并做不合理准确的仍要:

检验结果

研究成果制作团队围绕两大理论上运用于布景展开检验,验证另行方法有的理论上效果。

布景一:未经过中的间的大自然语言静态

以Alpaca-7B静态为弧,该研究成果采行了PKU-SafeRLHF Dataset信息集顺利进行检验,与多种中的间方法有顺利进行了对比系统特质。

检验结果如下表简述:

当保持一致静态的有用特质时,“从有误中的研修”的中的间迭代在确保安全通过率上比起于SFT、COH和RLHF提高了左右10%,与更早静态比起于,大幅提高了21.6%。

同时,该研究成果发掘出,由静态自身显现出的有误,比起于于其他信息源的有误摘要对,显露出了好处的中的间效果。

△未经过中的间的大自然语言静态检验结果

布景二:已中的间静态面临另行型命令炮击

研究成果制作团队进一步探索了如何加强已经过中的间的静态,以应对另行出现的命令炮击方式上。

这里,该研究成果选择了ChatGLM-6B作为弧静态。ChatGLM-6B已经经过确保安全中的间,但面对特定命令炮击时仍可能会显现出不符合人类所观念的转换成。

研究成果人员以“最终目标绑架”这种炮击方式上为例,并可用所含这一炮击方式上的500条信息顺利进行了修正检验。如下表简述,“从有误中的研修”的中的间迭代在面对另行型命令炮击时显露出了强大的防御特质:即使只可用少量的另行型炮击样本信息,静态也能成功保持一致非标准控制能力,并在针对另行型炮击(最终目标绑架)的防御上做到了16.9%的大幅提高。

检验还进一步证明,通过“从有误中的研修”作法获得的防御控制能力,不仅关键在于,而且不具很强的角度看特质,都能广泛应对同一炮击方式上下的类似于话题。

△经过中的间的静态抵御另行型炮击

论文链接:

— 先 —

量子位 QbitAI · 头条号付

前列腺增生夜里尿急怎么办
普乐安搭配着坦洛新吃可以吗
抑制胃酸的药有哪些
皮肤科疾病症状
婴儿吃什么治疗腹泻