PromptBench:大型语言模型的对抗性基准测试 - 代码天地

PromptBench:大型语言模型的对抗性基准测试

企业开发 2023-06-24 21:28:13 阅读次数: 0

PromptBench是微软研究人员设计的一个用于测量大型语言模型(llm)对对抗性提示鲁棒性的基准测试。这个的工具是理解LLM的重要一步，随着这些模型在各种应用中越来越普遍，这个主题也变得越来越重要。

研究及其方法论

PromptBench采用多种对抗性文本攻击，研究人员生成了4000多个对抗性提示，然后通过8个任务和13个数据集对其进行评估。这种全面的方法确保了潜在漏洞的广泛覆盖，并提供了对LLM性能的可靠评估。

研究结果及影响

这项研究的结果表明，当代LLM很容易受到对抗性提示的影响。这个漏洞是一个需要解决的关键问题，以确保llm在实际应用程序中的可靠性和健壮性。作为数据科学家，我们必须意识到这些漏洞，并努力开发能够抵御此类对抗性攻击的模型。

论文还提供了快速减轻这些漏洞的建议。这些建议对于任何使用大模型的人来说都是非常宝贵的，并且可以指导开发更健壮的模型。

开源代码

研究人员已经公开了研究中使用的代码、提示和方法。我们必须继续调查，在它们研究的基础上进行更深入的研究，共同努力推进模型的改进，已经包括的模型如下：

google/flan-t5-large
databricks/dolly-v1–6b
llama-13b
vicuna-13
cerebras/Cerebras-GPT-13B
EleutherAI/gpt-neox-20b
google/flan-ul2
chatgpt

论文和研究地址：

https://avoid.overfit.cn/post/48766e3c21a8495bb991b0135912ce8e

作者：Praveen Govindaraj

猜你喜欢

转载自blog.csdn.net/m0_46510245/article/details/131342355

PromptBench:大型语言模型的对抗性基准测试

Lion：闭源大语言模型的对抗性蒸馏

生成对抗性网络GAN

生成型对抗性网络介绍

生成对抗性网络简介

对抗性鲁棒性与模型压缩：ICCV2019论文解析

对抗性人工智能如何威胁您的机器学习模型

【公众号文章】——对抗性机器学习的漏洞

深入浅出对抗性机器学习（AML）

左右互搏:生成型对抗性网络的强大威力

[论文]鲁棒的对抗性强化学习

机器学习HW10对抗性攻击

Bert+对抗训练+对抗性样本防御的文本分类实战

【GAN对抗性损失函数】以CycleGAN和PIX2PIX算法的对抗性损失的代码为例进行讲解

用于乳腺肿块大规模分割的对抗性深层结构网

PyTorch 1.0 中文官方教程：对抗性示例生成

人工智能医疗是把双刃剑，“对抗性攻击”后可导致误判

生成型对抗性网络的基本定义和介绍：什么叫生成

【论文泛读22】基于方面的情感分析的对抗性训练

IBM推出开源工具帮AI抵御对抗性样本***：DNN开发者的福音

推荐系统中对抗性机器学习-文献综述与未来发展整理分享

对抗性攻击和防御竞争(Adversarial Attacks and Defences Competition)的通俗解读

MTGAN:通过多任务三元生成对抗性网络对说话人进行验证

对抗性互学习域适应情绪分类：Improving Domain-Adapted Sentiment Classification by Deep Adversarial Mutual Learning

网络安全文章研读——基于对抗性强化学习的网络安全系统

【KDD20】多变量时间序列异常检测算法之USAD：对抗性训练AE

大语言模型(LLM)综述(六)：大型语言模型的基准和评估

（论文加源码）基于DEAP脑电数据集的脑电情绪识别（利用生成对抗性网络进行特征提取和数据扩充）

AI 的测试：模型的基准测试

生成语言模型真实性评估基准测试数据

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)