Python知识分享网 - 专业的Python学习网站 学Python,上Python222
大语言模型安全与隐私风险综述 PDF 下载
匿名网友发布于:2025-06-10 08:58:50
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

大语言模型安全与隐私风险综述 PDF 下载 图1

 

 

资料内容:

 

1.1 大语言模型相关概念术语
1.1.1 语言模型
P(w1,w2,,wn |θ) S = w1,w2,,
wn n θ
S
P(w1,w2,,wn |θ) = P(w1|θ)P(w2|w1, θ)P(wn|w1,
w2,,wn1 , θ)
{wk ,wk+1,,wn } {w0 ,w1,,wk1 }
wk
深度学习领域中的术语语言模型不等同于通
常意义上的处理自然语言的模型”,而是对应一种
概率模型通常用于预测文本序列的下一个单词
言模型可以评估 其中
为 个单词组成的文本即可由参数 推测某个句
子 出现的概率实现语言建模目前流行的 LLM
常以自回归语言建模为训练任务对整个句子的出
现的概率可以分解为从左到右每个单词出现的概率
的 乘
训练的过程中 掩盖住训练语句中
让模型以文本序列 预
测 的分布.
 
1.1.2 语言预训练模型与预训练语言模型
为了将文本中将单词映射到高维空间中的向量
表示以便神经网络模型处理Mikolov 等人[4] 提出
word2vec系统的介绍了词嵌入word embedding
之后 Pennington 等人[5] 提出 GloVe同样致力于通
过浅层神经网络在通用文本上获取通用的单词表征.
这些预训练模型并不具备预测文本的语言建模能力
也不属最终任务模型的一部分有时称为语训练模型.
不同的是预训练语言模型不仅能预测文本中词汇
概率还能生成单词关于上下文的向量表征参数量
也要高几个数量级作为下游任务一部分参与微调.
 
1.1.3 大语言模型
相较于传统在较小标注数据集上进行监督训练
DNN 模型GPT BERT 等在无监督文本上作自
监督训练的预训练语言模型参数量达到了 1 亿级别
高了若干数量级因此这些模型也被称为大模型或
大语言模型LLM随着 LLM 的发展其模型参数
规模持续增长GPT-4 等目前已达万亿参数级别.
虽然 BERT 等早期大模型与之相差甚远但仍应被称
作大语言模型[6] . 为了有所区别也有人将百亿参数
级别之上的大模型称为大规模语言模型large-scale
language model本文中的 PLM LLM 2 个术语
可以互换.
 
1.1.4 基础模型
基础模型由斯坦福大学的 HAI 中心与 2021
年最早提出指代具有大规模参数的机器学习模型
不针对某一特定任务设计通常在某些模态下的大
量无标注数据如文本上作自监督训练以习得其分
布特征可以作为骨干模型backbone model),助力各
种下游任务的解决一般 PLM 都可称为基础模型
还有不少支持图像视频等多模态的基础模型存在.