2024年3-4月:大模型的安全问题-2
大模型不确定性度量
主讲人 王青悦
当今的大语言模型(LLMs)尽管在实际应用中取得不俗的表现,但很难保证其输出的可靠性。如果盲目轻信采用模型生成的答案,很可能会误导用户。因此,评估模型生成回复的不确定性程度,让用户明白在多大程度上可以采用模型的答案,有助于降低风险,使模型做出更好的决策。本次讨论班将围绕着不确定性度量展开,介绍不确定性的基本概念和几种在LLM上常用的度量方法,以及他们的应用。
LLM-based Agent
主讲人 毕冠群
随着LLM的发展,LLM-based Agent成为了重要研究方向,它涉及到的是能够自主地感知环境、做出决策并与环境互动的智能实体。Agents的核心在于它们的自主性、反应性、社会性和能动性,它们不仅能够对环境变化做出反应,还能够主动地追求目标和意图。 本期讨论班将分享agents的基础知识和相关工作。
LLM压缩
主讲人 张岚雪
近年来,大模型展现出了强大的生成能力,但与此同时,大模型超高的运行成本。OpenAI也曾因需求量太大,一度停售ChatGPT Plus服务。小模型则在运行成本和某些应用场景上拥有独到的优势,如何在保留大模型能力的情况下将其压缩成小模型是一个值得讨论的问题。本次讨论班将从剪枝、量化和蒸馏三个方面,介绍大模型的压缩工作。
AIGC机生文本检测
主讲人 朱孝伟
随着大模型的快速发展,LLM的文本生成能力已经达到和人类写作相媲美的水平。与此同时,LLM的应用也已渗入到各个领域,改变了新闻报道、故事写作和学术研究等不同领域的生产力。同时LLM的滥用也可能造成有害影响,可能导致错误知识或虚假信息的传播,也可能导致垃圾邮件的制作或欺诈行为的发生等等。
但LLM强大的生成能力使得个人很难区分AI生成文本与人类撰写文本,因此近年来出现许多AI文本检测相关研究,此前被人熟知的检测方法有OpenAI检测器、DetectGPT、文本水印等。本次讨论班将从AI文本检测现状出发,介绍相关方法的原理,并针对其现有问题与最新研究展开讨论。
Privacy Attacks in LLM
主讲人 王一丹
随着预训练大语言模型的发展,其已经被广泛应用于各类场景,极大地提升了人们的工作效率,但同时公众对于大模型泄漏隐私的担忧也从未停止。为了更好地保护隐私并提高人们的隐私意识,我们需要了解大模型面临哪些隐私泄漏的风险,因此本次讨论班将聚焦于大语言模型隐私攻击相关的工作,包括Membership Inference Attack、Data Extraction Attack以及Attribute Inference Attack,欢迎大家讨论交流。
2023年12月:大模型相关技术进展
LLM的Prompt越狱攻击
主讲人 胡博翔
工业界和学术界都极其关注LLM可能输出的有害内容,即使大模型在诸多对齐算法下实现了与人类价值观的初步对齐,仍有诸多方案能够绕过当前的对齐策略和防御方式。而通过Prompt让LLM实现越狱就是其中一种,Prompt越狱攻击不仅十分方便,而且具有较强的可解释性,那么如何快速有效的生成能够越狱的Prompt就成了重中之重。本次讨论班将对Prompt形式的越狱攻击进行简单介绍,并通过介绍现在前沿的攻击方式,共同探讨Prompt越狱攻击的近期发展和相关研究工作,欢迎大家关注。
检索增强的LLM
主讲人 傅延赫
针对大规模语言模型(LLM)表现出的内在幻觉、长尾问题、时效性短等缺点,检索增强技术在学术界和工业界都获得了前所未有的关注。其解决方法非常简单但极其有效:首先为LLM构建一个独立的外挂文档库,然后基于用户输入检索回相关文档,传递给LLM辅助生成。近期,研究人员将检索增强的流程拆分为不同模块,并根据传统检索方法的不足设计了不同模块以保证增强效果。本次讨论班聚焦检索增强技术在LLM上的应用,介绍了近期发展和相关研究工作,欢迎大家交流探讨。
知识编辑
主讲人 李豪
大语言模型因其具有丰富的知识和推理能力,得到了广泛应用。然而,知识具有时效性,重新预训练语言模型的成本巨大,如何将新知识高效地引入大语言模型成为一个迫切的需求。最近知识编辑引起了越来越多的关注,其目的是精确地修改大语言模型去更新特定知识,并不会对其他无关知识产生负面影响。本次讨论班主要介绍知识编辑的相关工作,欢迎大家交流探讨。
因果推断与大语言模型
主讲人 李英杰
近年来,因果推断领域的研究工作日益发展,因果推断更关注因果关系而非相关性,研究方向包括因果发现、因果效应估计、反事实推断等领域;大语言模型以其丰富的知识和自然语言理解分析能力在因果推断领域表现出了极大潜力,可以辅助进行反事实数据增强、因果图生成和分析等。本次讨论班主要对因果推断领域的基础知识作简要讲解,并介绍Large Language Model与因果推断相关的几篇研究工作,欢迎大家交流探讨。
训练对齐人类偏好的大模型
主讲人 刘益
尽管大模型能通过大规模预训练获得广泛的世界知识和部分的逻辑推理能力,但由于其训练的完全无监督性质,实现对其行为的精确控制是困难的,这可能导致生成不准确、误导甚至有害的文本。因此,采用对齐技术(Alignment)来确保模型表现出与人类价值观一致的行为变得至关重要,即生成数据的有用、真实和无害性。OpenAI提出的人类偏好对齐技术可以很好地解决这个问题:通过收集人类对大模型生成内容的反馈和偏好,然后基于偏好学习(Preference Learning)的范式对大模型进行优化,从而引导其与人类价值观对齐。本次讨论班旨在分享人类偏好对齐的主流算法和最新进展,欢迎讨论交流。
大模型水印
主讲人 任昱冰
随着大模型显现出越来越强的生成能力和应用潜力,人们对于大模型技术对于人类社会秩序和安全的威胁的担心也越来越强。尽管各家公司都在强调在训练过程中对于大模型 “harmless” 的保障,但是人们仍然希望看到以一种更加显式的方法来保证文本来源可追踪。大模型水印技术能够非常好的解决这个问题:通过将隐藏的模式加入大模型的生成文本之后,可以以极高的准确率和极低的假阳率来检测文本是否来自 AI,因此也得到了各界广泛的关注和讨论。本次讨论班旨在分享大模型水印最新成果和进展, 欢迎讨论交流。
2023年11月:图与LLM
LLMs with Graph
主讲人 吴咏萱
大型语言模型(LLMs)在回答问题、代码生成等各种应用中展示了无与伦比的能力。同时图结构数据作为一种固有的数据类型,在现实场景中无处不在。将LLMs的能力与图结构数据相结合一直是一个备受关注的话题。本次讨论班将这样的结合分为两个主要类别。第一类利用LLMs进行图学习,LLMs不仅可以增强现有的图算法,还可以辅助各种图任务。第二类是利用图提升LLMs的能力,使用图的固有结构来增强LLMs的推理能力或帮助LLMs进行协作,从而使它们能够处理多方面的任务。通过利用图结构,可以显著提升LLMs在复杂问题解决中的效能。
Natural Language is All a Graph Needs
主讲人 宋传承
LLM已逐渐取代CNN和RNN统一了CV和NLP领域,然而将图学习问题纳入生成语言建模框架的工作仍然非常有限。随着LLM的重要性不断增长,探索LLM是否也可以取代GNN作为图的基础模型变得至关重要。本次讨论班讨论一篇研究基于指令微调的图语言模型的文章,通过系统设计基于自然语言指令的高度可扩展的prompt,并使用自然语言描述图的几何结构和节点特征,以便指令微调LLM来执行学习以及以生成方式对图进行推理,揭示了生成式LLM作为图机器学习基础模型的可能性。
提示学习在图神经网络中的探索
主讲人 刘瑜
目前,“预训练、提示、微调”已经成为自然语言处理领域的标准范式。现阶段大模型基本统一了自然语言处理领域的多个不同任务。然而,由于图学习领域的独特挑战,图上各种任务的统一模型仍有待探索。首先,来自不同领域的图数据具有不同的结构和属性。其次,图上的任务多样化,包括节点级、边级和图级的分类和回归任务。最后,基于上下文的图提示学习模式尚不明确。本次讨论班旨在介绍图神经网络在“预训练、提示、微调”范式下的最新成果和进展,希望对大家的工作有所启发。
图神经网络与微分方程
主讲人 石逢钊
传统网络中网络的层次结构可以被拆解成为一个微分方程的离散化,从而利用微分方程的很多理论来设计网络,本文以微分方程在传统机器学习任务中的设计方法为基础,介绍了将该思想扩展到图上的相关方法,期望对之后的研究有所帮助。
2023年9月:大模型的安全问题
Trustworthiness and Domain Specialization of LLMs
主讲人 朱孝伟
针对大模型LLMs的可信问题,其抗滥用性与遵守社会规范性也成为LLMs可信度考量的两大维度。并且在大模型利用严格的对齐方式具备更好可信度趋近成熟的同时,针对很多领域的特定任务与问题,直接使用预训练的通用LLMs会遇见许多难题。语言风格与业务模式的巨大差异、知识实时更新的严苛要求等等使得通用 LLMs 无法成为一个一体适应所有情况的解决方案。因此“将 LLMs 专业化到不同领域” 成为了应用领域的强大需求和必然趋势。本次讨论班将针对大模型可信的两大维度和领域专业化技术介绍分享相关知识。
自然语言处理中的后门攻击
主讲人 王一丹
随着预训练大语言模型(LLMs)的发展,其在几乎所有的自然语言处理任务上都有广泛的应用并取得了良好的效果。但与此同时,LLMs本身存在的安全性问题也受到越来越多的关注。由于缺乏透明度,LLMs容易受到后门攻击的威胁。在后门未被激发时,被植入后门的模型具有和正常模型类似的表现;而当通过触发器激活后门时,模型的输出则会变为攻击者预先指定的输出以达到恶意的目的。本期讨论班将围绕自然语言处理中的后门攻击介绍其背景原理、不同范式下的相关工作以及未来研究方向。
可信LLM
主讲人 王青悦
模型对齐——即使模型行为与人类意图保持一致,已经成为发展LLM(large language model)的关键一环。以最近发布的GPT4为例,OpenAI曾花费6个月的时间来实现其对齐,可见对齐的重要意义。通过对齐技术,LLM变得更加可靠、安全,收获人类的信任,也解锁了更多能力。然而,尽管对齐是LLM流行背后的核心技术,但评估这些模型中的对齐程度和设计适当的对齐任务仍然是一个悬而未决的挑战,没有明确和原则性的指导。本期讨论班将关注细粒度的对齐需求,帮助理解对齐的同时,提供对齐数据的收集方案。
大模型安全性:达摩克利斯之剑悬于何处?
主讲人 毕冠群
随着生成式大模型如ChatGPT等引领的热潮不断升温,人工智能领域对通用人工智能(AGI)的追求也愈发明确。然而,在这些先进模型成为科技界的明星产品之际,其固有的数据和安全隐患不容忽视。这种强大的模型技术,在推动人类社会各领域重大变革的同时,也伴随着诸如数据泄漏、虚假信息传播等不容忽视的安全和隐私风险。正如达摩克利斯之剑悬挂在头顶,即使充满吸引力和潜力,也总伴随着隐患和不确定性。
本次讨论班中将探讨生成式大模型中存在的安全问题,对这些风险进行全面梳理和总结。同时也将讨论目前采取的主要应对措施和策略,以期为通用人工智能的持续和安全发展提供前瞻性的、实用的见解。希望通过集思广益,我们能共同为这一技术革新的持续、安全、和道德发展出谋划策。