查看原文
其他

浙大提出联邦大语言模型Federated LLM,大模型数据隐私问题解决方案

灵度智能 灵度智能 2024-01-09

Federated Large Language Model : A Position Paper


面对着公共领域数据的稀缺性以及私有领域的数据隐私问题,联邦学习(Federated Learning)作为一种分布式的机器学习框架吸引了许多关注。


而伴随着大模型的出现与逐渐成熟,大规模语言模型(LLMs)对更大规模训练数据的依赖以及数据隐私与商业竞争问题,催生了一个新的问题,如何在不侵犯数据隐私法律条款的基础上,利用各个商业实体私人领域的孤立数据联合训练一个大规模语言模型?


面对这个问题,浙江大学提出了联邦 LLMs 的概念。


论文地址:https://arxiv.org/pdf/2307.08925.pdf


摘要


大语言模型(LLM)在各个领域都有广泛应用,但在实际应用中面临数据稀缺和隐私保护的挑战。为了解决这些问题,联邦学习(FL)作为一种有前景的技术出现了,它可以在保护分散数据的同时进行共同训练。我们提出了联邦LLM的概念,包括联邦LLM预训练、联邦LLM微调和联邦LLM提示工程三个关键组成部分。针对每个组成部分,我们讨论了它相对于传统LLM训练方法的优势,并提出了具体的工程策略。此外,我们还探讨了FL和LLM集成所带来的新挑战,并分析了现有解决方案在联邦LLM背景下可能面临的潜在障碍。


简介


大语言模型(LLM)在处理复杂任务方面表现出色,但其效果取决于模型大小和训练数据集的规模。公共领域数据不足以满足LLM的需求,而私有领域数据由于隐私和商业竞争等原因难以直接合作。数据隐私法规限制了数据共享,导致数据稀缺和隐私保护问题加剧。合作和整合数据可以解决这些问题。


利用私有领域数据进行建模,同时保护数据隐私是一个重要问题。现有的解决方案主要采用隐私保护计算技术,包括基于密码学的方法、可信计算和联邦学习。其中,联邦学习在隐私安全和效率方面取得了平衡,并已在工程实现中得到成熟应用。因此,将联邦学习集成到LLM训练过程中,是解决实际挑战的一种潜在方法。


联邦学习是一种机器学习范式,多个客户端协作训练共享模型,由中央服务器监督,同时确保数据的分散性,避免隐私风险和成本。与传统的集中式机器学习方法相比,联邦学习允许数据保持本地,从而减轻了一系列固有的隐私风险和相关成本。联邦学习(FL)是一种有效的解决方案,可以在保证安全和本地化的情况下,利用孤立的数据源共同训练共享的医学知识获取的LLM。因此,FL是在孤立的数据源上有效训练LLM的高度有前途的解决方案。


本文提出了联邦学习大语言模型(Federated LLM)的概念,并提出了一个综合框架,将联邦学习技术整合到LLM训练过程中,解决了数据隐私和模型性能之间的矛盾。该框架分为三个组成部分:联邦LLM预训练、联邦LLM微调和联邦提示工程。每个组成部分都解决了应用FL到LLM时出现的具体挑战和问题,并提出了潜在的解决方案,以确保每个组成部分的有效性和安全性。


背景


联邦学习


Mcmahan等人首次提出了联邦学习(FL)的概念,旨在通过收集参与者数据来实现协作模型学习而不损害隐私。在FL中,客户端设备异步共享模型更新,如权重和梯度,以最小化数据泄露的风险并减少带宽需求。为了确保从不受信任的方进行私密值的安全聚合,Bonawitz等人提出了基于安全多方计算(SMPC)概念的安全聚合。


联邦学习(FL)是一种通过聚合参与客户端的模型更新来保护隐私的算法。FL在医疗等隐私敏感领域得到广泛应用。为了防止客户端通过利用全局模型来重构彼此的私密数据,研究人员引入了客户端级差分隐私。此外,研究人员还考虑了在实际环境中异构用户数据的统计挑战。总的来说,这些创新对FL的发展做出了重要贡献,使得在保持隐私和安全的同时能够创建协作模型。


大语言模型


LLM是一种基于预训练语言模型(PLM)开发的大语言模型,其参数大小和训练数据量的增加对其性能有积极影响。LLM的训练包括三个阶段:预训练、自适应微调和利用。LLM表现出PLM中未观察到的新能力。


预训练阶段是将基础模型训练在大型语料库的无标签文本上,以学习语言模式和获取关于语言的一般知识。预训练的主要目标是通过无监督或自监督的方式产生有用的序列表示,对应于自监督学习(SSL)范例的第一阶段。


预训练模型需要在特定领域进行微调以适应具体用例,但直接微调计算成本高。为了降低计算成本,当前主流研究采用了高效参数方法,如适配器微调、前缀微调、LORA和提示微调。这些方法只调整部分参数,冻结骨干网络参数。


在利用阶段,LLM使用零样本或少样本学习进一步提高其在下游任务中的泛化能力和推理能力。主要技术是提示学习,通过精心设计提示来优化用户和模型之间的交互,从而提高下游任务的性能。


联邦学习大语言模型(Federated LLM)


本文旨在将联邦学习(FL)和语言模型微调(LLM)范式无缝集成,提出全面的联邦LLM。我们详细研究了LLM的训练过程,并将重点放在三个关键组成部分上:联邦LLM预训练、联邦LLM微调和联邦LLM提示工程。我们强调了每个组件与传统LLM的明显差异,并详细说明了每个方面采用的架构设计,最终促进了对主题的更深入理解。



模型预训练


考虑到对计算资源的不同需求,本文设计了两种不同的方法来实现联邦LLM预训练。第一种方法需要多个客户从原始数据开始进行数据预处理,以及通过参数选择和任务设计预训练的LLM架构。随后,进行模型训练。这种方法提供了根据特定需求定制模型结构和任务的优势,从而提高了性能。此外,它允许建立可定制的检查点,并便于后期的简单调整。然而,需要注意的是,该方法涉及巨大的计算和通信开销,模型的收敛性可能会带来挑战。相比之下,第二种替代方法利用现有的开源基础模型,并基于这些现有模型进行微调。这种方法提供了更低的计算和通信开销的优势。然而,在适应特定用户预期的任务时,它可能会导致潜在的不匹配。总之,两种方法之间的选择取决于性能优化和计算效率之间的权衡。第一种方法允许特定任务的模型设计和潜在的优越性能,但需要更高的计算和通信成本。另一方面,第二种方法虽然降低了开销,但可能会牺牲一定程度的任务适应性。


模型微调


传统的LLM微调方法存在机构间合作困难和数据不足等问题,需要寻求新的方法来解决这些挑战,提高LLM微调的效果。


本文提出了联邦LLM微调方法,解决了LLM微调中机构间协作的挑战。该方法考虑到每个客户端的特定下游任务需求,利用多个客户端的监督数据进行联合多任务训练。微调后的模型然后在客户端之间共享,促进协作同时保护隐私。通过利用多样化的数据集,该方法旨在充分发挥联邦LLM的潜力,提高模型的泛化性能。


本文提出了两种解决方案来实现联邦LLM的微调,需要仔细考虑计算和通信方面。第一种方法是直接在预训练模型上进行全模型微调,性能更好,但伴随着增加的计算和通信成本。第二种方法将参数高效微调方法集成到FL框架中,如适配器微调、前缀微调、提示微调和低秩适应(LoRA),通过最小化参数梯度计算和减少聚合参数的数量,有效降低了计算和通信成本。然而,未来仍有可能进一步提高性能。


提示工程


LLM通过应用快速工程技术来增强其上下文学习能力和处理复杂任务的熟练程度。但是,为了解决隐私问题,提示模板的设计通常依赖于公开可用的数据源。这种方法虽然保护用户隐私,但对提示工程的整体潜力产生了一定限制。这些限制源于两个主要考虑因素:公共数据集通常缺乏特定领域或个人的私人信息,因此提示模板可能无法完全针对专业领域或个性化要求进行优化;公共数据集的广泛采用导致常用提示模板的频繁使用,可能导致模型响应重复或乏味。



本文提出了一种联邦学习和提示工程相结合的方法,用于在保护隐私的前提下生成敏感数据的提示模板,以提高语言模型的准确性和适应性。该方法可以为多个客户提供个性化的提示,同时避免了原始数据的传输,保证了隐私安全。该方法不仅保证了隐私保护,还增强了语言模型的适应性,使其能够有效地处理多任务场景。


学习提示可以根据提示结构分为两种形式:手动设计的提示和参数化的提示。参数化的提示又可以分为离散提示(硬提示)和连续提示(软提示)。在联邦LLM提示工程的背景下,使用软提示更可取,原因如下:

  • 软提示利用其固有的参数特性,允许调整提示模板。软提示是联邦学习和提示工程之间的关键中介,促进了两者之间的有效协作。

  • 使用提示的目标是使LLM能够在各种任务中展示广泛的能力,而无需明确的人工定义的任务规范。软提示通过赋予模型适应性和灵活性,与此目标相一致。总体而言,采用软提示在联邦LLM提示工程中具有重要优势。它促进了提示模板对用户特定数据的适应,增强了联邦学习和提示工程之间的协同效应。此外,使用提示使LLM具有固有的泛化能力,消除了对严格的任务边界或明确的人工定义的任务规范的需求。


挑战


本文探讨了联邦学习和局部模型融合的挑战,包括安全威胁和防御、隐私和隐私增强、效率以及处理非独立同分布数据等方面。解决这些挑战对于联邦学习和局部模型融合的实际应用和学术发展至关重要。


安全威胁与防御



Mothukuri等人提出了联邦学习领域中安全威胁的综合定义,指的是恶意或好奇的攻击者利用漏洞,导致系统安全受损和隐私政策被违反。在联邦学习框架中,已经确定了各种攻击方法,包括污染攻击和对抗样本攻击。这些攻击在联邦学习的数据收集、训练和推理过程中的不同阶段表现出来。


毒化攻击可分为数据毒化攻击和模型毒化攻击两种类型。数据毒化攻击发生在数据收集阶段,恶意攻击者将篡改或损坏的数据样本引入联合数据集中。模型毒化攻击则利用训练阶段,向全局模型注入恶意参数或梯度,从而破坏其完整性并阻碍准确的协作学习。对抗样本攻击主要发生在推理阶段,通过微小扰动有意制造输入数据实例,旨在欺骗训练模型并导致错误预测。


FL和LLM的结合带来了新的安全威胁,需要加以解决:

  • LLM模型的深度转换器架构和多阶段训练过程使得毒害攻击特别具有挑战性。在联邦LLM训练中,这些攻击具有更高的成功率,并且更难以检测。

  • 对抗样本攻击也是一个问题,因为FL的分布式性质使得全局模型参数在水平FL场景中共享,增加了模型参数泄漏的可能性。这使得FL更容易受到白盒攻击的影响,这些攻击可能在FL模型部署后实施。


防御联邦学习安全攻击的常用方法包括数据清洗、强大的聚合、对抗训练等。


在联邦学习中,传统的安全防御方法面临着挑战。数据清洗需要访问本地用户数据,难以保护隐私;基于相似性和模型性能的聚合方法难以实现。可以考虑采用基于训练函数优化的聚合方法,但需要考虑其对Transformer结构的影响。对抗训练资源密集,不适用于轻量级用户。因此,需要探索增强联邦学习语言模型对安全威胁的鲁棒性的替代方法。


隐私威胁和隐私增强



联邦学习容易受到隐私威胁,包括样本隐私泄露、生成对抗网络攻击、推断攻击和提示攻击等。这些攻击旨在获取隐私信息或其他利益。


FL和LLM的结合引入了新的隐私威胁,需要仔细考虑:

  • 1. LLM的训练数据可能会被转化为生成的内容,其中可能包含敏感个人信息,如医疗记录和银行账号。因此,需要限制对敏感信息的存储、记录和访问,并采用加密技术来保护用户隐私。

  • 2. FL结合LLM可能引入新的推理攻击方法,LLM的内存使其更容易受到FL中的隐私攻击。需要研究新的防御机制来防止服务器通过LLM的缺陷提取用户数据。

  • 3. 基于提示的攻击可能导致隐私问题,特殊的提示模板可以诱导ChatGPT输出与隐私相关的数据。因此,需要解决基于提示的攻击策略带来的隐私问题。

  • 4. 目前对GAN攻击的研究主要集中在计算机视觉数据上,需要进一步研究GAN在自然语言处理任务中的潜在隐私风险。


随着联邦学习的发展,隐私威胁也随之增加。隐私增强技术如同态加密、多方安全计算和差分隐私可以帮助缓解隐私威胁,但在联邦LLM中应用这些方法会带来新的挑战。在Federated LLM中,模型参数的规模和深度可能会导致差分隐私引入的随机噪声快速放大,从而可能压倒梯度信号,导致性能下降。联邦学习语言模型(Federated LLM)的高效微调阶段中,差分隐私与参数方法的集成。此外,将差分隐私与深度语言模型相结合需要仔细考虑和研究。先前的研究已经探讨了LoRA和差分隐私的组合,但需要进一步探索。


效率


联邦学习模型存在计算和通信开销的效率挑战。在联邦学习过程中,需要在参与设备和服务器之间交换更新的梯度,这可能导致大量的通信开销。网络带宽的限制会导致成员掉线率增加,进而影响联邦学习模型的训练可用性。


LLM的效率考虑可以在模型训练的各个阶段进行分析:

  • 预训练阶段:在解决局部训练中的计算开销时,可以采用几种优化策略。模型并行、流水线并行和零冗余优化器(zero)是模型并行技术的例子,它们将广泛的模型参数分布在多个gpu上。为了减轻GPU负担,tensor offloading和optimizer offloading等技术利用了具有成本效益的CPU和内存资源。重计算方法减少了计算图的内存占用,而混合精度训练利用张量核心来加快模型训练。利用自动调优算法(Auto-Tuning)的分布式算子策略选择通常应用于深度神经网络(DNNs)。尽管如此,这些优化策略主要是迎合整体款,促使调查是否存在特定的方法,优化变压器的架构。此外,解决不同参与者之间的不同的计算资源提出了挑战在选择适当的组合优化策略基于他们自己的计算能力。关于聚合,LLM训练中使用的通用聚合框架可能会观察到不同的性能水平。例如,FedAvg在大语言模型训练中被广泛采用;然而,其收敛性能的有效性还需要评估。因此,探索可能提供卓越性能的其他聚合方法势在必行。这些是值得进一步研究的相关研究领域。

  • 微调阶段:在微调阶段通常使用高效的参数方法。然而,在FL中实现此方法需要考虑

  • 推理阶段:将快速学习与FL相结合是一个有趣的研究方向。


Non-IID


联邦学习存在Non-IID问题,会影响模型的收敛速度和准确性,目前还没有有效解决方法。但是,数据多样性可以提高模型的泛化性能,因此需要进一步研究Non-IID问题对联邦学习的影响。


总结


本文旨在解决LLM开发中遇到的实际挑战,并探索将FL纳入LLM的潜力。我们引入了联邦LLM的概念,并提出了一个基础框架,包括三个关键组成部分:联邦LLM预训练、联邦LLM微调和联邦LLM提示工程。我们对传统LLM和基于FL的LLM进行了比较分析,阐明了联邦LLM所提供的固有优势,并提出了可行的实施策略。此外,我们深入探讨了安全威胁和防御、隐私和隐私增强、效率和非独立同分布等四个关键方面,全面探讨了FL和LLM整合带来的新挑战。此研究不仅揭示了潜在解决方案,还为未来在这一领域的研究和发展提供了见解。对于研究界来说,这些基本问题具有重要意义,需要进行深入探索和讨论。进一步研究联邦LLM在推进我们对该领域的理解和能力方面具有重要意义。

▌关于我们

灵度智能,我们致力于提供优质的AI服务,涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求,请私信与我们联系。


我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案,助力产业升级和数字化转型。我们的产品和服务将引领行业标准,创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式,推动社会进步,致力于创造更美好的未来。

淘宝店铺:公众号后台回复“淘宝”获取店铺地址
商务合作:发送邮件至lingdu_tech@163.com邮箱

关注【灵度智能】公众号,获取更多AI资讯。



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存