刷新20项代码任务SOTA，新型基础LLM系列编码器-解码器Code T5＋环球实时

日期：2023-06-26 04:39:55 来源：机器之心Pro

机器之心报道

机器之心编辑部

大型语言模型 (LLMs) 最近在代码层面的一系列下游任务中表现十分出彩。通过对大量基于代码的数据 (如 GitHub 公共数据) 进行预训练，LLM 可以学习丰富的上下文表征，这些表征可以迁移到各种与代码相关的下游任务。但是，许多现有的模型只能在一部分任务中表现良好，这可能是架构和预训练任务限制造成的。

(资料图片)

从架构的角度来看，现有的 LLMs 通常采用纯编码器或纯解码器的模型，这些模型通常只在一些理解或生成任务上执行的效果出色。纯编码模型通常适用于理解文本、代码检索之类的任务，而生成代码类的生成任务用纯解码器模型能有更出色的性能表现。并且，最近的一些模型用编码器 - 解码器这种更统一的架构来应对不同的任务。虽然这些模型可以同时支持理解型、生成型任务，但在特定任务中没法达到最佳性能。在检索和代码完成任务上，编码器 - 解码器模型还是不如最先进 (SOTA) 的纯编码器和纯解码器基线。单模块架构虽然通常可以适用于所有任务，但它的局限性也会导致编码器 - 解码器模型的不足。总之，先前的方法在设计时并没有考虑如何让单个组件可以被激活以更好地适应不同类型的下游任务。

从学习对象的角度来看，目前的模型通常采用一组有限的预训练任务。由于预训练和微调阶段的差异，这些预训练任务会使一些下游任务性能下降。例如，基于 T5 的模型通常以跨度去噪目标进行训练。然而，在代码生成等下游任务中，大多数最先进的模型都是用下一个 token 预测目标进行预训练的，该目标可以逐 token 自回归地预测处理。学习对比代码表征对于理解文本、代码检索等任务至关重要，但许多模型没有接受过这一方面训练。尽管近期一些研究尝试引入对比学习任务来缓解这个问题，但这些方法忽略了文本和代码表征之间的细粒度跨模态对齐。

为解决上述限制，来自 Salesforce 的研究者提出了「CodeT5+」—— 一个新的基础 LLM 系列编码器 - 解码器，可用于广泛的代码理解和生成任务。

论文地址：https://arxiv.org/pdf/2305.07922.pdf

项目地址：https://github.com/salesforce/CodeT5/tree/main/CodeT5%2B

CodeT5 + 是基于编码器 - 解码器的模型，但可以灵活地在纯编码器、纯解码器以及编码器 - 解码器模式下操作，来适应不同的下游应用。总体架构如下图 1：

这种灵活性是基于预训练任务实现的，包括代码数据上的跨度去噪和因果语言建模 (CLM) 任务，以及文本 - 代码对比学习、匹配和文本 - 代码数据上的 CLM 任务。如此广泛的预训练任务可以帮助在代码和文本数据中学习丰富的表征，并弥合各种应用中的预训练 - 微调差距。研究者发现，将匹配任务与对比学习相结合，对于捕捉细粒度的文本 - 代码对齐和提高检索性能至关重要。

通过利用现成的 LLM 代码来初始化 CodeT5 + 的组件，用高效计算的预训练策略来扩展 CodeT5 + 的模型大小。CodeT5 + 采用了「浅编码器和深解码器」架构，其中编码器和解码器都从预训练的 checkpoints 中进行初始化，并由交叉注意力层连接。此外，该研究还冻结了深度解码器 LLM，只训练浅层编码器和交叉注意力层，从而大大减少了有效调优的可训练参数数量。最后，受 NLP 领域的启发，研究者开始探索 CodeT5 + 在指令调优上的效果，以更好地使模型与自然语言指令保持一致。

该研究在 20 多个与代码相关的基准测试中对 CodeT5 + 进行了广泛的评估，包括零样本、微调和指令调优。结果表明，与 SOTA 基线相比，CodeT5 + 在许多下游任务上有着实质性的性能提升，例如，8 个文本到代码检索任务 (+3.2 avg. MRR)， 2 个行级代码补全任务 (+2.1 avg. Exact Match) 和 2 个检索增强代码生成任务 (+5.8 avg. BLEU-4)。

在 MathQA 和 GSM8K 基准上的两个数学编程任务中，低于十亿参数大小的 CodeT5 + 模型明显优于许多多达 137B 参数的 LLM。特别是，在 HumanEval 基准上的零样本文本到代码生成任务中，指令调优后的 CodeT5+ 16B 与其他开源代码 LLM 相比，达到了新的 SOTA 结果，为 35.0% pass@1 和 54.5% pass@10，甚至超过了闭源 OpenAI code- cusherman -001 模型。最后，该研究发现 CodeT5 + 可以无缝的看作半参数检索增强生成系统，在代码生成方面明显优于其他类似方法。所有的 CodeT5 + 模型都将开源，以支持研究和开发者社区。

CodeT5+：开源大型语言模型

本文开发了 CodeT5+，一个新的开源代码大型语言模型家族，用于代码理解和生成任务。基于编码器 - 解码器架构，CodeT5 + 通过本文提出的在单模态和双模态数据上混合预训练目标的方式，增强了在不同下游任务中以不同模式运行的灵活性。

架构细节

预训练细节

在单模态预训练阶段，研究者使用大量的代码数据，用计算高效的目标预训练模型。在双模态预训练阶段，继续用较小的具有跨模态学习目标的代码 - 文本数据集预训练模型。对于每个阶段，使用相同的权重联合优化多个预训练目标。

研究者发现这种分阶段训练方法可以有效地让模型接触更多样化的数据，以学习丰富的上下文表征。此外，他们探索了用现成的代码 LLM 初始化 CodeT5+，以有效地扩展模型。最后，CodeT5 + 中的模型组件可以动态组合以适应不同的下游应用任务。

实验

研究者实现了一系列 CodeT5 + 模型，模型大小从 220M 到 16B 不等。

CodeT5+ 220M 和 770M 采用与 T5 相同的架构，并从头开始进行预训练，而 CodeT5+ 2B、6B、16B 采用「浅层编码器和深层解码器」架构，编码器分别从 CodeGen-mono 350M 初始化，解码器从 CodeGen-mono 2B、6B、16B 初始化。研究者将 CodeT5 + 与 SOTA 代码模型进行了比较，这些 LLM 可以分为 3 种类型：纯编码器、纯解码器和编码器 - 解码器模型。

文本到代码生成任务的零样本评估

在给定自然语言规范的情况下，研究者评估了模型在零样本设置下生成 Python 代码的能力，通过在单元测试中测试生成的代码来评估模型性能。表 2 中展示了合格率 pass@k。

评估数学编程任务

研究者同时考察了其他代码生成任务，特别是两个数学编程基准 MathQAPython 和 GSM8K 。如表 3 所示，CodeT5 + 取得了显著的性能提升，超过了许多更大规模的代码 LLM。

图 6 展示了通过 MathQA-Python 上数学编程问题的复杂性来分析模型性能。对于每个问题，提取解决问题所需的推理步骤数。与 CodeT5 相比，CodeT5 + 对问题的复杂性 (即所需的推理步骤数量) 更鲁棒。

评估代码摘要任务

代码摘要任务旨在将代码片段总结为自然语言文档字符串。研究者使用了六种编程语言的 Clean 版本的 CodeSearchNet 数据集来评估这项任务的模型。

从表 4 中可以发现，编码器 - 解码器模型 (CodeT5 和 CodeT5+) 的性能通常优于纯编码器模型、纯解码器模型以及 UniLM-style 的模型 UniXcoder 。

评估代码补全任务

研究者通过 line-level 补全任务评估了 CodeT5 + 仅解码器的生成能力，旨在根据上下文完成下一行代码。

如表 5 所示，CodeT5+(在纯解码器的模式下) 和纯解码器模型 (top block) 的性能都明显优于编码器 - 解码器模型（the middle block），验证了纯解码器的模型可以更好地适应代码补全任务。

评估文本到代码的检索任务

研究者还通过跨多个 PL 的文本到代码检索任务评估 CodeT5 + 的代码理解能力。

从表 6 中可以看出，CodeT5+ 220M 明显优于所有现有的纯编码器 / 纯解码器模型 (顶部块) 和编码器 - 解码器模型 (中间块)。

更多研究细节，可参考原论文。

标签：

上一篇：内江市东兴区：“三夏”时节精心管护天冬长势喜人

下一篇：最后一页

投资促进

精彩推送

刷新20项代码任务SOTA，新型基础LLM系列编码器-解码器Code T5＋ 环球实时

每日观点：商家长期闭店肉食腐烂传异臭 北京朝阳和平街街道多部门联合执法及时消杀

消息！有机防火材料_对于有机防火材料简单介绍

今年多少分能进浙大？多所高校发布预估线

《Fate/Samurai Remnant》PC版系统配置需求公布-新要闻

营业执照办理以后多久税务登记 营业执照下来多久之后办理税务登记

全球今日报丨快来找不同 英菲尼迪发布新品牌标识

2.4GW/4.8GWh！华能配套储能方案招标

世界热点评！6月25日山东金岭甲烷氯化物价格调整

江西10人荣登一季度“中国好人榜”

全球短讯！神仙道3熊猫酒仙阵容搭配攻略

宁德时代：拟出资6.26亿元为员工提供无息借款买房

陈根：蔚来再遇危机，新能源的未来并不属于蔚来 世界滚动

海南万宁：积极推进常年蔬菜基地建设_当前短讯

最高检：新型毒品层出不穷 犯罪呈现年轻化趋势

听过过很多种复联4结局，但依然执着于一种！

超级人脉app开发 焦点精选

女人懂不懂时髦，看她的“打扮”就知道了，差别不是一般的大 天天新消息

2023河南高考志愿填报及录取时间安排表_今日视点

倡导“新食尚” 让节约成为另一种“增产”

凤凰台执法中队：执法宣传进工地 文明施工入人心

世界看点：知名歌手演唱会观众齐喊“开空调”！负责人道歉

天价！巴黎为姆巴佩标价3亿欧 皇马最多报价2.2亿 头条焦点

武汉力太6月25日聚醚市场快报

广东最大降雨量逾310毫米 一地突发山洪7人被困后获救|环球关注

当前报道:开讲啦！“申论中国·思政公开课”第一讲：后奥运经济赋能高质量发展

2023安徽高考分数线出炉：文科一本495分 理科一本482分 天天要闻

世界快看点丨高质量发展调研行｜每秒卖出2173元——海南免税“金招牌”的底气

太学与国子监的区别_太学和国子监共同点

四迎全球最大“带货王” 环球精选

全球观天下！描写九月的优美句子摘抄短句 描写九月的优美句子

世界报道:课堂派_派组词

罍怎么读_酹怎么读_全球速读

【世界新要闻】毕业旅行“课本游”人气旺

csgo箱子在哪卖-简讯

环球观点：壁布与壁纸的优缺点_宣绒布壁纸的优缺点有哪些

60 多公斤毒品装进棺材底……奇葩藏毒案例曝光！

家祭无忘告乃翁全诗谁写的_家祭无忘告乃翁全诗

每日热议!艺术来源于生活什么意思_艺术来源于生活

端午假期文旅消费场景丰富 市场活力进一步激发

滚动：斯基拉：佩利斯特里接近与曼联续约至2028年

百万医疗必须本人去买吗？购买的流程有哪些？

微速讯：深蓝汽车销量一跌再跌，背靠长安却难独当一面？

形势突变，考验普京的时候到了|全球视点

生活环境不错适合移民的国家_生活环境

环球关注：稻盛和夫：做领导的4件事

繁华落尽是什么意思 词语繁华落尽的意思|世界焦点

沦为边缘选择，大连人2将不如新星地位，留阎相闯爆冷三镇 追倒第2

闲鱼用户超五亿，爱回收连续三个季度盈利，二手电商讲出了新故事？

天天看点：云南一男子直播殴打老人？警方：已刑拘

环球资讯：宋桂友

日本报告全球首例人感染并死于Oz病毒的病例|环球观焦点

恰着女舰流量aoe凹分圈子嘴一手原神的男崩三玩家想抱莉莉娅的云天的近期事件个人整理_每日快报

生命重于泰山，筑牢安全防线

环球观速讯丨三亚：市民游客点雄黄 舞龙巡游多彩过端午

【百千万工程】江海区实用型人才住房供需对接活动正式启动_观察

史蒂文斯：斯玛特交易让我们的阵容更平衡 怀特将继续打得好

刷新20项代码任务SOTA，新型基础LLM系列编码器-解码器Code T5＋环球实时

每日观点：商家长期闭店肉食腐烂传异臭北京朝阳和平街街道多部门联合执法及时消杀

营业执照办理以后多久税务登记营业执照下来多久之后办理税务登记

全球今日报丨快来找不同英菲尼迪发布新品牌标识

陈根：蔚来再遇危机，新能源的未来并不属于蔚来世界滚动

最高检：新型毒品层出不穷犯罪呈现年轻化趋势

超级人脉app开发焦点精选

女人懂不懂时髦，看她的“打扮”就知道了，差别不是一般的大天天新消息

凤凰台执法中队：执法宣传进工地文明施工入人心

天价！巴黎为姆巴佩标价3亿欧皇马最多报价2.2亿头条焦点

广东最大降雨量逾310毫米一地突发山洪7人被困后获救|环球关注

2023安徽高考分数线出炉：文科一本495分理科一本482分天天要闻

全球观天下！描写九月的优美句子摘抄短句描写九月的优美句子

端午假期文旅消费场景丰富市场活力进一步激发

繁华落尽是什么意思词语繁华落尽的意思|世界焦点

沦为边缘选择，大连人2将不如新星地位，留阎相闯爆冷三镇追倒第2

环球观速讯丨三亚：市民游客点雄黄舞龙巡游多彩过端午

史蒂文斯：斯玛特交易让我们的阵容更平衡怀特将继续打得好