用上下文数据丰富源代码，以提高代码补全模型的准确性：一项实证研究

Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study

解决问题：本篇论文旨在探究通过使用上下文数据来使代码更易于理解是否可以提高预训练代码语言模型在代码自动补全任务中的性能。这是否是一个新问题？该问题在一定程度上是新问题，因为过去的研究主要关注提高模型对代码的理解能力，而没有深入研究如何通过上下文数据来提高代码自动补全的性能。

关键思路：本文的关键思路是探究使用上下文数据是否可以提高预训练代码语言模型在代码自动补全任务中的性能。相比当前这个领域的研究状况，该论文的思路在于从提高代码的可理解性的角度出发，探究如何提高代码自动补全的性能。

其他亮点：本文的实验考虑了两种不同的代码自动补全的粒度：标记和行自动补全，并使用了三个大规模预训练的代码语言模型：UniXcoder，CodeGPT和InCoder。实验使用了五个评估指标，并使用了Wilcoxon Signed Rank检验来衡量显著性和效应大小。研究发现，所有模型在去除类型注释后表现更好（尽管效应大小很小）。对于注释，我们发现多行注释的存在可以使模型表现更好（同样效应大小很小）。基于这些观察结果，我们建议在训练、微调或选择这些模型时，要根据预期数据和应用程序做出适当的设计选择。未来可以进一步研究更好的评估和多模态技术，以提高自动补全的实用性和准确性。

关于作者：本文的主要作者是Tim van Dam、Maliheh Izadi和Arie van Deursen。他们分别来自荷兰代尔夫特理工大学（Delft University of Technology）的软件技术系。Tim van Dam是软件工程领域的专家，他的研究兴趣包括代码理解和软件质量保证。Maliheh Izadi的研究兴趣包括软件工程、人工智能和机器学习。Arie van Deursen是软件工程领域的知名学者，他的研究兴趣包括软件开发工具和技术、程序语言和软件架构。

相关研究：最近的相关研究包括：1）”CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing”，作者为Kaitao Song等，所在机构为微软亚洲研究院；2）”CodeGPT: Generative Pre-training of Distributed Code Representations”，作者为Shuai Lu等，所在机构为香港科技大学；3）”JASS: Jointly Attentive Syntax and Semantics Modeling for Source Code”，作者为Xiaodong Gu等，所在机构为微软亚洲研究院。

论文摘要：本文题目为“使用上下文数据丰富源代码以提高代码完成模型的性能：一项实证研究”，作者为Tim van Dam、Maliheh Izadi和Arie van Deursen。最近，基于Transformer的预训练模型在解决许多软件工程任务方面取得了巨大的成果，包括自动代码完成，这是开发人员工具包中的一个基本功能。虽然许多人努力提高这种模型的代码理解能力，但相反的——使代码更易于理解——尚未得到适当的研究。在本研究中，我们旨在回答一个问题，即通过使用上下文数据使代码更易于理解是否提高了预训练代码语言模型在代码完成任务中的性能。我们认为类型注释和注释是两种常见的附加上下文信息形式，它们通常有助于开发人员更好地理解代码。对于实验，我们研究了两个粒度级别的代码完成任务：标记和行完成，并使用了三个最近的大规模源代码语言模型：UniXcoder、CodeGPT和InCoder，以及五个评估指标。最后，我们执行了Wilcoxon Signed Rank检验来衡量显着性并测量效应大小。与我们的预期相反，如果删除类型注释，则所有模型的性能都会提高（尽管效应大小很小）。对于注释，我们发现在存在多行注释的情况下，模型表现更好（同样是小效应大小）。根据我们的观察，我们建议在训练、微调或仅选择此类模型时进行适当的设计选择，考虑所需的数据和应用程序。更好的评估和多模态技术也可以进一步研究，以提高自动完成的实用性和准确性。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

用上下文数据丰富源代码，以提高代码补全模型的准确性：一项实证研究

开源全能图像模型媲美GPT-4o！解决扩散模型误差累计问题

全网首测！Qwen3 vs Deepseek-R1数据分析哪家强？

Qwen3真香！通义App满血接入，一手实测在此

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

4000亿国产算力航母：芯片巨头合并超算巨头

研究AI新技术，淘天集团“顶尖人才T-Star计划”招聘实习生

阿里发布全球最强开源模型千问3，通义App第一时间开启体验

百图生科新发布：首个AI生命科学基础大模型驱动的生成式发现系统

微软1bit LLM新研究：原生4bit激活值量化，可充分利用新一代GPU对4bit计算的原生支持

RAG性能暴增20%！清华等推出以笔记为中心的深度检索增强生成框架