[自然语言大纲-代码]Natural Language Outlines for Code:Literate Programming in the LLM Era

全文总结

本文探讨了使用自然语言大纲（NL outlines）作为提供人工智能辅助的新模态和交互界面，以帮助开发者在整个软件开发过程中。

研究背景

背景介绍:
这篇文章的研究背景是现代大型语言模型（LLMs）如Gemini和GPT-4的进步，使得自动生成软件工件的大纲成为可能。软件开发项目非常复杂，开发者通常花费大量时间理解代码。
研究内容:
该问题的研究内容包括：提出一种新的代码解释形式——自然语言大纲（NL outlines），并探讨其在代码理解、导航、维护、搜索和审查中的应用。
文献综述:
该问题的相关工作有：自动文本摘要、代码摘要、文档字符串和内联注释等。近年来，机器学习和LLMs被应用于自动文本摘要和代码摘要，但大多数方法生成的摘要过于详细，不适合经验丰富的开发者快速工作。

核心内容

自然语言大纲的定义和优势：
- 定义：NL outline是由简洁的自然语言语句组成的代码函数大纲，将代码划分为逻辑部分，并概括每个部分的主要思想。
- 优势：NL outlines可以提高代码的可读性和可维护性，帮助开发者更快地理解和导航代码。
使用案例：
- 代码理解和导航：NL outlines可以在IDE中显示，帮助开发者快速理解代码结构和功能。
- 代码维护：NL outlines可以自动同步代码和自然语言之间的更改，减少手动更新注释的工作量。
- 代码生成：NL outlines可以作为代码生成的指导，帮助开发者编写更符合预期的代码。
- 代码审查：NL outlines可以帮助审查者更快地理解代码变更，提高审查效率。
- 代码搜索：NL outlines可以增强代码搜索功能，使用户能够通过自然语言查询代码。
大纲生成方法：
- 交错生成：提供代码给LLM，并提示其生成带有大纲注释的代码。
- 行号填充：在每行代码前添加行号，提示LLM输出对应的大纲语句。
实验评估：
- 数据集：从21个真实项目中收集了30个Python函数，每个函数包含10到90行代码。
- LLM选择：使用了Gemini 1.0 Pro、Gemini 1.5 Flash、Gemini 1.0 Ultra、Gemini 1.5 Pro和DeepSeek-Coder-Instruct 33B。
- 生成技术：比较了交错生成和行号填充两种技术，结果显示Gemini 1.5 Flash生成的NL outlines质量最高。

结论

这篇论文介绍了自然语言大纲（NL outlines）的概念，并展示了其在多个软件开发任务中的潜在应用。实验结果表明，现代LLMs能够生成高质量且有帮助的NL outlines。未来的研究方向包括改进大纲生成技术、探索更多应用场景以及在实际开发环境中验证NL outlines的效果。

这篇论文为开发者提供了一种新的代码解释工具，具有广泛的应用前景。

核心速览

研究背景

研究问题：这篇文章提出了一种新的自然语言大纲（NL Outline）作为AI辅助开发者在软件开发过程中提供协助的一种方式。NL Outline由简洁的散文语句组成，将代码分割成逻辑部分，并以类似文学编程的风格总结每个部分的主要内容。
研究难点：该问题的研究难点包括：如何确保现代大型语言模型（LLMs）能够生成准确且高质量的NL Outline，以及如何在代码和NL Outline之间实现双向同步。
相关工作：相关工作包括代码摘要、代码注释生成、以及将LLMs应用于各种软件开发任务的研究。

研究方法

这篇论文提出了使用LLMs生成自然语言大纲（NL Outline）的方法，用于解决代码理解、维护和开发体验等问题。具体来说，

NL Outline的定义：NL Outline由一个或多个简洁的散文语句组成，这些语句与代码对齐，并将代码分割成语义上连贯的部分。每个大纲语句总结其对应代码部分的主要内容。
生成方法：提出了两种生成NL Outline的方法：

交错生成（Interleaved Generation）：将LLMs与代码一起输入，提示LLMs在代码中添加大纲注释，但不改变代码。这种方法简单直观，但可能会导致模型改变代码。
行号填充（Line Number Infilling）：在原始代码的每一行前添加行号，然后提示LLMs输出一系列大纲语句，每个语句包含行号和语句内容。这种方法避免了改变代码的问题，但会增加生成时间。

双向同步：NL Outline实现了代码和NL之间的双向同步，即代码的任何更改都会自动反映在NL Outline中，反之亦然。

实验设计

数据收集：从21个真实项目中收集了30个Python函数，每个函数有10到90行代码（中位数为46.5行）。为了模拟实际使用情况，去除了7个函数中的现有类似注释，但保留了其他注释。
LLMs选择：选择了5种LLMs：Gemini 1.0 Pro和Ultra、Gemini 1.5 Flash和Pro、以及DeepSeek-Coder-Instruct 33B，所有模型均使用贪婪解码。
生成技术：使用交错生成和行号填充两种技术生成NL Outline，每个函数生成10个大纲。
评估方法：通过专业软件工程师和研究员对生成的NL Outline进行格式错误和质量的评估。格式错误分为主要错误和次要错误，质量评估包括整体质量、有帮助性、事实正确性、细节量和风格流畅性。

结果与分析

格式错误：Gemini 1.5模型生成的预测结果格式正确，没有主要错误，而其他LLMs的错误较多。
质量评估：60%的NL Outline被专业开发者评为整体质量优秀（90%为可接受或更好），63%被认为非常有帮助，80%完全正确。行号填充技术生成的NL Outline略差于交错生成，但速度更快。
具体案例：在Android安全应用中，26名专业逆向工程师中有26人认为大纲非常或极其有帮助；在代码审查应用中，24个复杂变更列表中有14个被认为有用。

总体结论

这篇论文提出了使用自然语言大纲（NL Outline）作为AI辅助开发者的工具，能够生成准确且高质量的NL Outline，并在多个实际应用中展示了其潜力。研究结果表明，NL Outline可以显著提高代码理解、维护和开发体验。未来的研究可以进一步改进大纲生成技术，并在更广泛的开发环境中验证其效果。

论文评价

优点与创新

新颖性：提出了使用自然语言大纲（NL Outline）作为AI辅助开发者在软件开发过程中提供协助的新方法。
双向同步：NL大纲实现了代码和自然语言之间的双向同步，使得代码和自然语言的变化能够自动反映在对方中。
广泛应用：NL大纲适用于代码理解、代码维护、代码生成和代码审查等多种场景，具有广泛的适用性。
高质量生成：现代大型语言模型（LLMs）能够在实践中生成准确且高质量的NL大纲。
开发者研究：通过真实代码的开发者研究，发现60%的大纲被专业人士评为优秀，90%的可接受或更好。
案例研究：在移动应用安全和代码审查两个具体应用中展示了NL大纲的潜力，例如在恶意软件检测中的应用中，83.8%的大纲被评为完全正确。

不足与反思

格式问题：在解析LLM预测时，存在格式问题，如改变代码、遗漏空白行等，尽管可以通过简单的规则处理这些问题。
细节问题：某些LLMs生成的NL大纲在细节上不够充分，需要进一步的提示工程来改进。
验证机制：在工具中集成NL大纲需要验证机制，如收集点赞/点踩反馈，这需要时间和精力，可能会影响开发者的体验。
存储方式：关于将NL大纲存储为代码注释还是非代码元数据的问题，论文建议在大公司中长期存储为元数据，以减少版本控制和代码审查的开销。
进一步研究：提出了未来研究的方向，如检索增强生成、少样本选择和微调等，以提高NL大纲的质量和生成效率。

关键问题及回答

问题1：NL Outline在代码维护中的应用是如何实现的？

NL Outline在代码维护中的应用主要通过以下步骤实现：

自动更新大纲：当开发者开始编辑代码或大纲时，LLM会自动检测到这些变化，并通过预测新的大纲来保持代码和大纲之间的同步。这种自动更新机制确保了文档和代码的一致性，减少了手动维护的工作量。
双向同步：用户可以通过编辑大纲来指定代码的高层次逻辑变化，LLM会预测相应的代码变化。这样，开发者可以专注于编写高层次的描述，而不是逐行修改代码。
Finish Changes功能：在IDE中，开发者可以启动Finish Changes功能，指定一个关键想法，然后让LLM完成剩余的代码和文档更新。例如，编辑一个变量赋值会导致其描述在大纲和代码中同时更新。

问题2：在代码审查中，NL Outline如何帮助评审人员更好地理解和评估代码更改？

虚拟代码更改列表（Virtual CL Split）：在代码审查界面中，NL Outline通过Virtual CL Split功能帮助评审人员将复杂的代码更改列表分解为逻辑主题。每个主题用自然语言短语描述，帮助评审人员解释更改。
重点突出：通过将代码更改分组到不同的主题中，评审人员可以更容易地集中注意力在特定的更改上，减少因更改复杂性而产生的认知负担。
提高审查效率：评审人员可以在不滚动整个更改列表的情况下，快速理解每个主题的内容，从而提高审查的速度和质量。
增强信心：NL Outline提供的详细解释和有意义的上下文信息有助于评审人员做出更准确的评估，增加他们对代码更改的信心。

问题3：实验中使用了哪些方法来评估NL Outline的质量？

手动解析：通过编程解析LLM生成的文本，提取出大纲语句，并分类为格式错误、主要错误和次要错误。
质量调查：收集了贡献者对生成大纲的整体质量、实用性、事实正确性、细节量和风格流畅性的评价。具体问题包括：

整体质量：非常差、差、可接受、好、非常好
实用性：非常有用、有些有用、没用
事实正确性：完全正确、大部分正确、不正确
细节量：恰到好处、太多细节、太少细节
风格流畅性：非常差、差、好、非常好