感悟：百度万人协同规模下的代码管理架构演进

百度代码管理的挑战

百度拥有万人开发团队，近十万项目，每周代码自动检出的问题超二十万，每天发起评审超1万次。为了保证代码质量，我们要求代码提交前和提交后都进行自动化检查。为了加速编译和集成，我们有大规模的分布式编译系统和持续集成系统。百度C/C++语言是源码依赖，编译系统需要检出所有的依赖代码，这样代码库的访问压力呈指数级增长。这些都是百度代码管理面临的挑战，总结起来就是这三点：代码质量、规模协同和安全稳定的服务。

面对这三大挑战，代码开发协作平台重点解决代码管理五个方面的问题：代码托管、协同开发、代码质量、代码安全与开放、研发改进。

1. 代码托管
代码托管是研发的基础设施。代码托管需要保证服务的安全、稳定和可靠，同时保证在大规模协同场景下的高性能。
2. 代码质量
基于代码入库流程，提供简单易用的代码评审，并且在评审环节支持代码扫描、编码规范、安全扫描等自动化检查，同时支持打通持续集成进行自动化测试，从而保证代码入库前就得到充分的质量检验。
3. 代码安全与开放
代码安全要求对访问控制权限做严格的限制，需要支持安全扫描和安全审计等；代码开放鼓励代码共享、开源，从而实现代码复用。
4. 协同开发
支持主流的Workflow以满足各业务线不同的研发模式的需求，如：传统的分支开发、主干开发、特性分支、git flow等工作流。
5. 研发改进
研发管理需要有数据支撑，用数据度量一切，不断地优化研发流程，促进高效协同，提升研发效率。

百度代码开发协作平台使用微服务架构构建业务服务，一方面整合了现有的业务系统，另一方面提高了系统的稳定性和性能。使用数据分片和读写分离相结合的方式解决了代码库服务容量和性能的问题。使用专属云方案处理多租户的问题，帮助企业客户快速接入，实现资源隔离。但是，我们还有很多不足的地方有待提高和完善。比如，目前我们考虑到性能和开发成本的问题，选择了数据分片来扩容。但是，随着代码库容量的不断提升，数据分片带来的架构复杂、运维成本、性能瓶颈等问题也开始显现出来。读写分离和主备切换的方案，在高并发读的场景下工作尚可，但是面对高并发写的场景性能和可靠性就难以满足。

感悟：百度万人协同规模下的代码管理架构演进

百度代码管理的挑战

猜你喜欢