2024 年最新 Protobuf 结构化数据序列化和反序列化详细教程

Protobuf 序列化概述

Protobuf（Protocol Buffers）是由Google开发的一种语言中立、平台中立、可扩展的序列化结构数据的方法。它用于在不同系统之间高效地交换数据。Protobuf使用定义文件（.proto）来描述数据结构，并通过编译生成特定语言的代码。它的优点包括小巧的二进制格式、高效的序列化速度和向后兼容性，非常适合需要高性能和跨语言的应用场景。

在这里插入图片描述

常见序列化格式

序列化格式	描述	优点	缺点	适用场景
JSON	一种轻量级的数据交换格式，使用文本表示，基于键值对。	可读性好，跨平台、跨语言支持广泛，解析库多	体积较大，性能较低（相较于二进制格式）	Web应用，API通信
XML	类似HTML的标记语言，用于表示结构化数据。	结构化良好，支持复杂的数据类型	冗余较大，体积大，解析速度慢	早期Web服务，严格的数据验证
Protobuf	Google开发的二进制序列化格式，高效、语言中立。	高效的二进制格式，传输速度快，向后兼容性好	不可读，需定义.proto文件并编译	高性能系统，服务间通信（gRPC）
Avro	Apache开发的序列化格式，适合大数据处理。	数据描述和数据一起存储，支持丰富的数据类型	需要架构支持，工具复杂度高	大数据处理，Hadoop和Kafka环境
MessagePack	一种高效的二进制序列化格式，比JSON更紧凑。	二进制格式更紧凑，解析速度快	人类不可读，调试较难	网络通信，资源受限环境

序列化（Serialization）

序列化是指将对象或数据结构转换成一种可以保存到文件或传输到网络上的格式的过程。这种格式通常是二进制或文本格式，便于传输或存储。通过序列化，复杂的数据结构（如对象、数组、字典等）可以被转换为线性的字节流。

序列化作用

持久化存储：数据可以被序列化后保存到磁盘，供将来使用。
数据传输：序列化后的数据可以在网络上传输，便于不同的计算机或进程间交换数据。
跨语言交互：通过中立的序列化协议（如Protobuf、JSON、XML），不同编程语言之间可以交换数据。

反序列化（Deserialization）

反序列化是序列化的逆过程，它将字节流或文件恢复为原始的对象或数据结构。通过反序列化，接收到的或读取的序列化数据可以重新恢复成在发送端的对象格式。

反序列化作用

数据恢复：可以从磁盘、数据库或网络中读取序列化的数据并恢复为内存中的数据结构。
跨语言兼容性：接收到的序列化数据可以通过反序列化恢复成接收端系统中相应的结构。

.proto文件用于定义Protobuf的消息结构，它通过声明消息类型、字段、枚举等内容，生成用于序列化和反序列化的代码。以下是Protobuf的.proto文件语法格式的基本构成和示例。

proto 基本语法

syntax：指定 Protobuf 的语法版本，常用的是 proto3。Protobuf 的语法版本主要分为两个版本：proto2 和 proto3。它们在功能和约束上有所不同，proto3 是 proto2 的简化和改进版本。

syntax = "proto3";

package：用于在 .proto 文件中定义消息所在的包名，类似于编程语言中的命名空间（namespace）。它可以帮助在生成代码时避免命名冲突，并组织和管理生成的代码结构。

在 Protobuf 编译器生成的代码中，package 会影响生成文件的路径或命名。例如在 Java 中 package 会映射到相应的包结构。在 Python 中它可以影响模块导入的结构。

package mypackage;

import：在 Protobuf 中，import 允许你在一个 .proto 文件中引用和使用其他 .proto 文件定义的消息、枚举或服务。这在大型项目中非常有用，可以将不同的消息定义拆分成多个文件，从而更好地组织和管理代码。

import "other.proto";

message：定义一个消息类型（相当于面向对象编程中的类）。在 Protobuf 中，message 用于定义一个消息类型（类似于面向对象编程中的类），它表示一种结构化数据格式。每个 message 包含一组字段，每个字段有一个类型、名称和唯一的标识符（tag），用于标记在序列化和反序列化过程中字段的顺序。

message MyMessage {
    int32 id = 1;
    string name = 2;
}

Protobuf 字段类型

标量类型：Protobuf支持多种基本数据类型，例如 `int32`, `int64`, `float`, `double`, `bool`, `string`, `bytes`等。
repeated：表示字段可以重复，类似于数组或列表。
自定义类型：可以引用其他消息类型或枚举类型。

enum：定义枚举类型。在 Protobuf 中，enum 用于定义枚举类型，它表示一组固定的常量值。每个枚举值都有一个唯一的名称和对应的整数值，整数值通常从 0 开始递增。enum 类似于其他编程语言中的枚举类型，常用于表示状态、类型、选项等离散的固定值集合。

enum Status {
    UNKNOWN = 0;
    STARTED = 1;
    COMPLETED = 2;
}

service：定义服务和RPC方法（主要用于gRPC）。服务是逻辑上的一组功能或操作，定义了客户端和服务器之间的接口。在 gRPC 中，服务使用 service 关键字定义。一个服务可以包含多个 RPC 方法。

RPC 方法是服务中的具体操作，描述了客户端如何请求服务器执行某项任务。每个 RPC 方法都有输入消息和输出消息。输入消息定义了客户端发送给服务器的数据结构。输出消息定义了服务器返回给客户端的数据结构。

service MyService {
    rpc GetUser (UserRequest) returns (UserResponse);
}

RPC 方法：输入消息
message UserRequest {
    int32 user_id = 1;
}

RPC 方法：输出消息
message UserResponse {
    string name = 1;
    string email = 2;
}

tag：每个字段都有一个唯一的 tag，用于在序列化时识别字段，范围为 1 到 2^29 - 1。

proto 常见字段类型

类型	说明
`int32`	32位整型
`int64`	64位整型
`float`	32位浮点数
`double`	64位浮点数
`bool`	布尔型
`string`	字符串
`bytes`	二进制数据
`repeated`	重复字段，相当于数组或列表

proto3 案例

syntax = "proto3";

package example;

enum TaskStatus {
	PENDING = 0;
	IN_PROGRESS = 1;
	DONE = 2;
}

message Task {
	int32 id = 1;
	string description = 2;
	TaskStatus status = 3;
	repeated string labels = 4;   // 标签数组
}

service TaskService {
	rpc CreateTask(Task) returns (Task);
	rpc GetTask(Task) returns (Task);
}

编译 .proto 文件

使用 Protobuf 编译器（protoc）可以生成目标语言的代码（例如 C++、Python、Java）。编译后会生成相应语言的类，用于序列化和反序列化定义的消息。

protoc --python_out=. yourfile.proto