在智能交通系统与自动驾驶技术蓬勃发展的今天,交通标志的实时检测与识别已成为计算机视觉领域的关键课题。作为道路场景的“语言符号”,交通标志承载着限速、禁行、方向指示等重要信息,其准确识别直接关系到智能驾驶系统的决策安全性与可靠性。
然而,交通标志检测在实际应用中面临多重挑战:复杂的道路环境(如光照变化、天气干扰、遮挡问题)、不同地域的标志设计差异(如中英文标识、图形符号的地方性特征),以及小目标检测的精度要求等。这些挑战使得传统算法和通用数据集难以满足中国道路场景的特殊需求。
目前国际上广泛使用的交通标志数据集(如德国GTSDB、比利时LISA等)存在显著局限性:样本量有限、地域特征明显(欧洲标准)、场景单一。而国内早期数据集因标注粒度不足、图像质量参差不齐等问题,限制了深度学习模型的泛化能力。
TT100K数据集(Tsinghua-Tencent 100K)的发布填补了这一空白。该数据集由清华大学与腾讯联合推出,具有以下核心优势:
- 规模宏大:包含10万张高质量中国道路图像,涵盖100类常见交通标志(总计30,000+个精细标注实例)
- 场景丰富:覆盖城市道路、高速公路、隧道、雨雪雾天等多样化场景
- 标注专业:采用边界框(Bounding Box)与像素级掩码(Pixel-wise Mask)双重标注
- 挑战性强:包含尺度变化(小至16×16像素)、部分遮挡、形变旋转等现实难点
TT100K官网可点击访问:Traffic-Sign Detection and Classification in the Wildhttps://cg.cs.tsinghua.edu.cn/traffic-sign/
下载下来的原始数据集为jpg+json文件,这里我提供一个处理好的可直接用于目标检测训练的jpg+xml+txt文件。
本文下载并处理的数据集为tt100k_2021,因标签类别不是特别均衡,因此本文只处理了标签数量>=100的图片,也就是共有45类,按照顺序分别为
['pn', 'pne', 'i5', 'p11', 'pl40', 'pl50', 'pl80', 'pl60', 'p26', 'i4', 'pl100', 'pl30', 'pl5', 'il60', 'i2', 'i2r', 'p5', 'w57', 'p10', 'p13', 'ip', 'i4l', 'pl120', 'il80', 'p23', 'pr40', 'w59', 'ph4.5', 'p12', 'w55', 'p3', 'pl20', 'pm20', 'pg', 'pl70', 'pm55', 'p27', 'il100', 'p19', 'w13', 'ph4', 'ph5', 'p6', 'w32', 'pm30']
即获取的YOLO格式的类别顺序为上述顺序。
下图为训练过程中部分图像
下图为验证过程中部分图像
整体精度在0.8左右。
下载数据集可以访问官网获取原始数据集:index
需要处理后的数据集可通过公众号获取。