记录一次“top负1”比赛经历

获奖啦！

比赛题目：中文语义病句识别与纠正挑战赛
比赛链接：https://challenge.xfyun.cn/topic/info?type=identification-and-correction&option=phb

“请介绍你们团队”

“各位评委老师，我是来自WOT团队的选手AMBT，口号是将中文语义病句识别与纠正提升到新高度”

“你们参加比赛的初衷是什么？”

“为了中文自然语言处理崛起而奋斗”

“请AMBT务实一点”

“为了参赛拿奖金买坦克”

“请介绍你们解决问题的思路”

“我们将中文语义病句识别与纠正分成【识别】与【纠正】两个流水线任务，先识别出哪些是病句，然后对病句进行修正。识别是否病句基于传统预训练模型+是否为病句进行二分类微调，修正基于端到端以及LLM进行微调，生成病句纠正之后的正确句子”

文字过多，下面直接贴图了：

“你们比赛思路确实很全面，恭喜你们团队获得第一”

醒醒吧！

某日下午，“叮叮叮”，“叮叮叮”，“叮叮叮”，扭头一看桌面上手机响了，接了电话。

“请问你是来自中文语义病句识别与纠正挑战赛的top1团队是吧”

“对，请问你是”

“赛题方审核结果是存在违规使用其他标注数据行为，直接取消比赛成绩”

“请问赛题方检测出什么了”

“你们使用了2022年数据的标注”

后来扯皮了很久，后来苦苦婆心解释了一达通，就是直接取消成绩，对，就是这么残忍。

因为比赛规则里面确实规定了禁用额外标注数据，主办方说取消成绩也只能强忍头皮认了。

感触！

为什么会使用2022年的数据。

一个是没注意到比赛规则。另外一个就是大家可以翻一番这两个比赛任务和主办方是一样的，所以一开始做任务1的时候就理所当然用了去年数据：
2023年比赛链接：https://challenge.xfyun.cn/topic/info?type=identification-and-correction&option=phb
2022年比赛链接：https://challenge.xfyun.cn/topic/info?type=sick-sentence-discrimination