最新,国产LLM和ChatGPT在字符统计任务上的表现差异,国产AI大模型全翻车,
-
字符统计失误:国产LLM如豆包、Kimi、元宝、百度文心在计算文本字符数量的任务上出现了失误,而ChatGPT则能够准确无误地完成这一任务。
-
具体失误案例:
- 豆包:在计算“MeoAl”时,错误地将其计算为4个字符,实际上包含5个字符。在计算“17000+Al工具导航”时,将“Al工具导航”估算为10个字符,实际上应该是6个字符。
- Kimi:计算结果不一致,且没有统计空格。
- 元宝:给出的结果不一致,第一次说是78个字符,第二次算出来为47个字符。
- 百度文心:文章中未提供具体失误案例。
-
ChatGPT的精准表现:与国产LLM形成鲜明对比的是,ChatGPT在计算文本字符数量的任务上表现出了极高的准确性。