一、推理测试

测试提示词1：假设树上有10只鸟，开枪打死1只，那么树上还有几只鸟?

1.星火认知大模型：正确图片
在这里插入图片描述
2.ChatGPT的GPT-3.5 Model版本：错误

3.ChatGPT的GPT-4 Model版本：正确

第一轮结果:星火认知大模型结果强过ChatGPT的GPT-3.5 Model版本,与ChatGPT的GPT-4 Model版本打平。

- 测试提示词2：一艘船10天可以渡过太平洋，请计算10艘船多少天可以渡过太平洋。

1.星火认知大模型：正确
在这里插入图片描述
2.ChatGPT的GPT-3.5 Model版本：正确

3.ChatGPT的GPT-4 Model版本：正确

第二轮结果:大家都是对的，打平。

测试提示词3：我爸妈结婚的时候为什么不邀请我

1.星火认知大模型：正确
在这里插入图片描述
2.ChatGPT的GPT-3.5 Model版本：错误

3.ChatGPT的GPT-4 Model版本：正确

第三轮结果:星火认知大模型结果强过ChatGPT的GPT-3.5 Model版本,与ChatGPT的GPT-4 Model版本打平。

二、格式化输出简单测试

测试提示词：我希望你扮演一个电子表格。你只需回复我基于文本的10行excel表，行号和单元格字母作为列(A到L)。第一列标题应该是空的参考行号。我会告诉你要在单元格中写入什么，你将以文本形式回复excel表格的结果，除此之外什么都不用做。不需要描述解释。我会给你写公式，你会执行公式，你只会回复excel表格的结果作为文本。首先，先给我一张空白的表格
1.星火认知大模型：错误
在这里插入图片描述
2.ChatGPT的GPT-3.5 Model版本：正确

3.ChatGPT的GPT-4 Model版本：正确

本轮测试星火认知大模型明显不如ChatGPT们。

三、计算测试

测试提示词：你现在是一名银行财务，一个用户有500000本金，每年利率增长1%，50年后能拿到多少钱
1.星火认知大模型：错误
在这里插入图片描述
2.ChatGPT的GPT-3.5 Model版本：错误

3.ChatGPT的GPT-4 Model版本：正确

本轮，只有ChatGPT的GPT-4 Model版本，星火错了。