1. 问题链接:CCF 202012-2 期末预测之最佳阈值
试题编号: | 202012-2 |
试题名称: | 期末预测之最佳阈值 |
时间限制: | 1.0s |
内存限制: | 512.0MB |
问题描述: | 题目背景考虑到安全指数是一个较大范围内的整数、小菜很可能搞不清楚自己是否真的安全,顿顿决定设置一个阈值 θ,以便将安全指数 y 转化为一个具体的预测结果——“会挂科”或“不会挂科”。 因为安全指数越高表明小菜同学挂科的可能性越低,所以当 y≥θ 时,顿顿会预测小菜这学期很安全、不会挂科;反之若 y<θ,顿顿就会劝诫小菜:“你期末要挂科了,勿谓言之不预也。” 那么这个阈值该如何设定呢?顿顿准备从过往中寻找答案。 题目描述具体来说,顿顿评估了 m 位同学上学期的安全指数,其中第 i(1≤i≤m)位同学的安全指数为 yi,是一个 [0,108] 范围内的整数;同时,该同学上学期的挂科情况记作 resulti∈0,1,其中 0 表示挂科、1 表示未挂科。 相应地,顿顿用 predictθ(y) 表示根据阈值 θ 将安全指数 y 转化为的具体预测结果。 predictθ(y)={0(y<θ)1(y≥θ) 最后,顿顿设计了如下公式来计算最佳阈值 θ∗: θ∗=maxargmaxθ∈yi∑j=1m(predictθ(yj)==resultj) 该公式亦可等价地表述为如下规则:
输入格式从标准输入读入数据。 输入的第一行包含一个正整数 m。 接下来输入 m 行,其中第 i(1≤i≤m)行包括用空格分隔的两个整数 yi 和 resulti,含义如上文所述。 输出格式输出到标准输出。 输出一个整数,表示最佳阈值 θ∗。 样例1输入样例1输出样例1解释按照规则一,最佳阈值的选取范围为 0,1,3,5,7。 θ=0 时,预测正确次数为 4; θ=1 时,预测正确次数为 5; θ=3 时,预测正确次数为 5; θ=5 时,预测正确次数为 4; θ=7 时,预测正确次数为 3。 阈值选取为 1 或 3 时,预测准确率最高; 依规则三,θ∗=max1,3=3。 样例2输入样例2输出子任务70% 的测试数据保证 m≤200; 全部的测试数据保证 2≤m≤105。 |
2. 问题分析:
经过读题分析,本题难点在于 m m m位同学的安全指数 y y y可能重复,不能单纯使用结构体数组来表示数据。首先需要使用哈希表对第 i i i行同学的安全指数 y i y_i yi及其上学期的挂科情况 r e s u l t i result_i resulti进行统计得出考虑重复安全指数的挂科情况,然后转存入一个vector动态数组进行从小到大排序,从小到大遍历递推得出阈值 θ ⩾ \theta \geqslant θ⩾当前安全指数 y i y_i yi时左侧预测正确的次数,即挂科情况为0的数量,最后从大到小遍历边递推得到阈值 θ ⩾ \theta \geqslant θ⩾当前安全指数 y i y_i yi时右侧预测正确的次数,即挂科情况为1的数量,边迭代得出最佳阈值 θ ∗ \theta^* θ∗。其中,由于迭代是从大到小进行,所以该方法直接满足多个阈值均可以达到最高准确率时,选取其中最大的规则。
3. C++代码程序实现:
#include <bits/stdc++.h>
using namespace std;
struct safetyIndex
{
int y,ones_result,zeros_result,zeros_left,ones_right;
safetyIndex()
{
zeros_result=0;
ones_result=0;
}
bool operator<(const safetyIndex& si)
{
return this->y<si.y;
}
};
int main()
{
int m,yi,result_i,zeros=0,ones=0,pred_true=-1,ans,theta;
scanf("%d",&m);
unordered_map<int,safetyIndex> y2result;
for (int i=0;i<m ;++i )
{
scanf("%d%d",&yi,&result_i);
y2result[yi].y=yi;
if (result_i==0)
{
++y2result[yi].zeros_result;
}
else
{
++y2result[yi].ones_result;
}
}
vector<safetyIndex> si;
for (auto ele:y2result)
{
si.push_back(ele.second);
}
sort(si.begin(),si.end());
si[0].zeros_left=0;
for (int i=1;i<si.size();++i )
{
zeros+=si[i-1].zeros_result;
si[i].zeros_left=zeros;
}
for (int i=si.size()-1; i>=0;--i )
{
ones+=si[i].ones_result;
ans=si[i].zeros_left+ones;
if (ans>pred_true)
{
pred_true=ans;
theta=si[i].y;
}
}
printf("%d",theta);
return 0;
}