CCF 2020-12-2 期末预测之最佳阈值

题目背景

考虑到安全指数是一个较大范围内的整数、小菜很可能搞不清楚自己是否真的安全，顿顿决定设置一个阈值 θ，以便将安全指数 y 转化为一个具体的预测结果——“会挂科”或“不会挂科”。因为安全指数越高表明小菜同学挂科的可能性越低，所以当 y≥θ 时，顿顿会预测小菜这学期很安全、不会挂科；反之若 y<θ，顿顿就会劝诫小菜：“你期末要挂科了，勿谓言之不预也。”那么这个阈值该如何设定呢？顿顿准备从过往中寻找答案。

题目描述

具体来说，顿顿评估了 m 位同学上学期的安全指数，其中第 i（1≤i≤m）位同学的安全指数为 yi，是一个 [0,108] 范围内的整数；同时，该同学上学期的挂科情况记作 resulti∈0,1，其中 0 表示挂科、1 表示未挂科。相应地，顿顿用 predictθ(y) 表示根据阈值 θ 将安全指数 y 转化为的具体预测结果。如果 predictθ(yj) 与 resultj 相同，则说明阈值为 θ 时顿顿对第 j 位同学是否挂科预测正确；不同则说明预测错误。predictθ(y)={0(y<θ)1(y≥θ)。最后，顿顿设计了如下公式来计算最佳阈值 θ∗ ：θ∗=maxargmaxθ∈yi⁡∑j=1m(predictθ(yj)==resultj)

该公式亦可等价地表述为如下规则：

最佳阈值仅在 yi 中选取，即与某位同学的安全指数相同；

按照该阈值对这 m 位同学上学期的挂科情况进行预测，预测正确的次数最多（即准确率最高）；

多个阈值均可以达到最高准确率时，选取其中最大的。

输入格式

从标准输入读入数据。

输入的第一行包含一个正整数 m。

接下来输入 m 行，其中第 i（1≤i≤m）行包括用空格分隔的两个整数 yi 和 resulti，含义如上文所述。

输出格式

输出到标准输出。

输出一个整数，表示最佳阈值 θ∗。

样例1输入

6
0 0
1 0
1 1
3 1
5 1
7 1

样例1输出

3
样例1解释

按照规则一，最佳阈值的选取范围为 0,1,3,5,7。

θ=0 时，预测正确次数为 4；

θ=1 时，预测正确次数为 5；

θ=3 时，预测正确次数为 5；

θ=5 时，预测正确次数为 4；

θ=7 时，预测正确次数为 3。

阈值选取为 1 或 3 时，预测准确率最高；

所以按照规则二，最佳阈值的选取范围缩小为 1,3。

依规则三，θ∗= max（ 1,3 ）= 3 。

样例2输入

8
5 1
5 0
5 0
2 1
3 0
4 0
100000000 1
1 0
样例2输出

100000000
子任务

70% 的测试数据保证 m≤200；

全部的测试数据保证 2≤m≤10^5。

问题分析：
这道题一开始想用O(n * n)的复杂度解决，但是发现这样做会超时，所以要寻求O(nlogn)复杂度的解法。考虑到我们O(n * n)的复杂度主要是耗费在每个数的阈值求解上，所以我们要转换思路，用时间复杂度更少的办法来求得阈值。
我在O(n*n)的思考思路是将 result为0，1分开进行放置并排序放到两个数组，再取每一个数分别求得小于该数 result为0，大于该数 result为1，最后相加，最后超时了。
在之后我们就要找到阈值之间的关系，这是解决问题的关键，可以看到排序后的数字之间的阈值要么不变，要么多1，要么少1，就会发现状态转移公式，result=zero(前面数中result为0的数量)+one(后面数中result为1的数量)。

前一个数result为0时，有四种情况：
该数与前一个值相同，result为0：此时zero不变，one不变
该数与前一个值相同，result为1：此时zero不变，one不变
该数大于前一个值，result为0：此时zero+1，one不变
该数大于前一个值，result为1：此时zero+1，one不变
前一个数result为1时，有三种情况：
该数与前一个值相同，result为1：此时zero不变，one-1
该数大于前一个值，result为0：此时zero不变，one不变
该数大于前一个值，result为1：此时zero不变，one不变

上述情况可以合并

代码

#include<iostream>
#include<algorithm>
using namespace std;

struct node{
    
    
	int v;
	int flag; 
};

node a[100005];
int zero=0;
int one=0;

bool cmp(node s1,node s2){
    
    //排序规则 
	if(s1.v!=s2.v){
    
    
		return s1.v<s2.v;	
	}
	return s1.flag<s2.flag;
}

int main(){
    
    
	int N;
	cin>>N;
	for(int j=0;j<N;j++){
    
    
		int l,r;
		cin>>a[j].v>>a[j].flag;
		
		if(a[j].flag==1){
    
    
			one++;
		}
	}
	sort(a,a+N,cmp);

	int result=one,zero=0;
	int index=0;
	
	int i=1;
	while(i<N){
    
    
		//前面标志为0的情况 		
		if(a[i-1].flag==0){
    
     
			zero++;
			if(a[i].v!=a[i-1].v){
    
    
				int resulttemp=zero+one;
				if(resulttemp>=result){
    
    
					index=a[i].v;
					result=resulttemp;
				}
			}
			else{
    
    
				i++;
				continue;
			}
		}
		//前面标志为1的情况 
		else{
    
    
			//可能会出现连续标志为1的情况
			if((a[i].v==a[i-1].v)){
    
     
				one--;
				i++;
				continue;
			}
			
			one--;
			int resulttemp=zero+one;
			if(resulttemp>=result){
    
    
				index=a[i].v;
				result=resulttemp;
			}
		}
		i++;
	}
	
	cout<<index;
	return 0;
}

CCF 2020-12-2 期末预测之最佳阈值

猜你喜欢