2021年美赛C题目分析
2021年美国大学生数学建模竞赛MCMC题目,为大数据类。
就本题而言,基础算法为二分类和Logistic回归。
二分类用于数据的预处理
Logistic回归用于数据的处理
美赛C题简述(中文):
美赛C题目简述(英文):
(转自2021年MCM)
首先,分析给定的建模数据
1. 4440项的数据
Global ID
目标事件的ID标识,作为预处理和数据后期处理的重要基准
Detection Date
检测日期
Notes
记录者的笔记
Lab Status
对事件的可信度的划分,由题意,分为3类:
1.确定的亚洲大黄蜂目击事件
2.错误目击事件
3.未确定事件
Submission Date
提交日期
Latitude、Longitude
记录事件的位置(经纬度),作为分类的重要标准
2. 3305项的数据
简要来说,就是4440次报告中,确定有媒体信息的只有3305次数据,这样就给后期的数据带来一点复杂。
3. 生物属性数据
略去后面 …
实验数据的预处理
(仅供参考!)
根据两个数据表的Golbal ID 将图片与目击事件数据集连接起来
构建图片二分类训练标签
建立预测模型
进行优化
其中有几点需要注意的点:
1.查找相关“生物类”文献资料,建立大黄蜂的生殖模型
2.大黄蜂图像的分类
这里要说明的是,可以用Logistic回归,根据生物属性数据表,从翅膀,腿等等构建0-1回归,根据数据的可信度,划分界限(基本以0.5为主,也可0.4或者0.6),从而完成分类