2019MCM 美赛C题思路

# 美賽C題分析
	Github 传送门：https://github.com/zouzhenhong98/2019MCM
	C.1 題目解讀：

	任務一：描述各類毒品在各州各縣隨時間的傳播和特徵。
	>>>>傳播：由於無法得知最早的時間點，因此我們假設所有州/縣的毒品數量等於報告案件數量。
	描述傳播即判斷毒品進出口方向（某毒品是流入還是流出該州/縣）。
	獲取各縣經緯度信息，考慮求梯度（局部與全局）；
	再做另外一個假設：
	（1）該州毒品不受外界影響。對各縣毒品量歸一化，使得A縣的變化量必然與其他縣的總變化量相反，計算各縣的年際變化量，用向量表示毒品的大致流向
	（2）該州毒品受外界影響。求出每年的毒品總數的變化值，並相應地減去每年該州的外來影響，再應用（1）

	>>>>特徵：給定時空狀態下，各類毒品的統計量，如單一毒品在各地區的分佈、單一地區各毒品的比例等。
	這裡可以補上剛說的熱力圖了。什麼？你說缺數據的地區怎麼辦？用均值填充啊！或者萬一你看出來美國郵編和地理位置的關係的話也可以手動匹配上去【滑稽臉】
	建議的幾個分析方向：變化趨勢，變化幅度，存量規模，毒品餅圖，毒品相關性分析（其他毒品-主要毒品）等。

	任務二：定位各州內部，各種毒品的起源地。
	>>>>起源地：以州/縣中該種毒品的數量排序認為是毒品的發展水平，發展水平最高的起源最早
	毒品的數量指標可以考慮3種情形：
	（1）絕對數量
	（2）相對數量（佔總毒品的比例或占當地人口的比例）
	（3）主成分（消除毒品間存在替代關係的影響）
	如果考慮按時間回歸，還可以對每種毒品建立回歸模型，取在時間t坐標軸負方向的交點作為起源時間，起源時間最早（或是負無窮）的是最早起源點。
	不過因為採樣點實在太少（7個），所以時間序列一般都不怎麼準，不過依然是建模的可行方向，可以跑一下LSTM或者最小二乘什麼的。

	但是無論哪種計算方法，都存在非單一結果的可能（多個起源縣），

	我原想直接通過zipcode定位各縣經緯度，按毒品數取加權平均得到毒品分佈的幾何中心，這一點通過R或Python，甚至在線html都可以實現（已驗證）
	但是無奈部分zipcode對應的縣在開源數據庫中無對應地區（如42005），因此放棄通過熱力圖直接看答案的可能~
	不過這種方法依然是美賽允許的答案，並且較為簡單和易於理解。

	任務三：判斷某種毒品在報告了多少案例（閾值）的情況下可以認為當地“存在”該毒品
	>>>>毒品也是商品，用經濟學角度分析也可以，但我不太會【再次滑稽】
	>>>>（1）考慮與該毒品相關性較高的種類一起分析，當它們的總消費量下降到某個閾值的時候可以認為是處於消亡階段（閾值自己定）
	（2）直接回歸，如果與時間t正方向有交點就認為該時間會消失，再看圖取一個差不多的值作為閾值
	（3）求任務二中毒品數量上升期的曲線上導數最大的點，對應y值為閾值。
	（4）隨便你怎麼說了，有理有據就行，有理沒據也湊合，上面僅供參考。

	任務四：預測各州出現（在當地未出現的）新毒品的可能性。
	>>>>在2016年，42號州的毒品種類激增，可以把類似情況重點分析。
	分析的主要依據可能包括：
	（1）超過了任務三中設定的閾值（僅適用於已出現的毒品）
	（2）鄰縣毒品已存在或者將超過閾值，且流動方向與該縣相對位置夾角小於90，或者不需要夾角條件。
	（3）州內存在但該縣還沒有的毒品，在州內數量未衰減，且流動方向指向該縣。
	（4）其他州存在但該州未存在的毒品，流向指向該州
	（5）計算該縣/該州毒品總數和種數的變化，如果兩者（尤其是後者）持續上升，那麼必然出現新毒品（但不知道是什麼）
	*（2）-（5）需要GPS信息會更好

	C.2 題目解讀：

	任務一：判斷社會經濟學數據與毒品的相關性。
	>>>>這個任務比較簡單，做個PCA和相關性矩陣就好了。

	任務二：添加社會經濟學數據，改進C.1的模型
	>>>>必然需要的數據：與人口、經濟水平相關的數據
	>>>>可能需要的數據：自己新構造的指標，指標實在太多了（近600個），必然需要特徵融合

	>>>>如何改進C.1的模型？
	（1）把所有的數量指標都考慮進經濟學因素，比如計算人均毒品案件數量
	（2）把經濟學指標添加進回歸模型/決策樹的自變量
	（3）設置回歸模型懲罰項，避免過擬合（雖然這點數據很難過擬合，一般都收斂不了，等待打臉）
	（4）如果你使用了AutoML，Auto_Keras，EasyDL之類的自動回歸機器當我什麼也沒說，丟進變量訓練就是了
	（5）注意對比模型效果，理論上應該有巨大提升，如果沒有就操作一下【滑稽臉】

	任務三：解釋模型
	>>>>這道題到底要你做什麼？
	可能改進模型並不是最重要的，而是前面的"computing model to explain"。
	你也需要給出你的因素與毒品變化趨勢之間的解釋，並且應當具體到最重要的幾個或十幾個變量上。
	這樣的解釋更可能不需要數值上的解釋，而是結合經濟學模型以及社會因素的解釋，
	畢竟數值上的解釋無異於解決問題，而C題的第二個核心在於“如何給出相應的抑制性政策”。
	（第一個核心是毒品的變化趨勢）

	C.3 題目解讀：

	任務一：模型測試
	>>>>給出虛擬的2017年各項指標，測試模型效果
	理論上各項毒品數值應當下降，或者可以根據前兩個任務中預測的毒品變化趨，去測試2016+nn年的情況（n不應過大）

2019MCM 美赛C题思路

猜你喜欢