많은 사치품과 마찬가지로 범선은 나이와 시장 상황에 따라 가치가 변합니다. 첨부된 "2023_MCM_Problem_Y_Boats.xlsx" 파일에는 유럽, 카리브해에서 약 3500척의 36~56피트 길이 범선에 대한 데이터가 포함되어 있습니다.

2023년 미국 대회 Y 질문:

많은 사치품과 마찬가지로 범선은 나이와 시장 상황에 따라 가치가 변합니다. 첨부된 "2023_MCM_Problem_Y_Boats.xlsx" 파일에는 2020년 12월 유럽, 카리브해 및 미국에서 판매를 위해 광고된 길이 36~56피트의 범선 약 3,500척에 대한 데이터가 포함되어 있습니다. 보트 애호가가 COMAP에 데이터를 제공했습니다. 대부분의 실제 데이터처럼 조합되어 분석 전에 일부 데이터 정리가 필요한 누락된 데이터 또는 기타 문제가 있을 수 있습니다. Excel 파일에는 두 개의 탭이 포함되어 있습니다. 하나는 모노헐용이고 다른 하나는 카타마란용입니다. 각 탭의 열에는 "Made", "Variants", "Length in feet", "Geographic Region", "Country/Region/State", Listing Price(USD) 및 Year(Manufactured) 레이블이 지정되어 있습니다. , 변종 및 연도는 제공된 Excel 파일 외에도 많은 소스가 있습니다.

 

이것은 특정 범선의 특성에 대한 자세한 설명을 제공할 수 있습니다. 선택한 다른 데이터로 제공된 데이터 세트를 보완할 수 있지만 모델링에 "2023_MCM_Problem_Y_Boats.xlsx"의 데이터를 포함해야 합니다. 사용된 보충 데이터의 출처를 완전히 식별하고 문서화하십시오. 범선은 종종 중개인을 통해 판매됩니다. 항해 시장을 더 잘 이해하기 위해 중국 홍콩(SAR)의 항해 중개인은 귀하의 팀에게 중고 항해 요트의 가격에 대한 보고서를 준비하도록 의뢰했습니다. 중개인은 귀하가 다음을 수행하기를 원합니다.

• 각 범선의 가격표를 설명하는 수학적 모델을 개발합니다.

 

제공된 스프레드시트. 유용하다고 생각되는 모든 예측 변수를 포함합니다. 주어진 범선의 다른 특성(예: 빔, 드래프트, 변위, 리깅, 돛 영역, 선체 재료, 엔진 시간, 수면 용량, 헤드룸, 전자 장치 등)을 이해하기 위해 연도 및 지역별로 다른 소스를 사용할 수 있습니다. 경제 데이터 . 사용된 모든 데이터 소스를 식별하고 설명합니다. 예상 정확도에 대한 논의는 각 항해 변형의 가격에 포함됩니다.

• 모델을 사용하여 리스팅 가격에 대한 지역적 영향(있는 경우)을 설명합니다. 모든 항해 변형에서 영역 효과가 일관된지 논의합니다. 실제 값을 풀고 면적 효과의 통계적 유의성을 기록합니다.

• 주어진 지리적 영역의 모델링이 홍콩(SAR) 시장에서 어떻게 유용한지 논의하십시오. 제공된 스프레드시트에서 모노헐과 쌍동선으로 구분된 범선의 유익한 하위 집합을 선택합니다. 홍콩(SAR) 시장의 하위 집합에 대해 비교 가능한 리스팅 가격 데이터를 찾으십시오. 홍수를 시뮬레이트하는 SAR(Area Effect Kong)은 범선 돛당 가격의 하위 집합이 될 것입니다. 카타마란과 모노헐은 같은 효과가 있습니까?

• 팀이 데이터에서 도출한 기타 흥미롭고 유익한 추론 또는 결론을 식별하고 논의합니다.

• 홍콩(SAR) 항해 브로커를 위한 1~2페이지 보고서를 준비합니다. 중개인이 귀하의 결론을 이해하는 데 도움이 되도록 드물게 잘 선택된 그래픽을 포함하십시오.

 

먼저 코드를 사용하여 데이터의 누락된 값을 식별합니다.

import pandas as pd
import numpy as np
from sklearn import neighbors
from sklearn.preprocessing  import minmax_scale
# 加载数据
data = pd.read_excel('C:美赛2023春季赛/2023美赛春季赛原版赛题/2023_MCM_Problem_Y_Boats.xlsx', sheet_name='Monohulled Sailboats ')
data.head(10)
predictors=data.columns[:-1]#自变量名称
print(data.isna().sum())  #缺失值个数

정확한 값이 3개밖에 없기 때문에 엑셀에서 직접 결과를 정렬하고 마지막에 수동으로 채워야 합니다; 암호!

 

독립변수 종속변수 모델을 생성할 때 먼저 독립변수의 일부를 선택할 수 있습니다. 예를 들어 길이(tf), '지리적 지역', '국가/지역/주', '연도'를 독립변수로 선택하고 및 종속 변수로서의 가격 선형 회귀 모델을 설정하고 잔차를 플로팅하고 예측 값과 실제 값을 플로팅합니다.

추천

출처blog.csdn.net/ZHAIOJK/article/details/129884673