2024美赛C题思路/代码:网球中的动量

美赛直播b站,提前关注:川川菜鸟

美赛辅导预定:美赛服务

去年美赛C题:2023美赛C题

题目翻译

背景

在2023年温布尔登男子单打决赛中,20岁的西班牙新星阿尔卡拉兹击败了36岁的诺瓦克·德约科维奇。这是德约科维奇自2013年以来在温布尔登的首次失利,也终结了这位历史上最伟大的网球运动员之一在大满贯赛事中的非凡纪录。

这场比赛本身是一场精彩的战斗。德约科维奇似乎注定要轻松获胜,因为他在首盘以6比1(其中赢得了7个发球局)主宰了比赛。第二盘同样轻松,最终以6比2赢得比赛。但第三盘成为了第一盘的完全相反,阿尔卡拉兹以6比1赢得比赛。这位年轻的西班牙选手似乎在第四盘开始时完全控制了比赛,但不知怎的,形势再次发生了变化,德约科维奇以6比3将比赛拖入决胜盘。最后一盘开始时德约科维奇带着从第四盘的优势进入,但再次出现了方向的变化,阿尔卡拉兹获得了胜利并以6比4取得了胜利。这场比赛的数据集中有一组数据,其“match_id”为“2023-wimbledon-1701”。你可以在数据集中查看德约科维奇在首盘占优时的所有得分点,当时“set_no”列的数字等于1。这场比赛令人难以置信的波动,有时是许多分数甚至是整个发球局的波动,在比赛的某些时刻似乎占据了优势,这通常被归因于“动量”。

关于动量的一种字典定义是“通过运动或一系列事件获得的力量或力量”。在体育比赛中,一个团队或玩家可能会感到他们有动量,或者是“势头力量”,但这很难在比赛/游戏中衡量。更进一步,如果存在动量,很难看出比赛中的各种事件是如何创造或改变动量的。

题目

提供了2023年温布尔登网球锦标赛男子单打前两轮每一分的数据。你可以根据自己的判断,选择包含额外的球员信息或其他数据,但你必须完整地记录数据来源。使用这些数据来解决以下问题:

问题一

开发一个模型,捕捉比赛中得分发生时的比赛流程,并将其应用到一场或多场比赛中。你的模型应该识别哪位球员在比赛中的某个时刻表现更好,以及他们表现得有多好。提供一个基于你的模型来描绘比赛流程的可视化图表。注意:在网球中,发球的球员赢得比赛的概率要高得多。你或许希望以某种方式将这一因素纳入你的模型中。

问题二

一位网球教练对“势头”在比赛中发挥任何作用持怀疑态度。相反,他认为,一位球员比赛中的表现波动和连胜都是随机的。使用你的模型/指标来评估这一说法。

问题三

教练们非常想知道是否有指标可以帮助确定比赛流程何时会从有利于一位球员变为有利于另一位球员。

3.1 使用至少一场比赛提供的数据,开发一个模型来预测这些比赛中的波动。有哪些因素似乎最相关(如果有的话)?
3.2 鉴于过去比赛中“势头”的波动差异,你如何建议一位球员进入针对不同球员的新比赛?

问题四

在其他比赛中测试你开发的模型。你的模型预测比赛中的波动效果如何?如果模型有时表现不佳,你能识别出未来模型可能需要包含哪些因素吗?如何普遍化你的模型,使其能够用于未来的比赛(例如女子比赛)、不同的赛场表面以及其他体育项目,如乒乓球?

问题五

产生一份不超过25页的报告,概述你的发现,并包括一份至两页的备忘录,总结你的结果并提供建议,关于“势头”是什么,以及如何准备球员应对网球比赛中的势头变化。

提供文件

  1. Wimbledon_featured_matches.csv —— 2023年温布尔登网球锦标赛男子单打第二轮之后的数据集。
  2. data_dictionary.csv —— 数据集的描述。
  3. data_examples —— 帮助理解所提供数据的示例。

数据描述

例子1:

  • match_id - “2023-wimbledon-1301” 表示这是第三轮比赛中的第一个比赛,"01"表示这是那一轮的第一个比赛。
  • elapsed_time - “0:01:31” 表示从比赛开始到现在过去了一分钟三十一秒。
  • point_no, game_no, set_no - “4, 1, 1” 表示这是第一盘的第一局的第四分。
  • pl_sets, p2_sets, p1_games, p2_games - “0, 0, 0, 0” 表示这是比赛的第一局,所以两位选手都还没有赢得任何盘或局。
  • p1_score, p2_score - “15, 30” 表示这一分的时候,选手1的得分是15,选手2的得分是30。所以,选手1赢得了之前的一分,而选手2赢得了两分。
  • server - “1” 表示选手1(Alcaraz)在这一分发球。
  • serve_no - “1” 表示这是第一次发球。
  • point_victor - “1” 表示这一分是选手1(Alcaraz)赢得的。
  • p1_points_won, p2_points_won - “2, 2” 表示在这一分之后,两位选手在整个比赛中各自赢得了两分。
  • game_victor, set_victor - “0, 0” 表示这一分的赢家并没有使任何一方赢得这一局或这一盘。
  • p1_winner - “1” 表示这一分是选手1赢得的。
  • p1_ace - “0” 表示这一分不是通过发球得分(Ace)赢得的。
  • winner_shot_type - “F” 表示赢得这一分的是一个正手击球(而不是反手)。
  • p2_net_pt - “1” 表示选手2(Jarry)在这一分的某个时刻接近了网前。
  • p2_net_pt_won - “0” 表示尽管Jarry在网前,但是这一分没能赢得。
  • p1_distance_run, p2_distance_run - “51.108, 75.631” 表示在这一分中,每位选手分别跑了51.108米和75.631米。
  • rally_count - “13” 表示这一分中两位选手合计击球了13次。
  • speed_mph, serve_width, serve_depth, return_depth - “130, BW, CTL, D” 表示Alcaraz(发球者)以130英里每小时的速度发出了一次“Body Wide”的发球,而接发球者(之前我们看到了一个第一发球)将球打回了“Deep”在球场的另一端。

例2:
这部分表格展示了网球比赛第一局最后四分的情况,演示了平分(“deuce”)和优势(“ad”)的概念。每一行代表比赛中的一个接下来的分数。
第8行:

  • p1_score, p2_score - “40, 40” 表示比分是40平,这也叫做“deuce”,每个选手已经赢了3个分。
  • point_victor - “1” 表示选手1(Alcaraz)赢得了这一分(在第8行)。

第9行:

  • p1_score, p2_score - “AD, 40” 因为Alcaraz赢了前一个分数(第7分),所以第8分的比分现在是对Alcaraz的“AD”和对Jarry的“40”,意味着Alcaraz已经赢了另外一个分数,如果他赢得下一个分数就能赢得这一局。
  • point_victor - “2” 表示Jarry(选手2)赢得了第9行的这一分。

第10行:

  • p1_score, p2_score - “40, 40” 比分又回到了40平,这意味着每个选手都赢了相同数量的前面几分,尽管现在是各自4分。
  • point_victor - “1” 表示Alcaraz赢得了第10行的这一分。

第11行:

  • p1_score, p2_score - “AD, 40” Alcaraz又一次获得了优势,因为他赢得了第9分。
  • point_victor - “1” 表示Alcaraz在第11行赢得了这一分,这意味着他赢得了这一局(现在他已经赢了两分)。

第12行:

  • game_no - “2” 这是第二局的第一个分。
  • p1_games - “1” 表示Alcaraz赢得了第一局。

网球比赛中的第51分,演示了“破发点”——即非发球方(接发球方)有机会赢得这一局的情形。
第51行:

  • p1_score, p2_score - “40, 30” 表示比分是40比30,选手1(Alcaraz)领先。
  • server - “2” 表示Jarry(选手2)在发球。
  • p1_break_pt - “1” 如果Alcaraz赢得这一分,他就将赢得这个游戏;因为他不是发球方,所以这是一个“破发点”。
  • point_victor - “1” 表示Alcaraz赢得了这个分数(因此赢得了这局比赛)。
  • p1_break_pt_won - “1” 表示Alcaraz赢得了这局比赛,并且他不是这一分的发球方。

术语表

  • 大满贯(Grand Slam):在网球中,大满贯是指在一个日历年中赢得四大主要锦标赛中的同一个单项赛事的成就。四大满贯赛事包括澳大利亚公开赛、法国公开赛、温布尔登锦标赛和美国公开赛,每个赛事持续两周。

术语表/关键术语概念

记分制:

  • 比赛:男子单打比赛为五盘三胜制(在温布尔登网球锦标赛中)
  • 盘:一系列局,6局赢一盘,但球员必须以两局以上的优势获胜
  • 局:一系列分,球员达到4分获胜,但必须以两分以上的优势走赢。详情见下文“一个局的记分方式”
    一个局的记分方式:

一个局的记分方式:

  • 0分 = Love
  • 1分 = 15分
  • 2分 = 30分
  • 3分 = 40分
  • 平分比如“30平”
  • 40比40 = Deuce(双方分数相同,至少各有3分)
  • 服务器赢得平分局得分 = Adv-in(或称“优势局内”)
  • 接球方赢得平分局得分 = Adv-out(或称“优势局外”)

发球:

球员轮流担任“发球者”(打出局的第一球的球员)和“接球者”。在职业网球中,发球者通常拥有很大优势。发球者每个分有两机会将球打入球场(进入“发球区”)。如果两次尝试都未能让发球落在球场内,则被判“双误”而丢分,对方获得分数。

  • 破发:接球方赢得一个局。
  • 破发点:如果接球方赢得该分,他们将赢得该局。
  • 保发:发球方赢得该局。

抢七局:
每个盘在一方赢得6局且至少领先两局时结束(比如6比4)。如果没有,比赛继续进行,直到比分达到6比6,然后进行抢七局在温布尔登,抢七局首先得到7分(必须领先2分)除非是比赛的第五盘,那时抢七局必须首先得到10分(必须领先2分)。

休息时间/换边:
每打完一局后,球员更换球场一边,然后每两局后再次更换。每局结束后允许90秒休息时间,球员在每个盘结束后的首次换边时也享有此休息。每个盘结束后至少休息2分钟。比赛中允许医疗暂停和一次卫生间休息。

问题一

思路

发一个基于得分事件的动量模型,考虑发球方优势、得分差、破发点等因素来计算每个得分点后的动量。使用累积动量指标来可视化比赛流程,并识别哪位球员在比赛中表现更好。

模型

已做完,具体见:美赛服务

程序

已做完,具体见:美赛服务

问题二

已做完,具体见:美赛服务

思路

使用动量模型评估比赛中的势头变化,通过统计测试(如t-test)验证比赛中的表现波动和连胜是否高于随机水平,从而评估势头在比赛中的作用是否具有统计显著性。

模型

已做完,具体见:美赛服务

程序

已做完,具体见:美赛服务

问题三

思路

利用时间序列分析(如 ARIMA 或 SARIMAX 模型)预测比赛中的得分波动。分析比赛数据来确定与势头波动最相关的因素。

模型

已做完,具体见:美赛服务

程序

已做完,具体见:美赛服务

问题四

在其他比赛数据上测试已开发的动量模型。评估模型预测的准确性和一致性,分析模型表现不佳时可能缺失的因素。考虑如何普遍化模型,以适应不同类型的比赛和条件,如女子比赛、不同的赛场表面和其他体育项目。

问题五

语文建模

猜你喜欢

转载自blog.csdn.net/weixin_46211269/article/details/135972112