Python教程之如何获取电影动画片字幕,并提取单词用于学习,以海绵宝宝为例srt(教程含源码Opensubtitles)

需求

为了提高孩子英语水平,计划通过原声来给孩子磨耳朵。孩子对海绵宝宝(SpongeBob SquarePants)比较感兴趣,但是海绵宝宝在国内平台只有中文版或英文版,没有配套字幕。本文将提供下载全套海绵宝宝字幕的方法,并提供代码提取单词。

获取全套字幕

OpenSubtitles.org是一个电影字幕上传和下载的网站。该网站拥有的多语言电影字幕数据库,语言种类超过了30种,供用户随意选择该网站让用户可以通过电影类型、互联网电影数据库排名、电影上映年份等对所要上传和下载的电影字幕进行搜索,搜索结果可以通过电子邮件或者RSS发送到用户手中。OpenSubtitles网站还支持第三方应用程序。

如何获取

可以访问该网站搜索自己需要电影或动画片,由于该网站有限制,可以通过下面方式下载

http://dl.opensubtitles.org/en/download/sub/字幕id

请添加图片描述
您可以将鼠标放到字幕下载链接,获取字幕id,例如图片里面的7372104

解析src字幕文件

import re

def extract_words_from_srt_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        srt_content = file.read()

    # 删除时间戳和其他无关的字符
    c

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/131990679