Alpha冲刺-第二天

1.1 今日完成任务情况以及遇到的问题。

完成任务情况

  • 杜世康:实现弹幕的异步,批量存储,经测试,服务器的Jenkins服务,Tomcat服务启动时,在单个任务的爬取下,阿里云服务器(CPU 1核 内存 2G 固态磁盘 40G)的CPU使用率维持在10%上下,数据库写操作维持1 Count/s,入网0.8kb/s。增强后的程序应该能够完成弹幕文本的存储,如下图所示:

  • 刘丹,李玉莹:经过细致分析,最终确定了弹幕文本有价值的分析方向。即弹幕整体样本的情感分析,词频分析,关键字分析等有价值的分析维度。
  • 曹莹雯,尹楠: 了解到目前中文分词,比较权威的中科院开发的NLPIR/ICTCLAS分词系统非常适合我们团队的分析方向
  • 王静雅 :完成弹幕管理中的弹幕列表功能,如下图,并撰写Alpha冲刺博文

遇到的问题

  • 在弹幕存储后,对于弹幕的分词前,垃圾弹幕如何有效的过滤是个问题,比较常见的垃圾弹幕主要如下两种:

  • 单个词,但又不是褒贬类的词汇:“的”、“一”等;各类标点符号或是特殊符号:“!!!!!!!!!!”、“。。。。。”、“◆△◇←〓☆”、“!@#$%”等;全部都是数字的词汇:“6666666666”、“233333333333”
  • 淫秽色情、不文明用语,如“卧槽”、“SB”、“草泥马”等。


1.2 明天任务安排

  • 杜世康:垃圾弹幕的过滤处理
  • 刘丹,李玉莹:平台主播管理功能实现
  • 曹莹雯,尹楠: 研究NLPIR/ICTCLAS分词系统的Java API如何调用
  • 王静雅:完成系统管理中的管理员管理,并撰写明日Alpha冲刺博文

1.3 成员贡献时间

任务 成员 任务量 完成时间
弹幕的异步存储 杜世康 30% 4h
弹幕文本的分析方向 刘丹 15% 2h
弹幕文本的分析方向 李玉莹 15% 2h
NLPIR/ICTCLAS分词系统 曹莹雯 10% 2h
NLPIR/ICTCLAS分词系统 尹楠 10% 2h
完成弹幕管理中的弹幕列表功能与博文撰写 王静雅 20% 2h

1.4 站立会议照片

猜你喜欢

转载自www.cnblogs.com/LWDL/p/9200982.html