2019安徽省大数据与人工智能竞赛赛后总结

一.序言

2018年10月份第一次参加了安徽省大数据比赛,当时确实是抱着打酱油的心态,比赛前一天晚上我们还在尝试去搭建Hadoop环境,结果还是没有搭建成功,队伍里三个人,可能就我Linux熟悉一点,仅此而已。
结果比完赛可想而知,环境搭建部分凑了几张截图,数据预处理,数据分析基本没做,数据可视化对照资料做了一丢丢,最终坑定是什么都没有了。

2019年10月份再次参加安徽省大数据比赛,总算没让自己失望,终于有所收获,拿下了第四名,一等奖。

二.备战

在这里插入图片描述这是比赛的评分方式,整个比赛采用了做题的方式,让我们将代码和运行结果截图放到一个文档上,最后评分。因为考虑到是实战编写代码,所以比赛方是允许我们携带纸质资料。但是说实话确实带了资料基本没有用上,主要是靠平时练习。

比赛涉及到的具体内容有:

  1. 大数据平台部署:Hadoop,Hive部署
  2. 大数据预处理:Java算法处理(常见的字符串操作,文件内容读取),Mapereduce数据清洗,除噪(除去不满足条件的数据)
  3. 大数据分析:Mapreduce数据处理(将运行结果输出为多个文件,二次排序),hive数据处理
  4. 大数据可视化:numpy,pandas处理数据,图表可视化
  5. 人工智能:tensorflow离线环境搭建等基础内容
  6. 综合题:spark数据处理(常见的spark算子)

这次比赛除了大数据分析和大数据预处理总共一道半题没完成,另外加上综合题的一道,其余基本上算是完成了。

三.吐槽

比赛地点是在安徽工业经济职业技术学院,学校机房从去年去的时候就觉得电脑和键盘很卡,甚至跑起程序的时候基本死机了,这次比赛,由于学校大数据服务器出现问题,从8点半等到9点40,延迟到下午1点半,整个人在机房都坐傻了。然后中午一群人就在机房吃起了盒饭,很多队伍为了珍惜时间,就饿着肚子继续干,再者由于比赛延迟了,还联系指导老师改签了高铁票。用一个字来形容当时的情形,那就是“累”。

Tips:这次比赛的时候,看到有的队伍还用了自己的键盘。所以比赛的时候最好带上自己的键盘,以防设备出现影响比赛的问题。

四.总结

  1. 队友:这次比赛我们从7月份开始准备,一直到国庆节之后,中间也学习了不少内容。我负责数据预处理,数据分析,和综合题部分,总体来讲但是备战的时候压力还是挺大的,有时候看到队友的懈怠,其实心还是挺累的,但是结果出来了还是如释重负了,也算没有让自己失望。所以觉得自己应付不过来的情况下,找个靠谱的队友。
  2. 指导老师:这次比赛真心感觉有个好的指导老师,真是一件让人心情愉悦的事情。备战的时候,老师也帮了我们很多,为我们找了比赛材料,资料。还准备了一些题目供我们练习。
  3. 如何备战(仅代表个人观点):
    3.1:Linux的熟练使用,centos6,7搭配上hadoop2,3版本的环境搭建。Hadoop相关组件的环境搭建(hive,hbase等)注意hive搭建时,MySQL的搭建,MySQL的文件格式(tar.gz,rpm等)。
    3.2:Hadoop组件相关的shell命令操作,对应的JavaAPI操作。
    3.3:Mapreduce数据处理:除噪,二次排序等分组排序,分文件处理。
    3.4:spark常见算子,spark-shell与scala语法。
    3.5:python基础的文件操作,字符串操作,数据处理。numpy,pandas数据处理,常见图表可视化。
    3.6:tensorflow离线环境搭建等人工智能基础。
    3.7:资料准备:虽然主要靠平时练习,比赛前准备点必要的总结性资料还是必要的,以防万一。
发布了76 篇原创文章 · 获赞 44 · 访问量 20万+

猜你喜欢

转载自blog.csdn.net/qq_38278799/article/details/102996760
今日推荐