上课大数据实验题目

题目一

把gdelt 1.0 或2.0 倒入到hadoop hbase 数据库

1.利用HBase提供的ImportTsv将数据导入到库中,记录下完成的时间。目标,使用脚本计算的方式。自动完成。训练mapReduce参数的使用和调试。
数据导入有如下几种方式:
1.利用Hbase提供的ImportTsv将csv文件导入到HBase
2.利用HBase提供的completebulkload将数据导入到HBase
3.利用HBase提供的Import将数据导入到HBase

2.利用 spark 方式将数据导入到库中,优化。目标,比使用HBase提供的ImportTsv将数据导入到库中的时间少两倍。

题目二

把gdelt 1.0 或2.0 倒入到solr 数据库

1.利用kite/kite-morphlines at master · kite-sdk/kite 将数据导入到库中,记录下完成的时间。

分别使用
search
Spark
两种方式构建索引

题目三

在第二题中,把经纬度改成geohash坐标,其他不变

数据下载地址

gdelt 1.0 有100G以上数据,超过3亿条记录
gdelt 2.0 有50G以上数据,超过1.3亿条记录

http://www.gdelt.cn/data

http://www.gdeltproject.org/data.html#documentation

猜你喜欢

转载自blog.csdn.net/liuzhuchen/article/details/68060240