题目一
把gdelt 1.0 或2.0 倒入到hadoop hbase 数据库
1.利用HBase提供的ImportTsv将数据导入到库中,记录下完成的时间。目标,使用脚本计算的方式。自动完成。训练mapReduce参数的使用和调试。
数据导入有如下几种方式:
1.利用Hbase提供的ImportTsv将csv文件导入到HBase
2.利用HBase提供的completebulkload将数据导入到HBase
3.利用HBase提供的Import将数据导入到HBase
2.利用 spark 方式将数据导入到库中,优化。目标,比使用HBase提供的ImportTsv将数据导入到库中的时间少两倍。
题目二
把gdelt 1.0 或2.0 倒入到solr 数据库
1.利用kite/kite-morphlines at master · kite-sdk/kite 将数据导入到库中,记录下完成的时间。
分别使用
search
Spark
两种方式构建索引
题目三
在第二题中,把经纬度改成geohash坐标,其他不变
数据下载地址
gdelt 1.0 有100G以上数据,超过3亿条记录
gdelt 2.0 有50G以上数据,超过1.3亿条记录