公司中的大数据工具一般搭建在linux系统上,个人的电脑之前是用linux虚拟机上搭建,但运行时内存一下子占满,这次尝试直接在win10上搭建环境。
教程网上已经有很多,这里就不展开了。觉得有几个关键吧:1、工具间的版本对应;2、环境变量;3、权限;4、配置文件
本次的配置如下:
win10家庭版、java 1.8.0_40、hadoop 2.7.6、mysql 5.7.17、hive-2.1.1、scala-2.11.8、spark 2.3.0、python 3.6.5
虽有说:遇到的99%问题在之前就有人遇到过并有解决方法,但要准确定位到问题也是学问。
1、配置完mysql、hive和hadoop,hive查询正常,但插入insert values报错
命令行return code 2 from org.apache.hadoop.hive.ql.exec.mr.mapredtask,找了网上的没有解决。
到hadoop的界面看history,显示Exception message: CreateSymbolicLink error (1314): ???????????
原因是windows账户不具备创建符号表的权限 参考 https://liuhuiyao.blog.csdn.net/article/details/86697374
由于是win10家庭版,没有组策略gpedit.msc,解决参考 https://blog.csdn.net/u013642500/article/details/80138799
2、在pycharm中运行pyspark
No module named 'py4j',将spark/python/lib中的py4j文件夹放到Anaconda3\Lib\site-packages
Could not find valid SPARK_HOME while searching(pycharm in windows) 参考https://www.pianshen.com/article/82521714106/