安装hadoop集群遇到的坑(vSphere虚拟化环境)

（文章不定期更新）

1 环境概述

服务器：LENOVO ThinkServer RD540
虚拟化环境：Esxi5.5
虚拟机系统：Ubuntu 16.04LTS
虚拟机配置：

节点	处理器	内存	硬盘
master	全部	8G	200G
slave10	全部	8G	200G
slave20	全部	4G	130G
slave30	全部	4G	130G
slave40	全部	4G	130G

以上由于slave1-4的名称在局域网中已经被占用，则名后加0

2 坑

2.1 Esxi时断时连

装好Esxi后，在vSphere界面初步安装环境，却发现时断时连。如下图：

在连接过程中时不时会抛出异常。

而且在传输大文件必定无法成功:
大文件传输失败

查看Esxi的hostd日志，有：

2018-05-11T02:30:00.023Z [FFE215B0 verbose ‘Statssvc.vim.PerformanceManager’] HostCtl Exception in stats collection. Turn on ‘trivia’ log for details
2018-05-11T02:30:02.219Z [FFE84B70 verbose ‘SoapAdapter’] Responded to service state request
2018-05-11T02:30:20.023Z [FFE215B0 verbose ‘Statssvc.vim.PerformanceManager’] HostCtl Exception in stats collection: Sysinfo error on operation returned status : Not initialized. Please see the VMkernel log for detailed error information

这个Exception指示去Kernel日志中获取详细信息。再查看Esxi的kernel日志：

/var/log # cat vmkernel.log | grep fail

2018-05-10T12:14:09.089Z cpu4:33645)ScsiDeviceIO: 2337: Cmd(0x412e803d1ac0) 0x85, CmdSN 0xa from world 34572 to dev “naa.600605b007e0a4201dfcf3440b1aeec1” failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2018-05-10T12:14:09.089Z cpu4:33645)ScsiDeviceIO: 2337: Cmd(0x412e803d1ac0) 0x4d, CmdSN 0xb from world 34572 to dev “naa.600605b007e0a4201dfcf3440b1aeec1” failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2018-05-10T12:14:09.089Z cpu4:33645)ScsiDeviceIO: 2337: Cmd(0x412e803d1ac0) 0x1a, CmdSN 0xc from world 34572 to dev “naa.600605b007e0a4201dfcf3440b1aeec1” failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0.
2018-05-10T12:14:09.099Z cpu4:33645)ScsiDeviceIO: 2337: Cmd(0x412e803d1ac0) 0x85, CmdSN 0xd from world 34572 to dev “naa.50000395a802efd4” failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.
2018-05-10T12:44:09.180Z cpu2:32848)ScsiDeviceIO: 2337: Cmd(0x412e82722980) 0x85, CmdSN 0x14 from world 34572 to dev “naa.600605b007e0a4201dfcf3440b1aeec1” failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0.

其中的数字是SCSI感知代码：
http://pubs.vmware.com/vsphere-50/index.jsp?topic=%2Fcom.vmware.vsphere.troubleshooting.doc_50%2FGUID-E8304C8B-E2EA-459E-A545-8531C1BF12B0.html
看样子好像是硬盘的问题。

官方也给出了详细的排查方案【ESX/ESXi 主机出现间歇性网络连接或无网络连接 (2077745)】
https://kb.vmware.com/s/article/2077745
有中文，不过排查方案略微繁杂，这里不推荐。

这边的方案是：直接在服务器上抹掉Esxi，安装Ubuntu系统，发现ssh一样时断时连，且xftp传输大文件必定失败，失败瞬间ping不通，过一段时间又可以ping通：
xftp传输失败