设为首页收藏本站language 语言切换
查看: 2290|回复: 24
收起左侧

唉,ESX主机又连不上了,里面VM一切正常,求正确的诊断及处理流程

[复制链接]
发表于 2013-2-1 17:20:04 | 显示全部楼层 |阅读模式
运行了快半年的ESX Server 4.1 用 vsphere client 又连不上了。通过SSH还是可以连的上的。
目前里面的虚拟机VMs 都还正常。
之前同样的情况用过
service mgmt-vmware restart
service vmware-vpxa restart
恢复过一次
但是有两次没有成功,还造成里面的虚拟机都无法访问
/var/log 里面可以查看到些什么诊断信息呢? 或者可以看哪些信息确认问题的发生的原因呢?
否则里面一台台虚拟机关机、重启、开应用需要耗费大量的时间
发表于 2013-2-1 17:42:37 | 显示全部楼层
你的主机负荷(包括CPU、内存、网络等)高不高?
沙发 2013-2-1 17:42:37 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 19:33:11 | 显示全部楼层
4.1更新到最新了吗?
曾经有个版本的4.1的tcp栈有bug, half-link切断后文件描述符不会释放,等文件描述符用光后vc和vclient就连不上了。
如果已经是最新版本的4.1就只好慢慢查log了。
我这里的几台4.1很稳定,没有任何问题的说。
板凳 2013-2-1 19:33:11 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 20:06:40 | 显示全部楼层
我这里的已经没有4.1了,目前5.0中。不过运行4.1一直没有遇到Lz的情况.会不会和特定的网卡/交换机/设定组合有关?
地板 2013-2-1 20:06:40 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 20:30:57 | 显示全部楼层
本帖最后由 TiGi 于 1-2-2013 20:32 编辑
4.1的时候,我遇到过类似的情况,主要是持续负荷大了之后 —— 当然,我遇到类似的问题后,好像重启代理就能搞定;能够管理后,我将VM迁移、重启主机...... —— 似乎和Jar说的原因有点关系,负荷大之后文件描述符用光。
5# 2013-2-1 20:30:57 回复 收起回复
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-2-1 20:06:00 | 显示全部楼层

负载还可以的~ ,就是内存占用很高。 授权分配的内存36G ,物理机内存32G。
“等文件描述符用光后vc和vclient就连不上了” 这个是哪个版本的,情况看起来有点像。
重启代理之前我试过,解决过问题。但是有可能造成 vm 失去响应。 看KB上面说重启代理,如果设置了虚拟机自动关闭和自动启动,重启代理的时候会影响这些虚拟机?
6# 2013-2-1 20:06:00 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 21:35:12 | 显示全部楼层
如果症状是:
vSphere client 不能直接连接ESX host host 或者vSphere Client 直接连接 ESX host
或者 vCenter Server里面ESX host 无响应

在 ESX host上 /var/log/vmware/hostd.log ,可以看到类似:
[2010-10-24 13:47:37.482 F63B3900 warning 'Proxysvc'] Num handlers (320) exceed max allowed (320). Throttling accept
[2010-10-24 13:47:37.499 F63B3900 verbose 'Proxysvc Req00440'] New proxy client SSL(TCP(local=192.168.10.230:58661, peer=192.168.10.231:443))
[2010-10-24 13:49:37.525 F566EB90 warning 'Proxysvc'] Num handlers (320) exceed max allowed (320). Throttling accept  
用这个Kb试试
http://kb.vmware.com/selfservice ... ;externalId=1038478
7# 2013-2-1 21:35:12 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 20:30:00 | 显示全部楼层

当初,我的三台主机内存是72、144、288,因此如果288这这台需要升级/维护的时候,另外两台(尤其是72那台)的内存负荷比例就会比较高了。
当初,三台机器72那台相对容易发生问题,而288那台好像没有发生过。
8# 2013-2-1 20:30:00 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 21:53:04 | 显示全部楼层
本帖最后由 seanlaser 于 1-2-2013 22:04 编辑
这个么叫内存超负荷啊,我一般都保持系统不到报警的内存用量。而且Vm除了分配的内存以外还需要一定比例的内存虚拟化开销。因此别想什么32G全Vm可用什么的。
虽然VMware支持一些over的用法,但是这绝对不是推荐的做法吧,Vm会遭遇频繁的气球和回收进程,这对于主机来说是额外的开销啊
9# 2013-2-1 21:53:04 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 21:59:59 | 显示全部楼层

记不清有问题的是哪个版本了,不过可以肯定4.1 U3没有这个问题。
我的3台服务器升级到4.1U3后就再没有重新启动过,已经运行122天。
10# 2013-2-1 21:59:59 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 21:35:00 | 显示全部楼层

有意思,这个Kb说的是ESX主机和 vClient间存在额外的防火墙产品会把闲置连接中断掉并且不通知主机,而这在ESX主机端却是个开放连接,这从而导致了SSL连接无法正确关闭而连接数堆积到上限就再也连不上。
11# 2013-2-1 21:35:00 回复 收起回复
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-2-1 22:01:45 | 显示全部楼层

hostd.log 里面 内容如下:
Section for VMware ESX, pid=3217, version=4.1.0, build=build-260247, option=Release
[2013-01-02 18:13:20.136 F52B0B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:13:40.027 F53D6B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:13:40.070 F53D6B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:13:40.098 F53D6B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:13:40.115 F53D6B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:13:40.146 F53D6B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:13:40.156 F53D6B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:13:40.173 F53D6B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:00.027 F4F21B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:00.071 F4F21B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:00.098 F4F21B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:00.117 F4F21B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:00.158 F4F21B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:00.158 F4F21B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:00.175 F4F21B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation.  Please see the VMkernel log file for more details.
[2013-01-02 18:14:04.111 F5645B90 verbose 'Cimsvc'] Ticket issued for CIMOM version 1.0, user root
应该不是连接数超过320的问题吧
12# 2013-2-1 22:01:45 回复 收起回复
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-2-1 21:35:00 | 显示全部楼层

恩,我已经蛮注意分配内存不超过物理内存了。但是实在腾不出来。。。
13# 2013-2-1 21:35:00 回复 收起回复
回复 支持 反对

使用道具 举报

发表于 2013-2-1 22:05:14 | 显示全部楼层
我有一台都运行了522天了
14# 2013-2-1 22:05:14 回复 收起回复
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-2-1 21:35:00 | 显示全部楼层
偶的155天。。。版本看来还是有点老。等新的设备到了后更新掉它!
[root@localhost vmware]# uptime
22:55:56 up 155 days,  1:16,  1 user,  load average: 0.45, 0.22, 0.12
[root@localhost vmware]# vmware -v
VMware ESX 4.1.0 build-260247
[root@localhost vmware]#
15# 2013-2-1 21:35:00 回复 收起回复
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 论坛注册

本版积分规则

QQ|Archiver|手机版|小黑屋|sitemap|鸿鹄论坛 ( 京ICP备14027439号 )  

GMT+8, 2025-3-7 07:32 , Processed in 0.064403 second(s), 22 queries , Redis On.  

  Powered by Discuz!

  © 2001-2025 HH010.COM

快速回复 返回顶部 返回列表