超融合HCI

深信服超融合SANGFOR HCI是面向下一代数据中心的软件定义基础架构,通过虚拟化技术融合计算、存储、网络和安全等资源,并提供运维管理、容灾备份、智能监控等高级特性,帮助用户构建极简、稳定、高性能的云化数据中心基石。
点击可切换产品版本
知道了
不再提醒
HCI6.10.0(R1)
{{sendMatomoQuery("超融合HCI","集群资源调度配置")}}

集群资源调度配置

更新时间:2024-05-09

功能说明

集群动态资源调度DRS是一种用于平衡调度集群资源的技术实现,传统DRS调度通过检测各主机的资源使用情况,及时对虚拟机进行迁移,避免出现资源热点或负载不均衡,保障业务连续性,但效果无法保障,比如根据阈值触发没有预测和建议无法提前预知;没有考虑虚拟机的计算繁忙程度只考虑主机;只考虑资源,没有考虑调度后的性能和可靠性影响。深信服超融合DRS 2.0可以基于主机或者云主机过去5天的资源历史预估未来2小时的负载进行智能调度,从主机和虚拟机两个维度来参考评分进行调度从业务上保证优化效果;通过丰富的指标评分估算,保证迁移后业务可靠性等级不下降,性能得到提升。

根据主机实际的CPU负载、内存负载、网络性能及存储性能计算出的评分,具体评分表如下表所示:

性能评分参数

性能评分因素

参数

CPU

CPU实际利用率

CPU期望利用率

CPU逻辑核数

内存

内存实际使用率

内存使用交换分区大小

网络

网络丢包率

网络错包率

存储

虚拟机在当前主机上是否存在本地副本

所有磁盘使用率(使用率是否都低于70%

根据主机存在故障时的严重程度进行定级,不同类型故障再根据故障影响范围进行扣分,限定级,再扣分。

可靠性评分扣分项对照表(部分)【一级:100-91】【二级:90-71】【三级:70-31】【四级:30-0】。评分项先按照等级扣分,比如RAID卡重置,直接定义为四级,扣分到四级30分,再按照不同子故障类型进行扣分,比如‘0x0501’扣10分。

算法模块

故障类型

子故障类型

评分等级越高越危险

扣分分值

RAID

RAID卡重置

0x0501

四级

-10

0x2100

四级

-10

0x26b

四级

-10

系统盘挂起风险

四级

-10

磁盘重置失败告警

/磁盘复位告警

3块盘及以上

四级

-10

3块盘以下

二级

-5

硬盘物理坏道告警

3块盘及以上

三级

-10

3块盘以下

二级

-5

RAID背板和SAS线

可能故障告警

3块盘及以上

四级

-10

3块盘以下

二级

-5

磁盘

磁盘坏道告警

/不可恢复扇区超标

3块盘及以上

三级

-10

3块盘以下

二级

-5

SSD寿命预警

/SSD剩余空间不足

3块盘及以上

三级

-10

3块盘以下

二级

-10

磁盘温度过高

/

二级

-2

磁盘故障预警

/

二级

-5

内存

内存故障预警

/

四级

-20

内存含有大量CE

/

四级

-10

内存含有少量CE

/

三级

-10

内存CE风暴

/

四级

-15

内存UE

/

四级

-20

内存降频

内存混频率

一级

-5

注意事项

  1. 部分类型的虚拟机不支持DRS2.0,如非集群虚拟机(存储位置不在共享存储上的虚拟机)、NFV、快速恢复的虚拟机、指定运行位置的虚拟机、指定故障域的虚拟机、开启了CDP的虚拟机、正在使用GPU的虚拟机、存在USB映射的虚拟机、开启了CPU独占的虚拟机。
  2. UPS联动关机生效的主机不支持DRS2.0
  3. 磁盘故障预测,磁盘类型是只支持希捷和西部数据的SATA磁盘(HDD)。不支持的磁盘扣分偏差为5-10分。
  4. 磁盘故障预测前10天不可用,内存故障预测前30天不可用,需要历史数据做训练,新安装的集群需要先收集数据。
  5. 集群下无法一次性生成所有调度建议,10分钟最多生成50条迁移建议,优先给出评分较低的迁移建议,用户处理建议后,再给出其他虚拟机的迁移建议。
  6. Raid卡故障检测,目前只支持megaraidSAS3008类型Raid卡。不支持的Raid卡扣分偏差为5-10

前提条件

  1. 多台超融合主机组成集群。
  2. 虚拟机存储在外置存储或虚拟存储。
  3. 虚拟机运行位置配置为自动选择。
  4. 虚拟机未开启CDP功能,未配置CPU独占功能,未配置USB映射。

操作步骤

  1. 在控制台上打开[可靠服务/集群资源调度(DRS]

  1. 用户可以选择调度方式自动调度、手动调度和禁用。当设置了自动调度,调度引擎将根据集群资源负载评分情况自动进行调度;当设置了手动调度,调度引擎将根据资源负载评分情况给出调度建议,用户需手动执行调度建议;当设置了禁用,调度引擎将不会主动给出调度建议。
  2. 用户选择调度建议,根据不同的调度模式计算出虚拟机的最佳迁移路径,是集群符合对应调度模式的最佳状态。当前调度模式分为性能均衡模式和成本最优模式。性能均衡模式的目的是为了让各主机之间负载达到一个均衡状态,成本最优模式的目的是尽可能的将虚拟机集中运行在一台或几台主机上,空出更多的主机资源,达到节约资源的目的。

性能均衡模式:选出高负载主机,对高负载主机上所有虚拟机进行性能收益的计算,虚拟机从高负载主机迁移到低负载主机上性能收益有提升,且目的主机的可靠性等级不可低于源主机的可靠性等级。

成本最优模式:选出低负载主机,对主机按照内存负载由低到高进行排序,按顺序将低负载主机上的虚拟机迁移到高负载主机上,虚拟机性能下降不可超过阈值规定的百分比,且目的主机的可靠性等级不可低于源主机的可靠性等级。

  1. 用户可以设定分级策略,不同的敏感度对应不同的主机负载阈值,调度灵敏度可选择保守(不太频繁的调度);中间(默认);激进(较频繁的调度)。调度灵敏度的阈值,与选择调度模式有关,不同的调度模式,不同的调度灵敏度阈值。
  2. 用户可在AI预测算力等级选择是否开启AI智能预测,集群可基于主机或者虚拟机过去7天的负载预估未来2天的负载进行智能DRS调度,假如开启该功能,集群资源调度会使用AI智能探测算法,让资源调度更加的智能化,也可以根据虚拟机数量选择调整AI预测算力值。
  3. 用户可用设定调度时间段控制DRS调度时间窗口,确保不在业务高峰期发生DRS调度。
  4. 若有些虚拟机的调度方式因为某些场景需要特殊处理,则配置例外虚拟机调度。调度方式可选择:手动、自动、禁用。

  1. 点击[调度建议]页签,调度引擎将根据资源负载评分情况给出调度建议,用户需手动执行调度建议。
  2. 点击[调度记录]页签,可查看已参与调度的虚拟机记录详情,如调度失衡主机和目标主机,调度原因,调度的效果,开始的时间,结束的时间,操作人员等。
  3. 可查看主机的可靠性评分、性能评分,虚拟机可靠性评分、性能评分,具体评分标准,请查看上表扣分项对照表。