Koordinator v1.7: 基于网络拓扑感知调度和作业级抢占赋能大规模 AI 训练

2025年10月26日 · 17 分钟阅读

Jianyu Wang

Koordinator approver

Rougang Han

Koordinator approver

Ziqiu Zhu

Koordinator approver

Zhe Zhu

Koordinator contributor

背景

随着人工智能技术的持续演进，AI 模型训练的规模和复杂度呈指数级增长。大语言模型（LLM）和分布式 AI 训练场景对集群资源调度提出了前所未有的挑战。高效的跨节点通信、智能的资源抢占以及统一的异构设备管理成为生产环境必须解决的关键问题。

自 2022 年 4 月正式开源以来，Koordinator 已迭代发布了 15 个大版本，持续为工作负载编排、资源调度、隔离和性能优化提供全面的解决方案。Koordinator 社区感谢来自阿里巴巴、蚂蚁科技、Intel、小红书、小米、爱奇艺、360、有赞等众多企业的优秀工程师的贡献，他们带来了宝贵的想法、代码和实际应用场景。

今天，我们很高兴地宣布 Koordinator v1.7.0 正式发布。本版本针对大规模 AI 训练场景引入了突破性能力，包括网络拓扑感知调度和作业级抢占。此外，v1.7.0 通过支持华为昇腾 NPU 和寒武纪 MLU 增强了异构设备调度能力，提供了端到端的设备管理解决方案。该版本还包含了全面的 API 参考文档和完整的开发者指南，以改善开发者体验。

在 v1.7.0 版本中，共有 14 位新开发者积极参与到 Koordinator 社区的建设中，他们是 @ditingdapeng、@Rouzip、@ClanEver、@zheng-weihao、@cntigers、@LennonChin、@ZhuZhezz、@dabaooline、@bobsongplus、@yccharles、@qingyuanz、@yyrdl、@hwenwur 和 @hkttty2009。由衷感谢所有社区成员的积极参与和持续支持！

核心亮点功能

1. 网络拓扑感知调度：加速分布式 AI 训练中的通信

在大规模 AI 训练场景中，特别是大语言模型（LLM）训练，高效的跨节点通信对训练性能至关重要。张量并行（TP）、流水线并行（PP）和数据并行（DP）等模型并行技术需要跨 GPU 进行频繁的高带宽数据交换——通常跨越多个节点。在这类工作负载下，网络拓扑成为关键的性能瓶颈，通信延迟和带宽受物理网络层次结构（如 NVLink、block、spine）的严重影响。

为了优化训练效率，Koordinator v1.7.0 提供了网络拓扑感知调度能力，确保：

当集群资源充足时，具有网络拓扑要求的 Pod 将根据用户指定的策略调度到性能更好的拓扑域（如更低延迟、更高带宽）。
当集群资源不足时，调度器将基于网络拓扑约束通过作业级抢占为 GangGroup 抢占资源，并在 .status.nominatedNode 字段中记录资源提名以确保一致的放置。

集群网络拓扑配置

管理员首先使用 NVIDIA 的 topograph 等工具为节点标记其网络拓扑位置：

apiVersion: v1
kind: Node
metadata:
  name: node-0
  labels:
    network.topology.nvidia.com/block: b1
    network.topology.nvidia.com/spine: s1

然后通过 ClusterNetworkTopology CR 定义拓扑层次结构：

apiVersion: scheduling.koordinator.sh/v1alpha1
kind: ClusterNetworkTopology
metadata:
  name: default
spec:
  networkTopologySpec:
    - labelKey:
      - network.topology.nvidia.com/spine
      topologyLayer: SpineLayer
    - labelKey:
      - network.topology.nvidia.com/block
      parentTopologyLayer: SpineLayer
      topologyLayer: BlockLayer
    - parentTopologyLayer: BlockLayer
      topologyLayer: NodeTopologyLayer

配置拓扑感知的 Gang 调度

要利用网络拓扑感知能力，创建 PodGroup 并使用拓扑要求进行注解：

apiVersion: scheduling.sigs.k8s.io/v1alpha1
kind: PodGroup
metadata:
  name: training-job
  namespace: default
  annotations:
    gang.scheduling.koordinator.sh/network-topology-spec: |
      {
        "gatherStrategy": [
          {
            "layer": "BlockLayer",
            "strategy": "PreferGather"
          }
        ]
      }
spec:
  minMember: 8
  scheduleTimeoutSeconds: 300

调度属于此 PodGroup 的 Pod 时，调度器将尝试将所有成员 Pod 放置在同一个 BlockLayer 拓扑域内，以最小化节点间通信延迟。

更多关于网络拓扑感知调度的信息，请参见网络拓扑感知调度。

2. 作业级抢占：确保全有或全无的资源获取

在大规模集群环境中，高优先级作业（如关键 AI 训练任务）在资源不足时通常需要从低优先级工作负载抢占资源。然而，Kubernetes 中传统的Pod 级抢占无法保证分布式作业的所有成员 Pod 一起获取资源，导致无效抢占和资源浪费。

为解决这一问题，Koordinator v1.7.0 提供了作业级抢占，确保：

在作业（GangGroup）级别触发抢占。
只有当所有成员 Pod 在驱逐后都能被共同调度时才会发生抢占。
通过 nominatedNode 为所有成员保留资源以保持调度一致性。

抢占算法

作业级抢占工作流程包括以下步骤：

无法调度的 Pod 检测：当 Pod 无法调度时，进入 PostFilter 阶段。
作业识别：调度器检查 Pod 是否属于 PodGroup/GangGroup 并获取所有成员 Pod。
抢占资格检查：验证 pods.spec.preemptionPolicy ≠ Never 并确保当前提名节点上不存在正在终止的受害者。
候选节点选择：通过模拟移除潜在受害者（低优先级 Pod）来找到抢占可能有帮助的节点。
作业感知成本模型：基于作业感知成本模型选择最优节点和最小成本受害者集。
执行抢占：删除受害者并为所有成员 Pod 设置 status.nominatedNode。

使用示例

为抢占者和受害者定义优先级类：

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: high-priority
value: 1000000
preemptionPolicy: PreemptLowerPriority
description: "用于可以抢占其他作业的关键 AI 训练任务。"
---
apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: low-priority
value: 1000
preemptionPolicy: PreemptLowerPriority
description: "用于可以被抢占的非关键任务。"

创建高优先级 gang 作业：

apiVersion: scheduling.sigs.k8s.io/v1alpha1
kind: PodGroup
metadata:
  name: hp-training-job
  namespace: default
spec:
  minMember: 2
  scheduleTimeoutSeconds: 300
---
apiVersion: v1
kind: Pod
metadata:
  name: hp-worker-1
  namespace: default
  labels:
    pod-group.scheduling.sigs.k8s.io: hp-training-job
spec:
  schedulerName: koord-scheduler
  priorityClassName: high-priority
  preemptionPolicy: PreemptLowerPriority
  containers:
  - name: worker
    resources:
      limits:
        cpu: 3
        memory: 4Gi
      requests:
        cpu: 3
        memory: 4Gi

当高优先级作业无法调度时，调度器将跨多个节点抢占低优先级 Pod，为作业的所有成员 Pod 腾出空间。

更多关于作业级抢占的信息，请参见作业级抢占。

3. 异构设备调度：支持华为昇腾 NPU 和寒武纪 MLU

在 v1.6 强大的 GPU 调度基础上，Koordinator v1.7.0 将异构设备调度扩展到支持华为昇腾 NPU 和寒武纪 MLU，为多厂商提供统一的设备管理和调度能力。

Device Scheduling Architecture

华为昇腾 NPU 支持

Koordinator v1.7.0 通过 koord-device-daemon 和 koordlet 组件支持昇腾虚拟化模板和整卡。主要特性包括：

设备上报：自动检测昇腾 NPU 信息并上报到 Device CR。
分区感知调度：遵守 HCCS 亲和性的预定义 GPU 分区规则。
拓扑调度：基于 PCIe 和 NUMA 拓扑分配 NPU。

昇腾 NPU 的 Device CR 示例：

apiVersion: scheduling.koordinator.sh/v1alpha1
kind: Device
metadata:
  labels:
    node.koordinator.sh/gpu-model: Ascend-910B3
    node.koordinator.sh/gpu-vendor: huawei
  annotations:
    scheduling.koordinator.sh/gpu-partitions: |
      {
        "4": [
          {
            "minors": [0,1,2,3],
            "gpuLinkType": "HCCS",
            "allocationScore": "1"
          }
        ]
      }
  name: node-1
spec:
  devices:
    - health: true
      id: GPU-fd971b33-4891-fd2e-ed42-ce6adf324615
      minor: 0
      resources:
        huawei.com/npu-core: "20"
        huawei.com/npu-cpu: "7"
        huawei.com/npu-dvpp: "100"
        koordinator.sh/gpu-memory: 64Gi
        koordinator.sh/gpu-memory-ratio: "100"
      topology:
        busID: 0000:3b:00.0
        nodeID: 0
        pcieID: pci0000:3a
      type: gpu

寒武纪 MLU 支持

Koordinator v1.7.0 在整卡和虚拟化（dynamic-smlu）模式下都支持寒武纪 MLU 卡。主要特性包括：

设备上报：检测并上报寒武纪 MLU 信息。
虚拟化支持：通过 dynamic-smlu 模式启用 GPU 共享。
统一资源命名：使用 koordinator.sh/gpu-* 资源进行一致调度。

请求寒武纪虚拟卡的 Pod 示例：

apiVersion: v1
kind: Pod
metadata:
  name: test-cambricon-partial
  namespace: default
spec:
  schedulerName: koord-scheduler
  containers:
  - name: demo-sleep
    image: ubuntu:18.04
    resources:
      limits:
        koordinator.sh/gpu.shared: "1"
        koordinator.sh/gpu-memory: "1Gi"
        koordinator.sh/gpu-core: "10"
        cambricon.com/mlu.smlu.vcore: "10"
        cambricon.com/mlu.smlu.vmemory: "4"
      requests:
        koordinator.sh/gpu.shared: "1"
        koordinator.sh/gpu-memory: "1Gi"
        koordinator.sh/gpu-core: "10"
        cambricon.com/mlu.smlu.vcore: "10"
        cambricon.com/mlu.smlu.vmemory: "4"

更多信息，请参见设备调度 - 昇腾 NPU 和设备调度 - 寒武纪 MLU。

4. 其他增强和改进

Koordinator v1.7.0 还包含以下关键增强：

GPU Share 与 HAMi 增强：
- 升级到 HAMi v2.6.0 并支持 NVIDIA 570 以上驱动。
- 引入基于 Helm 的 hami-daemon chart（版本 0.1.0）安装方式替代手动 DaemonSet 部署，便于管理。
- 新增 vGPUmonitor 组件提供全面的 GPU 监控，支持 Prometheus 指标包括 HostGPUMemoryUsage、HostCoreUtilization、vGPU_device_memory_usage_in_bytes、vGPU_device_memory_limit_in_bytes 以及容器级设备指标。
负载感知调度优化：
- 新增 PreFilter 扩展点通过缓存计算结果显著提升调度性能。
- 引入新配置选项包括 dominantResourceWeight 支持主导资源公平性、prodUsageIncludeSys 用于全面的 Prod 使用率计算、enableScheduleWhenNodeMetricsExpired 处理过期指标、estimatedSecondsAfterPodScheduled 和 estimatedSecondsAfterInitialized 实现精确的资源估算时机、allowCustomizeEstimation 支持 Pod 级估算自定义以及 supportedResources 扩展资源类型支持。
增强 ElasticQuota 的 Quota Hook Plugin 框架：
- 允许自定义配额验证和执行逻辑
- 支持在 ReplaceQuotas 和 OnQuotaUpdate 方法中使用 hook 插件
- 增强的 pod 更新 hook，无论已使用资源是否发生变化都会运行

完整的变更列表，请参见 v1.7.0 Release。

5. 全面的 API 参考和开发者指南

为了改善开发者体验并促进社区贡献，Koordinator v1.7.0 引入了全面的 API 参考文档和完整的开发者指南。

API 参考

新的 API 参考提供了详细文档：

自定义资源定义 (CRD)：所有 Koordinator CRD 的全面架构定义、字段描述、验证规则和使用模式，包括 Recommendation、ClusterColocationProfile、ElasticQuota、Reservation、Device、NodeMetric 等。
客户端库：使用 Go、Python 和其他语言的 Koordinator 客户端库指南。
指标端点：Koordinator 组件暴露的 Prometheus 指标的完整文档。
Webhook 端点：用于扩展 Koordinator 功能的 webhook 端点的详细规范。

自定义资源定义文档示例：

apiVersion: scheduling.koordinator.sh/v1alpha1
kind: Device
metadata:
  name: worker01
  labels:
    node.koordinator.sh/gpu-model: NVIDIA-H20
    node.koordinator.sh/gpu-vendor: nvidia
spec:
  devices:
  - health: true
    id: GPU-a43e0de9-28a0-1e87-32f8-f5c4994b3e69
    minor: 0
    resources:
      koordinator.sh/gpu-core: "100"
      koordinator.sh/gpu-memory: 97871Mi
      koordinator.sh/gpu-memory-ratio: "100"
    topology:
      busID: 0000:0e:00.0
      nodeID: 0
      pcieID: pci0000:0b
    type: gpu

开发者指南

开发者指南为贡献者提供全面资源，包括：

组件指南：Koordinator 组件的架构和设计。
指标收集：如何添加和暴露新指标。
可扩展性：扩展点和插件开发模式。
插件开发：开发自定义插件的分步指南。
自定义调度策略：如何实现自定义调度策略。
Webhook 扩展：开发用于验证和变更的 webhook 扩展。
自定义重调度插件：构建自定义重调度插件。

这些资源显著降低了新贡献者的准入门槛，使开发者能够更轻松地扩展 Koordinator 的能力。

更多信息，请参见 API 参考和开发者指南。

5. 最佳实践：批量混部快速入门

为了帮助用户快速上手 Koordinator 的混部能力，v1.7.0 引入了新的最佳实践指南：批量混部快速入门。该指南提供分步说明：

在 Kubernetes 集群中部署 Koordinator。
为在线和批量工作负载配置混部配置文件。
通过批量资源超卖观察资源利用率改进。
监控和故障排除混部场景。

该指南补充了现有的 Spark 作业混部、Hadoop YARN 混部和细粒度 CPU 编排等最佳实践，为生产部署提供全面的资源库。

更多信息，请参见批量混部快速入门。

贡献者

Koordinator 是一个开源社区。在 v1.7.0 中，有 14 位新开发者为 Koordinator 主仓库做出了贡献：

@ditingdapeng 在 #2353 中首次贡献
@Rouzip 在 #2005 中首次贡献
@ClanEver 在 #2405 中首次贡献
@zheng-weihao 在 #2409 中首次贡献
@cntigers 在 #2434 中首次贡献
@LennonChin 在 #2449 中首次贡献
@ZhuZhezz 在 #2423 中首次贡献
@dabaooline 在 #2483 中首次贡献
@bobsongplus 在 #2524 中首次贡献
@yccharles 在 #2474 中首次贡献
@qingyuanz 在 #2584 中首次贡献
@yyrdl 在 #2597 中首次贡献
@hwenwur 在 #2621 中首次贡献
@hkttty2009 在 #2641 中首次贡献

感谢长期以来持续努力的贡献者和新加入的积极贡献者。我们欢迎更多贡献者加入 Koordinator 社区。

未来计划

在下一个版本中，Koordinator 计划以下工作：

队列和配额管理：将 Kube-Queue 与 Koordinator 集成，提供全面的队列调度支持 (#2662)
队列和配额管理：在配额插件中支持 PreEnqueue 和 QueueHint (#2581)
队列和配额管理：通过 PDB 感知增强配额资源回收 (#2651)
任务调度：与上游开发者讨论如何支持协同调度，并寻找更优雅的方式解决以下问题
- 解决 Gang Pod 的 PreEnqueue 拦截阻止 Pod 事件生成直到 Gang MinMember 要求满足的问题 (#2480)
- 解决 GatedMetric 负值问题 (kubernetes#133464)
异构调度策略：考虑在重调度中进行 GPU 分配以实现集群资源整合 (#2332)
异构资源调度：引入动态资源分配 (DRA) 框架支持
异构资源调度：扩展对更多类型异构资源的支持
基础设施和兼容性：升级到 Kubernetes 1.33
工具：在预留中支持预分配 (#2150)
工具：为调度队列中的 Pod 实现调度审计 (#2552)
工具：提供 Pod 调度审计分析工具

我们鼓励用户反馈使用体验，欢迎更多开发者参与 Koordinator 项目，共同推动其发展！

致谢

自项目开源以来，Koordinator 已发布超过 15 个版本，有 110 多位贡献者参与其中。社区持续成长和改进。我们感谢所有社区成员的积极参与和宝贵反馈。我们也要感谢 CNCF 组织和相关社区成员对项目的支持。

欢迎更多开发者和终端用户加入我们!正是你们的参与和反馈使 Koordinator 不断改进。无论你是云原生社区的初学者还是专家，我们都期待听到你的声音！

Koordinator v1.6: 支持 AI/ML 场景的异构资源调度能力

2025年2月24日 · 34 分钟阅读

Jianyu Wang

Koordinator approver

Rougang Han

Koordinator approver

Tao Song

Koordinator approver

背景

随着 DeepSeek 等大模型的火爆，AI 和高性能计算领域对异构设备资源调度的需求迅速增长，无论是 GPU、NPU 还是 RDMA 等设备。如何高效管理和调度这些资源成为了行业关注的核心问题。在这一背景下，Koordinator 积极响应社区诉求，持续深耕异构设备调度能力，并在最新的 v1.6 版本中推出了一系列创新功能，帮助客户解决异构资源调度难题。

在 v1.6 版本中，我们完善了设备拓扑调度能力，支持感知更多机型的 GPU 拓扑结构，显著加速 AI 应用内的 GPU 互联性能。与开源项目 HAMi 合作，推出了端到端的 GPU & RDMA 联合分配能力以及 GPU 强隔离能力，有效提升了典型 AI 训练任务的跨机互联效率和推理任务的部署密度，从而更好地保障应用性能并提高集群资源利用率。同时，增强了 Kubernetes 社区的资源插件，使其可以对不同资源配置不同的节点打分策略，该功能在 GPU 任务和 CPU 任务混部在一个集群中时能有效降低 GPU 碎片率。

自 2022 年 4 月正式开源以来，Koordinator 已迭代发布了 14 个大版本，吸引了来自阿里巴巴、蚂蚁科技、Intel、小红书、小米、爱奇艺、360、有赞等众多企业的优秀工程师参与贡献。他们带来了丰富的想法、代码和实际应用场景，极大地推动了项目的发展。特别值得一提的是，在 v1.6.0 版本中，共有 10 位新加入的开发者积极参与到 Koordinator 社区的建设中，他们是 @LY-today、@AdrianMachao、@TaoYang526、@dongjiang1989、@chengjoey、@JBinin、@clay-wangzhi、@ferris-cx、@nce3xin 和 @lijunxin559。感谢他们的贡献，也感谢所有社区成员的持续投入和支持！

核心亮点功能

1、GPU 拓扑感知调度：加速 AI 应用内的 GPU 互联

随着深度学习和高性能计算（HPC）等领域的快速发展，GPU 成为许多计算密集型工作负载的核心资源。在 Kubernetes 集群中，GPU 的高效利用对于提升应用性能至关重要。然而，GPU 资源的性能表现并不均衡，受到硬件拓扑结构和资源配置的影响。例如

在多 NUMA 节点的系统中，GPU、CPU 和内存之间的物理连接可能会影响数据传输速度和计算效率。
对于 NVIDIA 的 L20、L40S 等卡型，GPU 之间的通信效率取决于它们是否属于同一个 PCIE 或者同一个 NUMANode。
对于华为的晟腾 NPU 以及虚拟化环境中采用 SharedNVSwitch 模式的 NVIDIA H系列机器，GPU 的分配需要遵守一些预定义的 Partition 规则。

Koordinator 针对上述设备场景，提供了丰富的设备拓扑调度 API 来满足 Pod 对于 GPU 拓扑的诉求。下面是这些 API 的使用举例：

GPU、CPU、内存等分配在同一个 NUMA Node

apiVersion: v1
kind: Pod
metadata:
annotations:
    scheduling.koordinator.sh/numa-topology-spec: '{"numaTopologyPolicy":"Restricted", "singleNUMANodeExclusive":"Preferred"}'
spec:
containers:
- resources:
    limits:
        koordinator.sh/gpu: 200
        cpu: 64
        memory: 500Gi
    requests:
        koordinator.sh/gpu: 200
        cpu: 64
        memory: 500Gi

GPU 分配在同一个 PCIE

apiVersion: v1
kind: Pod
metadata:
annotations: 
    scheduling.koordinator.sh/device-allocate-hint: |-
    {
        "gpu": {
        "requiredTopologyScope": "PCIe"
        }
    }
spec:
containers:
- resources:
    limits:
        koordinator.sh/gpu: 200

GPU 分配在同一个 NUMA Node

apiVersion: v1
kind: Pod
metadata:
annotations: 
    scheduling.koordinator.sh/device-allocate-hint: |-
    {
        "gpu": {
        "requiredTopologyScope": "NUMANode"
        }
    }
spec:
containers:
- resources:
    limits:
        koordinator.sh/gpu: 400

GPU 需按照预定义的 Partition 分配

通常，GPU 预定义 Partition 规则由特定的 GPU 型号或系统配置决定，也可能受到具体节点上的 GPU 配置的影响。调度器无法洞悉硬件型号或 GPU 类型的具体信息；相反，它依靠节点级别的组件将这些预定义规则上报给设备自定义资源 (CR) 来知晓，如下所示：

apiVersion: scheduling.koordinator.sh/v1alpha1
kind: Device
metadata:
  annotations:
    scheduling.koordinator.sh/gpu-partitions: |
      {
        "1": [
            "NVLINK": {
                {
                  # Which GPUs are included
                  "minors": [
                      0
                  ],
                  # GPU Interconnect Type
                  "gpuLinkType": "NVLink",
                  # Here we take the bottleneck bandwidth between GPUs in the Ring algorithm. BusBandwidth can be referenced from https://github.com/NVIDIA/nccl-tests/blob/master/doc/PERFORMANCE.md
                  "ringBusBandwidth": 400Gi
                  # Indicate the overall allocation quality for the node after the partition has been assigned away.
                  "allocationScore": "1",
                },
                ...
            }
            ...
        ],
        "2": [
            ...
        ],
        "4": [
            ...
        ],
        "8": [
            ...
        ]
      }
  labels:
    // 指示 Partition 规则是否必须遵守
    node.koordinator.sh/gpu-partition-policy: "Honor"
  name: node-1

当同时有多个可选的 Partition 方案时，Koordinator 允许用户决定是否按照最优 Partition 分配:

kind: Pod
metadata:
  name: hello-gpu
  annotations:
    scheduling.koordinator.sh/gpu-partition-spec: |
      {
        # BestEffort|Restricted
        "allocatePolicy": "Restricted", 
      }
spec:
  containers:
    - name: main
      resources:
        limits:
          koordinator.sh/gpu: 100

当用户不需要按照最优 Partition 分配时，调度器将会按照尽可能 Binpack 的方式分配。想要了解关于 GPU 拓扑感知调度的更多细节，请参考如下设计文档：

由衷感谢社区开发者 @eahydra 对该特性的贡献！

2、端到端 GDR 支持：提升跨机任务的互联性能

在 AI 模型训练场景中，GPU 之间需要进行频繁的集合通信，以同步训练过程迭代更新的权重。GDR 全称叫做 GPUDirect RDMA，其目的是解决多机 GPU 设备之间交换数据的效率问题。通过 GDR 技术多机之间 GPU 交换数据可以不经过 CPU 和内存，大幅节省 CPU/Memory 开销同时降低延时。为了实现这一目标，Koordinator v1.6.0 版本中设计实现了 GPU/RDMA 设备联合调度特性，整体架构如下：

Koordlet 检测节点上的 GPU 和 RDMA 设备，并将相关信息上报给 Device CR。
Koord-Manager 从设备 CR 同步资源到 node.status.allocatable。
Koord-Scheduler 根据设备拓扑为 Pod 分配 GPU 和 RDMA，并将分配结果注解到 Pods 上。
Multus-CNI 访问 Koordlet PodResources Proxy 以获取分配给 Pods 的 RDMA 设备，并将相应的 NIC 附加到 Pods 的网络命名空间中。
Koordlet 提供 NRI 插件，将设备挂载到容器中。

由于涉及到众多组件和复杂的环境，Koordinator v1.6.0 提供了最佳实践来展示如何一步步部署 Koordinator、Multus-CNI 和 SRIOV-CNI。在部署好相关组件之后，用户可以简单采用如下的 Pod 协议来请求调度器为它申请的 GPU 和 RDMA 进行联合分配：

apiVersion: v1
kind: Pod
metadata:
  name: pod-vf01
  namespace: kubeflow
  annotations:
    scheduling.koordinator.sh/device-joint-allocate: |-
      {
        "deviceTypes": ["gpu","rdma"]
      }
    scheduling.koordinator.sh/device-allocate-hint: |-
      {
       "rdma": {
         "vfSelector": {} //apply VF
       }
      }
spec:
  schedulerName: koord-scheduler
  containers:
  - name: container-vf
    resources:
      requests:
        koordinator.sh/gpu: 100
        koordinator.sh/rdma: 100
      limits:
        koordinator.sh/gpu: 100
        koordinator.sh/rdma: 100

想要更进一步地采用 Koordinator 端到端地测试 GDR 任务，大家可以参考最佳实践中的样例一步步进行，在此也由衷感谢社区开发者 @ferris-cx 对该特性的贡献！

3、GPU 共享强隔离：提高 AI 推理任务的资源利用率

在 AI 应用中，GPU 是大模型训练和推理不可或缺的核心设备，能够为计算密集型任务提供强大的算力支持。然而，这种强大的算力往往伴随着高昂的成本。在实际生产环境中，我们经常会遇到这样的情况：一些小模型或轻量级推理任务仅需占用 GPU 的一小部分资源（例如 20% 的算力或 GPU 内存），但为了运行这些任务，却不得不独占一张高性能 GPU 卡。这种资源使用方式不仅浪费了宝贵的 GPU 算力，还显著增加了企业的成本。

这种情况在以下场景中尤为常见：

在线推理服务：许多在线推理任务的计算需求较低，但对延迟要求较高，通常需要部署在高性能 GPU 上以满足实时性需求。
开发与测试环境：开发者在调试模型时，往往只需使用少量 GPU 资源，但传统调度方式会导致资源利用率低下。
多租户共享集群：在多用户或多团队共享的 GPU 集群中，每个任务独占 GPU 会导致资源分配不均，难以充分利用硬件能力。

为了解决这一问题，Koordinator 结合 HAMi 为用户提供了 GPU 共享隔离的能力，允许多个 Pod 共享同一张 GPU 卡。通过这种方式，不仅可以显著提高 GPU 的资源利用率，还能降低企业成本，同时满足不同任务对资源的灵活需求。例如，在 Koordinator 的 GPU 共享模式下，用户可以精确分配 GPU 核心数或显存比例，确保每个任务都能获得所需的资源，同时避免相互干扰。

HAMi 是 CNCF Sandbox 项目，旨在为 Kubernetes 提供一个设备管理中间件。HAMi-Core 是它的核心模块，通过劫持 CUDA-Runtime（libcudart.so）和 CUDA-Driver（libcuda.so）之间的 API 调用提供 GPU 共享隔离能力。在 v1.6.0 版本中，Koordinator 利用 HAMi-Core 的 GPU 隔离功能，提供端到端的 GPU 共享解决方案。

大家可以通过下面的 YAML 文件部署 DaemonSet 直接在对应节点上安装 HAMi-core。

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: hami-core-distribute
  namespace: default
spec:
  selector:
    matchLabels:
      koord-app: hami-core-distribute
  template:
    metadata:
      labels:
        koord-app: hami-core-distribute
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
            - matchExpressions:
              - key: node-type
                operator: In
                values:
                - "gpu"
      containers:
      - command:
        - /bin/sh
        - -c
        - |
          cp -f /k8s-vgpu/lib/nvidia/libvgpu.so /usl/local/vgpu && sleep 3600000
        image: docker.m.daocloud.io/projecthami/hami:v2.4.0
        imagePullPolicy: Always
        name: name
        resources:
          limits:
            cpu: 200m
            memory: 256Mi
          requests:
            cpu: "0"
            memory: "0"
        volumeMounts:
        - mountPath: /usl/local/vgpu
          name: vgpu-hook
        - mountPath: /tmp/vgpulock
          name: vgpu-lock
      tolerations:
      - operator: Exists
      volumes:
      - hostPath:
          path: /usl/local/vgpu
          type: DirectoryOrCreate
        name: vgpu-hook
     # https://github.com/Project-HAMi/HAMi/issues/696
      - hostPath:
          path: /tmp/vgpulock
          type: DirectoryOrCreate
        name: vgpu-lock

Koordinator 调度器的 GPU Binpack 能力是默认开启状态，在安装好 Koordinator 和 HAMi-Core 之后，用户可以通过如下方式申请 GPU 共享卡并启用 HAMi-Core 隔离。

apiVersion: v1
kind: Pod
metadata:
  name: pod-example
  namespace: default
  labels:
    koordinator.sh/gpu-isolation-provider: hami-core
spec:
  schedulerName: koord-scheduler
  containers:
  - command:
    - sleep
    - 365d
    image: busybox
    imagePullPolicy: IfNotPresent
    name: curlimage
    resources:
      limits:
        cpu: 40m
        memory: 40Mi
        koordinator.sh/gpu-shared: 1
        koordinator.sh/gpu-core: 50
        koordinator.sh/gpu-memory-ratio: 50
      requests:
        cpu: 40m
        memory: 40Mi
        koordinator.sh/gpu-shared: 1
        koordinator.sh/gpu-core: 50
        koordinator.sh/gpu-memory-ratio: 50
    terminationMessagePath: /dev/termination-log
    terminationMessagePolicy: File
  restartPolicy: Always

关于在 Koordinator 启用 HAMi GPU 共享隔离能力的使用指导，请参考：

Device Scheduling - GPU Share With HAMi

由衷感谢 HAMi 社区同学 @wawa0210 对该特性的支持！

4、差异化 GPU 调度策略：有效降低 GPU 碎片率

在现代 Kubernetes 集群中，多种类型资源（如 CPU、内存、GPU 等）通常在一个统一的平台上进行管理。然而，不同类型资源的使用模式和需求往往存在显著差异，这导致了对资源堆叠（Packing）和打散（Spreading）的不同策略需求。例如：

GPU 资源：在 AI 模型训练或推理任务中，为了最大化 GPU 的利用率并减少碎片化，用户通常希望将 GPU 任务优先调度到已经分配了 GPU 的节点上（即“堆叠”策略）。这种策略可以避免因 GPU 分布过于分散而导致资源浪费。
CPU 和内存资源：相比之下，CPU 和内存资源的需求更多样化。对于一些在线服务或批处理任务，用户更倾向于将任务分散到多个节点上（即“打散”策略），以避免单个节点上的资源热点问题，从而提高整体集群的稳定性和性能。

此外，在混合工作负载场景中，不同任务对资源的需求也会相互影响。例如：

在一个同时运行 GPU 训练任务和普通 CPU 密集型任务的集群中，如果 CPU 密集型任务被调度到 GPU 节点上并消耗了大量 CPU 和内存资源，可能会导致后续的 GPU 任务因非 CPU 资源不足而无法启动，最终处于 Pending 状态。
在多租户环境中，某些用户可能只申请 CPU 和内存资源，而另一些用户则需要 GPU 资源。如果调度器不能区分这些需求，可能会导致资源争用和不公平的资源分配。

Kubernetes 原生的 NodeResourcesFit 插件目前对不同资源只支持配置同样的打分策略，举例如下：

apiVersion: kubescheduler.config.k8s.io/v1
kind: KubeSchedulerConfiguration
profiles:
  - pluginConfig:
      - name: NodeResourcesFit
        args:
          apiVersion: kubescheduler.config.k8s.io/v1
          kind: NodeResourcesFitArgs
          scoringStrategy:
            type: LeastAllocated
            resources:
              - name: cpu
                weight: 1
              - name: memory
                weight: 1
              - name: nvidia.com/gpu
                weight: 1

但在生产实践中，有些场景并不适用这种设计。例如：在 AI 场景中，申请 GPU 的业务希望优先占用整个 GPU 机器，防止 GPU 碎片化；申请 CPU&MEM 的业务希望优先 Spread，以降低 CPU 热点。Koordinator 在 v1.6.0 版本中引入了 NodeResourceFitPlus 插件以支持为不同资源配置差异化的打分策略，用户在安装 Koordinator 调度器时可配置如下：

apiVersion: kubescheduler.config.k8s.io/v1
kind: KubeSchedulerConfiguration
profiles:
- pluginConfig:
  - args:
      apiVersion: kubescheduler.config.k8s.io/v1
      kind: NodeResourcesFitPlusArgs
      resources: 
        nvidia.com/gpu:
          type: MostAllocated
          weight: 2
        cpu:
          type: LeastAllocated
          weight: 1
        memory:
          type: LeastAllocated
          weight: 1
    name: NodeResourcesFitPlus
  plugins:
    score:
      enabled:
      - name: NodeResourcesFitPlus
        weight: 2
  schedulerName: koord-scheduler

另外，申请 CPU&MEM 的业务会希望优先分散到非 GPU 机器，防止 GPU 机器上 CPU&MEM 消耗过大，导致真正的申请 GPU 任务因非 GPU 资源不足而处于 Pending 状态。Koordinator 在 v1.6.0 当中引入了 ScarceResourceAvoidance 插件以支持该需求，用户可配置调度器如下，表示 nvidia.com/gpu 是稀缺资源，当 Pod 没有申请该稀缺资源时尽量避免调度到上面。

apiVersion: kubescheduler.config.k8s.io/v1
kind: KubeSchedulerConfiguration
profiles:
- pluginConfig:
  - args:
      apiVersion: kubescheduler.config.k8s.io/v1
      kind: ScarceResourceAvoidanceArgs
      resources: 
      - nvidia.com/gpu
    name: ScarceResourceAvoidance
  plugins:
    score:
      enabled:
      - name: NodeResourcesFitPlus
        weight: 2
      - name: ScarceResourceAvoidance
        weight: 2
      disabled:
      - name: "*"
  schedulerName: koord-scheduler

关于 GPU 资源差异化调度策略的详细设计和使用指导，请参考：

由衷感谢社区开发者 @LY-today 对该特性的贡献。

5、精细化资源预留：满足 AI 任务的高效运行需求

异构资源的高效利用往往依赖于与其紧密耦合的 CPU 和 NUMA 资源的精确对齐。例如：

GPU 加速任务：在多 NUMA 节点的服务器中，如果 GPU 与 CPU 或内存之间的物理连接跨越了 NUMA 边界，可能会导致数据传输延迟增加，从而显著降低任务性能。因此，这类任务通常要求 GPU、CPU 和内存分配在同一 NUMA 节点上。
AI 推理服务：在线推理任务对延迟非常敏感，需要确保 GPU 和 CPU 的资源分配尽可能靠近，以减少跨 NUMA 节点的通信开销。
科学计算任务：一些高性能计算任务（如分子动力学模拟或天气预测）需要高带宽、低延迟的内存访问，因此必须严格对齐 CPU 核心和本地内存。

这些需求不仅适用于任务调度，也延伸到了资源预留场景。在生产环境中，资源预留是一种重要的机制，用于为关键任务提前锁定资源，确保其在未来的某个时间点能够顺利运行。然而，在异构资源场景下，简单的资源预留机制往往无法满足精细化的资源编排需求。例如：

某些任务可能需要预留特定 NUMA 节点上的 CPU 和 GPU 资源，以保证任务启动后能够获得最佳性能。
在多租户集群中，不同用户可能需要预留不同类型的资源组合（如 GPU + CPU + 内存），并且希望这些资源能够严格对齐。
当预留资源未被完全使用时，如何灵活地将剩余资源分配给其他任务，同时避免影响预留任务的资源保障，也是一个重要挑战。

为了应对这些复杂的场景，Koordinator 在 v1.6 版本中对资源预留功能进行了全面增强，提供了更精细化和灵活的资源编排能力。具体包括以下改进：

支持精细化 CPU、GPU 资源的预留和抢占。
支持 Pod 对预留资源量的精确匹配。
资源预留亲和性支持指定预留名称和污点容忍属性。
资源预留支持 Pods 数限制。
支持资源预留抢占低优先级 Pod。

插件扩展接口变动：

预留资源校验接口 ReservationFilterPlugin 从 PreScore 阶段前置到 Filter 阶段以确保过滤结果更准确。
预留资源账本归还接口 ReservationRestorePlugin 废弃了不需要的方法以提升调度效率。

以下是新功能的使用示例：

预留资源量精确匹配（Exact-Match Reservation）指定 Pod 精确匹配预留资源量，可以用于缩小一组 Pod 和一组预留资源的匹配关系，让预留资源的分配更可控。

apiVersion: v1
kind: Pod
metadata:
  annotations:
    # 指定Pod精确匹配预留的资源类别，Pod只能匹配在这些资源类别下预留资源量和Pod规格完全相等的Reservation对象；比如指定"cpu","memory","nvidia.com/gpu"
    scheduling.koordinator.sh/exact-match-reservation: '{"resourceNames":{"cpu","memory","nvidia.com/gpu"}}'

忽略资源预留（reservation-ignored）指定 Pod 忽略资源预留，可以让 Pod 填充已预留但未分配的节点空闲资源，配合抢占使用可以更减少资源碎片。

apiVersion: v1
kind: Pod
metadata:
  labels:
    # 指定Pod的调度可以忽略掉资源预留
    scheduling.koordinator.sh/reservation-ignored: "true"

指定资源预留名称的亲和性（ReservationAffinity）

apiVersion: v1
kind: Pod
metadata:
  annotations:
    # 指定Pod匹配的资源预留名称
    scheduling.koordinator.sh/reservation-affinity: '{"name":"test-reservation"}'

指定资源预留的污点和容忍

apiVersion: scheduling.koordinator.sh/v1alpha1
kind: Reservation
metadata:
  name: test-reservation
spec:
  # 指定Reservation的Taints，其预留资源只能分配给容忍该污点的Pod
  taints:
  - effect: NoSchedule
    key: test-taint-key
    value: test-taint-value
  # ...
---
apiVersion: v1
kind: Pod
metadata:
  annotations:
    # 指定Pod对资源预留的污点容忍
    scheduling.koordinator.sh/reservation-affinity: '{"tolerations":[{"key":"test-taint-key","operator":"Equal","value":"test-taint-value","effect":"NoSchedule"}]}'

开启 reservation 抢占

注：当前不支持高优 Pod 抢占低优 Reservation 的用法。

apiVersion: kubescheduler.config.k8s.io/v1beta3
kind: KubeSchedulerConfiguration
profiles:
- pluginConfigs:
  - name: Reservation
    args:
      apiVersion: kubescheduler.config.k8s.io/v1beta3
      kind: ReservationArgs
      enablePreemption: true
  # ...
  plugins:
    postFilter:
    # 调度器配置中，关闭DefaultPreemption插件的抢占，开启Reservation插件的抢占
    - disabled:
      - name: DefaultPreemption
      # ...
    - enabled:
      - name: Reservation

由衷感谢社区开发者 @saintube 对该特性的贡献！

6、混部：Mid tier 支持空闲资源再分配，增强 Pod 级别 QoS 配置

在现代数据中心中，混部技术已经成为提升资源利用率的重要手段。通过将延迟敏感型任务（如在线服务）与资源密集型任务（如离线批处理）混合部署在同一集群中，企业可以显著降低硬件成本并提高资源使用效率。然而，随着混部集群资源水位的不断提高，如何确保不同类型任务之间的资源隔离成为关键挑战。

在混部场景中，资源隔离能力的核心目标是：

保障高优先级任务的性能：例如，在线服务需要稳定的 CPU、内存和 I/O 资源，以满足低延迟要求。
充分利用空闲资源：离线任务应尽可能利用高优先级任务未使用的资源，但不能对高优先级任务造成干扰。
动态调整资源分配：根据节点负载的变化实时调整资源分配策略，避免资源争抢或浪费。

为了实现这些目标，Koordinator 持续构建和完善资源隔离能力。在 v1.6 版本中，我们主要围绕资源超卖和混部 QoS 展开了一系列功能优化和问题修复，具体包括以下内容：

Mid 资源超卖和节点画像特性优化计算逻辑，支持超卖节点未分配资源，避免对节点资源进行二次超卖。
负载感知调度优化指标降级逻辑。
CPU QoS、Resctrl QoS 支持 pod 维度配置。
带外负载管理补充 prometheus metrics，以增强可观测性。
Blkio QoS、资源放大等特性的 bugfixes。

Mid 资源超卖从 Koordinator v1.3 版本开始引入，提供基于节点画像的动态资源超卖能力。但是，为了确保超卖资源的稳定性，Mid 资源完全从节点上已分配的 Prod pods 中获取，意味着空节点一开始是没有 Mid 资源的，这给一些工作负载使用 Mid 资源带来了诸多不便，Koordinator 社区也收到了一些企业用户的反馈和贡献。 Resource Model 在 v1.6 版本中，Koordinator 更新了超卖计算公式，如下：

MidAllocatable := min(ProdReclaimable, NodeAllocatable * thresholdRatio) + ProdUnallocated * unallocatedRatio
ProdReclaimable := min(max(0, ProdAllocated - ProdPeak * (1 + safeMargin)), NodeUnused)

计算逻辑有两点变化：

支持按静态比例对未分配资源进行超卖，以改善冷启动问题。
不允许超卖实际已使用的节点资源，避免因二次超卖场景导致预估值过大；例如，一些用户使用了 Koordinator 的节点资源放大能力以调度更多 Prod pods，使得节点上 ProdAllocated > NodeAllocatable，导致 MidAllocatable 的预估值已经偏离真实的节点负载。

此外，在混部 QoS 方面，Koordinator v1.6 增强了 Pod 粒度的 QoS 策略配置能力，适用于例如混部节点上加黑干扰 Pod 以及灰度调整混部 QoS 的使用场景：

Resctrl 特性，支持 Pod 维度的 LLC 和内存带宽隔离能力
CPU QoS 特性，支持 Pod 维度的 CPU QoS 配置

Resctrl 特性可通过以下方式在 Pod 维度启用：

在 Koordlet 中 feature-gate 中启用 Resctrl 特性。
通过 Pod Annotation 协议node.koordinator.sh/resctrl，配置 LLC 及内存带宽（MB）限制策略。例如，

apiVersion: v1
kind: Pod
metadata:
  annotations:
    node.koordinator.sh/resctrl: '{"llc": {"schemata": {"range": [0, 30]}}, "mb": {"schemata": {"percent": 20}}}'

Pod 维度的 CPU QoS 配置则可通过以下方式启用：

启用 CPU QoS，请参照：https://koordinator.sh/docs/user-manuals/cpu-qos/
通过 Pod Annotation 协议koordinator.sh/cpuQOS，配置 Pod 的 CPU QoS 策略。例如，

apiVersion: v1
kind: Pod
metadata:
  annotations:
    koordinator.sh/cpuQOS: '{"groupIdentity": 1}'

由衷感谢 @kangclzjc、@j4ckstraw、@lijunxin559、@tan90github、@yangfeiyu20102011 等社区开发者在混部相关特性上的贡献！

7、调度、重调度：持续提升的运行效率

在云原生技术持续发展的今天，越来越多的企业将核心业务迁移到 Kubernetes 平台，集群规模和任务数量呈现爆发式增长。这种趋势带来了显著的技术挑战，尤其是在调度性能和重调度策略方面：

调度性能需求：随着集群规模的扩大，调度器需要处理的任务数量急剧增加，这对调度器的性能和扩展性提出了更高要求。例如，在大规模集群中，如何快速完成 Pod 的调度决策、降低调度延迟成为关键问题。
重调度策略需求：在多租户环境下，资源竞争加剧，频繁的重调度可能导致工作负载在不同节点之间反复迁移，进而增加系统负担并影响集群稳定性。此外，如何在保障生产任务稳定运行的同时，合理分配资源以避免热点问题，也成为重调度策略设计的重要考量。

为了应对这些挑战，Koordinator 在 v1.6.0 版本中对调度器和重调度器进行了全面优化，旨在提升调度性能、增强重调度策略的稳定性和合理性。以下是我们在当前版本中针对调度器性能的优化：

将 PodGroup 的 MinMember 检查提前到 PreEnqueue，减少不必要的调度周期。
将 Reservation 的资源归还延迟到 AfterPreFilter 阶段，只在 PreFilterResult 允许的节点上做资源归还，降低算法复杂度。
优化 NodeNUMAResource、DeviceShare、Reservation 等插件的 CycleState 分布，降低内存开销。
为 Koordinator 额外增加的扩展点如 BeforePreFilter、AfterPreFilter 新增延迟指标。

随着集群规模的不断扩大，重调度过程的稳定性和合理性成为核心关注点。频繁的驱逐可能导致工作负载在节点间反复迁移，增加系统负担并引发稳定性风险。为此，我们在 v1.6.0 版本中对重调度器进行了多项优化：

LowNodeLoad 插件优化：
1. LowNodeLoad 插件现在支持配置 ProdHighThresholds 和 ProdLowThresholds，结合 Koordinator 优先级（Priority）对工作负载的资源利用率进行差异化管理，能够减少生产应用引起的热点问题，从而实现更细粒度的负载均衡；
2. 优化了对待驱逐 Pod 的排序逻辑，通过分段函数打分算法选出最适合驱逐的 Pod，确保合理的资源分配，避免因驱逐资源利用率最大的Pod而造成的稳定性问题；
3. 优化了 Pod 驱逐前的检查逻辑，LowNodeLoad 在驱逐 Pod 前逐一检查目标节点是否会因重调度成为新的热点节点，这一优化有效避免了反复重调度的发生。
驱逐控制器 MigrationController 增强：
1. MigrationController 具有 ObjectLimiter 的能力，能够控制某段时间内工作负载的驱逐频率。现在支持配置 namespace 级别的驱逐限流，对 namespace 下的驱逐进行更加精细化的控制；同时将ObjectLimiter从Arbitrator 迁移到 MigrationController 内部，修复了在并发场景下可能出现的限流失效问题；
2. 新增 EvictAllBarePods 配置项，允许用户开启驱逐没有 OwnerRef 的 Pod，从而提高了重调度的灵活性；
3. 新增 MaxMigratingGlobally 配置项，MigrationController 可以单独控制Pod的最大驱逐数量，从而降低了稳定性风险；
4. 优化了 GetMaxUnavailable 方法的计算逻辑，当计算工作负载的最大不可用副本数向下取整为 0 时，默认将其调整为 1，避免导致用户对副本不可用数的控制失去预期的准确性和一致性。
新增重调度全局配置参数 MaxNoOfPodsToEvictTotal，可以确保重调度器全局的 Pod 最大驱逐数量，减少对集群的负担并提升稳定性；

由衷感谢社区开发者 @AdrianMachao、@songtao98、@LY-today、@zwForrest、@JBinin、@googs1025、@bogo-y 在调度重调度优化上的贡献！

未来计划

Koordinator 社区将继续专注于加强 GPU 资源管理和调度功能，提供重调度插件进一步解决资源分配不均衡导致的 GPU 碎片问题，并计划在下一个版本中引入更多新的功能和特性，以支持更复杂的工作负载场景；同时，在资源预留和混部方面，我们将进一步优化，以支持更细粒度的场景。

目前社区已经在规划的 Proposal 如下：

着重解决的使用问题如下：

NRI 插件冲突

长期规划的 Proposal 如下：

提供一个端到端可演进的设备管理方案

我们鼓励用户反馈使用体验，并欢迎更多开发者参与 Koordinator 项目，共同推动其发展！

Koordinator v1.5: 持续优化，进入 CNCF Sandbox

2024年6月18日 · 18 分钟阅读

Rougang Han

Koordinator approver

Jianyu Wang

Koordinator approver

背景

Koordinator 是一个开源项目，基于阿里巴巴在容器调度领域的多年经验积累而生，自发布以来经历了个版本的迭代，持续不断地为 Kubernetes 生态系统带来创新和增强。旨在提供混部工作负载编排、混部资源调度、混部资源隔离和混部性能调优的综合解决方案，帮助用户优化容器性能，并提升集群资源使用效率，管理和优化延迟敏感型工作负载和批处理作业的运行效率和可靠性。

在此，我们向大家宣布 Koordinator v1.5.0 版本的发布，这是自2022年4月正式开源以来，Koordinator 迭代发布的第13个大版本。在2年多的时间里，Koordinator 很荣幸吸引了包括阿里巴巴、蚂蚁科技、Intel、小红书、小米、爱奇艺、360、有赞等众多企业的优秀工程师参与，贡献了众多的想法、代码和场景。在 v1.5.0 版本中，Koordinator 带来了众多的功能优化，新增了 Pod 级别 NUMA 对齐策略、网络 QoS、Core Scheduling 等功能支持。

此外，Koordinator 项目近期通过了 CNCF TOC 投票，顺利被 CNCF 基金会接受为 Sandbox 项目，CNCF 全称 Cloud Native Computing Foundation（云原生计算基金会），旨在为云原生软件构建可持续发展的生态系统，服务于厂商中立的快速增长的开源项目，如 Kubernetes、Prometheus 等。

投票地址：https://github.com/cncf/sandbox/issues/51

版本功能特性解读

Pod级别NUMA对齐策略

在过去的 v1.4.0 版本中，Koordinator 支持了用户在节点上加标签为不同节点配置不同的 NUMA 对齐策略。然而这意味着用户需要提前将集群中的节点拆分为不同 NUMA 对齐策略的节点池，引入了额外管理节点的负担。 Koordinator 在 v1.5.0 中引入了 Pod 级别的 NUMA 对齐策略来解决该问题。举例，我们可以为 pod-1 设置 SingleNUMANode：

apiVersion: v1
kind: Pod
metadata:
  name: pod-1
  annotations:
    scheduling.koordinator.sh/numa-topology-spec: |-
      {
        "numaTopologyPolicy": "SingleNUMANode",
      }
spec:
  containers:
    - name: container-1
      resources:
        requests:
          cpu: '1'
        limits:
          cpu: '1'

引入 Pod 级别的 NUMA 策略后，必然会出现不同 NUMA 策略的节点部署在同一个 NUMA Node 的情况。举例，node-1 有两个 NUMA Node，pod-1 采用 SingleNUMANode 策略使用了 numa-0，pod-2 采用 Restricted 策略使用了 numa-0 和 numa-1。由于 Pod 设置 Limit 只能限制 Pod 在整机维度最多能使用多少资源，无法限制在某个 NUMA 节点下最多能使用多少 NUMA 资源，所以 pod-2 在 numa-0 使用的资源可能超过调度器分配给它的资源量。这时候 pod-2 和 pod-1 在 numa-0 上存在资源竞争。为了解决上述问题，Koordinator 支持用户为 SingleNUMANode 的 Pod 配置独占策略。举例，我们可以配置 Pod 为 SingleNUMANode 且不与跨 NUMA 共存在一个机器上：

apiVersion: v1
kind: Pod
metadata:
  name: pod-1
  annotations:
    scheduling.koordinator.sh/numa-topology-spec: |-
      {
        "numaTopologyPolicy": "SingleNUMANode",
        "singleNUMANodeExclusive": "Required", # Required or Preferred
      }
spec:
  containers:
    - name: container-1
      resources:
        requests:
          cpu: '1'
        limits:
          cpu: '1'

另外，Pod 级别的 NUMA 策略的引入并不意味着废弃 Node 级别的 NUMA 策略，而是相互兼容的。因此，如果 Pod 和节点上的策略不同，Pod 将不会被调度到该节点上；如果节点上的策略为 "", 则表示该节点能够放置任何 Pod；如果 Pod 上的策略为 ""，则表示 Pod 可以调度到任何节点上。

	SingleNUMANode node	Restricted node	BestEffort node
SingleNUMANode pod	[✓]	[x]	[x]
Restricted pod	[x]	[✓]	[x]
BestEffort pod	[x]	[x]	[✓]
""	[✓]	[✓]	[✓]

关于 Pod 级别 NUMA 对齐策略的更多信息，请见 Proposal: Pod-level NUMA Policy。

Terway网络QoS

在 v1.5.0 版本中，Koordinator 联动 Terway 社区提供了网络 QoS 能力。 Terway QoS 的诞生是为了解决混部场景下的网络带宽争抢问题，它支持按单个 Pod 或 QoS 类型进行带宽限制，与其他方案相比具备以下优势：

支持按业务类型限制带宽，适用于多种业务混部的场景。
支持动态调整 Pod 带宽限制。
提供整机带宽限制，支持多网卡，支持容器网络和 HostNetwork Pod 的带宽限制。

Terway QoS 包括3种网络带宽的优先级，对应的 Koordinator 默认 QoS 映射如下：

Koordinator QoS	Kubernetes QoS	Terway Net QoS
SYSTEM	--	L0
LSE	Guaranteed	L1
LSR	Guaranteed	L1
LS	Guaranteed/Burstable	L1
BE	BestEffort	L2

在混部场景中，我们希望在线业务具有最大的带宽保障，以避免争抢；在空闲时，离线业务也可以充分利用所有带宽资源。

因此，用户可以为业务流量定义为3个优先级，从高到低依次为：L0、L1、L2。我们定义争用场景为：当 L0+L1+L2 的总流量超过整机带宽时。 L0 的最大带宽根据 L1 和 L2 的实时流量动态调整。它可以高至整机带宽，低至“整机带宽 - L1 最小带宽 - L2 最小带宽”。在任何情况下，L1 和 L2 的带宽都不会超过各自的上限。在争用场景中，L1 和 L2 的带宽不会低于各自的下限。在争用场景中，带宽将按 L2、L1 和 L0 的顺序进行限制。由于 Terway QoS 只有三个优先级，因此只能设置 LS 和 BE 的全机带宽限制，其余L0部分根据整机的带宽上限计算。

下面是一个配置示例：

# unit: bps
resource-qos-config: |
  {
    "clusterStrategy": {
      "policies": {"netQOSPolicy":"terway-qos"},
      "lsClass": {
        "networkQOS": {
          "enable": true,
          "ingressRequest": "50M",
          "ingressLimit": "100M",
          "egressRequest": "50M",
          "egressLimit": "100M"
        }
      },
      "beClass": {
        "networkQOS": {
          "enable": true,
          "ingressRequest": "10M",
          "ingressLimit": "200M",
          "egressRequest": "10M",
          "egressLimit": "200M"
        }
      }
    }
  }
system-config: |-
  {
    "clusterStrategy": {
      "totalNetworkBandwidth": "600M"
    }
  }

此外，网络 QoS 能力也支持 Pod 维度的带宽限制，采用以下 annotations 协议：

Key	Value
koordinator.sh/networkQOS	'{"IngressLimit": "10M", "EgressLimit": "20M"}'

关于网络 QoS 能力的更多信息，请见 Network Bandwidth Limitation Using Terway QoS 和 Terway 社区。

Core Scheduling

在 v1.5.0 版本中，Koordinator 提供了容器维度的 Core Scheduling 能力，用于多租户场景下降低侧信道（Side Channel Attack）攻击风险，也可以作为 CPU QoS 能力增强混部隔离。

Linux Core Scheduling 支持在用户态定义可以共享物理核的任务分组。属于同一分组的任务将赋予相同的 cookie 作为标识，同一物理核（SMT 维度）在同一时刻只会运行一种 cookie 的任务。通过将这种机制应用到安全方面或性能方面，我们可以做到以下事情：

对不同租户的任务进行物理核维度的隔离。
避免离线任务争抢在线服务的物理资源。

Koordinator 使能内核的 Core Scheduling 机制，实现容器维度的分组隔离策略，最终形成了以下两种能力：

Pod 运行时物理核隔离：对 Pods 进行分组，不同分组的 Pods 不能同时共享物理核，保障多租户隔离。
下一代 CPU QoS 策略：作为 Group Identity 机制以外，兼顾安全的 CPU QoS 能力。

Pod运行时物理核隔离

Koordinator 提供 Pod Label 协议，标识 Pod 的 Core Scheduling 分组。

Key	Value
koordinator.sh/coreSchedulingGroup	"xxx-group"

不同分组的 Pods 运行时在物理核层面互斥，可以规避了一些物理核、L1 cache、L2 cache 维度的侧信道攻击，适用于多租户场景。

container-core-scheduling-img

区别于绑核调度，Pod 运行的物理核范围并不固定，同一物理核在不同时刻可能运行着不同分组的 Pods，物理核资源可以被分时复用。

下一代CPU QoS策略

Koordinator 基于 Anolis OS 内核提供的 Core Scheduling 和 CGroup Idle 机制，构建了新的 CPU QoS 策略。

BE 容器启用 CGroup Idle 特性，最小化调度权重和优先级。
LSR/LS 容器启用 Core Scheduling 特性，支持驱逐物理核上同分组的 BE 任务。

用户可以通过在 slo-controller-config 中指定 cpuPolicy="coreSched" 来启用该策略。

# Example of the slo-controller-config ConfigMap.
apiVersion: v1
kind: ConfigMap
metadata:
  name: slo-controller-config
  namespace: koordinator-system
data:
  resource-qos-config: |
    {
      "clusterStrategy": {
        "policies": {
          "cpuPolicy": "coreSched"
        },
        "lsClass": {
          "cpuQOS": {
            "enable": true,
            "coreExpeller": true,
            "schedIdle": 0
          }
        },
        "beClass": {
          "cpuQOS": {
            "enable": true,
            "coreExpeller": false,
            "schedIdle": 1
          }
        }
      }
    }

关于 Core Scheduling 能力的更多信息，请见 CPU QoS。

其他功能

除了上述新功能特性以外，Koordinator v1.5.0 版本还包含了以下一系列的功能增强和稳定性优化：

功能增强：Reservation Restricted 模式下支持通过 Annotation 控制哪些资源严格遵循 Restricted 语义；将 NUMA 对齐策略 Restricted 的语义跟上游对齐；Coscheduling 实现完全公平的调度队列排队规则，确保同一个 GangGroup 的 Pod 一起出队，不同 Gang 以及裸 Pod 之间按照上次调度时间排队；NRI 模式支持重连机制；koordlet 优化监控指标分类，增加性能指标；BlkioReconcile 配置能力增强。
BugFixes：修复 koordlet CPU 压制功能的内存泄露问题；修复 runtimeproxy 的 panic 问题；修正 CPICollector、BECPUEvict、CPUBurst 模块计算逻辑。
环境适配：所有组件升级到 K8S 1.28；koordlet 支持非 CUDA 镜像的部署；koordlet 适配 kubelet 1.28 配置，优化 cpu manager 兼容逻辑；适配 cri-o 运行时。
重构优化：koordlet 优化 Resctrl 更新逻辑；优化单机驱逐接口逻辑；优化节点 GPU 资源和卡型号同步逻辑；优化 Batch 账本计算逻辑。
CI/CD：修复多个 flaky tests。

通过 v1.5.0 Release 页面，可以看到更多包含在 v1.5.0 版本的新增功能。

欢迎社区新成员

Koordinator 是一个开放的社区，在 v1.5.0 版本中，共有 10 位新的开发者参与到了 Koordinator 的建设，他们是 @georgexiang、@googs1025、@l1b0k、@ls-2018、@PeterChg、@sjtufl、@testwill、@yangfeiyu20102011、@zhifanggao、@zwForrest。

Koordinator 社区目前有许多来自不同行业的企业级贡献者，其中不少同学成为了项目的 Maintainer 和 Member，近期新加入的 Maintainer 成员有 @songzh215、@j4ckstraw、@lucming、@kangclzjc。在此感谢各位新同学的积极参与和老同学的持续投入，也欢迎更多优秀的同学参与到 Koordinator 社区～

未来计划

在接下来的版本中，Koordinator 目前规划了以下工作：

调度性能优化：调度性能是调度器能否应对大规模集群的关键指标。接下来的版本中，Koordinator 将给出基本的压测环境搭建手册以及常见压测场景，并着手提升 Koord-Scheduler 的调度性能。
设备联合分配。在 AI 大模型分布式训练场景中，不同机器 GPU 之间通常需要通过高性能网卡相互通信，且 GPU 和高性能网卡就近分配的时候性能更好。Koordinator 正在推进支持多种异构资源的联合分配，目前已经在协议上和调度器分配逻辑上支持联合分配；单机侧关于网卡资源的上报逻辑正在探索中。
Job 粒度的抢占实现：在大规模共享集群中，有些配额可能非常繁忙，有些配额可能处于空闲状态。在 ElasticQuota 插件中，我们已经支持从空闲的 ElasticQuota 借用资源。但是，当被借用的 ElasticQuota 关联的 Pod 需要取回资源时，并没有考虑到 Job 粒度。对于属于同一个 Job 的 Pod，我们需要以 Job 粒度进行抢占，以确保获得足够的资源来满足 Job 的需求，提高资源交付效率。之前社区已经通过了 Proposal，接下来 Koordinator 将推进该提案的实现。
负载感知调度针对 inflight pods 的优化：负载感知调度当前基于节点真实利用率进行多个维度的调度过滤和打分，可以用于优化节点利用率的分布，降低 Pod 调度到高负载节点的风险；不过，由于节点利用率视图存在同步延迟，各个阶段的 inflight pods 可能影响利用率信息的准确性，接下来，负载感知调度将完善这部分优化，更充分地规避调度到过载节点，优化节点间的负载均衡度。
细粒度的末级缓存及内存带宽隔离策略：容器间争抢共享的末级缓存和内存带宽资源，可能导致应用访存性能的抖动；当前 Koordinator 提供了 ResctrlQoS 能力，在满足隔离分组的数量限制的前提下，用来对 QoS 维度隔离末级缓存和内存带宽资源，降低离线负载对在线应用的干扰。下一步，Koordinator 将基于 v1.3 版本支持的 NRI (Node Resource Interface) 框架，增强末级缓存及内存带宽的隔离策略，提供 Pod 维度的隔离能力，增强功能的灵活性和时效性。

致谢

自开源以来，Koordinator 已经共计发布了19个小版本，吸引了80多名贡献者的参与，社区的不断发展壮大，离不开广大工程师的积极参与，在此真诚感谢各位社区同学们的贡献和持续投入。同时，也特别感谢 CNCF 社区同仁对项目发展的提供的大力支持。

欢迎更多开发者和用户参与 Koordinator 社区建设，是您们的积极参与和宝贵意见让 Koordinator 不断进步。我们期待您继续提供反馈，并欢迎新的贡献者加入我们。无论您在云原生领域是初学乍练还是驾轻就熟，我们都非常期待听到您的声音！

Koordinator v1.4: 更多的计算负载类型和更灵活的资源管理机制

2024年1月15日 · 28 分钟阅读

Jianyu Wang

Koordinator approver

背景

Koordinator 作为一个积极发展的开源项目，自 2022 年 4 月发布 v0.1.0 版本以来，经历了多次迭代，持续为 Kubernetes 生态系统带来创新和增强。项目的核心是提供混部工作负载编排、混部资源调度、混部资源隔离和混部性能调优的综合解决方案，帮助用户优化容器性能，并提升集群资源使用效率。

在过去的版本迭代中，Koordinator 社区不断壮大，已经得到了包括阿里巴巴、蚂蚁科技、Intel、小米、小红书、爱奇艺、360、有赞、趣玩、美亚柏科、PITS 等知名企业工程师的积极参与和贡献。每一个版本都是在社区共同努力下推进的，反映了项目在实际生产环境中解决问题的能力。

今天我们很高兴的向大家宣布，Koordinator v1.4.0 版本正式发布。在本次发布中，Koordinator 引入了 Kubernetes 与 YARN 负载混部、NUMA 拓扑对齐策略、CPU 归一化和冷内存上报等新特性，同时重点增强了弹性配额管理、宿主机非容器化应用的 QoS 管理、重调度防护策略等领域的功能。这些新增和改进点旨在更好地支持企业级 Kubernetes 集群环境，特别是对于复杂和多样化的应用场景。

v1.4.0 版本的发布，将为用户带来更多的计算负载类型支持和更灵活的资源管理机制，我们期待这些改进能够帮助用户应对更多企业资源管理挑战。在 v1.4.0 版本中，共有 11 位新加入的开发者参与到了 Koordinator 社区的建设，他们是 @shaloulcy，@baowj-678，@zqzten，@tan90github，@pheianox，@zxh326，@qinfustu，@ikaven1024，@peiqiaoWang，@bogo-y，@xujihui1985，感谢期间各位社区同学的积极参与和贡献，也感谢所有同学在社区的持续投入。

版本功能特性解读

1. 支持 K8s 与 YARN 混部

Koordinator 已经支持了 K8s 生态内的在离线混部，然而在 K8s 生态外，仍有相当数量的大数据任务运行在传统的 Hadoop YARN 之上。YARN 作为发展多年的大数据生态下的资源管理系统，承载了包括 MapReduce、Spark、Flink 以及 Presto 等在内的多种计算引擎。

Koordinator 社区会同来自阿里云、小红书、蚂蚁金服的开发者们共同启动了 Hadoop YARN 与 K8s 混部项目 Koordinator YARN Copilot，支持将 Hadoop NodeManager 运行在 kubernetes 集群中，充分发挥不同类型负载错峰复用的技术价值。Koordinator YARN Copilot 具备以下特点：

面向开源生态：基于 Hadoop YARN 开源版本，不涉及对 YARN 的侵入式改造；
统一资源优先级和 QoS 策略：YARN NM 使用 Koordinator 的 Batch 优先级资源，遵循 Koordinator QoS 管理策略；
节点级别的资源共享：Koordinator 提供的混部资源，既可被 K8s Pod 使用，也可被 YARN task使用，不同类型的离线应用可运行在同一节点。

关于 Koordinator YARN Copilot 的详细设计，以及在小红书生产环境的使用情况，请参考往期文章以及社区官方文档。

2. 引入 NUMA 拓扑对齐策略

运行在 Kubernetes 集群中的工作负载日益多样化。尤其是在机器学习等领域，对于高性能计算资源的需求持续上升。在这些领域中，不仅需要大量 CPU 资源，还经常需要 GPU 和 RDMA 等其他高速计算资源配合使用；并且，为了获得最佳的性能，这些资源往往需要在同一个 NUMA 节点，甚至同一个 PCIE 中。

Kubernetes 的 Kubelet 提供了 Topology Manager 来管理资源分配的 NUMA 拓扑，试图在 Kubelet 的 Admission 阶段从节点层面对齐多种资源的拓扑。然而，节点组件没有调度器的全局视角以及为 Pod 选择节点的时机，可能导致 Pod 被调度到无法满足拓扑对齐策略的节点上，从而导致 Pod 由于 Topology Affinity错误无法启动。

为了解决这一问题，Koordinator 将 NUMA 拓扑选择和对齐的时机放在中心调度器中，从集群级别优化资源之间的 NUMA 拓扑。在本次发布的版本中，Koordinator 将 CPU 资源（包含 Batch 资源）的 NUMA 感知调度和 GPU 设备的 NUMA 感知调度作为 alpha 功能支持，整套 NUMA 感知调度快速演进中。

koordinator 支持用户通过节点的 Label 配置节点上多种资源的 NUMA 拓扑对齐策略，可配置策略如下：

None 是默认策略，不执行任何拓扑对齐。
BestEffort 表示节点不严格按照 NUMA 拓扑对齐来分配资源。只要节点的剩余总量满足 Pods 的需求，调度器总是可以将这样的节点分配给 Pods。
Restricted 表示节点严格按照 NUMA 拓扑对齐来分配资源，即调度器在分配多个资源时必须只选择相同的一个或多个 NUMA 节点，否则不应使用该节点；可以使用多个 NUMA 节点。例如，如果一个Pod请求 33C，并且每个 NUMA 节点有 32C，那么它可以被分配使用两个 NUMA 节点。如果这个Pod还需要请求 GPU/RDMA，那么它需要位于与 CPU 相同的 NUMA 节点上。
SingleNUMANode 与 Restricted 类似，也是严格按照 NUMA 拓扑对齐，但与 Restricted 不同的是，Restricted 允许使用多个NUMA节点，而 SingleNUMANode 只允许使用一个NUMA 节点。

举例，我们可以为 node-0设置策略 SingleNUMANode：

apiVersion: v1
kind: Node
metadata:
  labels:
    node.koordinator.sh/numa-topology-policy: "SingleNUMANode"
  name: node-0
spec:
  ...

在生产环境中，用户可能已经开启了 Kubelet 的拓扑对齐策略，这个策略会由 koordlet 更新到 NodeResourceTopologyCRD 对象中的 TopologyPolicies字段。当 Kubelet 的策略和用户在 Node 上设置的策略相冲突时，以 Kubelet 策略为准。Koordinator 调度器基本采用与 Kubelet Topology Manager 相同的 NUMA 对齐策略语义，Kubelet 策略 SingleNUMANodePodLevel 和SingleNUMANodeContainerLevel被映射为 SingleNUMANode。

在为节点配置好 NUMA 对齐策略的前提下，调度器可以为每个 Pod 选出许多个符合条件的 NUMA Node 分配结果。Koordinator 当前支持 NodeNUMAResource 插件配置 CPU 和内存资源的 NUMA Node 分配结果打分策略，包括 LeastAllocated和 MostAllocated, 默认为 LeastAllocated 策略，资源支持配置权重。调度器最终将选择得分最高的 NUMA Node 分配结果。如下例，我们配置 NUMA Node 分配结果打分策略为 MostAllocated：

apiVersion: kubescheduler.config.k8s.io/v1beta2
kind: KubeSchedulerConfiguration
profiles:
  - pluginConfig:
      - name: NodeNUMAResource
        args:
          apiVersion: kubescheduler.config.k8s.io/v1beta2
          kind: NodeNUMAResourceArgs
          scoringStrategy:  # Here configure Node level scoring strategy
            type: MostAllocated
            resources:
              - name: cpu
                weight: 1
              - name: memory
                weight: 1
              - name: "kubernetes.io/batch-cpu"
                weight: 1
              - name: "kubernetes.io/batch-memory"
                weight: 1
          numaScoringStrategy: # Here configure NUMA-Node level scoring strategy
            type: MostAllocated
            resources:
              - name: cpu
                weight: 1
              - name: memory
                weight: 1
              - name: "kubernetes.io/batch-cpu"
                weight: 1
              - name: "kubernetes.io/batch-memory"
                weight: 1

3. ElasticQuota 再进化

为了充分地利用集群资源、降低管控系统成本，用户常常将多个租户的负载部署在一个集群中。在集群资源有限的情况下，不同租户之间必然会发生资源争抢。有的租户的负载可能一直被满足，而有的租户的负载一直无法得到执行。这就产生对公平性的诉求。配额机制是非常自然地保障租户间公平性的方式，给每个租户一个配额，租户可以使用配额内的资源，超过配额的任务将不被调度和执行。然而，简单的配额管理无法满足租户对云的弹性期待。用户希望除了配额之内的资源请求可以被满足外，配额之外的资源请求也可以按需地被满足。

在之前的版本中，Koordinator 复用了上游 ElasticQuota 的协议，允许租户设置 Min 表达其一定要满足的资源诉求，允许设置 Max 限制其最大可以使用的资源和表达在集群资源不足的情况下对集群剩余资源的使用权重。另外，koordinator 观察到，一些租户可能通过 Min 申请了配额，但是实际的任务申请可能并没有充分利用该配额。由此，为了更近一步地提高资源利用率，Koordinator 允许租户间借用/归还资源。

除了提供弹性的配额机制满足租户按需诉求外，Koordinator 在 ElasticQuota 上增加注解将其组织成树的结构，方便用户表达树形的组织架构。

上图是使用了 Koordinator 弹性配额的集群中常见的 Quota 结构树。Root Quota 是连接配额与集群中实际资源之间的桥梁。在之前的设计中，Root Quota 只在调度器逻辑中存在，在本次发布中，我们将 Root Quota 也通过 CRD 的形式暴露给用户，用户可以通过 koordinator-root-quota 这个 ElasticQuota CRD 查看 Root Quota 信息。

3.1 引入 Multi QuotaTree

大型集群中的节点的形态是多样的，例如云厂商提供的 ECS VM 会有不同的架构，常见的是 amd64 和 arm64，相同架构又会有不同种类的机型，而且一般会把节点按可用区划分。不同类型的节点放到同一个 Quota Tree 中管理时，其特有的属性将丢失，当用户希望精细化管理机器的特有属性时，当前的 ElasticQuota 显得不够精确。为了满足用户灵活的资源管理或资源隔离诉求，Koordinator 支持用户将集群中的资源划分为多份，每一份由一个 Quota Tree 来管理，如下图所示：

同时，为了帮助用户简化管理复杂性，Koordinator 在 v1.4.0 中引入了 ElasticQuotaProfile 机制，用户可以通过 nodeSelector 快速的将节点关联到不同的 QuotaTree 中，如下实例所示：

apiVersion: quota.koordinator.sh/v1alpha1
kind: ElasticQuotaProfile
metadata:
  labels:
    kubernetes.io/arch: amd64
  name: amd64-profile
  namespace: kube-system
spec:
  nodeSelector:
    matchLabels:
      kubernetes.io/arch: amd64 // 挑选 amd64 节点
  quotaName: amd64-root-quota   // 匹配的 root quota 名称
---
apiVersion: quota.koordinator.sh/v1alpha1
kind: ElasticQuotaProfile
metadata:
  labels:
    kubernetes.io/arch: arm64   
  name: arm64-profile
  namespace: kube-system
spec:
  nodeSelector:
    matchLabels:
      kubernetes.io/arch: arm64  // 挑选 arm64 节点
  quotaName: arm64-root-quota    // 匹配的 root quota 名称

关联好 QuotaTree 之后，用户在每一个 QuotaTree 中与之前的 ElasticQuota 用法一致。当用户提交 Pod 到对应的 Quota 时，当前仍然需要用户完成 Pod NodeAffinity 的管理，以确保 Pod 运行在正确的节点上。未来，我们会增加一个特性帮助用户自动管理 Quota 到 Node 的映射关系。

3.2 支持 non-preemptible

Koordinator ElasticQuota 支持把 ElasticQuota 中 Min 未使用的部分共享给其他 ElasticQuota 使用从而提高资源利用效率，但当资源紧张时，会通过抢占机制把借用配额的 Pod 抢占驱逐走拿回资源。

在实际生产环境中，有一些在线服务如果从其他 ElasticQuota 中借用了这部分额度，后续又发生了抢占，是可能影响服务质量的。这类工作负载实质上是不能被抢占的。

为了实现这个机制，Koordinator v1.4.0 引入了新的 API，用户只需要在 Pod 上声明 quota.scheduling.koordinator.sh/preemptible: false 表示这个 Pod 不可以被抢占。

调度器调度时发现 Pod 声明了不可抢占，那么此类 Pod 的可用配额的上限不能超过 min，所以这里也需要注意的是，启用该能力时，一个 ElasticQuota 的 min 需要设置的合理，并且集群内有相应的资源保障。

这个特性不会破坏原有的行为。

apiVersion: v1
kind: Pod
metadata:
  name: pod-example
  namespace: default
  labels:
    quota.scheduling.koordinator.sh/name: "quota-example"
    quota.scheduling.koordinator.sh/preemptible: false
spec:
...

3.3 其它改进

Koordinator Scheduler 过去支持跨 Namespace 使用同一个 ElasticQuota 对象，但有一些场景下，希望只被一个或者多个有限的 Namespace 可以共享同一个对象，为了支持这个场景，用户可以在 ElasticQuota 上增加 annotation quota.scheduling.koordinator.sh/namespaces，对应的值为一个 JSON 字符串数组。
性能优化：过去的实现中，当 ElasticQuota 发生变化时，ElasticQuota 插件会重建整棵 Quota 树，在 v1.4.0 版本中做了优化。
支持忽略 Overhead：当 Pod 使用一些安全容器时，一般是在 Pod 中声明 Overhead 表示安全容器自身的资源开销，但这部分资源成本最终是否归于终端用户承担取决于资源售卖策略。当期望不用用户承担这部分成本时，那么就要求 ElaticQuota 忽略 overhead。在 v1.4.0 版本中，可以开启 featureGate ElasticQuotaIgnorePodOverhead 启用该功能。

4. CPU 归一化

随着 Kubernetes 集群中节点硬件的多样化，不同架构和代数的 CPU 之间性能差异显著。因此，即使 Pod 的 CPU 请求相同，实际获得的计算能力也可能大不相同，这可能导致资源浪费或应用性能下降。CPU 归一化的目标是通过标准化节点上可分配 CPU 的性能，来保证每个 CPU 单元在 Kubernetes 中提供的计算能力在异构节点间保持一致。

为了解决该问题，Koordinator 在 v1.4.0 版本中实现了一套支持 CPU 归一化机制，根据节点的资源放大策略，调整节点上可分配的 CPU 资源数量，使得集群中每个可分配的 CPU 通过缩放实现算力的基本一致。整体的架构如下图所示：

CPU 归一化分为两个步骤：

CPU 性能评估，计算不同 CPU 的性能基准，可以参考工业级性能评测标准 SPEC CPU，这部分 Koordinator 项目未提供；
配置 CPU 归一化系数到 Koordinator，调度系统基于归一化系数来调度资源，这部分 Koordinator 提供；

将 CPU 归一化比例信息配置到 koord-manager 的 slo-controller-config 中，配置示例如下：

apiVersion: v1
kind: ConfigMap
metadata:
  name: slo-controller-config
  namespace: koordinator-system
data:
  cpu-normalization-config: |
    {
      "enable": true,
      "ratioModel": {
         "Intel(R) Xeon(R) Platinum 8269CY CPU @ 2.50GHz": {
           "baseRatio": 1.29,
           "hyperThreadEnabledRatio": 0.82,
           "turboEnabledRatio": 1.52,
           "hyperThreadTurboEnabledRatio": 1.0
         },
         "Intel Xeon Platinum 8369B CPU @ 2.90GHz": {
           "baseRatio": 1.69,
           "hyperThreadEnabledRatio": 1.06,
           "turboEnabledRatio": 1.91,
           "hyperThreadTurboEnabledRatio": 1.20
         }
      }
    }
  # ...

对于配置了 CPU 归一化的节点，Koordinator 通过 Webhook 拦截 Kubelet 对 Node.Status.Allocatable 的更新以实现 CPU 资源的缩放，最终在节点上呈现出归一后的 CPU 资源可分配量。

5. 改进的重调度防护策略

Pod 迁移是一个复杂的过程，涉及审计、资源分配、应用启动等步骤，并且与应用升级、扩展场景以及集群管理员的资源操作和维护操作混合在一起。因此，如果同时有大量 Pods 正在进行迁移，可能会对系统的稳定性产生影响。此外，如果同一工作负载的许多Pods同时被迁移，也会影响应用的稳定性。此外，如果同时迁移多个作业中的 Pods，可能会造成惊群效应。因此，我们希望顺序处理每个作业中的 Pods。

Koordinator 在之前提供的 PodMigrationJob 功能中已经提供了一些防护策略来解决上述问题。在 v1.4.0 版本中，Koordinator 将之前的防护策略增强为仲裁机制。当有大量的 PodMigrationJob 可以被执行时，由仲裁器通过排序和筛选，来决定哪些 PodMigrationJob 可以得到执行。

排序过程如下：

根据迁移开始时间与当前时间的间隔进行排序，间隔越小，排名越高。
根据 PodMigrationJob 的 Pod 优先级进行排序，优先级越低，排名越高。
按照工作负载分散 Jobs，使得同一作业中的 PodMigrationJobs 靠近。
如果作业中已有 Pods 正在迁移，则该 PodMigrationJob 的排名更高。

筛选过程如下：

根据工作负载、节点、命名空间等对 PodMigrationJob 进行分组和筛选。
检查每个工作负载中正在运行状态的 PodMigrationJob 数量，达到一定阈值的将被排除。
检查每个工作负载中不可用副本的数量是否超出了最大不可用副本数，超出的将被排除。
检查目标 Pod 所在节点上正在迁移的 Pod 数量是否超过单个节点的最大迁移量，超出的将被排除。

6. 冷内存上报

为提升系统性能，内核一般尽可能不让应用程序请求的页面缓存空闲，而是尽可能将其分配给应用程序。虽然内核分配了这些内存，但是应用可能不再访问，这些内存被称为冷内存。

Koordinator 在 1.4 版本中引入冷内存上报功能，主要为未来冷内存回收功能打下基础。冷内存回收主要用于应对两个场景：

对于标准的 Kubernetes 集群，当节点内存水位过高时，突发的内存请求容器导致系统直接内存回收，操作系统的直接内存回收触发时会影响已经运行容器的性能，如果回收不及时极端场景可能触发整机 oom。保持节点内存资源的相对空闲，对提升运行时稳定性至关重要
在混部场景中，高优先级应用程序请求但未使用的资源可以被低优先级应用程序回收利用。对内存而言，操作系统未回收的内存，是不能被 Koordinator 调度系统看到的。为了提高混部资源效率，回收容器未使用的内存页面可以提高整机的资源利用效率

Koordlet 在 Collector Plugins 中添加了一个冷页面回收器，用于读取由 kidled（Anolis 内核）、kstaled（Google）或 DAMON（Amazon）导出的 cgroup 文件 memory.idle_stat。该文件包含页面缓存中的冷页面信息，并存在于 memory 的每个层次结构中。目前 koordlet 已经对接了 kidled 冷页面收集器并提供了其他冷页面收集器接口。

在收集冷页面信息后，冷页面回收器将把收集到的指标（例如节点、Pod 和容器的热页面使用量和冷页面大小）存到 metriccache 中，最后该数据会被上报到 NodeMetric CRD 中。

用户可以通过 NodeMetric 启用冷内存回收和配置冷内存收集策略，当前提供了 usageWithHotPageCache、usageWithoutPageCache 和 usageWithPageCache 三种策略，更多的细节详见社区设计文档。

7. 非容器化应用的 QoS 管理

在企业容器化过程中，除了已经运行在 K8s 上的应用，可能还会存在一些非容器化的应用运行在主机上。为了更好兼容企业在容器化过程这一过渡态，Koordinator 开发了节点资源预留机制，可以未尚未容器化的应用预留资源并赋予特定的 QoS 特性。与 Kubelet 提供的资源预留配置不同，Koordinator 主要目标是解决这些非容器化应用与容器化应用运行时的 QoS 问题，整体的方案如下图所示：

目前，应用程序需要按照规范将进程启动到对应的 cgroup 中，Koordinator 未实现自动的 cgroup 搬迁工具。针对宿主机非容器化应用，支持 QoS 如下：

LS (Latency Sensitive)
- CPU QoS(Group Identity)：应用按照规范将进程运行在 cgroup 的 cpu 子系统中，koordlet 根据 CPU QoS 的配置 resource-qos-config 为其设置 Group Identity 参数；
- CPUSet Allocation：应用按照规范将进程运行在 cgroup 的 cpu 子系统中，koordlet 将为其设置 cpu share pool 中的所有 CPU 核心。
BE (Best-effort)
- CPU QoS(Group Identity)：应用按照规范将进程运行在 cgroup 的 cpu 子系统中，koordlet 根据 CPU QoS 的配置为其设置 Group Identity 参数。

关于宿主机应用 QoS 管理的详细设计，可以参考社区文档，后续我们将陆续增加其他QoS策略对宿主机应用的支持。

8. 其它特性

除了上述新特性和功能增强外，Koordinator 在 v1.4.0 版本还做了一些如下的 bugfix 和优化：

RequiredCPUBindPolicy：精细化 CPU 编排支持 Required 的 CPU 绑定策略配置，表示严格按照指定的 CPU 绑定策略分配 CPU，否则调度失败。
CICD：Koordinator 社区在 v1.4.0 提供了一套 e2e 测试的 Pipeline；提供了 ARM64 镜像。
Batch 资源计算策略优化：支持了 maxUsageRequest 的计算策略，用于更保守地超卖高优资源；优化了节点上短时间大量 Pod 启停时，Batch allocatable 被低估的问题；完善了对 hostApplication、thirdparty allocatable、dangling pod used 等特殊情况的考虑。
其它：利用 libpfm4&perf group 优化 CPI 采集、SystemResourceCollector 支持自定义的过期时间配置、BE Pod 支持根据 evictByAllocatable 策略计算CPU 满足度、Koordlet CPUSetAllocator 修复了对于 LS 和 None Qos 的 Pod 的过滤逻辑、RDT 资源控制支持获得 sandbox 容器的 task IDs 等

通过 v1.4.0 Release 页面，可以看到更多包含在 v1.4.0 版本的新增功能。

未来计划

在接下来的版本中，Koordinator 目前规划了以下功能：

Core Scheduling。在运行时侧，Koordinator 开始探索下一代 CPU QoS 能力，通过利用 Linux Core Scheduling 等内核机制，增强的物理核维度的资源隔离，降低混部的安全性风险，相关工作详见 Issue #1728。
设备联合分配。在 AI 大模型分布式训练场景中，不同机器 GPU 之间通常需要通过高性能网卡相互通信，且 GPU 和高性能网卡就近分配的时候性能更好。Koordinator 正在推进支持多种异构资源的联合分配，目前已经在协议上和调度器分配逻辑上支持联合分配；单机侧关于网卡资源的上报逻辑正在探索中。

更多信息，敬请关注 Milestone v1.5.0。

结语

最后，我们十分感谢 Koordinator 社区的所有贡献者和用户，是您们的积极参与和宝贵意见让 Koordinator 不断进步。我们期待您继续提供反馈，并欢迎新的贡献者加入我们的行列。

Koordinator v1.3: 增强资源预留，支持 NRI，提供节点画像的 Mid 资源超卖

2023年8月16日 · 12 分钟阅读

Rougang Han

Koordinator approver

背景

Koordinator 是一个开源项目，旨在基于阿里巴巴在容器调度领域的多年经验，提供一个完整的混部解决方案，包含混部工作负载编排、资源调度、资源隔离及性能调优等多方面能力，来帮助用户优化容器性能，充分发掘空闲物理资源，提升资源效率，增强延迟敏感型工作负载和批处理作业的运行效率和可靠性。

在此，我们很高兴地向各位宣布 Koordinator v1.3.0 版本的发布。自 2022 年 4 月发布 v0.1.0 版本以来，Koordinator 迄今迭代发布了共 11 个版本，吸引了了包括阿里巴巴、Intel、小米、小红书、爱奇艺、360、有赞等企业在内的大量优秀工程师参与贡献。在 v1.3.0 版本中，Koordinator 带来了 NRI (Node Resource Interface) 支持、Mid 资源超卖等新特性，并在资源预留、负载感知调度、DeviceShare 调度、负载感知重调度、调度器框架、单机指标采集和资源超卖框架等特性上进行了稳定性修复、性能优化与功能增强。

在 v1.3.0 版本中，共有 12 位新加入的开发者参与到了 Koordinator 社区的建设，他们是 @bowen-intel，@BUPT-wxq，@Gala-R，@haoyann，@kangclzjc，@Solomonwisdom，@stulzq，@TheBeatles1994，@Tiana2018，@VinceCui，@wenchezhao，@zhouzijiang，感谢期间各位社区同学的积极参与和贡献，也感谢所有同学在社区的持续投入。

版本功能特性解读

资源预留增强

资源预留（Reservation）能力自 v0.5.0 版本提出后，经历了一年的打磨和迭代，在 v1.3.0 版本中针对抢占、设备预留、Coscheduling 等场景增强了预留机制，新增 allocatePolicy 字段用于定义不同的预留资源分配策略。最新的资源预留 API 如下：

apiVersion: scheduling.koordinator.sh/v1alpha1
kind: Reservation
metadata:
  name: reservation-demo
spec:
  # template字段填写reservation对象的资源需求和affinity信息，就像调度pod一样.
  template:
    namespace: default
    spec:
      containers:
        - args:
            - '-c'
            - '1'
          command:
            - stress
          image: polinux/stress
          imagePullPolicy: Always
          name: stress
          resources:
            requests:
              cpu: 500m
              memory: 1Gi
      nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
         nodeSelectorTerms:
            - matchExpressions:
                 - key: topology.kubernetes.io/zone
                   operator: In
                   values:
                      - cn-hangzhou-i
      schedulerName: koord-scheduler # 指定koord-scheduler来负责reservation对象的调度.
  # 指定可分配预留资源的owners.
  owners:
    - labelSelector:
        matchLabels:
          app: app-demo
  ttl: 1h
  # 指定预留资源是否仅支持一次性的分配.
  allocateOnce: true
  # 指定预留资源的分配策略,当前支持以下策略:
  # - Default: 缺省配置，不限制对预留资源的分配，pod优先分配自节点上的预留资源；如果预留资源不足，则继续分配节点空闲资源。
  # - Aligned: pod优先分配自节点上的预留资源；如果预留资源不足，则继续分配节点空闲资源，但要求这部分资源满足Pod需求。该策略可用于规避pod同时分配多个reservation的资源。
  # - Restricted: 对于预留资源包含的各个资源维度，pod必须分配自预留资源；其余资源维度可以分配节点空闲资源。包含了Aligned策略的语义。
  # 同一节点尚不支持Default策略和Aligned策略或Restricted策略共存。
  allocatePolicy: "Aligned"
  # 控制预留资源是否可以使用
  unschedulable: false

此外，资源预留在 v1.3.0 中还包含了如下兼容性和性能优化：

增强 Reservation 的抢占，允许 Reservation 内的 Pod 间抢占，拒绝 Reservation 外的 Pod 抢占 Reservation 内的 Pod。
增强设备预留场景，如果节点上设备资源被部分预留并被 pod 使用，支持剩余资源的分配。
支持 Reservation 使用 Coscheduling。
新增 Reservation Affinity协议，允许用户一定从Reservation内分配资源。
优化 Reservation 兼容性，修复因 Reservation 导致原生打分插件失效的问题。
优化因引入 Reservation 导致的调度性能回归问题。
修复 Reservation 预留端口误删除的问题。

关于资源预留的设计，详见Designs - Resource Reservation。

其他调度增强

在 v1.3.0 中，koordinator 在调度和重调度方面还包含如下增强：

DeviceShare 调度
- 更改 GPU 资源使用方式，使用 GPU Share API 时，必须声明koordinator.sh/gpu-memory或koordinator.sh/gpu-memory-ratio，允许不声明koordinator.sh/gpu-core。
- 支持打分，可用于实现 GPU Share 场景和整卡分配场景的 bin-packing 或 spread，并支持卡粒度 binpacking 或 spread。
- 修复用户误删除 Device CRD 导致调度器内部状态异常重复分配设备的问题。
负载感知调度：修复对仅填写 Request 的 Pod 的调度逻辑。
调度器框架：优化 PreBind 阶段的 Patch 操作，将多个插件的 Patch 操作合并为一次提交，提升操作效率，降低 APIServer 压力。
重调度
- LowNodeLoad 支持按节点池设置不同的负载水位和参数等。自动兼容原有配置。
- 跳过 schedulerName 不是 koord-scheduler 的Pod，支持配置不同的 schedulerName。

NRI 资源管理模式

Koordinator 的 runtime hooks 支持两种模式，standalone 和 CRI proxy，然而这两种模式各自有着一些限制。当前，尽管在 standalone 模式做了很多优化，但当想获得更加及时的 Pod 或容器的事件或者环境变量的注入时还是需要依赖 proxy 模式。然而， proxy 模式要求单独部署 koord-runtime-proxy 组件来代理 CRI (Container Runtime Interface) 请求, 同时需要更改 Kubelet 的启动参数并重启 Kubelet。

NRI（Node Resource Interface），即节点资源接口，是 CRI 兼容的容器运行时插件扩展的通用框架，独立于具体的容器运行时（e.g. containerd, cri-o）, 提供不同生命周期事件的接口，允许用户在不修改容器运行时源代码的情况下添加自定义逻辑。特别的是，2.0 版本 NRI 只需要运行一个插件实例用于处理所有 NRI 事件和请求，容器运行时通过 Unix-Domain Socket 与插件通信，使用基于 Protobuf 的协议数据，和 1.0 版本 NRI 相比拥有更高的性能，能够实现有状态的 NRI 插件。

通过 NRI 的引入，既能及时的订阅 Pod 或者容器的生命周期事件，又避免了对 Kubelet 的侵入修改。在 Koordinator v1.3.0 中，我们引入 NRI 这种社区推荐的方式来管理 runtime hooks 来解决之前版本遇到的问题，大大提升了 Koordinator 部署的灵活性和处理的时效性，提供了一种优雅的云原生系统的资源管理标准化模式。

nri

注：NRI 模式不支持 docker 的容器运行时，使用 docker 的用户请继续使用 standalone 模式或 proxy 模式。

关于 Koordinator 启用 NRI 的部署方式，请见Installation - Enable NRI Mode Resource Management。

节点画像和 Mid 资源超卖

Koordinator 中将节点资源分为4种资源优先级模型 Prod、Mid、Batch 和 Free，低优先级资源可以复用高优先级已分配但未使用的物理资源，以提升物理资源利用率；同时，资源优先级越高，提供的资源也越稳定，例如 Batch 资源采用高优先级资源短期（short-term）已分配但未使用的超卖资源，而 Mid 资源采用高优先级资源长周期（long-term）已分配但未使用的超卖资源。不同资源优先级模型如下图所示：

resource-priority-model

Koordinator v1.3.0 新增了节点画像能力，基于 Prod 的历史资源用量进行峰值预测，以支持 Mid-tier 的资源超卖调度。Mid 资源的超卖计算公式如下：

MidAllocatable := min(ProdReclaimable, NodeAllocatable * thresholdRatio)
ProdReclaimable := max(0, ProdAllocated - ProdPeak * (1 + safeMargin))

ProdPeak：通过节点画像，预估的节点上已调度 Prod Pod 在中长周期内（e.g. 12h）的用量峰值。
ProdReclaimable：基于节点画像结果，预估在中长周期内可复用的 Prod 资源。
MidAllocatable：节点上可分配的 Mid 资源。

此外，Mid 资源的单机隔离保障将在下个版本得到完善，相关动态敬请关注Issue #1442。在 v1.3.0 版本中，用户可以查看和提交 Mid-tier 的超卖资源，也可以通过以下 Prometheus metrics 来观测节点画像的趋势变化。

# 查看节点的CPU资源画像，reclaimable指标表示预测的可回收资源量，predictor对应不同的预测模型
koordlet_node_predicted_resource_reclaimable{node="test-node", predictor="minPredictor", resource="cpu", unit="core"}
# 查看节点的内存资源画像，reclaimable指标表示预测的可回收资源量，predictor对应不同的预测模型
koordlet_node_predicted_resource_reclaimable{node="test-node", predictor="minPredictor", resource="memory", unit="byte"}

$ kubectl get node test-node -o yaml
apiVersion: v1
kind: Node
metadata:
  name: test-node
status:
  # ...
  allocatable:
    cpu: '32'
    memory: 129636240Ki
    pods: '110'
    kubernetes.io/mid-cpu: '16000' # allocatable cpu milli-cores for Mid-tier pods
    kubernetes.io/mid-memory: 64818120Ki # allocatable memory bytes for Mid-tier pods
  capacity:
    cpu: '32'
    memory: 129636240Ki
    pods: '110'
    kubernetes.io/mid-cpu: '16000'
    kubernetes.io/mid-memory: 64818120Ki

关于 Koordinator 节点画像的设计，详见Design - Node Prediction。

其他功能

通过 v1.3.0 Release 页面，可以看到更多包含在 v1.3.0 版本的新增功能。

未来计划

在接下来的版本中，Koordinator 目前规划了以下功能：

硬件拓扑感知调度，综合考虑节点 CPU、内存、GPU 等多个资源维度的拓扑关系，在集群范围内进行调度优化。
提供节点可分配资源的放大机制。
NRI 资源管理模式的完善和增强。

更多信息，敬请关注 Milestone v1.4.0。

结语

最后，Koordinator 是一个开放的社区，欢迎广大云原生爱好者们随时通过各种方式参与共建，无论您在云原生领域是初学乍到还是驾轻就熟，我们都非常期待听到您的声音！

Koordinator v1.2: 支持节点资源预留，兼容社区重调度策略

2023年4月7日 · 13 分钟阅读

Zuowei Zhang

Koordinator maintainer

背景

Koordinator 是一个开源项目，基于阿里巴巴在容器调度领域多年累积的经验孵化诞生，可以提升容器性能，降低集群资源成本。通过混部、资源画像、调度优化等技术能力，能够提高延迟敏感的工作负载和批处理作业的运行效率和可靠性，优化集群资源使用效率。

从 2022 年 4 月发布以来，Koordinator 迄今一共迭代发布了 10 个版本，吸引了了包括阿里巴巴、小米、小红书、爱奇艺、360、有赞等在内的大量优秀工程师参与贡献。随着2023年春天的来临，Koordinator也迎来了它的一周年诞辰，在此我们很高兴的向大家宣布，Koordinator v1.2版本正式发布。新版本中Koordinator支持了节点资源预留功能，并兼容了K8s社区的重调度策略，同时在单机侧增加了对AMD环境L3 Cache和内存带宽隔离的支持。

在新版本中，共有12位新加入的开发者参与到了Koordiantor社区的建设，他们是@Re-Grh，@chengweiv5，@kingeasternsun，@shelwinnn，@yuexian1234，@Syulin7，@tzzcfrank @Dengerwei，@complone，@AlbeeSo，@xigang，@leason00，感谢以上开发者的贡献和参与。

版本功能特性解读

节点资源预留

混部场景中包含的应用形态多种多样，除了已经完成云原生化的容器，还包含很多尚未完成容器化的应用，这部分应用会以进程的形式在宿主机上与K8s容器共同运行。为了减少K8s应用和其他类型应用在节点侧的资源竞争，Koordinator 支持将一部分资源预留，使其既不参与调度器的资源调度，也不参与节点侧的资源分配，达到资源分隔使用的效果。在v1.2版本中，Koordiantor已经支持CPU和内存资源维度的预留，并允许直接指定预留的CPU编号，具体如下。

节点资源预留声明

在Node上可以配置需要预留的资源量或具体的CPU编号，举例如下：

apiVersion: v1
kind: Node
metadata:
  name: fake-node
  annotations: # specific 5 cores will be calculated, e.g. 0, 1, 2, 3, 4, and then those core will be reserved.
    node.koordinator.sh/reservation: '{"resources":{"cpu":"5"}}'
---
apiVersion: v1
kind: Node
metadata:
  name: fake-node
  annotations: # the cores 0, 1, 2, 3 will be reserved.
    node.koordinator.sh/reservation: '{"reservedCPUs":"0-3"}'

单机组件Koordlet在上报节点资源拓扑信息时，会将具体预留的CPU编号更新到NodeResourceTopology对象的Annotation中。

调度及重调度场景适配

调度器在分配资源的过程中，涉及了多种情况的资源校验，包括Quota管理，节点容量校验，CPU拓扑校验等等，这些场景都需要增加对节点预留资源的考虑，例如，调度器在计算节点CPU容量时，需要将节点预留的资源进行扣除。

cpus(alloc) = cpus(total) - cpus(allocated) - cpus(kubeletReserved) - cpus(nodeAnnoReserved)

此外，对于Batch混部超卖资源的计算同样需要将这部分资源扣除，而考虑到节点中还包括一部分系统进程的资源消耗，Koord-Manager在计算时会取节点预留和系统用量的最大值，具体为：

reserveRatio = (100-thresholdPercent) / 100.0
node.reserved = node.alloc * reserveRatio
system.used = max(node.used - pod.used, node.anno.reserved)
Node(BE).Alloc = Node.Alloc - Node.Reserved - System.Used - Pod(LS).Used

对于重调度，各插件策略需要在节点容量、利用率计算等场景感知节点预留资源量，此外，若已经有容器占用了节点的预留资源，重调度需要考虑将其进行驱逐，确保节点容量得到正确管理，避免资源竞争。这部分重调度相关的功能，我们将在后续版本进行支持，也欢迎广大爱好者们一起参与共建。

单机资源管理

对于LS类型的Pod，单机Koordlet组件会根据CPU分配情况动态计算共享CPU池，对于节点预留的CPU核心会将其排除在外，确保LS类型pod和其他非容器化的进程资源隔离。同时，对于单机相关的QoS策略，例如CPUSuppress压制策略在计算节点利用率时，会将预留资源量考虑在内。

suppress(BE) := node.Total * SLOPercent - pod(LS).Used - max(system.Used, node.anno.reserved)

关于节点资源预留功能的详细说明，可以参考设计文档中的介绍。

兼容社区重调度策略

得益于 Koordinator Descheduler 的框架日益成熟，在 Koordinator v1.2 版本中，通过引入一种接口适配机制，可以无缝的对 Kubernetes Desceheduler 已有插件进行兼容，在使用时您只需部署 Koordinator Descheduler 即可使用到上游的全部功能。

在实现上，Koordinator Descheduler 通过 import 上游代码不做任何侵入式的改动，保证完全兼容上游所有的插件、参数配置以及其运行策略。同时，Koordinator 允许用户为上游插件指定增强的 evictor，从而复用 Koordinator 提供的资源预留、工作负载可用性保障以及全局流控等安全性策略。

兼容的插件列表包括：

HighNodeUtilization
LowNodeUtilization
PodLifeTime
RemoveFailedPods
RemoveDuplicates
RemovePodsHavingTooManyRestarts
RemovePodsViolatingInterPodAntiAffinity
RemovePodsViolatingNodeAffinity
RemovePodsViolatingNodeTaints
RemovePodsViolatingTopologySpreadConstraint
DefaultEvictor

在使用时，可以参考如下的方式配置，以 RemovePodsHavingTooManyRestarts 为例：

apiVersion: descheduler/v1alpha2
kind: DeschedulerConfiguration
clientConnection:
  kubeconfig: "/Users/joseph/asi/koord-2/admin.kubeconfig"
leaderElection:
  leaderElect: false
  resourceName: test-descheduler
  resourceNamespace: kube-system
deschedulingInterval: 10s
dryRun: true
profiles:
- name: koord-descheduler
  plugins:
    evict:
      enabled:
        - name: MigrationController
   deschedule:
     enabled:
       - name: RemovePodsHavingTooManyRestarts
  pluginConfig:
    - name: RemovePodsHavingTooManyRestarts
      args:
        apiVersion: descheduler/v1alpha2
        kind: RemovePodsHavingTooManyRestartsArgs
        podRestartThreshold: 10

资源预留调度能力增强

Koordinator 在比较早期的版本中引入了 Reservation 机制，通过预留资源并复用给指定特征的 Pod 使用，用于帮助解决资源交付确定性问题。例如重调度场景中期望被驱逐的 Pod 一定有资源可以使用，而不是被驱逐后无资源可用导致引起稳定性问题；又或者需要扩容时，一些 PaaS 平台希望能够先确定是否满足应用调度编排的资源，再决定是否扩容，或者提前做一些预备工作等。

Koordinator Reservation 通过 CRD 定义，每个 Reservation 对象会在 koord-scheduler 内伪造成一个 Pod 进行调度，这样的 Pod 我们称为 Reserve PodReserve Pod 就可以复用已有的调度插件和打分插件找到合适的节点，并最终在调度器内部状态中占据对应的资源。 Reservation 在创建时都会指定预留的资源将来要给哪些 Pod 使用，可以指定具体某个 Pod，也可以指定某些 workload 对象，或者具备某些标签的 Pod 使用。当这些 Pod 通过 koord-scheduler 调度时，调度器会找到可以被该 Pod 使用的 Reservation 对象，并且优先使用 Reservation 的资源。并且 Reservation Status 中会记录被哪个 Pod 使用，以及 Pod Annotations 中也会记录使用了哪个 Reservation。 Reservation 被使用后，会自动的清理内部状态，确保其他 Pod 不会因为 Reservation 导致无法调度。

在 Koordinator v1.2 中，我们做了大幅度的优化。首先我们放开了只能使用 Reservation 持有的资源的限制，允许跨出 Reservation 的资源边界，既可以使用 Reservation 预留的资源，也可以使用节点上剩余的资源。而且我们通过非侵入式的方式扩展了 Kubernetes Scheduler Framework，支持预留精细化资源，即可以预留 CPU 核和 GPU 设备等。我们也修改了 Reservation 可以被重复使用的默认行为，改为 AllocateOnce，即 Reservation 一旦被某个 Pod 使用，该 Reservation 会被废弃。这样的改动是考虑到，AllocateOnce 更能覆盖大部分场景，这样作为默认行为，大家在使用时会更简单。

支持AMD环境下的L3 Cache和内存带宽隔离

在v0.3.0版本中，Koordiantor已经支持了Intel环境的L3 Cache和内存带宽隔离，在最新的1.2.0版本中我们新增了对AMD环境的支持。 Linux内核L3 Cache和内存带宽隔离能力提供了统一的resctrl接口，同时支持Intel和AMD环境，主要区别在于，Intel提供的内存带宽隔离接口为百分比格式，而AMD提供的内存带宽隔离接口为绝对值格式，具体如下。

# Intel Format
# resctrl schema
L3:0=3ff;1=3ff
MB:0=100;1=100

# AMD Format
# resctrl schema
L3:0=ffff;1=ffff;2=ffff;3=ffff;4=ffff;5=ffff;6=ffff;7=ffff;8=ffff;9=ffff;10=ffff;11=ffff;12=ffff;13=ffff;14=ffff;15=ffff
MB:0=2048;1=2048;2=2048;3=2048;4=2048;5=2048;6=2048;7=2048;8=2048;9=2048;10=2048;11=2048;12=2048;13=2048;14=2048;15=2048

接口格式包含两部分，L3表示对应的socket或CCD可用的“路数”（way），以16进制的数据格式表示，每个比特位表示一路 MB表示对应的socket或CCD可以使用的内存带宽范围，Intel可选范围为0~100的百分比格式，AMD对应的为绝对值格式，单位为Gb/s，2048表示不限制。 Koordiantor统一提供了百分比格式的接口，并自动感知节点环境是否为AMD，决定resctrl接口中填写的格式。

apiVersion: v1
kind: ConfigMap
metadata:
  name: slo-controller-config
  namespace: koordinator-system
data:
  resource-qos-config: |-
    {
      "clusterStrategy": {
        "lsClass": {
           "resctrlQOS": {
             "enable": true,
             "catRangeStartPercent": 0,
             "catRangeEndPercent": 100,
             "MBAPercent": 100
           }
         },
        "beClass": {
           "resctrlQOS": {
             "enable": true,
             "catRangeStartPercent": 0,
             "catRangeEndPercent": 30,
             "MBAPercent": 100
           }
         }
      }
    }

其他功能

通过 v1.2 release 页面，可以看到更多版本所包含的新增功能。

未来计划

在接下来的版本中，Koordiantor重点规划了以下功能，具体包括：

硬件拓扑感知调度，综合考虑节点CPU、内存、GPU等多个资源维度的拓扑关系，在集群范围内进行调度优化。
对重调度器的可观测性和可追溯性进行增强。
GPU资源调度能力的增强。

Koordinator 是一个开放的社区，非常欢迎广大云原生爱好者们通过各种方式一起参与共建，无论您在云原生领域是初学乍练还是驾轻就熟，我们都非常期待听到您的声音！

龙蜥 plugsched 神器助力 Koordinator 云原生单机混部—— 内核 CPU QoS 揭秘

2023年2月28日 · 10 分钟阅读

Erwei Deng

Openanolis developer

什么是 CPU 混部

CPU 混部是指将不同类型的业务部署到同一台机器上运行，让它们共享机器上的 CPU 资源以提升 CPU 利用率，从而降低机器的采购和运营成本。但是，对于有些类型的任务来说，它们对延时非常的敏感，比如电商、搜索或 web 服务等，这类任务的实时性很高，但是通常对资源的消耗却不是很多，我们称之为在线任务；还有一类任务，它们更多的关注计算或者批处理，对延时没有要求，但是消耗的资源相对较多，我们称之为离线任务。

当这两类任务同时部署到同一台机器上时，由于离线任务对资源的占用较多，资源竞争导致在线任务的延时受到了很大的影响，而且，在超线程架构的机器上，即使离线任务和在线任务跑在不同的超线程 CPU 上，流水线和 cache 的竞争也会导致在线任务的运行受到影响。于是，CPU 混部技术诞生了，来解决离线任务对在线任务延时的影响，同时还能进一步提升 CPU 资源的利用率。

图1 单机混部 CPU 利用率示意图

内核 CPU 混部技术

CPU 混部技术，主要是通过单机操作系统调度器来实现的，通过任务类型来决定所分配到的 CPU 资源。Koordinator 社区主要使用的单机操作系统发行版有 Alibaba Cloud Linux 2/3（简称 Alinux2/3）和 CentOS7.9。对于 Alinux2/3，它使用的是龙蜥社区的 Group Identity CPU 混部技术，在操作系统内核中提供了 CPU 混部能力。Group Identity 在原有的 CFS 调度器中新增了另一个运行队列来区分在线和离线任务，而且，为了避免对端 CPU（超线程架构）上离线任务的干扰，Group Identity 会对其进行驱逐。龙蜥的 Group Identity 技术已经经过阿里双十一等大型活动以及大规模商业化的验证，其 CPU 混部能力也得到广大用户和开发者的认可。

但是对于 CentOS 发行版来说，到目前为止还没有提供任何 CPU 混部相关的技术和能力。对于 CentOS CPU 混部能力的缺失，可能有以下几种解决方案：

制作 CentOS 的衍生版系统，并包含 CPU 混部技术；
迁移到 Alibaba Cloud Linux 2/3 操作系统发行版；

对于第一种方案，需要从 CentOS 镜像站中下载其内核源码，将 CPU 混部技术移植到内核，编译后安装，然后重启系统便可以使用该技术，但这会涉及到业务迁移和停机，势必会给业务方带来昂贵的代价。对于第二种方案，虽然迁移工作会有一定的工作量，但是，Alinux2/3 或 Anolis OS 包含了完整的混部资源隔离方案（CPU 混部仅仅是其中一点），技术红利所带来的收益远比迁移代价要大得多。而且 CentOS 即将停服，为了解决 CentOS 停服问题，龙蜥社区推出了 Anolis OS 发行版操作系统，该发行版系统完全兼容 CentOS，用户可以进行无缝迁移。

龙蜥 CPU 混部插件

针对 Koordinator 云原生 CentOS 单机操作系统 CPU 混部能力的缺失，龙蜥社区开发人员给出了另一种方案，利用 plugsched 调度器热升级技术提供一种 CPU 混部技术的调度器插件包，该插件包含了阿里云早期（2017年）的 CPU 混部技术 bvt + noise clean，该技术采用的是 throttle 机制，当调度器选择下一个任务时，它会检测对端 CPU 上的任务类型以及当前 CPU 正在执行的任务类型，如果在、离线任务同时存在，则会将离线任务 throttle 掉，然后继续选择下一个任务进行调度，保证在线任务优先执行且不被对端 CPU 上的离线干扰。该 CPU 混部调度器插件可直接安装到 CentOS7.9，不需要停机和业务迁移等工作。

Plugsched SDK 神器

Plugsched 调度器热升级，是龙蜥社区推出的 plugsched SDK 调度器热升级开发工具，它可从 Linux 内核中将调度器解耦，形成一个独立的模块，然后将 CPU 混部技术移植到调度器模块，形成一个调度器插件，然后将其直接安装到运行的系统中就可以使用 CPU 混部技术。Plugsched，可以对内核调度器特性动态的进行增、删、改，来满足业务的需求，且无需进行业务迁移和停机升级，还可以回滚。内核开发人员可通过 plugsched SDK 生产出各种类型的调度器插件来满足不同的业务场景。

Plugsched 调度器热升级论文《Efficient Scheduler Live Update for Linux Kernel with Modularization》已被 ASPLOS 顶会收录，里面详细介绍了 plugsched 技术原理和应用价值，以及全面的测试和评估。目前，plugsched 生产的插件已在蚂蚁集团、阿里云和国内某大型互联网企业规模部署。

Plugsched 开源链接：https://gitee.com/anolis/plugsched

CPU 混部插件测试

开发人员对该调度器插件进行了 CPU 混部的测试，服务端配置：

测试机器：阿里云神龙裸金属服务器，104 CPU，384 GB 内存
系统配置：CentOS 7.9 发行版，内核版本 3.10，安装 CPU 混部调度器插件
测试内容：在线任务是 Nginx 服务，容器配置为 80C 10GB，Nginx workers 数量为 80；离线任务是 ffmpeg 视频转码，容器配置为 50C 20GB，线程数量为 50。
测试case：
- 基线：单独启动 Nginx 容器
- 对照组：同时启动 Nginx 容器和 ffmpeg 容器，但不设置优先级（不启用混部功能）
- 实验组：同时启动 Nginx 容器和 ffmpeg 容器，给 Nginx 设置在线高优先级，ffmpeg 为离线低优先级（启用混部功能）

在另一台压测机上使用 wrk 工具向 Nginx 服务发起请求，结果如下：（单位：ms）

	基线	对照组	实验组
RT-P50	0.223	0.245（+9.86%）	0.224（+0.44%）
RT-P75	0.322	0.387（+20.18%）	0.338（+4.96%）
RT-P90	0.444	0.575（+29.50)	0.504（+13.51%）
RT-P99	0.706	1.7（+140.79)	0.88（+24.64%）
CPU%	25.15%	71.7%	49.15%

从上面的结果来看，没有 CPU 混部插件，离线任务对在线任务的影响很大，P99 延时增长了一倍多，而安装 CPU 混部插件后，P99 长尾延时的影响显著降低，CPU 利用率也接近50%。

该插件虽然能显著降低离线对在线任务的干扰，但还是逊色于龙蜥社区的 Group Identity 技术。龙蜥的 Group Identity 技术能让在线受到的干扰小于 5%，而且整机利用率的提升也比该插件要更多一些，达到 60% 以上（可查阅：koordinator 混部最佳实践手册）。这些差异的原因在于，1）内核自身的差异，CentOS 7.9 使用的是比较早的 3.10 内核，而龙蜥使用的是 4.19/5.10 内核，3.10 内核调度器性能本身就不及 4.19/5.10；2）Group Identity 的实现原理相比 noise clean 更适合 CPU 混部场景。

结语

最后，欢迎广大技术人员、开源爱好者和读者用户加入 Koordinator、openanolis 社区，享受社区带来的技术，不论是 Group Identity 还是 Plugsched 神器，一定会给大家带来意想不到的收益和价值，欢迎大家共建社区，与社区共同交流、成长和发展。

Koordinator v1.1: 让调度感知负载与干扰检测采集

2023年1月3日 · 17 分钟阅读

Siyu Wang

Koordinator maintainer

背景

Koordinator 旨在为用户提供完整的混部工作负载编排、混部资源调度、混部资源隔离及性能调优解决方案，帮助用户提高延迟敏感服务的运行性能，挖掘空闲节点资源并分配给真正有需要的计算任务，从而提高全局的资源利用效率。

从 2022 年 4 月发布以来，Koordinator 迄今一共迭代发布了 9 个版本。项目经历的大半年发展过程中，社区吸纳了包括阿里巴巴、小米、小红书、爱奇艺、360、有赞等在内的大量优秀工程师，贡献了众多的想法、代码和场景，一起推动 Koordinator 项目的成熟。

今天，很高兴的宣布 Koordinator v1.1 正式发布，它包含了负载感知调度/重调度、cgroup v2 支持、干扰检测指标采集，以及其他一系列优化点。接下来我们就针对这些新增特性做深入解读与说明。

版本特性深入解读

负载感知调度

支持按工作负载类型统计和均衡负载水位

Koordinator v1.0 及之前的版本，提供了负载感知调度提供基本的利用率阈值过滤保护高负载水位的节点继续恶化影响工作负载的运行时质量，以及通过预估机制解决解决冷节点过载的情况。已有的负载感知调度能解决很多常见场景的问题。但负载感知调度作为一种优化手段，还有比较多的场景是需要完善的。

目前的负载感知调度主要解决了集群内整机维度的负载均衡效果，但有可能出现一些特殊的情况：节点部署了不少离线Pod运行，拉高了整机的利用率，但在线应用工作负载的整体利用率偏低。这个时候如果有新的在线Pod，且整个集群内的资源比较紧张时，会有如下的问题：

有可能因为整机利用率超过整机安全阈值导致无法调度到这个节点上的；
还可能出现一个节点的利用率虽然相对比较低，但上面跑的全是在线应用率，从在线应用角度看，利用率已经偏高了，但按照当前的调度策略，还会继续调度这个Pod上来，导致该节点堆积了大量的在线应用，整体的运行效果并不好。

在 Koordinator v1.1 中，koord-scheduler 支持感知工作负载类型，区分不同的水位和策略进行调度。

在 Filter 阶段，新增 threshold 配置 prodUsageThresholds，表示在线应用的安全阈值，默认为空。如果当前调度的 Pod 是 Prod 类型，koord-scheduler 会从当前节点的 NodeMetric 中统计所有在线应用的利用率之和，如果超过了 prodUsageThresholds 就过滤掉该节点；如果是离线 Pod，或者没有配置 prodUsageThresholds，保持原有的逻辑，按整机利用率处理。

在 Score 阶段，新增开关 scoreAccordingProdUsage 表示是否按 Prod 类型的利用率打分均衡。默认不启用。当开启后，且当前 Pod 是 Prod 类型的话，koord-scheduler 在预估算法中只处理 Prod 类型的 Pod，并对 NodeMetrics 中记录的其他的未使用预估机制处理的在线应用的 Pod 的当前利用率值进行求和，求和后的值参与最终的打分。如果没有开启 scoreAccordingProdUsage，或者是离线Pod，保持原有逻辑，按整机利用率处理。

支持按百分位数利用率均衡

Koordinator v1.0及以前的版本都是按照 koordlet 上报的平均利用率数据进行过滤和打分。但平均值隐藏了比较多的信息，因此在 Koordinator v1.1 中 koordlet 新增了根据百分位数统计的利用率聚合数据。调度器侧也跟着做了相应的适配。

更改调度器的 LoadAware 插件的配置，aggregated 表示按照百分位数聚合数据进行打分和过滤。aggregated.usageThresholds 表示过滤时的水位阈值；aggregated.usageAggregationType 表示过滤阶段要使用的百分位数类型，支持 avg，p99, p95, p90 和 p50；aggregated.usageAggregatedDuration 表示过滤阶段期望使用的聚合周期，如果不配置，调度器将使用 NodeMetrics 中上报的最大周期的数据；aggregated.scoreAggregationType 表示在打分阶段期望使用的百分位数类型；aggregated.scoreAggregatedDuration 表示打分阶段期望使用的聚合周期，如果不配置，调度器将使用 NodeMetrics 中上报的最大周期的数据。

在 Filter 阶段，如果配置了 aggregated.usageThresholds 以及对应的聚合类型，调度器将按该百分位数统计值进行过滤；

在 Score 阶段，如果配置了 aggregated.scoreAggregationType，调度器将会按该百分位数统计值打分；目前暂时不支持 Prod Pod 使用百分位数过滤。

负载感知重调度

Koordinator 在过去的几个版本中，持续的演进重调度器，先后了开源完整的框架，加强了安全性，避免因过度驱逐 Pod 影响在线应用的稳定性。这也影响了重调度功能的进展，过去 Koordinator 暂时没有太多力量建设重调度能力。这一情况将会得到改变。

Koordinator v1.1 中我们新增了负载感知重调度功能。新的插件称为 LowNodeLoad，该插件配合着调度器的负载感知调度能力，可以形成一个闭环，调度器的负载感知调度在调度时刻决策选择最优节点，但随着时间和集群环境以及工作负载面对的流量/请求的变化时，负载感知重调度可以介入进来，帮助优化负载水位超过安全阈值的节点。 LowNodeLoad 与 K8s descheduler 的插件 LowNodeUtilization 不同的是，LowNodeLoad是根据节点真实利用率的情况决策重调度，而 LowNodeUtilization 是根据资源分配率决策重调度。

LowNodeLoad 插件有两个最重要的参数，分别是 highThresholds 和 lowThresholds：

highThresholds 表示负载水位的警戒阈值，超过该阈值的节点上的Pod将参与重调度；
lowThresholds 表示负载水位的安全水位。低于该阈值的节点上的Pod不会被重调度。

以下图为例，lowThresholds 为45%，highThresholds 为 70%，那么低于 45% 的节点是安全的，因为水位已经很低了；高于45%，但是低于 70%的是区间是我们期望的负载水位范围；高于70%的节点就不安全了，应该把超过70%的这部分（假设当前节点A的负载水位是85%），那么 85% - 70% = 15% 的负载降低，筛选 Pod 后执行迁移。

LowNodeLoad 示例

迁移时，还要考虑到低于 45% 的这部分节点是我们重调度后要承载新Pod的节点，我们需要确保迁移的Pod的负载总量不会超过这些低负载节点的承载上限。这个承载上限即是 highThresholds - 节点当前负载，假设节点B的负载水位是20%，那么 70%-20% = 50%，这50%就是可以承载的容量了。因此迁移时每驱逐一个 Pod，这个承载容量就应该扣掉当前重调度 Pod 的当前负载或者预估负载或者画像值（这部分值与负载调度里的值对应）。这样就可以确保不会多迁移。

如果一个集群总是可能会出现某些节点的负载就是比较高，而且数量并不多，这个时候如果频繁的重调度这些节点，也会带来安全隐患，因此可以让用户按需设置 numberOfNodes。

另外，LowNodeLoad 识别出超过阈值的节点后会筛选 Pod，当筛选 Pod 时，可以配置要支持或者过滤的 namespace，或者配置 pod selector 筛选，也可以配置 nodeFit 检查每个备选 Pod 对应的 Node Affinity/Node Selector/Toleration 是否有与之匹配的 Node，如果没有的话，这种节点也会被忽略。当然可以考虑不启用这个能力，通过配置 nodeFit 为 false 后即可禁用，此时完全由底层的 MigrationController 通过 Koordinator Reservation 预留资源；

当筛选出 Pod 后，会对这些 Pod 进行排序。会依靠Koordinator QoSClass、Kubernetes QoSClass、Priority、用量和创建时间等多个维度排序。

cgroup v2 支持

背景

Koordinator 中众多单机 QoS 能力和资源压制/弹性策略构建在 Linux Control Group (cgroups) 机制上，比如 CPU QoS (cpu)、Memory QoS (memory)、CPU Burst (cpu)、CPU Suppress (cpu, cpuset)，koordlet 组件可以通过 cgroups (v1) 限制容器可用资源的时间片、权重、优先级、拓扑等属性。Linux 高版本内核也在持续增强和迭代了 cgroups 机制，带来了 cgroups v2 机制，统一 cgroups 目录结构，改善 v1 中不同 subsystem/cgroup controller 之间的协作，并进一步增强了部分子系统的资源管理和监控能力。Kubernetes 自 1.25 起将 cgroups v2 作为 GA (general availability) 特性，在 Kubelet 中启用该特性进行容器的资源管理，在统一的 cgroups 层次下设置容器的资源隔离参数，支持 MemoryQoS 的增强特性。

cgroup v1/v2 结构

在 Koordinator v1.1 中，单机组件 koordlet 新增对 cgroups v2 的支持，包括如下工作：

重构了 Resource Executor 模块，以统一相同或近似的 cgroup 接口在 v1 和 v2 不同版本上的文件操作，便于 koordlet 特性兼容 cgroups v2 和合并读写冲突。
在当前已开放的单机特性中适配 cgroups v2，采用新的 Resource Executor 模块替换 cgroup 操作，优化不同系统环境下的报错日志。

Koordinator v1.1 中大部分 koordlet 特性已经兼容 cgroups v2，包括但不限于：

资源利用率采集
动态资源超卖
Batch 资源隔离（BatchResource，废弃BECgroupReconcile）
CPU QoS（GroupIdentity）
Memory QoS（CgroupReconcile）
CPU 动态压制（BECPUSuppress）
内存驱逐（BEMemoryEvict）
CPU Burst（CPUBurst）
L3 Cache 及内存带宽隔离（RdtResctrl）

遗留的未兼容特性如 PSICollector 将在接下来的 v1.2 版本中进行适配，可以跟进 issue#407 获取最新进展。接下来的 Koordinator 版本中也将逐渐引入更多 cgroups v2 的增强功能，敬请期待。

使用 cgroups v2

在 Koordinator v1.1 中，koordlet 对 cgroups v2 的适配对上层功能配置透明，除了被废弃特性的 feature-gate 以外，您无需变动 ConfigMap slo-controller-config 和其他 feature-gate 配置。当 koordlet 运行在启用 cgroups v2 的节点上时，相应单机特性将自动切换到 cgroups-v2 系统接口进行操作。

此外，cgroups v2 是 Linux 高版本内核（建议 >=5.8）的特性，对系统内核版本和 Kubernetes 版本有一定依赖。建议采用默认启用 cgroups v2 的 Linux 发行版以及 Kubernetes v1.24 以上版本。

更多关于如何启用 cgroups v2 的说明，请参照 Kubernetes 社区文档。

干扰检测指标采集

在真实的生产环境下，单机的运行时状态是一个“混沌系统”，资源竞争产生的应用干扰无法绝对避免。Koordinator 正在建立干扰检测与优化的能力，通过提取应用运行状态的指标，进行实时的分析和检测，在发现干扰后对目标应用和干扰源采取更具针对性的策略。

当前 Koordinator 已经实现了一系列 Performance Collector，在单机侧采集与应用运行状态高相关性的底层指标，并通过 Prometheus 暴露出来，为干扰检测能力和集群应用调度提供支持。

指标采集

Performance Collector 由多个 feature-gate 进行控制，Koordinator 目前提供以下几个指标采集器：

CPICollector：用于控制 CPI 指标采集器。CPI：Cycles Per Instruction。指令在计算机中执行所需要的平均时钟周期数。CPI 采集器基于 Cycles 和 Instructions 这两个 Kernel PMU（Performance Monitoring Unit）事件以及 perf_event_open(2) 系统调用实现。
PSICollector：用于控制 PSI 指标采集器。PSI：Pressure Stall Information。表示容器在采集时间间隔内，因为等待 cpu、内存、IO 资源分配而阻塞的任务数。使用 PSI 采集器前，需要在 Anolis OS 中开启 PSI 功能，您可以参考文档获取开启方法。

Performance Collector 目前是默认关闭的。您可以通过修改 Koordlet 的 feature-gates 项来使用它，此项修改不会影响其他 feature-gate

kubectl edit ds koordlet -n koordinator-system

...
spec:
  ...
    spec:
      containers:
      - args:
        ...
        # modify here
        # - -feature-gates=BECPUEvict=true,BEMemoryEvict=true,CgroupReconcile=true,Accelerators=true
        - -feature-gates=BECPUEvict=true,BEMemoryEvict=true,CgroupReconcile=true,Accelerators=true,CPICollector=true,PSICollector=true

ServiceMonitor

v1.1.0 版本的 Koordinator 为 Koordlet 增加了 ServiceMonitor 的能力，将所采集指标通过 Prometheus 暴露出来，用户可基于此能力采集相应指标进行应用系统的分析与管理。

ServiceMonitor 由 Prometheus 引入，故在 helm chart 中设置默认不开启安装，可以通过以下命令安装ServiceMonitor：

helm install koordinator https://... --set koordlet.enableServiceMonitor=true

部署后可在 Prometheus UI 找到该 Targets。

# HELP koordlet_container_cpi Container cpi collected by koordlet
# TYPE koordlet_container_cpi gauge
koordlet_container_cpi{container_id="containerd://498de02ddd3ad7c901b3c80f96c57db5b3ed9a817dbfab9d16b18be7e7d2d047",container_name="koordlet",cpi_field="cycles",node="your-node-name",pod_name="koordlet-x8g2j",pod_namespace="koordinator-system",pod_uid="3440fb9c-423b-48e9-8850-06a6c50f633d"} 2.228107503e+09
koordlet_container_cpi{container_id="containerd://498de02ddd3ad7c901b3c80f96c57db5b3ed9a817dbfab9d16b18be7e7d2d047",container_name="koordlet",cpi_field="instructions",node="your-node-name",pod_name="koordlet-x8g2j",pod_namespace="koordinator-system",pod_uid="3440fb9c-423b-48e9-8850-06a6c50f633d"} 4.1456092e+09

可以期待的是，Koordinator 干扰检测的能力在更复杂的真实场景下还需要更多检测指标的补充，后续将在如内存、磁盘 IO 等其他诸多资源的指标采集建设方面持续发力。

其他更新点

通过 v1.1 release 页面，可以看到更多版本所包含的新增功能。

Koordinator v1.0: 正式发布

2022年11月3日 · 7 分钟阅读

Joseph

Koordinator maintainer

Koordinator 今年3月份开源以来，先后发布了7个版本，逐步的把阿里巴巴&阿里云内部的混部系统的核心能力输出到开源社区，并在中间过程中逐渐的被 Kubernetes、大数据、高性能计算、机器学习领域或者社区的关注，Koordinator 社区也逐步获得了一些贡献者的支持，并有一些企业开始逐步的在生产环境中使用 Koordinator 解决实际生产中遇到的成本问题、混部问题等。经过 Koordinator 社区的努力，我们怀着十分激动的心情向大家宣布 Koordinator 1.0 版本正式发布。

Koordinator 项目早期着重建设核心混部能力 -- 差异化 SLO，并且为了让用户更容易的使用 Koordinator 的混部能力，Koordinator 提供了 ClusterColocationProfile 机制帮助用户可以不用修改存量代码完成不同工作负载的混部，让用户逐步的熟悉混部技术。随后 Koordinaor 逐步在节点侧 QoS 保障机制上做了增强，提供了包括但不限于 CPU Suppress、CPU Burst、 Memory QoS、L3 Cache/MBA 资源隔离机制和基于满足度驱逐机制等多种能力，解决了大部分节点侧工作负载的稳定性问题。配合使用 Koordinator Runtime Proxy 组件，可以更好的兼容 Kubernetes kubelet 原生管理机制。

并且 Koordinator 在任务调度和 QoS 感知调度以及重调度等方面也都提供了一些创新方案，建设了全面兼容 Kubernetes CPU 管理机制的精细化 CPU 调度能力，面向节点实际负载的均衡调度能力。为了更好的让用户管理好资源， Koordinator 还提供了资源预留能力（Reservation)，并且 Koordinator 基于 Kubernetes 社区已有的Coscheduling、ElasticQuota Scheduling 能力做了进一步的增强，为任务调度领域注入了新的活力。Koordinator 提供了全新的重调度器框架，着重建设 Descheduler 的扩展性和安全性问题。

安装或升级 Koordinator v1.0.0

使用 Helm 安装

您可以通过 helm v3.5+ 非常方便的安装 Koordinator，Helm 是一个简单的命令行工具，您可以从这里获取它。

# Firstly add koordinator charts repository if you haven't do this.
$ helm repo add koordinator-sh https://koordinator-sh.github.io/charts/

# [Optional]
$ helm repo update

# Install the latest version.
$ helm install koordinator koordinator-sh/koordinator --version 1.0.0

版本功能特性解读

Koordinator v1.0 整体新增的特性并不多，主要有以下一些变化

独立 API Repo

为了更方便集成和使用 Koordiantor 定义的 API，并避免因依赖 Koordiantor 引入额外的依赖或者依赖冲突问题，我们建立了独立的 API Repo: koordinator-sh/apis

新增 ElasticQuota Webhook

在 Koordinator v0.7 版本中，我们基于 Kubernetes sig-scheduler 提供的 ElasticQuota 做了诸多增强，提供了树形管理机制，并提供了公平性保障机制等，可以很好的帮助您解决使用 ElasticQuota 遇到的问题。在 Koordinator v1.0 版本中，我们进一步提供了 ElasticQuota Webhook，帮助您在使用 ElasticQuota 树形管理机制时，保障新的 ElasticQuota 对象遵循 Koordinator 定义的规范或约束：

除了根节点，其他所有子节点的 min 之和要小于父节点的 min。
不限制子节点 max，允许子节点的 max 大于父节点的 max。考虑以下场景，集群中有 2 个 ElasticQuota 子树：dev-parent 和 production-parent，每个子树都有几个子 ElasticQuota。当 production-parent 忙时，我们可以通过只降低 dev-parent 的 max 限制 dev-parent 整颗子树的资源使用量，而不是降低 dev-parent 子树的每个子 ElasticQuota 的max限制用量。
Pod 不能使用父节点ElasticQuota。如果放开这个限制，会导致整个弹性 Quota 的机制变的异常复杂，暂时不考虑支持这种场景。
只有父节点可以挂子节点，不允许子节点挂子节点
暂时不允许改变 ElasticQuota 的 quota.scheduling.koordinator.sh/is-parent属性

进一步完善 ElasticQuota Scheduling

在 Koordinator v0.7 版本中，koord-scheduler 的主副 Pod 都会启动 ElasticQuota Controller 并都会更新 ElasticQuota 对象。在 Koordinator v1.0 中我们修复了该问题，确保只有主 Pod 可以启动 Controller 并更新 ElasticQuota 对象。还优化了 ElasticQuota Controller 潜在的频繁更新 ElasticQuota 对象的问题，当检查到 ElasticQuota 各维度数据发生变化时才会更新，降低频繁更新给 APIServer 带来的压力。

Koordinator v1.0 中 koordlet 会上报 GPU 的型号和驱动版本到 Device CRD 对象中，并会由 koord-manager 同步更新到 Node 对象，追加相应的标签。

apiVersion: v1
kind: Node
metadata:
  labels:
    kubernetes.io/gpu-driver: 460.91.03
    kubernetes.io/gpu-model: Tesla-T4
    ...
  name: cn-hangzhou.10.0.4.164
spec:
  ...
status:
  ...

Koordinator Runtime Proxy 增强兼容性

在 Koordinator 之前的版本中，koord-runtime-proxy 和 koordlet 一起安装后，如果 koordlet 异常或者 koordlet 卸载/重装等场景下，会遇到新调度到节点的 Pod 无法创建容器的问题。为了解决这个问题，koord-runtime-proxy 会感知 Pod 是否具有特殊的 label runtimeproxy.koordinator.sh/skip-hookserver=true，如果 Pod 存在该标签，koord-runtime-proxy 会直接把 CRI 请求转发给 containerd/docker 等 runtime。

其他改动

你可以通过 Github release 页面，来查看更多的改动以及它们的作者与提交记录。

Koordinator v0.7: 为任务调度领域注入新活力

2022年9月23日 · 34 分钟阅读

Joseph

Koordinator maintainer

Koordinator[1] 继上次 v0.6版本[2] 发布后，经过 Koordinator 社区的努力，我们迎来了具有重大意义的 v0.7 版本。在这个版本中着重解决机器学习、大数据场景需要的任务调度能力，例如 CoScheduling、ElasticQuota和精细化的 GPU 共享调度能力。并在调度问题诊断分析方面得到了增强，重调度器也极大的提升了安全性，降低了重调度的风险。

版本功能特性解读

1. 任务调度

1.1 Enhanced Coscheduling

Gang scheduling是在并发系统中将多个相关联的进程调度到不同处理器上同时运行的策略，其最主要的原则是保证所有相关联的进程能够同时启动，防止部分进程的异常，导致整个关联进程组的阻塞。例如当提交一个Job时会产生多个任务，这些任务期望要么全部调度成功，要么全部失败。这种需求称为 All-or-Nothing，对应的实现被称作 Gang Scheduling(or Coscheduling) 。
Koordinator 在启动之初，期望支持 Kubernetes 多种工作负载的混部调度，提高工作负载的运行时效率和可靠性，其中就包括了机器学习和大数据领域中广泛存在的具备 All-or-Nothing 需求的作业负载。为了解决 All-or-Nothing 调度需求，Koordinator v0.7.0 基于社区已有的 Coscheduling 实现了 Enhanced Coscheduling。
Enhanced Coscheduling 秉承着 Koordiantor 兼容社区的原则，完全兼容社区 Coscheduling 和依赖的 PodGroup CRD。已经使用 PodGroup 的用户可以无缝升级到 Koordinator。
除此之外，Enhanced Coscheduling 还实现了如下增强能力：

支持 `Strict` 和 `NonStrict` 两种模式

两种模式的区别在于 Strict模式（即默认模式）下调度失败会 Reject 所有分配到资源并处于 Wait 状态的 Pod，而 NonStrict 模式不会发起 Reject。NonStrict 模式下，同属于一个 PodGroup 的 Pod A 和 PodB 调度时，如果 PodA 调度失败不会影响 PodB 调度， PodB 还会继续被调度。NonStrict 模式对于体量较大的 Job 比较友好，可以让这种大体量 Job 更快的调度完成，但同时也增加了资源死锁的风险。后续 Koordinator 会提供 NonStrict 模式下解决死锁的方案实现。
用户在使用时，可以在 PodGroup 或者 Pod 中追加 annotation gang.scheduling.koordinator.sh/mode=NonStrict开启 NonStrict 模式。

改进 PodGroup 调度失败的处理机制，实现更高效的重试调度

举个例子，PodGroup A 关联了5个Pod，其中前3个Pod通过Filter/Score，进入Wait阶段，第4个Pod调度失败，当调度第5个Pod时，发现第4个Pod已经失败，则拒绝调度。在社区 Coscheduling 实现中，调度失败的PodGroup 会加入到基于cache机制的 lastDeniedPG 对象中，当 cache 没有过期，则会拒绝调度；如果过期就允许继续调度。可以看到 cache 的过期时间很关键，过期时间设置的过长会导致Pod迟迟得不到调度机会，设置的过短会出现频繁的无效调度。
而在Enhanced Coscheduling 中，实现了一种基于 ScheduleCycle 的重试机制。以上场景为例，5个Pod的 ScheduleCycle 初始值为 0，PodGroup 对应的 ScheduleCycle 初始值为1；当每一次尝试调度 Pod 时，都会更新 Pod ScheduleCycle 为 PodGroup ScheduleCycle。如果其中一个 Pod 调度失败，会标记当前的 PodGroup ScheduleCycle 无效，之后所有小于 PodGroup ScheduleCycle 的 Pod 都会被拒绝调度。当同一个 PodGroup 下的所有 Pod 都尝试调度一轮后，Pod ScheduleCycle 都更新为当前 PodGroup ScheduleCycle，并递进 PodGroup ScheduleCycle，并标记允许调度。这种方式可以有效规避基于过期时间的缺陷，完全取决于调度队列的配置重试调度。

支持多个 PodGroup 为一组完成 Gang Scheduling

一些复杂的 Job 有多种角色，每个角色管理一批任务，每个角色的任务要求支持 All-or-Nothing ，每个角色的 MinMember 要求也不一样，并且每个角色之间也要求 All-or-Nothing。这就导致每个角色都有一个对应的 PodGroup ，并且还要求 PodGroup 即使满足了也需要等待其他角色的 PodGroup 必须满足。社区 Coscheduling 无法满足这种场景需求。而 Koordinator 实现的 Enhanced Coscheduling 支持用户在多个 PodGroup 中增加 anntation 相关关联实现，并支持跨Namespace。例如用户有2个PodGroup ，名字分别是PodGroupA和PodGroupB，可以按照如下例子关联两个 PodGroup：

apiVersion: v1alpha1
kind: PodGroup
metadata:
  name: podGroupA
  namespace: default
  annotations:
    gang.scheduling.koordinator.sh/groups: ["namespaceA/podGroupA", "namespaceB/podGroupB"]
spec:
    ...

支持轻量化 Gang 协议

如果用户不希望创建 PodGroup，认为创建 PodGroup 太繁琐，那么可以考虑在一组 Pod 中填充相同 annotation gang.scheduling.koordinator.sh/name=<podGroupName> 表示这一组 Pod 使用 Coscheduling 调度。如果期望设置 minMember ，可以追加 Annotation gang.scheduling.koordinator.sh/min-available=<availableNum>。举个例子：

apiVersion: v1
kind: Pod
metadata:
  annotations:
    gang.scheduling.koordinator.sh/name: "pod-group-a"
    gang.scheduling.koordinator.sh/min-available: "5"
  name: demo-pod
  namespace: default
spec:
    ...

1.2 ElasticQuota Scheduling

一家中大型公司内有多个产品和研发团队，共用多个比较大规模的 Kubernetes 集群，这些集群内含有的大量 CPU/Memory/Disk 等资源被资源运营团队统一管理。运营团队往往在采购资源前，通过额度预算的机制让公司内每个团队根据自身的需求提交额度预算。业务团队此时一般根据业务当前和对未来的预期做好额度预算。最理想的情况是每一份额度都能够被使用，但现实告诉我们这是不现实的。往往出现的问题是：

团队 A 高估了业务的发展速度，申请了太多的额度用不完
团队 B 低估了业务的发展速度，申请的额度不够用
团队 C 安排了一场活动，手上的额度不够多了，但是活动只持续几周，申请太多额度和资源也会浪费掉。
团队 D 下面还有各个子团队和业务，每个子团队内也会出现类似A B C 三个团队的情况，而且其中有些团队的业务临时突发需要提交一些计算任务要交个客户，但是没有额度了，走额度预算审批也不够了。
......

以上大家日常经常遇到的场景，在混部场景、大数据场景，临时性突发需求又是时常出现的，这些资源的需求都给额度管理工作带来了极大的挑战。做好额度管理工作，一方面避免过度采购资源降低成本，又要在临时需要额度时不采购资源或者尽量少的采购资源；另一方面不能因为额度问题限制资源使用率，额度管理不好就会导致即使有比较好的技术帮助复用资源，也无法发挥其价值。总之，额度管理工作是广大公司或组织需长期面对且必须面对的问题。
Kubernetes ResourceQuota 可以解决额度管理的部分问题。原生 Kubernetes ResourceQuota API 用于指定每个 Namespace 的最大资源额度量，并通过 admission 机制完成准入检查。如果 Namespace 当前资源分配总量超过ResourceQuota 指定的配额，则拒绝创建 Pod。 Kubernetes ResourceQuota 设计有一个局限性：Quota 用量是按照 Pod Requests 聚合的。虽然这种机制可以保证实际的资源消耗永远不会超过 ResourceQuota 的限制，但它可能会导致资源利用率低，因为一些 Pod 可能已经申请了资源但未能调度。
Kuberenetes Scheduler-Sig 后来给出了一个借鉴 Yarn Capacity Scheduling，称作 ElasticQuota 的设计方案并给出了具体的实现。允许用户设置 max 和 min：

max 表示用户可以消费的资源上限
min 表示需要保障用户实现基本功能/性能所需要的最小资源量

通过这两个参数可以帮助用户实现如下的需求：

用户设置 min < max 时，当有突发资源需求时，即使当前 ElasticQuota 的总用量超过了 min，但只要没有达到 max，那么用户可以继续创建新的 Pod 应对新的任务请求。
当用户需要更多资源时，用户可以从其他 ElasticQuota 中“借用(borrow)” 还没有被使用并且需要通保障的 min。
当一个 ElasticQuota 需要使用 min 资源时，会通过抢占机制从其他借用方抢回来，即驱逐一些其他ElasticQuota 超过 min 用量的 Pod。

ElasticQuota 还有一些局限性：没有很好的保障公平性。假如同一个 ElasticQuota 有大量新建的Pod，有可能会消耗所有其他可以被借用的Quota，从而导致后来的 Pod 可能拿不到 Quota。此时只能通过抢占机制抢回来一些 Quota。
另外 ElasticQuota 和 Kubernetes ResourceQuota 都是面向 Namespace的，不支持多级树形结构，对于一些本身具备复杂组织关系的企业/组织不能很好的使用ElasticQuota/Kubenretes ResourceQuota 完成额度管理工作。
Koordinator 针对这些额度管理问题，给出了一种基于社区 ElasticQuota 实现的支持多级管理方式的弹性Quota管理机制(multi hierarchy quota management)。具备如下特性：

兼容社区的 ElasticQuota API。用户可以无缝升级到 Koordinator
支持树形结构管理 Quota。
支持按照共享权重(shared weight)保障公平性。
允许用户设置是否允许借用Quota 给其他消费对象。

Pod 关联 ElasticQuota 方式

用户可以非常使用的使用该能力，可以完全按照 ElasticQuota 的用法，即每个 Namespace 设置一个 ElasticQuota 对象。也可以在 Pod 中追加 Label 关联 ElasticQuota：

apiVersion: v1
kind: Pod
metadata:
  labels:
    quota.scheduling.koordinator.sh/name: "elastic-quota-a"
  name: demo-pod
  namespace: default
spec:
    ...

树形结构管理机制和使用方法

需要使用树形结构管理 Quota 时，需要在 ElasticQuota 中追加 Label quota.scheduling.koordinator.sh/is-parent表示当前 ElasticQuota 是否是父节点，quota.scheduling.koordinator.sh/parent表示当前 ElasticQuota 的父节点 ElasticQuota 的名字。举个例子：

我们创建一个 ElasticQuota Root 作为根节点，资源总量为CPU 100C，内存200Gi，以及子节点 quota-a

apiVersion: scheduling.sigs.k8s.io/v1alpha1
kind: ElasticQuota
metadata:
  name: parentA
  namespace: default
  labels:
    quota.scheduling.koordinator.sh/is-parent: "true"
    quota.scheduling.koordinator.sh/allow-lent-resource: "true"
spec:
  max:
    cpu: 100
    memory: 200Gi
  min:
    cpu: 100
    memory: 200Gi
---
apiVersion: scheduling.sigs.k8s.io/v1alpha1
kind: ElasticQuota
metadata:
  name: childA1
  namespace: default
  labels:
    quota.scheduling.koordinator.sh/is-parent: "false"
    quota.scheduling.koordinator.sh/parent: "parentA"
    quota.scheduling.koordinator.sh/allow-lent-resource: "true"
spec:
  max:
    cpu: 40
    memory: 100Gi
  min:
    cpu: 20
    memory: 40Gi

在使用树形结构管理 ElasticQuota 时，有一些需要遵循的约束：

除了根节点，其他所有子节点的 min 之和要小于父节点的 min。
不限制子节点 max，允许子节点的 max 大于父节点的 max。考虑以下场景，集群中有 2 个 ElasticQuota 子树：dev-parent 和 production-parent，每个子树都有几个子 ElasticQuota。当 production-parent 忙时，我们可以通过只降低 dev-parent 的 max 限制 dev-parent 整颗子树的资源使用量，而不是降低 dev-parent 子树的每个子 ElasticQuota 的max限制用量。
Pod 不能使用父节点ElasticQuota。如果放开这个限制，会导致整个弹性 Quota 的机制变的异常复杂，暂时不考虑支持这种场景。
只有父节点可以挂子节点，不允许子节点挂子节点
暂时不允许改变 ElasticQuota 的 quota.scheduling.koordinator.sh/is-parent属性

我们将在下个版本中通过 webhook 机制实现这些约束。

公平性保障机制

为了方便阅读和理解将要介绍的公平性保障机制，先明确几个新概念：

request 表示同一个 ElasticQuota 关联的所有 Pod 的资源请求量。如果一个 ElasticQuota A 的 request 小于 min，ElasticQuota B 的 request 大于 min，那么 ElasticQuota A 未使用的部分，即 min - request 剩余的量通过公平性保障机制借用给 ElasticQuota B. 当 ElasticQuota A 需要使用这些借走的量时，要求 ElasticQuota B 依据公平性保障机制归还给 ElasticQuota A。
runtime 表示 ElasticQuota 当前可以使用的实际资源量。如果 request 小于 min，runtime 等于 request。这也意味着，需要遵循 min 语义，应无条件满足 request。如果 request 大于 min，且 min 小于 max，公平性保障机制会分配 runtime 在min 与 max 之前，即 max >= runtime >= min。
shared-weight 表示一个 ElasticQuota 的竞争力，默认等于 ElasticQuota Max。

通过几个例子为大家介绍公平性保障机制的运行过程，假设当前集群的 CPU 总量为100C，并且有4个ElasticQuota，如下图所示，绿色部分为 Request 量：A 当前的request 为5，B当前的request为20，C当前的Request为30，D当前的Request为70。

并且我们注意到， A, B, C, D 的 min 之和是60，剩下 40 个空闲额度，同时 A 还可以借给 B, C, D 5个额度，所以一共有45个额度被B，C，D共享，根据各个ElasticQuota的 shared-weight，B，C，D分别对应60，50和80，计算出各自可以共享的量：

B 可以获取 14个额度， 45 * 60 / (60 + 50 + 80) = 14
C 可以获取 12个额度， 45 * 50 / (60 + 50 + 80) = 12
D 可以获取 19个额度， 45 * 80 / (60 + 50 + 80) = 19

但我们也要注意的是，C和D需要更多额度，而 B只需要5个额度就能满足 Request，并且 B 的min是15，也就意味着我们只需要给 B 5个额度，剩余的9个额度继续分给C和D。

C 可以获取 3个额度， 9 * 50 / (50 + 80) = 3
D 可以获取 6个额度， 9 * 80 / (50 + 80) = 6

最终我们得出如下的分配结果结果：

A runtime = 5
B runtime = 20
C runtime = 35
D runtime = 40

总结整个过程可以知道：

当前 request < min 时，需要借出 lent-to-quotas；当 request > min 时，需要借入 borrowed-qutoas
统计所有 runtime < min 的 Quota，这些总量就是接下来可被借出的量。
根据 shared-weight 计算每个ElasticQuota可以借入的量
如果最新的 runtime > reuqest，那么 runtime - request 剩余的量可以借给更需要的对象。

另外还有一种日常生产时会遇到的情况：即集群内资源总量会随着节点故障、资源运营等原因降低，导致所有ElasticQuota的 min 之和大于资源总量。当出现这种情况时，我们无法确保 min 的资源述求。此时我们会按照一定的比例调整各个ElasticQuota的min，确保所有min之和小于或者等于当前实际的资源总量。

抢占机制

Koordinator ElasticQuota 机制在调度阶段如果发现 Quota 不足，会进入抢占阶段，按照优先级排序，抢占属于同一个ElasticQuota 内的低优先级 Pod。同时，我们不支持跨 ElasticQuota 抢占其他 Pod。但是我们也提供了另外的机制支持从借用 Quota 的 ElasticQuota 抢回。
举个例子，在集群中，有两个 ElasticQuota，ElasticQuota A {min = 50, max = 100}， ElasticQuota B {min = 50, max = 100}。用户在上午10点使用 ElasticQuota A 提交了一个 Job， Request = 100 ，此时因为 ElasticQuota B 无人使用，ElasticQuota A 能从 B 手里借用50个Quota，满足了 Request = 100，并且此时 Used = 100。在11点钟时，另一个用户开始使用 ElasticQuota B 提交Job，Request = 100，因为 ElasticQuota B 的 min = 50，是必须保障的，通过公平性保障机制，此时 A 和 B 的 runtime 均为50。那么此时对于 ElasticQuota A ，Used = 100 是大于当前 runtime = 50 的，因此我们会提供一个 Controller，驱逐掉一部分 Pod ，使得当前 ElasticQuota A 的 Used 降低到 runtime 相等的水位。

2. 精细化资源调度

机器学习领域里依靠大量强大算力性能的 GPU 设备完成模型训练，但是 GPU 自身价格十分昂贵。如何更好地利用GPU设备，发挥GPU的价值，降低成本，是一个亟待解决的问题。 Kubernetes 社区现有的 GPU 分配机制中，GPU 是由 kubelet 分配的，并只支持分配一个或多个完整的 GPU 实例。这种方法简单可靠，但类似于 CPU 和 Memory，GPU 并不是一直处于高利用率水位，同样存在资源浪费的问题。因此，Koordinator 希望支持多工作负载共享使用 GPU 设备以节省成本。此外，GPU 有其特殊性。比如下面的 NVIDIA GPU 支持的 NVLink 和超卖场景，都需要通过调度器进行中央决策，以获得全局最优的分配结果。

从图中我们可以发现，虽然该节点有8个 GPU 实例，型号为A100/V100，但 GPU 实例之间的数据传输速度是不同的。当一个 Pod 需要多个 GPU 实例时，我们可以为 Pod 分配具有最大数据传输速度组合关系的 GPU 实例。此外，当我们希望一组 Pod 中的 GPU 实例具有最大数据传输速度组合关系时，调度器应该将最佳 GPU 实例批量分配给这些 Pod，并将它们分配到同一个节点。

GPU 资源协议

Koordinator 兼容社区已有的 nvidia.com/gpu资源协议，并且还自定义了扩展资源协议，支持用户更细粒度的分配 GPU 资源。

kubernetes.io/gpu-core 代表GPU的计算能力。与 Kuberetes MilliCPU 类似，我们将 GPU 的总算力抽象为100，用户可以根据需要申请相应数量的 GPU 算力。
kubernetes.io/gpu-memory 表示 GPU 的内存容量，以字节为单位。
kubernetes.io/gpu-memory-ratio 代表 GPU 内存的百分比。

假设一个节点有4个GPU设备实例，每个GPU设备实例有 8Gi 显存。用户如果期望申请一个完整的 GPU 实例，除了使用 nvidia.com/gpu之外，还可以按照如下方式申请：

apiVersion: v1
kind: Pod
metadata:
  name: demo-pod
  namespace: default
spec:
  containers:
  - name: main
    resources:
      limits: 
        kubernetes.io/gpu-core: 100
        kubernetes.io/gpu-memory: "8Gi"
      requests:
        kubernetes.io/gpu-core: 100
        kubernetes.io/gpu-memory: "8Gi"

如果期望只使用一个 GPU 实例一半的资源，可以按照如下方式申请：

apiVersion: v1
kind: Pod
metadata:
  name: demo-pod
  namespace: default
spec:
  containers:
  - name: main
    resources:
      limits: 
        kubernetes.io/gpu-core: 50
        kubernetes.io/gpu-memory: "4Gi"
      requests:
        kubernetes.io/gpu-core: 50
        kubernetes.io/gpu-memory: "4Gi"

设备信息和设备容量上报

在 Koordinator v0.7.0 版本中，单机侧 koordlet 安装后会自动识别节点上是否含有 GPU 设备，如果存在的话，会上报这些 GPU 设备的 Minor ID、 UUID、算力和显存大小到一个类型为 Device CRD 中。每个节点对应一个 Device CRD 实例。Device CRD 不仅支持描述 GPU，还支持类似于 FPGA/RDMA等设备类型，目前 v0.7.0 版本只支持 GPU，暂未支持这些设备类型。
Device CRD 会被 koord-manager 内的 NodeResource controller 和 koord-scheduler 消费。NodeResource controller 会根据 Device CRD 中描述的信息，换算成 Koordinator 支持的资源协议 kubernetes.io/gpu-core,kubernetes.io/gpu-memory 更新到 Node.Status.Allocatable 和 Node.Status.Capacity 字段，帮助调度器和 kubelet 完成资源调度。gpu-core 表示GPU 设备实例的算力，一个实例的完整算力为100。假设一个节点有 8 个 GPU 设备实例，那么节点的 gpu-core 容量为 8 100 = 800； gpu-memory 表示 GPU 设备实例的显存大小，单位为字节，同样的节点可以分配的显存总量为设备数量 每个实例的单位容量，例如一个 GPU 设备的显存是 8G，节点上有8 个 GPU 实例，总量为 8 * 8G = 64G。

apiVersion: v1
kind: Node
metadata:
  name: node-a
status:
  capacity:
    koordinator.sh/gpu-core: 800
    koordinator.sh/gpu-memory: "64Gi"
    koordinator.sh/gpu-memory-ratio: 800
  allocatable:
    koordinator.sh/gpu-core: 800
    koordinator.sh/gpu-memory: "64Gi"
    koordinator.sh/gpu-memory-ratio: 800

中心调度分配设备资源

Kuberetes 社区原生提供的设备调度机制中，调度器只负责校验设备容量是否满足 Pod，对于一些简单的设备类型是足够的，但是当需要更细粒度分配 GPU 时，需要中心调度器给予支持才能实现全局最优。
Koordinator 调度器 koord-scheduler 新增了调度插件 DeviceShare，负责精细度设备资源调度。DeviceShare 插件消费 Device CRD，记录每个节点可以分配的设备信息。DeviceShare 在调度时，会把 Pod 的GPU资源请求转换为 Koordinator 的资源协议，并过滤每个节点的未分配的 GPU 设备实例。确保有资源可用后，在 Reserve 阶段更新内部状态，并在 PreBind 阶段更新 Pod Annotation，记录当前 Pod 应该使用哪些 GPU 设备。
DeviceShare 将在后续版本支持 Binpacking 和 Spread 策略，实现更好的设备资源调度能力。

单机侧精准绑定设备信息

Kubernetes 社区在 kubelet 中提供了 DevicePlugin 机制，支持设备厂商在 kubelet 分配好设备后有机会获得设备信息，并填充到环境变量或者更新挂载路径。但是不能支持中心化的 GPU 精细化调度场景。
针对这个问题， Koordinator 扩展了 koord-runtime-proxy ，支持在 kubelet 创建容器时更新环境变量，注入调度器分配的 GPU 设备信息。

3. 调度器诊断分析

大家在使用 Kubernetes 时经常会遇到一些调度相关的问题：

我这个 Pod 为什么不能调度？
这个 Pod 为什么会调度到这个节点，不是应该被另一个打分插件影响到么？
我新开发了一个插件，发现调度结果不符合预期，但是有不知道哪里出了问题。

要诊断分析这些问题，除了要掌握 Kubernetes 基本的调度机制和资源分配机制外，还需要调度器自身给予支持。但是 Kubernetes kube-scheduler 提供的诊断能力比较有限，有时候甚至没有什么日志可以查看。kube-scheduler 原生是支持通过 HTTP 更改日志等级，可以获得更多日志信息，例如执行如下命令可以更改日志等级到5：

$ curl -X PUT schedulerLeaderIP:10251/debug/flags/v --data '5' 
successfully set klog.logging.verbosity to 5

Koordinator 针对这些问题，实现了一套 Restful API ，帮助用户提升问题诊断分析的效率

分析 Score 结果

PUT /debug/flags/s 允许用户打开 Debug Score 开关，在打分结束后，以Markdown 格式打印 TopN 节点各个插件的分值。例如：

$ curl -X PUT schedulerLeaderIP:10251/debug/flags/s --data '100'
successfully set debugTopNScores to 100

当有新 Pod 调度时，观察 scheduler log 可以看到如下信息

| # | Pod | Node | Score | ImageLocality | InterPodAffinity | LoadAwareScheduling | NodeAffinity | NodeNUMAResource | NodeResourcesBalancedAllocation | NodeResourcesFit | PodTopologySpread | Reservation | TaintToleration |
| --- | --- | --- | ---:| ---:| ---:| ---:| ---:| ---:| ---:| ---:| ---:| ---:| ---:|
| 0 | default/curlimage-545745d8f8-rngp7 | cn-hangzhou.10.0.4.51 | 577 | 0 | 0 | 87 | 0 | 0 | 96 | 94 | 200 | 0 | 100 |
| 1 | default/curlimage-545745d8f8-rngp7 | cn-hangzhou.10.0.4.50 | 574 | 0 | 0 | 85 | 0 | 0 | 96 | 93 | 200 | 0 | 100 |
| 2 | default/curlimage-545745d8f8-rngp7 | cn-hangzhou.10.0.4.19 | 541 | 0 | 0 | 55 | 0 | 0 | 95 | 91 | 200 | 0 | 100 |
| 3 | default/curlimage-545745d8f8-rngp7 | cn-hangzhou.10.0.4.18 | 487 | 0 | 0 | 15 | 0 | 0 | 90 | 82 | 200 | 0 | 100 |

找个 Markdown 工具，就可以转为如下表格

#	Pod	Node	Score	LoadAwareScheduling	NodeResourcesFit	PodTopologySpread
0	default/curlimage-545745d8f8-rngp7	cn-hangzhou.10.0.4.51	577	87	94	200
1	default/curlimage-545745d8f8-rngp7	cn-hangzhou.10.0.4.50	574	85	93	200
2	default/curlimage-545745d8f8-rngp7	cn-hangzhou.10.0.4.19	541	55	91	200
3	default/curlimage-545745d8f8-rngp7	cn-hangzhou.10.0.4.18	487	15	82	200

调度插件导出内部状态

像 koord-scheduler 内部的 NodeNUMAResource 、 DeviceShare和ElasticQuota等插件内部都有维护一些状态帮助调度。 koord-scheduler 自定义了一个新的插件扩展接口（定义见下文），并会在初始化插件后，识别该插件是否实现了该接口并调用该接口，让插件注入需要暴露的 RestfulAPI。以 NodeNUMAResource 插件为例，会提供 /cpuTopologyOptions/:nodeName和 /availableCPUs/:nodeName两个Endpoints，可以查看插件内部记录的 CPU 拓扑信息和分配结果。

type APIServiceProvider interface {
    RegisterEndpoints(group *gin.RouterGroup)
}

用户在使用时，按照 /apis/v1/plugins/<pluginName>/<pluginEndpoints>方式构建 URL 查看数据，例如要查看 /cpuTopologyOptions/:nodeName：

$ curl schedulerLeaderIP:10252/apis/v1/plugins/NodeNUMAResources/cpuTopologyOptions/node-1
{"cpuTopology":{"numCPUs":32,"numCores":16,"numNodes":1,"numSockets":1,"cpuDetails":....

查看当前支持的插件 API

为了方便大家使用，koord-scheduler 提供了 /apis/v1/__services__ 查看支持的 API Endpoints

$ curl schedulerLeaderIP:10251/apis/v1/__services__
{
    "GET": [
        "/apis/v1/__services__",
        "/apis/v1/nodes/:nodeName",
        "/apis/v1/plugins/Coscheduling/gang/:namespace/:name",
        "/apis/v1/plugins/DeviceShare/nodeDeviceSummaries",
        "/apis/v1/plugins/DeviceShare/nodeDeviceSummaries/:name",
        "/apis/v1/plugins/ElasticQuota/quota/:name",
        "/apis/v1/plugins/NodeNUMAResource/availableCPUs/:nodeName",
        "/apis/v1/plugins/NodeNUMAResource/cpuTopologyOptions/:nodeName"
    ]
}

4. 更安全的重调度

在 Koordinator v0.6 版本中我们发布了全新的 koord-descheduler，支持插件化实现需要的重调度策略和自定义驱逐机制，并内置了面向 PodMigrationJob 的迁移控制器，通过 Koordinator Reservation 机制预留资源，确保有资源的情况下发起驱逐。解决了 Pod 被驱逐后无资源可用影响应用的可用性问题。
Koordinator v0.7 版本中，koord-descheduler 实现了更安全的重调度

支持 Evict 限流，用户可以根据需要配置限流策略，例如允许每分钟驱逐多少个 Pod
支持配置 Namespace 灰度重调度能力，让用户可以更放心的灰度
支持按照 Node/Namespace 配置驱逐数量，例如配置节点维度最多只驱逐两个，那么即使有插件要求驱逐该节点上的更多Pod，会被拒绝。
感知 Workload ，如果一个 Workload 正在发布、缩容、已经有一定量的 Pod 正在被驱逐或者一些Pod NotReady，重调度器会拒绝新的重调度请求。目前支持原生的 Deployment，StatefulSet 以及 Kruise CloneSet，Kruise AdvancedStatefulSet。

后续重调度器还会提升公平性，防止一直重复的重调度同一个 workload ，尽量降低重调度对应用的可用性的影响。

5. 其他改动

Koordinator 进一步增强了 CPU 精细化调度能力，完全兼容 kubelet ( <= v1.22) CPU Manager static 策略。调度器分配 CPU 时会避免分配被 kubelet 预留的 CPU，单机侧koordlet完整适配了kubelet从1.18到1.22版本的分配策略，有效避免了 CPU 冲突。
资源预留机制支持 AllocateOnce 语义，满足单次预留场景。并改进了 Reservation 状态语义，更加准确描述 Reservation 对象当前的状态。
改进了离线资源(Batch CPU/Memory) 的声明方式，支持limit大于request的资源描述形式，可以方便原burstable类型的任务直接转换为混部模式运行。

你可以通过 Github release[6] 页面，来查看更多的改动以及它们的作者与提交记录。

背景​

核心亮点功能​

1. 网络拓扑感知调度：加速分布式 AI 训练中的通信​

集群网络拓扑配置​

配置拓扑感知的 Gang 调度​

2. 作业级抢占：确保全有或全无的资源获取​

抢占算法​

使用示例​

3. 异构设备调度：支持华为昇腾 NPU 和寒武纪 MLU​

华为昇腾 NPU 支持​

寒武纪 MLU 支持​

4. 其他增强和改进​

5. 全面的 API 参考和开发者指南​

API 参考​

开发者指南​

5. 最佳实践：批量混部快速入门​

贡献者​

未来计划​

致谢​

背景​

核心亮点功能​

1、GPU 拓扑感知调度：加速 AI 应用内的 GPU 互联​

2、端到端 GDR 支持：提升跨机任务的互联性能​

3、GPU 共享强隔离：提高 AI 推理任务的资源利用率​

4、差异化 GPU 调度策略：有效降低 GPU 碎片率​

5、精细化资源预留：满足 AI 任务的高效运行需求​

6、混部：Mid tier 支持空闲资源再分配，增强 Pod 级别 QoS 配置​

7、调度、重调度：持续提升的运行效率​

未来计划​

背景​

版本功能特性解读​

Pod级别NUMA对齐策略​

Terway网络QoS​

Core Scheduling​

Pod运行时物理核隔离​

下一代CPU QoS策略​

其他功能​

欢迎社区新成员​

未来计划​

致谢​

背景​

版本功能特性解读​

1. 支持 K8s 与 YARN 混部​

2. 引入 NUMA 拓扑对齐策略​

3. ElasticQuota 再进化​

3.1 引入 Multi QuotaTree​

3.2 支持 non-preemptible​

3.3 其它改进​

4. CPU 归一化​

5. 改进的重调度防护策略​

6. 冷内存上报​

7. 非容器化应用的 QoS 管理​

8. 其它特性​

未来计划​

结语​

背景​

版本功能特性解读​

资源预留增强​

其他调度增强​

NRI 资源管理模式​

节点画像和 Mid 资源超卖​

其他功能​

未来计划​

结语​

背景​

版本功能特性解读​

节点资源预留​

节点资源预留声明​

调度及重调度场景适配​

单机资源管理​

兼容社区重调度策略​

资源预留调度能力增强​

支持AMD环境下的L3 Cache和内存带宽隔离​

其他功能​

未来计划​

什么是 CPU 混部​

内核 CPU 混部技术​

龙蜥 CPU 混部插件​

Plugsched SDK 神器​

CPU 混部插件测试​

背景

核心亮点功能

1. 网络拓扑感知调度：加速分布式 AI 训练中的通信

集群网络拓扑配置

配置拓扑感知的 Gang 调度

2. 作业级抢占：确保全有或全无的资源获取

抢占算法

使用示例

3. 异构设备调度：支持华为昇腾 NPU 和寒武纪 MLU

华为昇腾 NPU 支持

寒武纪 MLU 支持

4. 其他增强和改进

5. 全面的 API 参考和开发者指南

API 参考

开发者指南

5. 最佳实践：批量混部快速入门

贡献者

未来计划

致谢

背景

核心亮点功能

1、GPU 拓扑感知调度：加速 AI 应用内的 GPU 互联

2、端到端 GDR 支持：提升跨机任务的互联性能

3、GPU 共享强隔离：提高 AI 推理任务的资源利用率

4、差异化 GPU 调度策略：有效降低 GPU 碎片率

5、精细化资源预留：满足 AI 任务的高效运行需求

6、混部：Mid tier 支持空闲资源再分配，增强 Pod 级别 QoS 配置

7、调度、重调度：持续提升的运行效率

未来计划

背景

版本功能特性解读

Pod级别NUMA对齐策略

Terway网络QoS

Core Scheduling

Pod运行时物理核隔离

下一代CPU QoS策略

其他功能

欢迎社区新成员

未来计划

致谢

背景

版本功能特性解读

1. 支持 K8s 与 YARN 混部

2. 引入 NUMA 拓扑对齐策略

3. ElasticQuota 再进化

3.1 引入 Multi QuotaTree

3.2 支持 non-preemptible

3.3 其它改进

4. CPU 归一化

5. 改进的重调度防护策略

6. 冷内存上报

7. 非容器化应用的 QoS 管理

8. 其它特性

未来计划

结语

背景

版本功能特性解读

资源预留增强

其他调度增强

NRI 资源管理模式

节点画像和 Mid 资源超卖

其他功能

未来计划

结语

背景

版本功能特性解读

节点资源预留

节点资源预留声明

调度及重调度场景适配

单机资源管理

兼容社区重调度策略

资源预留调度能力增强

支持AMD环境下的L3 Cache和内存带宽隔离

其他功能

未来计划

什么是 CPU 混部

内核 CPU 混部技术

龙蜥 CPU 混部插件

Plugsched SDK 神器

CPU 混部插件测试