Netflix 模型服务中的路由现状
Netflix 官方技术博客介绍了模型服务中的路由现状。在大规模在线推理系统中,路由需在延迟、吞吐、成本、可用性和模型异构性之间权衡。文章从简单负载均衡演进到自适应路由,强调结合模型副本、容量、SLO 和观测数据动...
Netflix 官方技术博客发布了一篇长文,介绍模型服务中的路由现状。这是多篇系列博客的第一篇,分享 Netflix 如何通过机器学习模型服务基础设施,在多个领域(如标题推荐、商务)大规模提供个性化体验的技术见解。Netflix 通过领域无关的 API 抽象和中央 ML 模型服务平台,支持多个领域的个性化体验。这个单一的 API,即进入 ML 模型服务平台的入口,显著提升了在现有 ML 体验上迭代新版本的创新速度,同时也支持使用 ML 构建全新的产品体验。

核心内容
在大规模在线推理系统中,路由不只是把请求分发到任意实例,而是要在延迟、吞吐、成本、可用性、模型/硬件异构性和实时负载变化之间做权衡。文章梳理了从简单静态/轮询式负载均衡,到更智能的、感知服务状态与性能指标的自适应路由思路。好的 routing layer 应该把模型副本、容量、队列、SLO、降级策略和观测数据结合起来,动态决定请求去哪里,从而提升资源利用率并稳定用户体验。
价值与影响
Netflix 通过中央 ML 模型服务平台向多个特定领域的微服务暴露流量路由能力,提升了在现有 ML 体验上迭代新版本的创新速度,也支持使用 ML 构建全新的产品体验。这种自适应路由思路有助于在大规模在线推理系统中更好地权衡延迟、吞吐、成本、可用性和模型异构性,从而提升资源利用率并稳定用户体验。

