跳转至

Resilient Baseband Processing in Virtualized RANs with Slingshot

(1) 研究背景与面临挑战

  • vRAN的普及与缺陷:

    • 蜂窝网络正在广泛采用vRANs,即使用商用服务器上运行的软件来取代传统的专用RAN硬件
    • 然而,当前的vRAN部署缺乏弹性(Resilience),无法支持快速的故障转移或零停机时间升级
  • 实现弹性的挑战:

    • 为 vRAN 提供弹性非常困难,主要原因有两点
    • 首先是: 严格的实时延迟要求,vRAN必须在严格的传输时间间隔(TTIs,5G中通常为500微秒)内完成任务,而现有的虚拟机/容器迁移技术会导致数百毫秒的停机时间,使得用户设备(UE)完全断开连接
    • 其次是: 商用vRAN软件的 “黑盒”特性 和极高的复杂性,使得修改现有软件以实现传统的状态复制变得不切实际

(2) 核心洞察与解决方案 - Slingshot

  • Slingshot:

    • 文章提出了一个名为Slingshot的新系统, 专门为vRAN中性能要求最苛刻、计算成本最高且实时性最强的物理层(PHY或L1)透明地提供弹性
    • 该系统无需修改任何现有的vRAN硬件或软件组件,具有高度的兼容性
  • 核心理论洞察:

    • Slingshot的设计基于一个关键观察:
    • 在弹性事件(如故障转移)中发生的短暂计算或I/O中断(例如丢失前一个TTI计算的软PHY状态或丢弃部分前传数据包),其影响与常规的无线信号质量下降非常相似
    • 由于蜂窝网络天然具备容忍较差信号质量的机制(如HARQ重传),Slingshot可以利用这一特性,在不进行任何状态转移的情况下,仅在TTI边界执行轻量级的“PHY迁移”

(3) 系统架构与三大关键组件

为了透明地管理两类主要流量 (RU-PHY前传流量 + L2-PHY控制流量), Slingshot引入了新型中间件架构:

  • 可编程交换机前传中间件 (In-switch fronthaul middlebox):

    • 位于无线电单元(RU)和PHY之间
    • 利用边缘数据中心的可编程交换机来管理高带宽、低延迟的前传流量
    • 通过使用 虚拟PHY地址和解析数据包头 字段来识别TTI边界,从而能够精准且无延迟地在数据平面动态更改RU到PHY的映射
  • 交换机内的快速故障检测 (In-switch RAN failure detection):

    • 该机制同样运行在可编程交换机上,无需依赖传统的探测消息
    • 利用健康PHY每个TTI都会向下行链路发送数据包的特性,将这些数据包流作为天然的“心跳”
    • 通过监控数据包的到达间隙,能够在极短时间(约450微秒)内检测到PHY进程故障
  • Orion软件中间件 (L2-to-PHY FAPI middlebox):

    • 部署在L2和PHY层之间,负责拦截和处理标准的FAPI协议消息
    • 为了以极低的CPU开销维持一个热备用(hot standby)的辅助PHY,Orion向备用PHY发送null的FAPI请求(即不包含实际信号处理任务的合法请求),保持其存活而不产生重度计算开销
    • 当发生迁移时,Orion透明地切换流量方向,对L2和PHY完全隐藏迁移细节