Enabling Resilience in Virtualized RANs with Atlas¶
- 研究背景:
- 虚拟化无线接入网(vRAN)正在兴起,它允许在商用服务器而非专有硬件上运行 RAN 处理
- 面临挑战:
- 负责底层 RAN 协议的 DU 具有严格的实时截止时间要求和黑盒特性,这使得为其提供升级和故障转移等弹性(Resilience)功能极具挑战性
- 现有的虚拟机迁移或状态复制等典型工作负载的弹性技术无法适用
- 缺乏弹性导致在进行系统维护或遭遇崩溃时,会出现长达数秒至数分钟的严重服务中断
(1) 核心创新 (Atlas 系统)
- 这是第一个为 DU 提供弹性/恢复力的系统
- 核心洞察是:重新利用蜂窝网络现有的无线层面弹性机制(即网络切换和小区重选)来为 DU 提供软件层面的弹性
(2) 关键机制设计
- 主动迁移(应对计划内的升级/维护):
- Atlas 重新利用了“切换(Handover)”机制,将用户设备(UE)从源 DU 无缝迁移到目标 DU
- 为了实现这一点,Atlas 设计了一种新颖的无线电单元(RU)共享机制,通过同一个无线电设备同时为新旧两个 DU 的小区提供服务
- 该 RU 共享机制在空间维度上(利用多天线端口)复用时间敏感的下行控制信道信号,并在时间维度上(通过 MAC 层调度在不同 TTI 中进行)分配用户数据
- 被动迁移(应对突发的软硬件故障):
- 当发生计划外故障时,Atlas 重新利用“小区重选(Cell Reselection)”机制来快速恢复用户设备的连接
- 现有 5G RAN 协议对 DU 故障缺乏感知的缺陷,这会严重延迟 UE 重新连接到备份 DU 的过程
- 为此,Atlas 在 DU 和更上层的集中式单元(CU)之间引入了一个轻量级的中传(Midhaul)控制平面中间件(NF), 用于拦截底层流量并快速向 CU 传递故障警报,从而消除协议缺陷带来的干扰
Note
(1) 主动迁移:
时间 + 空间维度的 "复用"
(2) 被动迁移:
中间件