DD-033 VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

arXiv: 2602.10693 기관: rednote-hilab Upvotes: 215 | Comments: 6 순위: 이번 주 Top 3

1. 왜 이 논문이 중요한가?

대규모 언어 모델(LLM)을 강화 학습(RL)으로 학습할 때 발생하는 ‘불안정성’ 문제는 오랫동안 난제였습니다. 특히, 데이터를 생성하는 모델과 학습하는 모델이 서로 다른 상태인 ‘Off-policy’ 상황(비동기 학습, 배치 지연 등)에서 기존의 방식들은 학습이 붕괴하거나 성능이 저하되는 문제를 겪었습니다. VESPO는 이러한 분포 차이를 수학적으로 정당한 방법으로 보정하는 새로운 프레임워크를 제시하여, 모델이 64 스텝이나 늦어진 데이터로도 안정적으로 학습할 수 있게 만들었습니다.

2. 핵심 아이디어 쉽게 이해하기

일상생활 비유: 변화하는 레시피와 요리사

이 논문의 상황을 ‘레스토랑 주방’에 비유해 보겠습니다. 당신은 혁신적인 새로운 레시피(현재 정책, Target Policy)를 계속 개선하고 있는 셰프입니다. 하지만 실제 요리를 하는 주방장들은 너무 바빠서, 당신이 어제 수정한 레시피가 아닌 일주일 전 레시피(오래된 정책, Behavior Policy)를 보고 요리를 합니다.

이 상황에서 당신은 완성된 요리를 보고 “이 레시피가 좋은지 나쁜지”를 판단해야 합니다.

문제점: 주방장이 쓴 레시피와 당신이 쓰는 레시피가 다르기 때문에, 맛이 없는 이유가 ‘재료 비율’ 때문인지 ‘주방장의 실수’ 때문인지 헷갈립니다. 이를 그대로 반영해 내 레시피를 고치면 오히려 맛을 망칠 수 있습니다.
기존 방식의 한계: 기존 방식(예: 토큰 단위 클리핑)은 소금, 설탕 등 재료 하나하나를 따로따로 보정하려 합니다. 하지만 요리는 재료 간의 상호작용(문맥)이 중요하므로, 개별 보정은 요리의 맛을 망치거나 보정 효과가 미미할 수 있습니다.
VESPO의 접근: VESPO는 요리 전체(시퀀스 전체)를 하나로 보고, “주방장이 실제로 쓴 레시피와 내 현재 레시피 사이의 차이를 고려할 때, 이 요리가 마치 *가상의 최적 레시피(Q)**를 따라 만든 것처럼 해석하려면 어떻게 평가해야 할까?”를 수학적으로 계산합니다. 즉, 개별 재료가 아니라 완성된 요리 전체의 궤적을 바로잡아, 내 레시피를 안전하고 효과적으로 업데이트합니다.

단계별 동작 원리

가중치 계산 (Importance Weight): 모델이 현재 정책으로는 문장을 생성할 확률과, 과거에 실제로 생성했을 확률의 비율을 계산합니다. 이것이 “얼마나 멀리 떨어져 있는가”를 나타내는 척도입니다.
변분적 최적화 (Variational Optimization): VESPO는 단순히 이 비율을 사용하는 것이 아니라, “이 비율을 어떤 함수에 통과시키면 분산(Variance)이 가장 줄어들면서도 의미 있는 정보를 얻을 수 있을까?”라는 최적화 문제를 풉니다. 마치 데이터의 잡음을 걸러내는 가장 좋은 필터를 설계하는 과정입니다.
가상 제안 분포 도출 (Implicit Proposal Q): 이 과정을 통해 도출된 함수는 사실상 데이터를 마치 ‘가상의 제안 분포(Q)‘에서 뽑은 것처럼 취급합니다. 이 Q는 원본 데이터의 특성을 유지하면서도 현재 학습하려는 방향으로 부드럽게 조정된 상태입니다.
시퀀스 단위 업데이트: 이 보정이 토큰 하나하나가 아니라 문장 전체 시퀀스에 대해 한 번에 이루어지므로, 문맥이 깨지지 않고 길이에 따른 편향(Bias)도 생기지 않습니다.

핵심 수식 및 알고리즘

논문의 핵심은 중요도 가중치 $W$를 재형성하는 함수 $\phi(W)$를 찾는 것입니다. 저자들은 이를 다음과 같은 변분 목적함식으로 정식화합니다.

$$ \min_Q \left[ \text{KL}(Q || \mu) + \lambda \text{Var}_{Q} [G] \right] $$

여기서 $\mu$는 행동 정책(과거 데이터), $Q$는 우리가 찾고자 하는 가상의 제안 분포, $G$는 보상입니다. 이 식은 “Q가 원본 데이터 분포 $\mu$에서 너무 벗어나지 않으면서($\text{KL}$), 보상의 분산($\text{Var}$)을 최소화하라”는 의미입니다. 이 식을 풀면 다음과 같은 닫힌 형식(Closed-form)의 해를 얻습니다.

$$ \phi^*(W) \propto \frac{1}{1 + \alpha W^2} $$

이 커널 함수는 가중치 $W$가 너무 커지면(즉, 현재 정책과 과거 정책이 너무 다르면) 자동으로 값을 낮추어 학습이 불안정해지는 것을 막아주는 역할을 합니다.

3. 실험 결과 분석

어떤 벤치마크에서 테스트했나?

연구진은 수학적 추론 능력을 평가하는 고난도 벤치마크인 AIME 2024/2025, AMC 2023, MATH-500을 사용했습니다. 모델은 Llama-3.2-3B, Qwen3-8B, 그리고 라우팅 불일치 문제가 심한 MoE(Mixture of Experts) 아키텍처인 Qwen3-30B-A3B-Base를 활용했습니다.

기존 방법 대비 얼마나 좋아졌나?

안정성: VESPO는 ‘Staleness Ratio(데이터 지연 비율)‘가 최대 64배에 달하는 극한의 상황에서도 학습이 붕괴하지 않고 안정적으로 성능을 유지했습니다. 반면 기존 방식들은 데이터가 조금만 오래되어도 성능이 급격히 떨어졌습니다.
성능: 평균 정확도(Avg@k)에서 VESPO는 GRPO나 SAPO 같은 기존 강화 학습 알고리즘보다 일관되게 높은 점수를 기록했습니다.
MoE 모델에서의 강점: 학습과 추론 엔진이 달라 생기는 불일치(Mismatch)가 심한 MoE 모델에서, VESPO는 이러한 노이즈를 효과적으로 흡수하여 기존 방법보다 월등히 우수한 성능을 보였습니다.

주목할 만한 성과

단순히 성능 수치 상승을 넘어, “완전히 비동기적인 학습 시스템”을 구축할 수 있는 이론적/실무적 토대를 마련했다는 점이 가장 큰 성과입니다. 이는 대규모 LLM 군집(Cluster)에서 리소스 효율성을 극대화하는 데 핵심적인 기술이 될 것입니다.

4. 한계점과 향후 연구 방향

저자가 언급한 한계

논문은 주로 수학적 추론 과제에 집중되어 있어, 대화나 도구 사용이 필요한 복잡한 ‘에이전트(Agent)’ 환경에서의 검증이 추가로 필요해 보입니다. 또한, VESPO가 도입하는 추가적인 계산 비용이 극도로 큰 규모의 모델에서 어떻게 작용할지에 대한 심층 분석이 향후 필요할 수 있습니다.

개선 가능한 점 및 향후 방향

저자는 향후 연구 방향으로 더 큰 비동기 클러스터로의 확장, 멀티 턴(Multi-turn) 상호작용 및 도구 사용이 포함된 에이전트 RL 설정으로의 확장, 그리고 오피셜 증류(On-policy Distillation)에 프레임워크를 적용하는 것을 제시했습니다.

5. 실무 적용 가능성

어디에 바로 적용 가능?

현재 LLM을 강화 학습으로 파인 튜닝하는 모든 분야에 즉시 적용 가능합니다. 특히 대규모 GPU 군장을 운용하며 데이터 생성과 학습을 비동기로 처리해야 하는 상황, 혹은 학습 속도를 높이기 위해 여러 미니 배치를 병렬로 처리하는 파이프라인에서 필수적인 기술이 될 것입니다. MoE(Mixture of Experts) 모델을 학습시키는 환경에서는 거의 필수적일 수 있습니다.

필요한 리소스 (GPU, 데이터 등)

논문의 실험은 32개의 NVIDIA H20 GPU 환경에서 수행되었습니다. vLLM과 같은 효율적인 추론 엔진과 FSDP와 같은 분산 학습 프레임워크가 결합된 환경이라면, 기존 PPO 학습 파이프라인에 비해 큰 추가 하드웨어 비용 없이 알고리즘만 교체하여 안정성 이득을 얻을 수 있을 것으로 보입니다.

6. 이 논문을 이해하기 위한 사전 지식

오프폴리 학습(Off-Policy Learning): 에이전트가 현재의 정책이 아닌, 과거에 혹은 다른 정책에 의해 생성된 데이터를 사용하여 학습하는 강화 학습 방식입니다.
중요도 샘플링(Importance Sampling): 다른 분포에서 얻은 샘플을 이용해 특정 분포의 기댓값을 추정하는 통계적 기법으로, 분포가 다를 때 발생하는 오차를 보정합니다.
정책 그래디언트(Policy Gradient): 강화 학습에서 정책을 직접 업데이트하는 방식이며, PPO(Proximal Policy Optimization)는 이의 대표적인 예입니다.
변분 추론(Variational Inference): 확률 분포를 근사하기 위해 최적화 문제를 푸는 방법론으로, 복잡한 분포를 다룰 때 사용됩니다.
혼합 전문가 모델(MoE, Mixture of Experts): 모델의 각 레이어가 전체가 아닌 일부 전문가(Expert)만 활성화되어 연산 효율을 높이는 거대 언어 모델 아키텍처입니다.
훈련-추론 불일치(Train-Inference Mismatch): 모델을 학습할 때의 연산 방식과 실제로 추론(서빙)할 때의 연산 방식 차이로 인해 발생하는 성능 저하나 오류 현상입니다.
분산(Variance): 예측값이 실제값 주변에서 얼마나 흩뿌려져 있는지를 나타내는 척도로, 높은 분산은 학습의 불안정을 초래합니다.

📚 이번 주 관련 Deep Dive

순위	논문	Deep Dive
🥇	A Very Big Video Reasoning Suite	DD-031
🥈	Does Your Reasoning Model Implicitl…	DD-032
🥉	VESPO: Variational Sequence-Level S…	📍 현재 문서
4.	The Trinity of Consistency as a Def…	DD-034
5.	From Blind Spots to Gains: Diagnost…	DD-035

📅 생성일: 2026-03-01 | 🤖 GLM-4.7 Deep Dive

Quartz 4

탐색기

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training