분산 분산 근사 정책 최적화
강화학습 알고리즘인 PPO를 여러 컴퓨팅 자원에 분산하여 대규모로 학습시키는 기법이다. 수억 단계의 복잡한 내비게이션 시나리오를 빠르게 훈련할 수 있게 하며, 에이전트가 다양한 환경에서 최적의 경로를 찾도록 돕는다.