vLLM Hands-on Workshop with Rebellions & SqueezeBits 현장 후기

Rebellions와 SqueezeBits가 공동 개최한 vLLM Hands-on Workshop 현장 후기: 리벨리온 NPU 기반 vLLM 실습, PyTorch 실전 예제, 성능 최적화 팁과 개발자 경험을 생생하게 전합니다.
Goeun Kang's avatar
Dec 09, 2025
vLLM Hands-on Workshop with Rebellions & SqueezeBits 현장 후기

안녕하세요! 스퀴즈비츠 입니다.

벌써 12월, 어느덧 한 해가 마무리되어 가는 시기입니다. 여러분은 올해 계획하신 일들을 잘 마무리하고 계신가요?

스퀴즈비츠는 올해도 국내외 다양한 행사를 통해 많은 분을 만나며, 개발자 커뮤니티와 함께 성장해 왔습니다. 그중에서도 리벨리온과 함께한 핸즈온 워크샵은 저희에게도, 참석하신 분들에게도 특별한 경험으로 남았습니다.

지난 10월과 11월, 여러분의 높은 관심과 참여 덕분에 ‘vLLM Hands-on Workshop with Rebellions & SqueezeBits’를 2차례 모두 성공적으로 마무리할 수 있었습니다.

VLLM Hands-On Workshop with rebellions & Squeezebits

vLLM Hands-On Workshop, 왜 의미 있었을까요?

이번 워크샵은 지난 8월 진행된 제1회 vLLM Korea Meetup의 성공적인 연장선이라는 점에서 특히 뜻깊었습니다. 한국에서 AI 서비스 도입이 빠르게 확대되고, vLLM이 추론(Inference)의 표준으로 자리 잡아 가면서 정기적인 학습과 실습에 대한 필요성이 더 커지고 있기 때문입니다.

이에 스퀴즈비츠와 리벨리온은 실제 NPU 개발 환경에서 vLLM을 다뤄보는 실습 중심의 세션을 기획했습니다. 평소 접하기 힘든 어려운 최신 하드웨어 환경 속에서 vLLM으로 LLM을 직접 서빙해보는 경험을 제공하는 것이 목표였습니다.

vLLM: The De Facto Open GenAI Inference Platform

왜 vLLM이 중요할까요?

LLM(Large Language Model, 거대 언어 모델) 기반 서비스를 실제로 운영하려면 추론 속도와 효율성이 매우 중요합니다. 사용자 요청이 많아질수록 서버가 감당해야 하는 연산량도 기하급수적으로 증가하기 때문이죠.

vLLM은 이러한 문제를 해결하기 위해 만들어진, LLM 추론을 빠르고 효율적으로 실행하는 핵심 서빙 엔진입니다. vLLM은 GPU 자원을 최대한 활용해 지연 시간(Latency)을 줄이고, 같은 시간 동안 더 많은 요청을 처리하여 운영 비용까지 절감할 수 있습니다.

쉽게 말해, 더 똑똑하고 큰 AI 모델을 더 합리적인 비용으로 서비스할 수 있도록 돕는 엔진입니다.

리벨리온의 Chip Roadmap

NPU(신경망 처리 장치) 환경에서의 새로운 확장성

이번 워크샵이 더욱 특별했던 이유는, 평소에는 쉽게 경험하기 어려운 NPU(신경망처리장치)라는 특별한 환경에서 vLLM을 직접 사용해 봤다는 점입니다.

vLLM은 설계 단계부터 확장성을 고려하여 만들어진 서빙 엔진입니다. 덕분에 복잡한 시스템 개발 과정 없이도, ATOM™용 플러그인(vLLM-RBLN Plugin)만으로 최적화된 서빙 기능을 그대로 활용할 수 있었습니다.

또한, 평소에 파이썬(Python)이나 파이토치(PyTorch)에 익숙한 분들이라면 큰 어려움 없이 실습을 따라올 수 있도록 구성되었기 때문에, 퇴근 후 진행하는 워크샵임에도 모두 집중해서 워크샵에 참여해주셨습니다.

리벨리온의 ATOM™-MAX

실제 서비스 환경에서 실습

실습은 모두 리벨리온의 ATOM™-MAX NPU 서버에서 진행되었습니다. 덕분에 참석하신 분들은 마치 실제 서비스 환경에 접속한 것처럼 높은 현장감을 느끼며 학습할 수 있었습니다.

우선 쿠버네티스(Kubernetes)라는 안정적인 기반 환경 덕분에 접속하자마자 복잡한 설정 없이도 바로 실습에 집중할 수 있었고, 기존의 GPU 환경에서 익숙하게 사용하던 파이토치 기반 기술(예: 텐서 연산, 모델 추론)을 동일하게 다룰 수 있어 진입 장벽도 낮았습니다.

덕분에 ‘새로운 하드웨어라서 복잡할 줄 알았는데, 생각보다 훨씬 쉽고 실용적이었다’라는 참석하신 분들의 피드백이 저희에게도 큰 보람이 되었습니다.

torch-rbln 소개

성능 최적화까지 직접 확인 가능!

이번 워크샵에서는 단순히 모델을 실행해 보는 데서 끝나는 것이 아니라, 실제 기업 환경에서 중요한 성능 최적화 방법까지 함께 다뤘습니다.

참석하신 분들은 가장 기본적인 Hugging Face Transformers 모델 추론부터 직접 구동해 보았으며, 리벨리온 profiler를 통해 병목 구간을 분석했습니다. 이어서 Flash Attention, KV Caching, continuous batching 등이 적용된 Optimum 및 vLLM 추론까지 직접 실습하며 최적화 과정을 경험했습니다.

이를 통해 다양한 최적화 기법들이 적용되었을 때 메모리 사용량, 응답 속도 등이 크게 향상되는 모습까지 직접 확인해 볼 수 있었습니다.

RBLN Profiler 소개

또한 최신 거대 모델인 MoE(Mixture of Experts) 아키텍처까지 NPU 환경에서 직접 시연하며, ‘아주 큰 규모의 AI 서비스도 NPU 기반으로 충분히 확장할 수 있겠다'라는 확신을 함께 얻게 되었습니다.

이 모든 확장은 vLLM_RBLN Plugin 덕분에 기존 GPU 기반 코드 흐름을 거의 그대로 유지하면서 이뤄졌다는 점에서 더욱 의미가 컸습니다.

vLLM 커뮤니티와 함께 계속 확장해 갑니다

이번 워크샵은 단순히 데모나 이론 강의가 아니라, 쿠버네티스 기반의 실제 서비스 인프라 환경에서 진행된 실습형 세션이라는 점에서 더욱 의미가 컸습니다.

스퀴즈비츠는 앞으로도 오픈소스 생태계 확장과 국내 AI 개발 커뮤니티 성장에 적극적으로 함께하겠습니다. 리벨리온과도 더욱 긴밀히 협력하여 vLLM을 중심으로 한 실질적인 기술 경험을 지속적으로 제공할 예정입니다.

다가오는 2026년에도 정기적인 기술 워크샵과 밋업 등 더욱 풍성한 vLLM 관련 컨텐츠를 선보일 예정이니, 많은 관심과 참여 부탁드립니다.

스퀴즈비츠에서 진행하는 다음 행사들이 궁금하시다면, 스퀴즈비츠의 LinkedIn 채널을 통해 새로운 소식을 놓치지 말고 확인해주세요! 가장 빠르고 정확하게 다음 워크샵 및 다양한 기술 행사 소식을 받아보실 수 있습니다.

Share article

squeezebits-ko