Intel® Gaudi® Hands-on Workshop | SqueezeBits x Lablup과 함께한 Gaudi 실습 후기

SqueeezeBits와 Lablup이 함께한 Intel® Gaudi® 핸즈온 세션의 생생한 후기를 확인해보세요. Backend.AI의 안정적인 환경에서 Gaudi향 모델 경량화 & 추론 최적화까지 실제 NPU 도입 이후 활용하는 단계에서 경험할 수 있는 내용들로 구성되어 있습니다.

Goeun Kang

Jan 07, 2026

Intel® Gaudi® Hands-on Workshop | SqueezeBits x Lablup과 함께한 Gaudi 실습 후기

안녕하세요.

스퀴즈비츠 입니다!

AI 환경이 빠르게 변화하고, 선택할 수 있는 하드웨어 폭도 점점 넓어지는 요즘, 많은 기업이 공통으로 이런 질문을 던집니다.

‘AI 모델을 어떻게 하면 더 빠르고, 효율적으로 돌릴 수 있을까?’

스퀴즈비츠는 이러한 고민에 답하기 위해, 다양한 AI 하드웨어를 직접 경험하고 실습해 볼 수 있는 자리를 꾸준히 만들어가고 있습니다.

Intel® Gaudi® 핸즈온 워크샵은 빈자리가 없을 만큼 많은 분들이 참여해주셨습니다.

Intel® Gaudi®를 직접 다뤄본 첫 번째 핸즈온 워크샵

이번 워크샵에서는 Lablup의 Backend.AI 환경에서 Intel® Gaudi®를 활용해, 실무에 필요한 다양한 AI 모델을 직접 최적화하고 구동해 보는 시간을 가졌습니다. 특히 Intel®의 Gaudi®로는 처음으로 진행된 핸즈온 워크샵인 만큼, 참가자분들뿐만 아니라 운영진에게도 기대와 설렘이 컸던 자리였는데요.

평일 오후에 진행된 워크샵이었음에도 불구하고 많은 분들이 참석해 주셨고, 참가자분들이 세션에 더 집중하실 수 있도록 간단한 다과와 간식도 함께 준비해 현장의 분위기를 더욱 편안하게 만들었습니다.

워크샵 구성: 개념부터 실습까지 한번에!

이번 워크샵은 Intel®의 김민석 Industry Technical Sales Specialist가 Intel® Gaudi®가 제시하는 새로운 AI 인프라 기준을 소개하는 세션으로 시작되었습니다.

Intel® Gaudi®의 특징에 대해 설명 중인 김민석 Industry Technical Sales specialist

이어서 Lablup의 김종민 GTM Lead가 소개한 Backend.AI는 이러한 고성능 Gaudi® 자원을 참가자 개개인에게 안정적으로 배분하는 핵심 플랫폼 역할을 했습니다. 특히 GitHub 주소만 입력하면 실습 환경을 자동으로 세팅해 주는 ‘URL 시작’ 기능을 통해, 참가자들은 복잡한 설정 과정 없이 각자 독립적인 환경에서 즉시 실습에 몰입할 수 있었습니다.

이어서 Backend.AI의 실습 환경에 접속하는 방법을 설명해주고 있는 Lablup의 김종민 GTM Lead

이후 이어진 세션은 Intel Gaudi Software Stack이 제공하는 익숙한 개발 경험에 대한 소개였습니다. 한마디로 정리하면, 이 stack은 복잡한 AI 모델을 Gaudi® 하드웨어에 맞춰 알아서 정리하고 최적화해 주는 ‘똑똑한 컴파일러’라 할 수 있습니다. 덕분에 개발자들은 기존 PyTorch 코드를 거의 수정하지 않고도 즉시 성능 체감을 할 수 있었습니다.

상황에 따라 즉시 실행하는 Eager Mode와 한 번 더 최적화해 실행하는 Lazy Mode를 선택할 수 있다는 점도 확인할 수 있었습니다. 이처럼 강력한 하드웨어와 사용자 친화적인 소프트웨어, 그리고 Backend.AI의 자원 관리 기술이 어우러져 자연스럽고 매끄러운 실습 환경이 조성되었습니다.

세션별 전문 엔지니어와 함께하는 핸즈온 실습

이후에는 사전 응답을 바탕으로, 세션별 전문 엔지니어와 함께하는 핸즈온 실습이 진행되었습니다. 실제 현업에서 높은 관심을 받는 기술들로 구성된 만큼, 참가자분들의 적극적인 참여 속에서 현장의 열기는 시간이 갈수록 더 고조되었습니다.

이번 핸즈온 세션은 스퀴즈비츠의 주도로 Intel® Gaudi® 하드웨어의 성능을 극대화하기 위한 AI 모델 경량화 및 최적화 기술을 직접 체험하는 데 중점을 두었습니다.

스퀴즈비츠 엔지니어들의 도움으로 원활한 학습 환경을 갖출 수 있었습니다.

Diffusion: 이미지 생성 모델을 더 빠르게

Diffusion 세션에서는 이미지 생성 모델이 Intel® Gaudi® 환경에서 어떻게 동작하는지를 직접 확인해 보는 실습이 진행됐습니다.

Hugging Face의 Diffusers 라이브러리를 기반으로 Qwen-Image 모델을 활용해, 기존 GPU 환경에서 사용하던 코드에 몇 가지 설정만 추가해 Gaudi®에 맞게 실행해 보는 방식이었는데요. ‘GPU 코드를 거의 그대로 두고, Optimum Habana 인터페이스를 통해 단 몇 줄의 코드 수정만으로도 실행 환경이 달라질 수 있구나’를 체감할 수 있는 시간이었습니다.

특히 이미지 생성이라는 직관적인 결과 덕분에, 하드웨어 최적화가 실제 성능 차이로 이어진다는 점을 누구나 쉽게 이해할 수 있는 세션이었습니다.

단순히 모델이 실행되는 수준을 넘어, 추론 성능을 극대화하기 위한 세부적인 최적화 과정도 함께 다뤄졌습니다. Gaudi® 환경에서 하드웨어 가속 기법을 활용해 이미지 생성 속도를 높이는 구체적인 방법론까지 소개되어, 참가자분들은 ‘쉬운 코드 이식’과 ‘최적화된 추론 성능’을 동시에 경험할 수 있었습니다.

Diffusion 세션에 대해 설명하고 있는 SqueezeBits의 이종호 엔지니어

Fine-Tuning: PEFT(Parameter-Efficient Fine-Tuning)로 필요한 부분만 학습

Fine-Tuning 세션에서는 Deepspeed를 기반으로 Qwen3-0.6B 모델을 활용한 LoRA 학습을 중심으로 실습이 진행되었습니다. 대규모 언어 모델(LLM)을 처음부터 학습시키는 방식은 큰 비용과 시간이 소요되지만, 이번에 다룬 PEFT 방식은 모델의 핵심 구조는 유지한 채 필요한 부분만 효율적으로 학습함으로써 자원 소모를 최소화할 수 있다는 점이 특징입니다.

또한 Gaudi®에 최적화된 Intel®의 Deepspeed 라이브러리 환경에서 LoRA 기반 경량 학습을 직접 실행해 보며, 제한된 자원 환경에서도 충분히 실무 수준의 미세 조정이 가능하다는 점을 확인할 수 있었습니다.

더 나아가, 기존 LoRA 방식의 한계를 보완한 GraLoRA도 함께 살펴보았습니다. 기존 LoRA가 모든 레이어에 동일한 Rank를 적용하는 방식이었다면, GraLoRA는 레이어 또는 모듈 단위로 학습 강도를 세밀하게 조절할 수 있도록 설게된 PEFT 기법으로, 동일한 성능 목표에서도 더 적은 파라미터와 메모리 사용량으로 효율적인 학습을 가능하게 합니다.

이번 세션을 통해 참가자분들은 LoRA뿐만 아니라 GraLoRA와 같은 최신 PEFT 기법을 활용해 기존 모델을 목적에 맞게 정교하게 조정하고, 이를 Intel® Gaudi® 환경에서 효과적으로 적용할 수 있다는 점을 직접 체험했습니다.

다양한 질문과 대화를 통해 일방적인 이론 세션이 아닌 실질적 실습 환경을 만들 수 있었습니다.

vLLM: 대규모 언어 모델(LLM)을 효율적으로 서빙하기

가장 많은 관심을 받았던 세션은 단연 vLLM 파트였습니다. 이 세션에서는 LLM을 단순히 실행하는 것을 넘어, 대표적인 서빙 프레임워크인 vLLM의 Intel® Gaudi® 향 구현을 이해하고 실습하는 것에 초점을 맞췄습니다. 기존 vLLM 기반 서빙 구조를 Gaudi® 환경에서도 유사하게 활용할 수 있어, 하드웨어가 달라져도 서빙 방식이 크게 달라지지 않는다는 점을 확인할 수 있었습니다. 무엇보다 Intel® Gaudi®를 위해 내부적으로 구현된 최적화 기법들을 직접 실습해볼 수 있었습니다.

특히, 효율적인 LLM 서빙을 위한 최적화 기법인 Quantization(양자화)에 대한 설명과 실습이 인상적이었습니다. Intel® Gaudi®의 vLLM 환경에서는 Intel®의 자체 Compression 라이브러리인 Intel Neural Compressor 기반 Quantization 기능이 통합되어 있는 점이 강조되었습니다. 덕분에 대표적인 모델인 Qwen3-8B 모델에 대해 vLLM 프레임워크 내에서 손쉽게 Quantization을 적용해볼 수 있었고, 이를 통한 즉각적인 성능 향상을 실제 벤치마크를 통해 직접 확인할 수 있었습니다.

실습 중간에 어려운 점이 있다면 SqueezeBits의 전문 엔지니어분들을 통해 바로 해결할 수 있었습니다.

참가자 피드백과 의미 있는 성과

설문조사 결과, 대부분의 참가자분께서 워크샵 전반에 대해 높은 만족도를 보여주셨습니다. 특히, 실습 중심으로 구성된 세션에 대한 긍정적인 반응이 많았습니다.

“실제 예시 코드를 디테일하게 설명해 주신 것이 좋았습니다.”

“NPU를 처음 사용해 봤는데, 생각보다 많이 어렵지 않아 만족했습니다.”

“직접 접하기 어려운 Gaudi를 Backend.AI 환경에서 다룰 수 있어서 좋았습니다.”

현장에서 전문 엔지니어들과 함께 최신 기술을 직접 다뤄볼 수 있었다는 점과, 단순한 이론 소개가 아닌 실제 실습으로 이해할 수 있었다는 점이 참가자분들께 높은 만족감을 주었습니다.

특히, 다양한 NPU 환경을 실제로 경험해 볼 수 있어 의미 있었다는 피드백이 이어지며, 이번 워크샵의 취지가 잘 전달되었음을 확인할 수 있었습니다.

또한, 앞으로도 다양한 하드웨어 환경을 직접 다뤄볼 수 있는 실습 기반의 워크샵에 참여하고 싶다는 의견이 이어지며, 이번 행사를 통해 국내에서도 AI 모델 최적화와 하드웨어 활용에 대한 관심이 점점 높아지고 있음을 다시 한번 느낄 수 있었습니다.

긴 시간임에도 불구하고 끝까지 집중해서 참여해주셔서 실습의 중요성을 더욱 느끼게 되었습니다.

앞으로도 ‘직접 경험하는 AI’ 환경을 지원합니다

이번 워크샵은 Backend.AI의 안정적인 플랫폼, Intel® Gaudi®의 고성능 AI 하드웨어, 그리고 스퀴즈비츠의 모델 최적화 기술이 만나 만들어낸 시너지를 만들어낸 자리였습니다. AI 환경이 빠르게 변화할수록, 다양한 하드웨어를 직접 경험하고 실무에 적용해 보는 기회의 중요성은 더 커질 것입니다.

스퀴즈비츠는 앞으로도 변화하는 AI 인프라 환경 속에서, 더 실질적이고 도움이 되는 경험형 이벤트를 계속해서 만들어가겠습니다.

다가오는 새해에도 스퀴즈비츠에 많은 관심 부탁드립니다. 🙌

스퀴즈비츠에서 진행하는 다음 행사들이 궁금하시다면, LinkedIn 채널을 통해 새로운 소식을 놓치지 말고 확인해주세요! 가장 빠르고 정확하게 다음 워크샵 및 다양한 기술 행사 소식을 받아보실 수 있습니다.