2026 Efficient AI Offline Meetup
8주간의 온라인 스터디를 마무리짓는 오프라인 밋업을 통해 스퀴즈비츠가 어떻게 경량화 AI 커뮤니티 확장에 기여하고 있는지 확인해 보세요!
May 28, 2026
안녕하세요!
스퀴즈비츠 마케팅 매니저 강고은입니다. 🙌
따뜻한 5월 주말, 작년에 이어 올해도 Efficient AI Offline Meetup을 진행했습니다. 벌써 7회째 이어오고 있는 스터디이기도 하죠!
스퀴즈비츠는 매년 AI 경량화 커뮤니티의 확장을 위해 ‘Efficient AI’라는 주제로 온라인 스터디를 운영해 왔고, 그 여정의 마무리로 오프라인 밋업을 진행해 왔습니다.
매일같이 다양한 논문이 쏟아지지만, 혼자서 모두 소화하기는 생각만큼 쉽지 않습니다. 또 각자 중요하게 여기는 논문의 기준도 다르다 보니, 온라인 스터디를 통해 서로의 의견을 나누고 질문할 수 있는 시간은 더욱 소중한 시간이었어요. 그 덕분인지 늦은 저녁 시간임에도 불구하고 많은 분들이 참석해 주셨습니다.
8주간의 온라인 스터디 여정
링크드인을 통해 온라인 스터디 신청을 오픈하자마자 많은 분들이 신청해 주셨어요. 총 200명이 넘는 분들과 8주 동안 긴 여정을 함께했습니다. 3월부터 4월까지 매주 화요일 밤 9시에 총 8회 진행했으며, 매주 한 분씩 총 8분의 연사자분들과 함께했어요.
특히 이번 스터디는 조금 특별한 방식으로 진행되었습니다. 이전에는 하나의 논문을 깊게 탐구하는 방식이었다면, 이번에는 하나의 주제를 중심으로 여러 논문을 넓게 아우르는 방식으로 운영했어요. 최신 AI 기술 발전 속도가 워낙 빠르다 보니, 개별 논문 리뷰를 넘어 한 주제를 가지고 기술의 전체적인 흐름을 그려보자는 스퀴즈비츠 엔지니어들의 아이디어였죠. 그래서 이번엔 스퀴즈비츠 엔지니어분들이 4분이나 발표에 참여해 주셨습니다. 😎

이번 스터디에서 가장 인상 깊었던 점은 발표 이후에 질문이 많았다는 점이었어요. 온라인임에도 연사자분들의 발표가 끝나면 심도 있는 질문이 여러 개씩 이어졌고, 의견을 활발히 나누다 보니 예정된 1시간을 훌쩍 넘기는 날도 많았습니다. AI 경량화라는 큰 주제 안에서도 LLM, 멀티모달, Diffusion, World Model 등 다양한 카테고리를 폭넓게 다뤄 8회의 스터디를 마쳤을 때는 정말 풍부한 내용으로 가득했던 것 같습니다.
온라인 스터디를 마무리하며 남겨 주신 공통된 의견 중에는 폭넓은 최신 경량화 동향과 기술을 알 수 있어 좋았다는 말이 많았어요. 다양한 논문과 여러 경량화 축을 고르게 다루며 전체적인 시야를 넓힐 수 있었다는 의견도 있었습니다.
각 회차가 끝날 때마다 약 일주일간 영상을 공개해 추가로 스터디할 수 있도록 공유해 드렸는데요. 거의 모든 회차의 다시보기 횟수가 100회를 넘을 정도로 많은 분들이 열정적으로 참여해 주셔서 빨리 이 온라인의 열기를 오프라인으로도 이어가야겠다는 생각이 들었어요.
🔥 Offline Meetup, 온라인의 열정을 현장으로!
온라인으로만 뵙던 분들뿐만 아니라, 이번 스터디에는 참석하지 못했지만 AI 경량화에 관심 있는 많은 분들을 대상으로 5월 16일 토요일 오프라인 밋업을 진행했습니다. 쨍쨍한 날씨의 주말이었음에도, 밋업에 참여하기 위해 많은 분들이 모여 주셨어요.
이번 밋업은 온라인 스터디의 마무리인 만큼 스퀴즈비츠의 김태수 CTO님께서 지난 온라인 스터디의 진행 과정을 간략히 소개해 주셨습니다.

온라인에서 최신 이론과 논문을 공부했다면, 오프라인에서는 글로벌 기업·학계·현업에서 Efficient AI를 실제로 어떻게 구현하고 활용하는지 생생한 이야기를 들을 수 있도록 관련 연사자분들을 모셨습니다.
이번 밋업에는 Qualcomm과 Modular의 든든한 후원이 더해졌는데요. 특히 퀄컴코리아는 모든 참석자에게 맛있는 간식과 커피를 제공해 밋업 현장을 한층 더 풍성하게 만들었습니다. 🍩☕
Qualcomm이 그리는 온디바이스 AI(On-Device AI) 시대
퀄컴코리아의 조경민 부장님은 ‘온디바이스 AI’ 시대를 대비한 퀄컴의 하드웨어·소프트웨어 전략을 공유해 주셨습니다. AI가 클라우드 중심에서 온디바이스·엣지 환경으로 확장되면서, 제한된 하드웨어 자원에서도 AI를 효율적으로 실행하기 위한 최적화 기술의 중요성이 더욱 커지고 있음을 확인할 수 있었어요.
특히 보안과 비용 문제를 해결하면서도 거대한 AI 모델을 사내에서 안전하게 구동할 수 있는 ‘Dragonwing’ 인프라와 데이터 수집부터 배포까지 한 번에 해결하는 플랫폼이 눈길을 끌었습니다. 로봇에 AI를 탑재해 움직이게 하는 흥미로운 사례와 함께, 국내 대학에 개발 보드를 지원하며 미래 AI 개발자 생태계를 키워가는 퀄컴의 진정성도 엿볼 수 있었습니다.

Modular의 차세대 AI 솔루션 Mojo 그리고 MAX 소개
미국 AI 유니콘 기업 Modular의 Judy Heflin님은 이번 Efficient AI 밋업에서 차세대 AI 개발 환경인 Mojo와 MAX를 소개했습니다.
최근 AI 산업에서는 NVIDIA GPU뿐 아니라 다양한 AI 가속기와 NPU가 빠르게 등장하면서, 특정 하드웨어에 종속되지 않는 유연한 개발 환경의 중요성이 커지고 있어요. 다만 기존 CUDA 기반 개발은 높은 성능을 제공하는 대신 코드가 복잡하고 유지보수가 어렵다는 한계가 있었습니다.
Modular는 이러한 문제를 해결하기 위해 Python(파이썬)처럼 익숙한 문법으로 고성능 AI 시스템을 개발할 수 있는 프로그래밍 언어 Mojo와 다양한 하드웨어 환경에서 최적화된 AI 추론을 지원하는 프레임워크 MAX를 소개했습니다.
특히 MAX는 LLM 서빙부터 모델 최적화, GPU 커널 개발까지 하나의 오픈소스 생태계 안에서 통합 지원한다는 점이 큰 특징이었습니다. NVIDIA GPU뿐 아니라 다양한 AI 하드웨어를 폭넓게 지원하며 앞으로의 AI 개발이 더 개방적이고 유연해질 것이라는 흐름을 느낄 수 있었습니다.

더 똑똑하고 부드럽게 움직이는 로봇을 만드는 법
후원사의 소개가 끝나고 본격적인 연사자 발표가 시작되었습니다.
먼저 POSTECH 박은혁 교수님께서 NeurIPS’ 25 논문으로 채택된 연구 내용을 전반적으로 소개해 주셨습니다. 요즘 로봇공학에서는 사람의 행동을 보고 그대로 따라 하는 학습 방식이 유행인데요. 문제는 실제 환경에서 아주 작은 오차만 생겨도 로봇이 고장난 것처럼 뚝딱거릴 수 있다는 점입니다.
박은혁 교수님은 로봇이 상황 변화를 실시간으로 인지하고, 그에 맞춰 행동 계획을 유연하게 수정하는 기법을 제안하셨어요. 특히 추가적인 재학습 없이도 로봇이 구동되는 단계(Inference)에서 바로 적용할 수 있다는 점이 인상적이었습니다.
.jpg%253FspaceId%253D23f4b38d-2def-440d-b962-b485f3d7fb97%3Ftable%3Dblock%26id%3D367258ac-0943-80d9-a3f3-dc7483d2e582%26cache%3Dv2&w=828&q=85)
복잡한 AI 에이전트들을 가볍고 빠르게, LRAgent
이어서 서울대학교 전혜성님이 여러 AI 에이전트가 동시에 동작할 때 발생하는 비효율을 해결하는 새로운 방법인 LRAgent를 소개해 주셨습니다.
최근 AI 서비스들은 하나의 비서가 아니라 '기획하는 AI', '검색하는 AI', '검토하는 AI'처럼 여러 AI 비서, 즉 에이전트들이 협업하는 방식을 씁니다. 당연히 비서가 많아질수록 컴퓨터 메모리도 많이 쓰고 느려지겠죠?
이번 연구는 AI가 이전 대화 내용을 기억하기 위해 사용하는 ‘KV Cache’ 구조에 주목했습니다. 서로 다른 에이전트들이 결국 비슷한 정보를 중복해서 저장한다는 점을 발견하고서 겹치는 기억은 공유하고 다른 부분만 따로 관리하자는 아이디어(LRAgent)를 제안했어요.
이를 통해 별도의 모델 재학습 없이도 처리 속도를 최대 2배 이상 끌어올리는 결과를 보며, 비용 효율적인 AI 서비스의 미래를 엿볼 수 있었습니다. AI 에이전트 기반 서비스가 점점 복잡해지는 상황에서, 이번에 발표해주신 연구는 더 적은 자원으로 더 많은 AI 에이전트를 안정적으로 운영할 수 있는 가능성을 보여줬다는 점에서 의미가 큰 세션이었습니다.

AI의 뼈대부터 시스템까지, 꽉 찬 '풀스택 최적화'
마지막 발표는 MOTIF 이성민 리드님이 생성형 AI 모델을 더 빠르고 효율적으로 학습시키기 위한 풀스택(Full-stack) 최적화 기술을 소개해 주셨습니다.
최근 AI 모델은 점점 더 커지고 복잡해지면서, 성능만큼이나 막대한 GPU 비용과 메모리 사용량이 큰 과제로 떠오르고 있어요. 이를 해결하기 위해 모티프에서는 모델 구조(Architecture)부터 시스템(System) 레벨까지 전반을 최적화한 사례를 중심으로 이야기해 주셨습니다.
중요한 정보와 불필요한 신호를 분리해 내는 독자적인 연산 구조(GDLA)로 메모리 사용량을 줄이고, 데이터 이동 과정에서 생기는 병목 현상까지 깔끔하게 해소했죠. 단순히 모델을 키우는 것을 넘어 ‘얼마나 효율적으로 운영할 수 있는가’가 진짜 실력임을 보여주었어요.

👀 눈으로 보고 몸으로 느끼는 네트워킹 & 데모 세션
후원사 세션부터 발표까지 다양한 분야의 알찬 내용이 공유된 만큼, 각 세션마다 질문도 적극적으로 남겨 주셨습니다. 단순히 발표를 듣는 데 그치지 않고, 실제 현업에서 겪는 고민과 경험을 바탕으로 깊이 있는 논의가 이어졌습니다. 세션 종료 후에도 연사자와 참석자들이 자연스럽게 네트워킹을 이어가며 다양한 인사이트를 나누는 모습이 인상적이었어요.
네트워킹 시간을 통해 다양한 데모 영상도 확인해 볼 수 있었습니다. 스퀴즈비츠가 자랑하는 피지컬 AI 데이터 증강 플랫폼 'RoBoost'와 생성형 AI 이미지 및 영상을 빠르게 구현할 수 있는 'Yetter'의 데모 영상을 비롯해, 퀄컴 칩을 기반으로 구현된 다양한 온디바이스 AI 솔루션들이 전시되었습니다. 미니 컴퓨터와 보드 위에서 스스로 작동하는 AI 에이전트, AI를 활용한 홈 허브 등 책상 위 논문으로만 보던 기술들이 실제 디바이스에서 척척 구동되는 모습을 직접 눈으로 확인하는 재미가 쏠쏠했습니다.



🚀 앞으로도 Efficient AI 커뮤니티는 계속됩니다!
커뮤니티가 이어질 수 있는 건 많은 분들께서 관심을 갖고 다양한 의견을 나눠 주시며 참석해 주신 덕분이라고 생각합니다. 그중에서도 온라인 스터디와 오프라인 밋업을 함께 경험한 분들의 이야기는 커뮤니티의 의미를 더 또렷하게 보여줬습니다.
이번 Efficient AI 온라인 스터디의 연사자이자 오프라인 밋업에도 참여해 주신 삼성리서치 정효찬 님의 후기가 이번 행사의 의미를 가장 잘 짚어 주신 것 같습니다.
“온라인 스터디 발표를 준비하면서 그동안 공부해 온 AI 압축 기술을 큰 흐름 안에서 다시 정리해 볼 수 있어 뜻깊었습니다. 오프라인 밋업에서는 평소 관심 있던 최적화 기술이 실제 현업과 제품에 어떻게 적용되는지 생생하게 들을 수 있어 유익했어요. 무엇보다 비슷한 고민을 하는 분들과 직접 만나 교류할 수 있다는 점이 가장 좋았습니다."
효율적으로 AI를 구동하고 서비스를 제공하는 일은 AI 업계 모두의 공통된 고민입니다. 특히 기술이 실험실을 넘어 우리 일상 속 진짜 '제품'이 될수록 속도, 비용, 전력 같은 현실적인 장벽을 넘어야 하죠. 이것이 바로 스퀴즈비츠가 AI 경량화 및 최적화에 집중하며, 이 생태계를 함께 키워 가고자 하는 이유입니다.
스퀴즈비츠는 이런 고민을 함께 나누고, 최신 흐름과 적용 사례를 더 폭넓게 연결할 수 있도록 Efficient AI 스터디와 밋업을 계속 운영해 볼 예정입니다.
이번에 아쉽게 기회를 놓치셨다면? 스퀴즈비츠의 최신 소식이 가장 먼저 올라오는 스퀴즈비츠 링크드인을 팔로우하고 지켜봐 주세요! 😊 앞으로 더 많은 분들과 AI의 미래를 이야기할 수 있기를 기대합니다.
끝으로 다시 한 번 이번 Efficient AI 온라인 스터디와 Offline Meetup에 참여해 주셔서 감사합니다! 🙌
Share article