Yetter.ai: 빠르고 효율적인 생성형 AI API와 최적화 엔진으로 완성

스퀴즈비츠의 독점적인 최적화 기술을 내재화한 생성형 AI API 서빙 플랫폼인 예터 (Yetter)를 소개합니다. Yetter AI API와 Yetter Inference Engine에 대해 자세히 알아보세요.
Seungryeol Kim's avatar
Feb 06, 2026
Yetter.ai: 빠르고 효율적인 생성형 AI API와 최적화 엔진으로 완성
Video preview
Yetter.ai를 소개하는 데모 영상

경량화와 최적화의 가치를 직접 제공합니다

 
안녕하세요 스퀴즈비츠의 Product Manager 김승렬입니다.
 
최근 생성형 AI가 빠르게 발전하면서, 창의적인 아이디어를 실제 비즈니스로 연결할 수 있는 새로운 가능성이 열렸습니다. 하지만 실제 도입 단계에 들어서면 높은 운영 비용, 기대에 미치지 못하는 추론 속도, 대규모 운영이 요구하는 인프라와 인력 등 현실적 벽에 부딪히는 경우가 많습니다. 이런 효율성 이슈는 멋진 프로토타입이 안정적으로 확장되는 서비스로 성장하는 데 종종 걸림돌이 됩니다.
스퀴즈비츠는 그동안 AI 모델 경량화 및 최적화 분야에서 아울라이트(OwLite, AI 경량화 솔루션), 핏츠 온 칩스(FitsOnChips, LLM 서빙 최적화 솔루션)와 같은 솔루션을 통해 이러한 문제들을 해결해 왔습니다. 파트너사들이 AI 모델의 잠재력을 최대한 끌어내면서도, 현실적인 하드웨어 제약과 비용 한계 속에서 안정적으로 운영할 수 있도록 돕는 기술을 연구하고 제공하는 데 집중해 왔습니다.
스퀴즈비츠의 독보적인 최적화 기술과 하드웨어에 대한 깊은 이해를 바탕으로, 더 효율적이고 쉬운 생성형 AI 서비스 예터(Yetter)를 개발했습니다. 예터(Yetter)는 스퀴즈비츠의 독점적인 최적화 기술을 내재화한 생성형 AI API 서빙 플랫폼입니다. 이는 단순한 사업 방향의 전환이 아니라, 더 많은 파트너가 최고의 효율로 생성형 AI의 가치를 누릴 수 있도록 생태계를 확장하려는 전략적 움직임입니다.

Yetter.ai를 소개합니다

예터(Yetter)는 "Lighter, Faster, yet Better"라는 의미를 가지고 있으며, 가볍고 빠르지만 여전히 우수한 퀄리티로 생성형 AI 어플리케이션을 구현할 수 있도록 돕는 서비스입니다. 현재 Yetter APIYetter Inference Engine이라는 두 가지 방식으로 서비스를 제공하고 있습니다.
Yetter.ai는 실제 상용 서비스를 위해 설계된 API Service(Inference as a Service, 서비스형 추론) 플랫폼입니다. 사용자는 직접 서버나 인프라를 구축하지 않고도 API 호출만으로 쉽게 이용할 수 있습니다. 대규모 사용자 요청도 안정적으로 처리하며, 다양한 생성형 AI 서비스에 AI 기능을 원활하게 통합할 수 있습니다. 또한 사용자가 API의 속도와 성능을 직접 체험할 수 있도록, 직관적인 웹 기반 Playground를 제공하여 신속한 프로토타이핑과 테스트를 지원합니다.
Qwen-Image 모델을 활용한 이미지 생성 예시
Qwen-Image 모델을 활용한 이미지 생성 예시
Z-Image-Turbo 모델을 활용한 이미지 생성 예시
Z-Image-Turbo 모델을 활용한 이미지 생성 예시
Yetter를 통해 여러 모델을 테스트하고 성능을 비교할 수 있습니다. 가장 기본적으로 많이 사용하는 Text-to-image뿐만 아니라 Image-to-video, Video-to-video 등 다양한 모델을 활용하여 창의적인 생성형 이미지를 제작할 수 있습니다.
특히 Z-Image-Turbo 모델은 0.75초 만에 이미지 한 장을 생성할 만큼 빠르면서도 뛰어난 퀄리티를 자랑합니다. 실제로 박람회에서 데모 영상을 확인한 많은 분들이 이러한 놀라움을 감추지 못했습니다.
최근에는 Sam-3D-Object 모델을 지원하여 기존 이미지를 3D 디자인 형식으로 구현할 수 있습니다. 영화 제작, 로봇 공학, 가구 설계 등 시각적·공간적 이해가 필요한 분야에서 더욱 활발하게 활용할 수 있을 것으로 기대됩니다.
 
Yetter 서비스 대시보드
Yetter 서비스 대시보드
사용량, 생성 속도, 크레딧 비용 등 다양한 API 정보를 대시보드에서 손쉽게 확인하실 수 있습니다. 이 모든 서비스는 스퀴즈비츠의 독보적인 기술인 예터 추론 엔진(Yetter Inference Engine)을 기반으로 구동됩니다. 이 엔진 덕분에 모델이 더 빠르고 효율적으로 실행됩니다. 현재 JavaScript와 Python을 지원하며, 미디어 콘텐츠 생성에 널리 사용되는 ComfyUI도 함께 지원합니다.

Yetter의 강점 : 하드웨어와 소프트웨어를 모두 고려한 효율성 극대화

Yetter는 최신 생성형 AI 모델을 꾸준히 지원하며, 여러 측면에서 강점을 가지고 있습니다.
notion image
  • 합리적인 비용으로 최고 수준의 이미지 모델 제공: 뛰어난 성능의 Qwen-Image 모델과 이미지 편집에 특화된 Qwen-Image-Edit 모델을 주력으로 제공합니다. 이 모델들은 이미지 퀄리티뿐만 아니라 프롬프트 이해도와 텍스트 표현 능력도 매우 뛰어납니다.
  • 압도적인 속도와 효율적인 비용: GPU 기반 서비스의 비용은 결국 시간당 사용료로 결정됩니다. 개별 요청이 GPU를 점유하는 시간을 극적으로 단축하여, 경쟁사 대비 월등한 속도, 비용 및 퀄리티의 균형을 동시에 달성했습니다.
  • 미래를 향한 로드맵: 최신 동영상 생성 모델을 이미 지원하고 있으며, 향후 대규모 언어 모델(LLM)까지 서비스를 확장할 예정입니다.
 
스퀴즈비츠의 진정한 차별점은 하드웨어와 소프트웨어 모두에 대한 깊은 이해입니다. 팀 구성원 모두 양쪽 영역에서 폭넓은 기술력을 보유하고 있으며, 현재 다양한 하드웨어 회사와 협력하여 각 디바이스에 최적화된 서비스를 제공하고 있습니다. 한 분야만 잘 아는 팀은 많지만, 하드웨어와 소프트웨어를 모두 깊이 이해하는 팀은 드뭅니다. 이것이 스퀴즈비츠가 독보적인 영향력을 발휘할 수 있는 이유입니다.

Yetter의 핵심 기술: 예터 추론 엔진 (Yetter Inference Engine)

Yetter의 뛰어난 성능은 생성형 AI 모델을 실행하는 Yetter Inference Engine에서 나옵니다. 이 엔진은 스퀴즈비츠가 수년간 쌓아온 소프트웨어와 하드웨어에 대한 깊은 이해를 바탕으로 개발되었습니다.
notion image

1. 소프트웨어에 대한 이해: 모델의 잠재력을 극대화

스퀴즈비츠는 모델의 아키텍처를 면밀히 분석하여 성능 저하를 최소화하면서 속도를 극대화할 수 있는 최적의 방법을 찾아냅니다. 다양한 최적화 기법을 실험하고 적용한 결과, 모델의 핵심 성능을 유지하면서 GPU에서 Baseline 대비 최대 6.8배에 달하는 추론 속도 향상을 달성했습니다. 이는 동일한 하드웨어로 더 많은 요청을 처리할 수 있어, 고객의 운영 비용을 크게 절감하는 동시에 최종 사용자에게는 더 빠른 응답 속도를 제공합니다.

2. 하드웨어에 대한 이해: GPU를 넘어 NPU까지

대부분의 해외 기업들은 GPU를 통해 AI 추론 서비스를 제공합니다. 하지만 스퀴즈비츠는 GPU를 넘어, Intel 가우디와 같은 데이터 센터용 NPU(신경망 처리 장치)에서 대형 AI 모델을 성공적으로 구동한 실전 경험과 독보적인 기술력을 보유하고 있습니다.
  • 하드웨어 맞춤형 최적화: 각 하드웨어의 특성을 완벽히 이해하고, 그 잠재력을 최대한 끌어내는 최적화를 진행합니다. 이는 LLM 서빙 최적화 과정에서 심층적인 하드웨어 분석을 통해 성능을 극대화했던 경험에서 비롯되었습니다. 가우디에서 vLLM을 배포하고 대표적인 이미지 생성 모델인 FLUX를 구동한 경험은 아래 링크에서 확인하실 수 있습니다.
  • 극적인 성능 개선: NPU 환경에서는 GPU보다 훨씬 뛰어난 성능 향상을 달성했습니다. 각 하드웨어의 장점을 최대한 활용한 결과, 일부 사례에서는 10배 이상의 속도 향상을 기록했습니다.
  • 실제 서비스에서 입증된 성능: 현재 Yetter.ai의 실제 라이브 트래픽 중 일부는 이미 NPU에서 처리되고 있으며, 실제 서비스 환경에서 그 성능을 입증하고 있습니다.

주요 협업 파트너: 함께 만드는 생태계

자체 개발한 Yetter Inference Engine은 GPU는 물론 Intel Gaudi NPU, 그리고 향후 Rebellions의 NPU를 포함한 다양한 하드웨어에서 모델 성능을 극대화할 예정입니다.
그렇다면 이 엔진으로 어떻게 협업할 수 있을까요?
notion image
 
  • 생성형 미디어를 활용하는 기업 및 개인 개발자: Yetter.ai의 빠르고 효율적인 API로 이미지, 비디오 등 혁신적인 생성형 AI 서비스를 구축할 수 있습니다. GPU와 NPU를 아우르는 다각화된 기술 기반과 공급망으로 서비스 안정성을 확보하고 리스크를 분산할 수 있습니다.
  • 클라우드 서비스 제공업체(CSP): NPU, GPU 등 다양한 하드웨어를 보유한 클라우드 서비스 제공업체(CSP)는 Yetter Inference Engine을 활용해 자사 인프라에서 이미지 및 영상 생성 서비스를 효율적으로 제공할 수 있습니다. 이를 통해 리소스 활용도를 높이고 수익성을 개선할 수 있습니다.
  • NPU 제조사: 치열한 생성형 AI 시장에서 Yetter Inference Engine을 활용해 자사 하드웨어의 역량을 효과적으로 선보일 수 있습니다. 예터 추론 엔진을 통해 실질적인 사례를 만들어 잠재 고객에게 성능과 가치를 증명할 수 있습니다. 스퀴즈비츠는 이미 Intel Gaudi NPU에 추론 엔진을 포팅하여 실제 라이브 서비스 트래픽을 처리하고 있으며, 리벨리온의 차세대 하드웨어 지원을 위해 적극 협력하고 있습니다.

Yetter, 앞으로의 방향성

Yetter.ai는 단순한 또 하나의 생성형 AI API가 아닙니다. 스퀴즈비츠의 AI 모델 최적화에 대한 오랜 고민과 기술력이 결합된 결과물입니다. 스퀴즈비츠는 소프트웨어와 하드웨어에 대한 깊은 이해를 바탕으로, '더 빠른 모델'을 만드는 경쟁을 넘어, '더 효율적으로 제공되는 모델'의 진정한 가치를 선보이고자 합니다.
notion image
속도, 비용, 퀄리티, 그리고 유연성이라는 네 마리 토끼를 모두 잡은 Yetter.ai와 함께, 여러분의 아이디어를 현실로 만들어보세요!
스퀴즈비츠는 앞으로도 AI 기술의 경계를 넓히고, 더 많은 파트너와 함께 지속 가능한 AI 생태계를 만들어가겠습니다.
 
 
Share article

스퀴즈비츠