Runware는 빠른 AI 추론을 위해 사용자 정의 하드웨어와 혁신적인 오케스트레이션을 활용합니다

때로는 제품을 이해하는 데 데모만으로 충분합니다. 그리고 그것이 Runware의 경우입니다. Runware 웹 사이트로 이동하여 프롬프트를 입력하고 이미지를 생성하려면 엔터를 누르면 Runware가 이미지를 빠르게 생성함에 놀랄 것입니다 - 1초 미만이 소요됩니다.

Runware는 AI 추론 또는 생성적 AI 스타트업 분야의 신입이다. 해당 회사는 자체 서버를 구축하고 해당 서버의 소프트웨어 레이어를 최적화하여 병목 현상을 제거하고 이미지 생성 모델의 추론 속도를 향상시키고 있습니다. 해당 스타트업은 이미 Andreessen Horowitz의 Speedrun, LakeStar의 Halo II 및 Lunar Ventures로부터 300만달러의 투자를 확보했습니다.

회사는 바퀴를 다시 발명하려는 것이 아니라 그것이 빠르게 회전하도록하려는 것입니다. Runware는 자체 서버를 제조하고 가능한 한 많은 GPU를 동일한 마더보드에 탑재합니다. 사용자 정의 냉각 시스템을 보유하고 자체 데이터 센터를 관리합니다.

Runware는 서버에서 AI 모델을 실행할 때 BIOS 및 운영 체제 최적화를 통해 차가운 시작 시간을 개선하기 위한 오케스트레이션 레이어를 최적화했습니다. 간섭 작업 부하를 할당하는 자체 알고리즘을 개발했습니다.

데모만으로도 인상적입니다. 지금, 회사는 이 모든 작업을 연구 및 개발에 활용하여 비즈니스화하려 합니다.

많은 GPU 호스팅 회사와는 달리 Runware는 GPU 시간을 기반으로 GPU를 임대하지 않을 것입니다. 대신, 회사들이 작업 부하를 높일 것을 장려해야 한다고 믿습니다. 이것이 Runware가 전통적인 비용-단위-API-호출 요구 구조에 따라 이미지 생성 API를 제공하는 이유입니다. 이는 Flux 및 Stable Diffusion의 인기있는 AI 모델을 기반으로 합니다.

공동 창업자 및 CEO인 Flaviu Radulescu는 TechCrunch에 말했습니다. “Together AI, Replicate, Hugging Face를 보면 모두 그래픽 처리 장치 시간을 기반으로 컴퓨팅을 판매하고 있습니다. 우리가 이미지를 생성하는 데 걸리는 시간을 그들과 비교해보면 가격이 훨씬 저렴하고 빠르다는 것을 알 수 있을 것입니다.”

“그러한 성능을 맞추기는 불가능할 것입니다,” 그는 덧붙였다. “특히 클라우드 제공업체는 가상 환경에서 실행해야하므로 추가적인 지연이 발생합니다.”

Runware가 전체 추론 파이프라인을 고려하고 하드웨어 및 소프트웨어를 최적화함에 따라 회사는 향후 가까운 시기에 여러 공급 업체의 GPU를 사용할 수 있기를 희망하고 있습니다. Nvidia가 GPU 시장에서 명실상부한 선두업체이기 때문에 Nvidia GPU가 상당히 비싸기 때문에 이것은 여러 스타트업에게 중요한 노력이었습니다.

Radulescu는 말했습니다. “지금은 단지 Nvidia GPU만 사용합니다. 그러나 이것은 소프트웨어 레이어의 추상화되어야한다.” “우리는 모델을 GPU 메모리에 매우 빠르게 넣거나 빼는 것이 가능하여 동일한 GPU에 여러 고객을 넣을 수 있습니다.

“그래서 우리는 경쟁사와는 다릅니다. 그들은 모델을 GPU에 로드하고 그 다음 GPU가 특정 유형의 작업을 수행합니다. 우리의 경우 GPU 메모리에 모델을 넣거나 빼는 것을 수행할 수 있도록이 소프트웨어 솔루션을 개발했습니다.“

AMD 및 기타 GPU 공급 업체가 전형적인 AI 작업 부하와 호환되는 호환성 레이어를 만들 수 있다면 Runware는 다양한 공급 업체의 GPU를 활용하는 하이브리드 클라우드를 구축할 수 있는 좋은 위치에 있습니다. 이는 경쟁사들보다 AI 추론에서 저렴하게 유지하려는 경우 도움이 될 것입니다.