Skip to content

Home

vLLM 강의에 오신 것을 환영합니다.
좌측 네비게이션을 따라 필요한 파트들을 열람하시고 따라해보시면 됩니다.
runpod 에서 gpu 서버를 빌리고 따라가는 것을 기준으로 작성되어있습니다.

vLLM

vllm은 LLM Serving framework 로 PagedAttention, Speculative Decoding 과 같은 기법이 적용되어서 가능한 빠르게 서빙해주는 도구 입니다. 써보니까 장점이 많네요.
ollama 나 sglang 과 같은 유사 제품들도 있습니다.
제 개인적인 경험으로는 낮은 진입장벽과 얻을 수 있는 성능, grafana와 같은 관리자용 도구와의 연동 같은 부분을 고려했을 때, 꽤나 괜찮은 선택지라고 보여집니다.