Home

vLLM 강의에 오신 것을 환영합니다.
좌측 네비게이션을 따라 필요한 파트들을 열람하시고 따라해보시면 됩니다.
runpod 에서 gpu 서버를 빌리고 따라가는 것을 기준으로 작성되어있습니다.

vLLM

vllm은 LLM Serving framework 로 PagedAttention, Speculative Decoding 과 같은 기법이 적용되어서 가능한 빠르게 서빙해주는 도구 입니다. 써보니까 장점이 많네요.
ollama 나 sglang 과 같은 유사 제품들도 있습니다.
제 개인적인 경험으로는 낮은 진입장벽과 얻을 수 있는 성능, grafana와 같은 관리자용 도구와의 연동 같은 부분을 고려했을 때, 꽤나 괜찮은 선택지라고 보여집니다.