PagedAttention (1)

Thumbnail for vLLM — 상용 서비스 수준의 미친 처리 속도

vLLM — 상용 서비스 수준의 미친 처리 속도

내 컴퓨터에서 나 혼자 쓰는 AI가 아니라, 수천 명의 사용자를 동시에 처리해야 하는 진짜 '서비스'를 만들고 싶다면? 메모리 병목을 뚫어버린 PagedAttention 기술로 상용 서빙의 표준이 된 vLLM을 소개한다.