로컬 LLM Serving with Python
책 소개
인공지능 분야에서 대규모 언어 모델(Large Language Model, LLM)은 가장 혁신적인 기술 중 하나로 자리잡았다. GPT, Claude, Llama와 같은 모델들은 자연어 이해와 생성에서 인간 수준의 성능을 보여주며, 다양한 산업 분야에 적용되고 있다. 그러나 이러한 모델들을 실제 서비스에 활용하려면 단순히 모델을 학습하는 것을 넘어, 효율적으로 추론(inference)을 수행하는 시스템을 구축하는 것이 필수적이다.
초기에는 대부분의 LLM 서비스가 OpenAI, Anthropic, Google과 같은 클라우드 제공자의 API에 의존했다. 이러한 접근은 빠른 시작과 편리함을 제공하지만, 비용, 데이터 프라이버시, 서비스 안정성, 커스터마이징 제약 등의 한계가 명확하다. 특히 대규모 트래픽을 처리하는 기업에게 토큰당 과금 방식은 예측하기 어려운 비용 구조를 만들어낸다. 민감한 데이터를 다루는 의료, 금융, 법률 분야에서는 외부 클라우드로 데이터를 전송하는 것 자체가 규제 위반이 될 수 있다.
이러한 배경에서 로컬 LLM 추론 시스템에 대한 관심이 급증하고 있다. 온프레미스 환경이나 프라이빗 클라우드에서 직접 LLM을 구동하면 데이터 통제권을 완전히 확보할 수 있고, 초기 하드웨어 투자 후에는 한계 비용이 거의 없으며, 자사의 특수한 요구사항에 맞게 모델과 시스템을 커스터마이징할 수 있다. 또한 외부 서비스 장애나 네트워크 문제에 영향받지 않는 안정적인 서비스 제공이 가능하다.
하지만 로컬 LLM 추론 시스템을 구축하는 것은 결코 쉬운 일이 아니다. 대규모 모델은 수십 기가바이트의 메모리를 필요로 하며, 실시간 응답을 제공하려면 복잡한 최적화가 필요하다. 여러 사용자의 요청을 동시에 처리하고, 긴 컨텍스트를 효율적으로 관리하며, 제한된 하드웨어 리소스를 최대한 활용하는 것은 고도의 전문성을 요구한다. 이러한 복잡성을 해결하기 위해 등장한 것이 바로 전문화된 LLM 추론 프레임워크들이다. 본 서는 로컬 LLM 추론 생태계의 세 가지 핵심 프레임워크인 Ollama, vLLM, SGLang을 체계적으로 다룬다. 이 세 프레임워크는 각각 다른 철학과 목표를 가지고 설계되었으며, 서로 다른 사용 사례에 최적화되어 있다. Ollama는 접근성과 사용 편의성을 극대화하여 누구나 쉽게 로컬 LLM을 시작할 수 있게 한다. vLLM은 대규모 프로덕션 환경에서 최고 수준의 성능과 처리량을 제공한다. SGLang은 구조화된 생성과 복잡한 워크플로우를 최적화하여 에이전트 시스템 구축에 강점을 보인다.
각 프레임워크를 단순히 소개하는 것을 넘어, 본 서는 실무에서 즉시 활용할 수 있는 실용적인 지식을 제공하는 것을 목표로 한다. 기본적인 텍스트 생성부터 시작하여, 대화 컨텍스트 관리, 스트리밍 응답, 배치 처리, 성능 최적화까지 단계적으로 학습한다. 특히 각 프레임워크를 활용한 AI 에이전트 구축에 많은 분량을 할애하여, 도구 호출, 의사결정, 복잡한 워크플로우 실행이 가능한 지능형 시스템을 만드는 방법을 상세히 다룬다. 마지막 장에서는 세 프레임워크의 성능을 직접 비교하는 종합 벤치마크를 제시한다. 단일 요청 지연 시간, 배치 처리 성능, 프롬프트 길이별 성능, 메모리 사용량, 동시 사용자 확장성 등 다양한 관점에서 실증적인 데이터를 제공하여, 독자가 자신의 요구사항에 맞는 최적의 프레임워크를 선택할 수 있도록 돕는다.
로컬 LLM 추론은 더 이상 소수의 전문가만이 다루는 영역이 아니다. 적절한 도구와 지식을 갖춘다면 누구나 자신의 환경에서 강력한 AI 시스템을 구축할 수 있다. 본 서가 로컬 LLM 생태계를 탐험하고 실무에 적용하려는 모든 개발자, 엔지니어, 연구자에게 유용한 가이드가 되기를 바란다.
목 차
저자 소개
Table of Contents (목차)
서문: 들어가며
제1장: 로컬 LLM 추론 시스템 아키텍처 개요
제2장: Ollama 서버 기본
제3장: Ollama를 활용한 Agent Serving
제4장: vLLM 서버 기본
제5장: vLLM을 활용한 Agent Serving
제6장: SGLang 서버 기본
제7장: SGLang을 활용한 Agent Serving
제8장: LLM Serving 프레임워크 성능 비교: Ollama vs vLLM vs SGLang
제9장: 결론 - 마무리 하며
References. 참고 문헌
E-Book 구매
Yes24:
교보문고: https://ebook-product.kyobobook.co.kr/dig/epd/ebook/E000012267199
Github 코드
https://github.com/no-wave/local-llm-serving
Last updated
