6️⃣Prompt Compression with LLMLingua

RAG(Retrieval-Augmented Generation)에서는 입력 토큰이 가장 많은 리소스를 소비하며, 사용자 쿼리는 일반적으로 벡터 스토리지로 전송되어 가장 유사한 정보의 벡터 데이터를 가져옵니다. 사용자의 쿼리에 의해 벡터 스토리지에서 검색된 문맥이나 관련 문서에 따라 Prompt(input)는 수천 개의 토큰에 도달할 수도 있습니다.

Prompt compression은 가장 중요한 정보를 유지하면서 원본 프롬프트를 단축하고 언어 모델 응답 생성 속도를 높이는 데 사용되는 기술입니다.

프롬프트 압축의 기반이 되는 이론은 언어에는 종종 불필요한 반복이 포함된다는 것입니다.

LLMLingua

LLMLingua는 잘 훈련된 컴팩트한 언어 모델(예: GPT2-small, LLaMA-7B)을 활용하여 프롬프트에서 필수적이지 않은 토큰을 식별하고 제거합니다. 이 접근 방식은 대규모 언어 모델(LLM)로 효율적인 추론을 가능하게 하여 성능 손실을 최소화하면서 최대 20배의 압축을 달성할 수 있습니다.

Last updated