kv-cache - Poor Blog ; Leave out

kv-cache

nanoGPT에서 LLaMA까지: Transformer shape, RoPE, Norm, KV Cache를 한 번에 잡기

nanoGPT/GPT-2식 decoder-only Transformer를 출발점으로 LLaMA의 RoPE, RMSNorm/SwiGLU, hidden dimension, seq_len, attention score, KV cache가 무엇이 다르고 어떻게 연결되는지 정리한다.

04 Jul 2026

Context Parallelism과 Expert Parallelism: Long Context와 MoE를 쪼개는 두 축

Context Parallelism은 sequence/context length 축을 나눠 long-context attention의 activation/KV 부담을 줄이고, Expert Parallelism은 MoE expert 축을 나눠 sparse FFN 계산을 여러 GPU로 분산한다.

04 Jul 2026