Skip to primary navigation
Skip to content
Skip to footer
Poor Blog ; Leave out
Introduce
Language
Rust
Python
C++
Tags
Toggle search
Toggle menu
kv-cache
nanoGPT에서 LLaMA까지: Transformer shape, RoPE, Norm, KV Cache를 한 번에 잡기
nanoGPT/GPT-2식 decoder-only Transformer를 출발점으로 LLaMA의 RoPE, RMSNorm/SwiGLU, hidden dimension, seq_len, attention score, KV cache가 무엇이 다르고 어떻게 연결되는지 정리한다.
Context Parallelism과 Expert Parallelism: Long Context와 MoE를 쪼개는 두 축
Context Parallelism은 sequence/context length 축을 나눠 long-context attention의 activation/KV 부담을 줄이고, Expert Parallelism은 MoE expert 축을 나눠 sparse FFN 계산을 여러 GPU로 분산한다.
Enter your search term...