rope

nanoGPT에서 LLaMA까지: Transformer shape, RoPE, Norm, KV Cache를 한 번에 잡기

nanoGPT/GPT-2식 decoder-only Transformer를 출발점으로 LLaMA의 RoPE, RMSNorm/SwiGLU, hidden dimension, seq_len, attention score, KV cache가 무엇이 다르고 어떻게 연결되는지 정리한다.