Skip to primary navigation
Skip to content
Skip to footer
Poor Blog ; Leave out
Introduce
Language
Rust
Python
C++
Tags
Toggle search
Toggle menu
gqa
Context Parallelism과 Expert Parallelism: Long Context와 MoE를 쪼개는 두 축
Context Parallelism은 sequence/context length 축을 나눠 long-context attention의 activation/KV 부담을 줄이고, Expert Parallelism은 MoE expert 축을 나눠 sparse FFN 계산을 여러 GPU로 분산한다.
Enter your search term...