1. Mixture-of-Experts (MoE) ์ํคํ
์ฒ
Llama 4 ์๋ฆฌ์ฆ๋ Scout๊ณผ Maverick ๋ชจ๋ ๋ฉํ ์ฒ์์ผ๋ก Mixture-of-Experts(MoE) ์ํคํ
์ฒ๋ฅผ ์ฑํํ์ต๋๋ค.
Scout์ 16๊ฐ, Maverick์ 128๊ฐ์ experts๋ฅผ ๋ณด์ ํ๊ณ ์์ต๋๋ค. ์ฌ๊ธฐ์ expert๋, ์
๋ ฅ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ํธ์ถ๋๋ ์์ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ๋ฅผ ๋ปํ๋๋ฐ์. ๋ชจ๋ expert๋ฅผ ๋ค ์ฐ๋ ๋์ , ์
๋ ฅ์ ๋ฐ๋ผ ์ผ๋ถ expert๋ง ํ์ฑํํ๋ ๋ฐฉ์์ผ๋ก ๋์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๋ฌ์ฑํ์ต๋๋ค. ๋๋ถ์ ๋ ๋ชจ๋ธ ๋ชจ๋ ์ฑ๋ฅ ๋๋น ๊ณ์ฐ ํจ์จ์ด ๋ฐ์ด๋ฉ๋๋ค. ๋ํ, ๋จ์ผ NVIDIA H100 GPU ์๋ฒ์์๋ ๊ฐ๋ณ๊ฒ ์ด์ฉํ ์ ์์ต๋๋ค.
2. ๋ค์ดํฐ๋ธ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ
Scout๊ณผ Maverick์ ์ฒ์๋ถํฐ ํ
์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ก ์ค๊ณ๋์์ต๋๋ค. ํ
์คํธ ํ ํฐ๊ณผ ์ด๋ฏธ์ง ํจ์น๋ฅผ ์ด๊ธฐ ์ตํฉ(early fusion) ๋ฐฉ์์ผ๋ก ํฉ์ณ ๋จ์ผ backbone ์์์ ํจ๊ป ํ์ต๋ ๋ชจ๋ธ์ธ๋ฐ์. ํ
์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์
๋ ฅ์ผ๋ก ๋ฐ์ ์ ์๊ณ , ์ด๋ฏธ์ง ๋ด ํน์ ์์ญ์ ๋ํ grounding, ์ฆ ์ด๋ฏธ์ง ์ ์ ํํ ์์น๋ ๋์๊ณผ ํ
์คํธ ์ง์๋ฅผ ์ฐ๊ฒฐ์ํค๋ ์์
๋ ์ง์ํฉ๋๋ค. ๋ ๋ชจ๋ธ์ ์ต๋ 48๊ฐ์ ์ด๋ฏธ์ง๊น์ง ์
๋ ฅ์ผ๋ก ์์ฉ ๊ฐ๋ฅํ๋ฉฐ, ๋ฉํฐ์ด๋ฏธ์ง ์ถ๋ก ๊ณผ ๋น์ -์ธ์ด ๋ณตํฉ ํ์คํฌ์ ๊ฐํฉ๋๋ค.
3. 10M ํ ํฐ ์ด์ฅ๊ธฐ ๋ฌธ๋งฅ (Long Context)
Scout์ ๋ฌด๋ ค 10M tokens ๊ธธ์ด์ ์ด์ฅ๊ธฐ ๋ฌธ๋งฅ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ Llama 3์ 128K ํ ํฐ ๋๋น ์ฝ 80๋ฐฐ, Gemini 1.5 Pro(1M tokens) ๋๋น 10๋ฐฐ๋ ๊ธด ์์ค์
๋๋ค.
๋น๊ฒฐ์ ๊ธฐ์กด RoPE(rotary positional embedding)๋ฅผ ํ์ฅํ iRoPE(interleaved RoPE) ๊ตฌ์กฐ์ ์์ต๋๋ค. ๊ธด ๋ฌธ๋งฅ์์๋ ์ ๋ณด ์์ค ์์ด ์ถ๋ก ํ ์ ์๋๋ก, ํฌ์ง์
๋ ์๋ฒ ๋ฉ ์์ด interleaved attention layer๋ฅผ ์ ์ฉํด ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐํํ์ต๋๋ค. ์ด์ ๋ ์๋ฐฑ ๊ฐ ๋ฌธ์๋ฅผ ํตํฉ ์์ฝํ๊ฑฐ๋, ๋ํ ์ฝ๋๋ฒ ์ด์ค๋ฅผ ๋ถ์ยท๊ฒ์ํ๊ฑฐ๋, ์ฌ์ฉ์ ๊ธฐ๋ก์ ๊ธฐ๋ฐํ ๊ฐ์ธํ๋ ์ถ๋ก ์ด ๊ฐ๋ฅํฉ๋๋ค.
4. Codistillation: Behemoth๋ก๋ถํฐ ์ง์์ ์ด์
Scout๊ณผ Maverick์ Meta ๋ด๋ถ ์ด๊ฑฐ๋ โ์ ์โ ๋ชจ๋ธ์ธ Behemoth๋ก๋ถํฐ codistillation ํ์ต์ ๋ฐ์์ต๋๋ค. ๋จ์ํ ์ ๋ต๋ง ๋ง์ถ๋ ๊ฒ ์๋๋ผ, ์ ์ ๋ชจ๋ธ์ ํด๋นํ๋ Behemoth๊ฐ ์ถ๋ ฅํ๋ ๋ต๋ณ์ ๋ฐฐ์ฐ๋ ๋ฐฉ์์ธ๋ฐ์. ์ ์ ๋ชจ๋ธ์ด ์์ธกํ๋ 'soft label(ํ๋ฅ ๋ถํฌ)'๊น์ง ํ์ต์ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ Scout๊ณผ Maverick์ ๋จ์ ์๊ธฐํ ๋ชจ๋ธ์ด ์๋, Behemoth์ ๊น์ ์ถ๋ก , ์ฝ๋ฉ, ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฐฉ์์ ํก์ํ โ์ ์โ๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
โ๐ผ์ฌ๊ธฐ์ ์ ๊น!
๋ฅ์ํฌ๋ Codistillation๊ณผ ๋น์ทํ์ง๋ง ๋ค๋ฅธ Knowledge Distillation์ ์ฌ์ฉํ์ต๋๋ค. ๋ ํฌ๊ณ ๋๋ํ '์ ์' ๋ชจ๋ธ๋ก๋ถํฐ ์ง์์ ์ฆ๋ฅ(distill)ํด์ ์๊ณ ๋น ๋ฅธ '์ ์' ๋ชจ๋ธ์ ๋ง๋๋ ๊ฑธ ์ฃผ์ ์ ๋ต์ผ๋ก ์ผ์๋๋ฐ์. ๋ฅ์ํฌ๋ ์๋์ ์ผ๋ก ์ ์ ๋ชจ๋ธ ์์กด์ ์ ์ง์ ์ผ๋ก ์ค์ด๋ Knowledge Distillation ๋ฐฉ์์, Llama 4๋ ์ ์ ๋ชจ๋ธ๊ณผ ๋๊น์ง ๋ณํํ๋ Codistillation ๋ฐฉ์์ ์ ๋ต์ผ๋ก ์ผ์๋ค๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
-
Codistillation: Compute์ ๋ ๋ง์ด ์๊ตฌํ์ง๋ง, ์ ์ ๋ชจ๋ธ ํ์ง์ด ์ฌ๋ผ๊ฐ
-
Knowledge Distillation: ํ์ต ํจ์จ์ด ๋์ง๋ง, ์ ์ ๋ชจ๋ธ์ ์์ ํ ๋ฐ๋ผ์ก๊ธด ์ด๋ ค์
|