NSA๋ ๊ธฐ์กด์ Sparse Attention ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ํ๋์ ์ฟผ๋ฆฌ์ ๋ํด ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ๊ฒฝ๋ก๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด๋ ๊ฒ ๋ณ๋ ฌ๋ก ๊ฒฝ๋ก๋ฅผ ์ด์ฉํ๋ ์ ๊ทผ์ ๋จ์ผ ๊ฒฝ๋ก๋ ๊ณ ์ ํจํด๋ง์ ์ฌ์ฉํ๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ์ฐจ๋ณํ๋๋ฉฐ, ๊ฐ ๊ฒฝ๋ก๊ฐ ์ ์ญยท์ธ๋ถยท๋ก์ปฌ ์ ๋ณด ์ฒ๋ฆฌ๋ฅผ ๋ถ๋ดํจ์ผ๋ก์จ ๋ณด๋ค ํจ์จ์ ์ด๊ณ ๊ท ํ ์กํ ์ ๋ณด ํ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
1. Token Compression (ํ ํฐ ์์ถ)
์
๋ ฅ ์ํ์ค๋ฅผ ๋ธ๋ก ๋จ์๋ก ๋ฌถ์ด ํ๋์ ๋ํ ํ ํฐ์ผ๋ก ์์ถํฉ๋๋ค. ์ดํ ๋ธ๋ก ๋ด ์๋ฏธ๋ฅผ ์์ฝํด ์ ์ญ ํจํด(Global context)์ ํจ์จ์ ์ผ๋ก ํฌ์ฐฉํ๋๋ฐ์. ๋ง์น ์ฑ
์ ์ฝ์ ๋ ๊ฐ ์ฅ์ ์์ฝ๋ณธ๋ง ํ์ด๋ณด๋ ๊ฒ๊ณผ ์ ์ฌํฉ๋๋ค.
2. Token Selection (ํ ํฐ ์ ํ)
์์ถ ๊ณผ์ ์์ ์์ค๋ ์ ์๋ ์ค์ํ ์ธ๋ถ ์ ๋ณด๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด์๋ Blockwise Selection์ ์ฌ์ฉํฉ๋๋ค. Blockwise Selection์ ํ ํฐ์ ๊ฐ๋ณ์ ์ผ๋ก๊ฐ ์๋๋ผ ์๋ฏธ์ ์ผ๋ก ์ฐ์๋ ๋ธ๋ก ๋จ์๋ก ๋ฌถ์ด ์ ํํ๋ ๋ฐฉ์์ธ๋ฐ์. GPU๊ฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฐ์์ ์ผ๋ก ์ฝ์ ์ ์์ด ์๋์ ํจ์จ์ด ํฅ์๋ฉ๋๋ค. ์ค์ํ ๋ธ๋ก์ ์์ถ ํ ํฐ์ Attention Score๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ๋ณํ๋ฉฐ, ์์ n๊ฐ ๋ธ๋ก์ ์๋ณธ ํํ๋ก ์ ์งํฉ๋๋ค.
3. Sliding Window (์ฌ๋ผ์ด๋ฉ ์๋์ฐ)
์ต๊ทผ ๋ก์ปฌ ๋ฌธ๋งฅ์ ํญ์ ์ ์งํ๋ ๋ฐฉ์์
๋๋ค. ์ ํ ํฐ์ด ๋ค์ด์ค๋ฉด ๊ฐ์ฅ ์ค๋๋ ํ ํฐ์ ๋ฒ๋ฆฌ๊ณ , ์ต์ ํ ํฐ์ ์ฐฝ์ ํฌํจ์ํค๋ ์์ผ๋ก ์ฐฝ์ด ์์ผ๋ก โ์ฌ๋ผ์ด๋โํ๋ ๊ตฌ์กฐ์
๋๋ค. ๋ํ, ์ฝ๋ ์์ฑ์ฒ๋ผ ์ต๊ทผ ๋งฅ๋ฝ์ด ์ค์ํ ์์
์์ ํ์์ ์ด์ง์.
์ดํ ๊ฐ ๊ฒฝ๋ก์ ๊ธฐ์ฌ๋๋ฅผ ๊ณ์ฐํ์ฌ, ์ํฉ์ ๋ฐ๋ผ ์ ์ญ, ์ธ๋ถ, ๊ทธ๋ฆฌ๊ณ ๋ก์ปฌ ์ ๋ณด์ ๋น์ค์ ์กฐ์ ํ๋๋ฐ์. ๊ณ์ธต์ ํฌ์ ์ ๋ต์ ํตํด ๋ชจ๋ธ์ ๊ผญ ํ์ํ ์ ๋ณด๋ง ๊ณจ๋ผ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋ถํ์ํ ์ฐ์ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํฌ๊ฒ ์ค์ด๋ญ๋๋ค. ์ฑ๋ฅ ์ ํ ์์ด ์ฒ๋ฆฌ๋์ ์ค์ผ ์ ์๊ฒ ๋์ง์. |