์ํ ์ธ์ด ๋ชจ๋ธ(sLM)์ ์ฃผ๊ฐ์ด์์ต๋๋ค. ์ง๋ 22์ผ Microsoft๋ Phi-3๋ฅผ ๊ณต๊ฐํ๊ณ , ๊ฐ์ ๋ Apple์ OpenELM์ ๊ณต๊ฐํ์ต๋๋ค. ๋ ๋ชจ๋ธ ๋ชจ๋ ํ๋ผ๋ฏธํฐ ์๊ฐ 4B ๋ฏธ๋ง์ ๊ฐ๋ฒผ์ด ๋ชจ๋ธ์ ๋๋ค. ์ฐธ๊ณ ๋ก GPT-3๋ 175B๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณด์ ํ์ต๋๋ค.
๋ถ๊ณผ 2๋ ์ ๊น์ง๋ง ํด๋, ๋ชจ๋ธ์ด ํด์๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ์ฐ๊ตฌ ์ฑ๊ณผ๋ค์ด ์์ ๋ฑ์ฅํ๋ฉด์ ๋ชจ๋ธ์ ๋ชธ์ง ํค์ฐ๊ธฐ์ ์ง์คํ์๋๋ฐ์. ์ด์ ๋ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๋ชธ์ง์ ์ค์ด๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. LLM์ ์ฑ๋ฅ์ด ์ํฅ ํ์คํ๋์๊ธฐ ๋๋ฌธ์ด์ฃ . ์ค๋์ ์ต๊ทผ ๊ณต๊ฐ๋ ๋ ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ๋ค๋ฅธ์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๐ง
์ฌํด ์ด ์ผ์ฑ์ ๊ฐค๋ญ์ S24์์ ์จ๋๋ฐ์ด์ค AI๋ฅผ ์ ๋ณด์์ต๋๋ค. ๋ค๋ฆ๊ฒ Apple ์ญ์ ์์ฑํ AI๋ฅผ ๋์ ํ๊ฒ ๋ค๊ณ ๋ฐํํ๊ณ , ๊ทธ ์ฒซ ๋ฒ์งธ ๊ฒฐ๊ณผ๋ฌผ์ด ์ด๋ฒ์ ๊ณต๊ฐ๋ OpenELM์ ๋๋ค.
OpenELM์ Open Efficient Language Model์ ์ค๋ง๋ก ์ด๋ฆ์์ ์ ์ ์๋ฏ ์คํ ์์ค ๋ชจ๋ธ๋ก ๊ณต๊ฐ๋์ต๋๋ค. ๋ชจ๋ธ์ ํฌ๊ธฐ๋ ์ฝ 3B์ ๋ถ๊ณผํด ๋ชจ๋ฐ์ผ ๋๋ฐ์ด์ค์์๋ ํ์ฉ์ด ๊ฐ๋ฅํ๊ณ , ๋๊ธ์ ํ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ ๋ง์ ๋ฒค์น๋งํฌ ์งํ์์ ์ต๊ณ ์ฑ๋ฅ(SOTA)์ ๋ฌ์ฑํ์ต๋๋ค.
OpenELM์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ํต์ฌ ์์ด๋์ด๋ **๋ ์ด์ด ๋จ์๋ณ ์ค์ผ์ผ๋ง(Layer-wise Scaling)**์ ๋๋ค. ICLR 2021์ ๋ฐํ๋ DeLight(Deep and Light-weight Trasnformer) ๋ชจ๋ธ์ ์์ด๋์ด๋ฅผ ์ ์ฉํ์ต๋๋ค(์ฐธ๊ณ ๋ก OpenELM๊ณผ DeLight ๋ ๋ ผ๋ฌธ ๋ชจ๋ 1์ ์๊ฐ Sachin Mehta์ ๋๋ค). ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ธฐ ์ํด ์ธ์ด ๋ชจ๋ธ์ ํ์ต ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ณ๊ฒ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์ต๊ทผ ๊ณต๊ฐ๋๊ณ ์๋ ๋ง์ ์ธ์ด ๋ชจ๋ธ์ Transformer ๊ธฐ๋ฐ ๊ตฌ์กฐ์ ๋๋ค. ํ๋์ ๋ชจ๋ธ์๋ ์ฌ๋ฌ ๊ฐ์ Transformer ๋ ์ด์ด๊ฐ ํฌํจ๋๋๋ฐ์. ์ผ๋ฐ์ ์ผ๋ก๋ ๊ฐ ๋ ์ด์ด๊ฐ ๋์ผํ ๊ตฌ์กฐ๋ก ๋์ด ์๊ณ ๊ฐ ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ ์๋ ๋์ผํฉ๋๋ค. ํ์ง๋ง DeLight๋ Transformer ๋ ์ด์ด๋ง๋ค ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ค๋ฅด๊ฒ ํ ๋นํฉ๋๋ค. ์ ๋ ฅ์ธต์ ๊ฐ๊น์ธ์๋ก ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ, ์ถ๋ ฅ์ธต์ ๊ฐ๊น์ธ์๋ก ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ ๋นํ์ฃ . ์ด๋ฅผ ์ด๋ฏธ์ง๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ถ์ฒ: DeLight: Deep and Light-weight Transformer(Mehta et al., 2021)
OpenELM์์ ์ธ๊ธ๋ Layer-wise Scaling์ DeLight ๋ ผ๋ฌธ์์ Block-wise Scaling์ด๋ผ ๋ถ๋ฆฝ๋๋ค. (a) ๊ทธ๋ฆผ์ ์ดํด๋ณด๋ฉด, Block-wise ํํธ์ Input์ ๊ฐ๊น์ด ๋ ์ด์ด๋ณด๋ค Output์ ๊ฐ๊น์ธ์๋ก ํ๋ผ๋ฏธํฐ๊ฐ ๋ง์ด ๋ถ๋ฐฐ๋์ด ์์์ ์ ์ ์์ต๋๋ค. (b)์์๋ ์ด๋ฅผ ์ ๋์ ์ผ๋ก ๋น๊ตํ๊ณ ์๋๋ฐ์. ๊ฑฐ์ 1.5๋ฐฐ ๊ฐ๊น์ด ๋ง์์ง๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํ๋ผ๋ฏธํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ๋ถ๋ฐฐํ๋ฉด ์ธต์ด ๊น์ด์ง์๋ก ํํ๋ ฅ์(Representation) ๊ฐ์ ๋๊ณ , ์ฐ์ฐ๋์ ์ค์ผ ์ ์๋ ์ฅ์ ์ด ์์ต๋๋ค.
Microsoft์ Phi ์๋ฆฌ์ฆ๋ ์ง๋ํด 6์ ์ฒ์์ผ๋ก ๊ณต๊ฐ๋์ต๋๋ค. ๋น์ Textbooks Are All You Need ๋ ผ๋ฌธ์ ํตํด ํ๋ จ ๋ฐ์ดํฐ์ ์ค์์ฑ์ ๊ฐ์กฐํ ๋ฐ ์๋๋ฐ์. ๋ ผ๋ฌธ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด, ๊ต๊ณผ์ ์์ค์ ํ์ง(Textbook quality)์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต์์ผฐ๋๋ ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ค๋ ๊ฒ์ ๋๋ค.
์์ ์ธ์ด ๋ชจ๋ธ์ธ Phi-3์ ๋ํ๊ตฌ๋ ๋ฐ์ดํฐ ํ์ง์ ๋๋ค. ๊ทธ๋์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์์๋ ๋ฐ๋ ๊ท๋ชจ์ ๋ฒ์น(Scaling Laws)์ด ์์ฉํ๊ธฐ ๋๋ฌธ์ธ๋ฐ์. ์ฐ๊ตฌ์ง์ ๊ท๋ชจ์ ๋ฒ์น์ โ๊ณ ์ ๋โ ๋ฐ์ดํฐ ์์ค๊ฐ ํ์ฉ๋๋ค๋ ์ ์ ํ๊ณ๋ก ์ง์ ํฉ๋๋ค. ๋ฐ์ดํฐ ์์ค์ ๋ฐ๋ผ ๊ท๋ชจ์ ๋ฒ์น์ ๊นจ์ง ์ ์๋ค๋ ๊ฒ์ด์ฃ . ์ผ๋ก๋ก, Phi-2(2.7B)๋ฅผ LLM ๊ธฐ๋ฐ ํํฐ๋ง์ ์ ์ฉํ ๋ฐ์ดํฐ๋ก ํ์ตํ๋๋ 25๋ฐฐ ํฐ ์ผ๋ฐ ๋ชจ๋ธ๋ณด๋ค๋ ์ฑ๋ฅ์ด ๋ฐ์ด๋ฌ๋ค๊ณ ๋งํฉ๋๋ค.
๋๋๊ฒ๋ Phi-3๋ 4๋นํธ ์์ํ(4-bits Quantization)๋ฅผ ํตํด ๋ชจ๋ฐ์ผ ๋๋ฐ์ด์ค์์๋ ํ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค. ์์ดํฐ14์ ๋๋ฐ์ด์ค ์ฑ๋ฅ๋ง์ผ๋ก ์ด๋น 12๊ฐ์ ํ ํฐ์ ์์ฑํ ์ ์์ฃ . ๋ํ ํ ๋ฒ์ ์ดํดํ ์ ์๋ ๋ฌธ๋งฅ์ ๊ธธ์ด๊ฐ ์ต๋ 128K ํ ํฐ๊น์ง ๋์ด๋ฌ์ต๋๋ค. ์ฐธ๊ณ ๋ก, 10๋ง ๊ฐ(100K)์ ํ ํฐ์ ๊ฑฐ์ 200 ํ์ด์ง์ ์ฑ ํ ๊ถ ๋ถ๋๊ณผ ๊ฐ์ต๋๋ค.
์ถ์ฒ: Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone(Abdin et al., 2024)
์ด๋ฒ ๋ชจ๋ธ์ ์ ์ฉ๋ ์ ๋ต์ **๋ฐ์ดํฐ ์ต์ ํ ์ฒด์ (Data Optimal Regime)**์ ๋๋ค. ์ฃผ์ด์ง ์ค์ผ์ผ์ ๋ฐ๋ผ์ ํ์ตํด์ผ ํ ๋ฐ์ดํฐ ํ์ง์ ์ง์คํ ๊ฒ์ ๋๋ค. ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์์ ๊ฒฝ์ฐ์๋ ๋ง์ ๋ด์ฉ์ ํ๋ จ์ํค๋๋ผ๋ ๊ทธ ๋ด์ฉ์ ๋ชจ๋ ์ดํดํ๋ ์์ฉ ๋ฅ๋ ฅ(Capacity)์ด ๋ถ์กฑํฉ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ์ธ์ ํ๊ณ ์ ์ ์์ ๋ฐ์ดํฐ๋ก ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ์ ๋ต์ด ํ์ํ์ฃ .
์ธ์ด ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๋์ด์๊ธฐ ์ํด Microsoft ์ฐ๊ตฌ์ง์ ์น ๊ฒ์ ๊ธฐ๋ฅ์ ํ์ฉํ๊ณ ์ ํฉ๋๋ค. ๋ต์ ์์ฑํ๋ ๋ฐ ํ์ํ ์ ๋ณด๊ฐ ๋ถ์กฑํ ๋งํผ, ํด๋น ์ ๋ณด๋ ์น ๊ฒ์์ ํตํด ์ป์ ์ ์์ต๋๋ค.
์ผ์ชฝ์ Phi-3-mini๊ฐ ์น ๊ฒ์์ ํ์ง ์๊ณ ์์ฑํ ๋ต๋ณ, ์ค๋ฅธ์ชฝ์ ์น ๊ฒ์์ ์คํํ ๋ค ์์ฑํ ๋ต๋ณ.
์ฐ๊ตฌ์ง์ Phi-3 ๋ชจ๋ธ๊ตฐ์์ 3.8B์์ 7B๋ก ๊ฐ์ ํญ๊ณผ ๋น๊ตํ์ ๋ 7B์ 14B๋ ์์ง ๊ทธ๋งํ ๊ฐ์ ํญ์ ๋ณด์ด์ง ๋ชปํ๋ค๋ฉฐ, ๊ณ์ํด์ ์ค์ผ์ผ๋ณ๋ก ์ต์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์๋๊ฐ๋ ์ค์ด๋ผ๊ณ ๋ฐํ์ต๋๋ค.
Apple์ ์์ ๋ชจ๋ธ์ ์ต์ ํ๋ ๊ตฌ์กฐ๋ก, Microsoft๋ ์์ ๋ชจ๋ธ์ ์ต์ ํ๋ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ์ ๋ต์ ์ธ์ ์ต๋๋ค.
์๋กญ๊ฒ ์ง์ฌ์ง ๊ฒฝ์ ๊ตฌ๋์์ ๋ง์ง๋ง์ ์์ ์๋ ๋๊ตฌ์ผ๊น์? ๐
: Adobe๊ฐ ์ด๋ฏธ์ง ์์ฑ ์๋น์ค โํ์ด์ดํ๋ผ์ด ์ด๋ฏธ์ง 3โ๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ์ด์ ๋ฒ์ ์ ๋นํด์ ์ด๋ฏธ์ง ์์ฑ ํ๋ฆฌํฐ๊ฐ ํฅ์๋์ผ๋ฉฐ, ๋ ๊ธธ๊ณ ๋ณต์กํ ํ๋กฌํํธ๋ฅผ ์ดํดํด ์์ฑํ ์ ์๋ค๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
์ธํ CEO, 6์ AI Summit ์์ธ์ ๊ฐ์ต
: Intel์ด ์ค๋ 6์ 5์ผ, ์์ธ์์ โAI Summitโ์ ๊ฐ์ตํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฒ AI Summit์ Intel ์ต๊ณ ๊ฒฝ์์ ํซ ๊ฒ์ฑ์ด๋ ์ฐธ์ฌํฉ๋๋ค. ์ธ๊ณ์ ์ผ๋ก ์ด๋ฆฌ๋ ํ์ฌ์ด์ง๋ง ์ต๊ณ ๊ฒฝ์์๊ฐ ์ง์ ์ฐธ์ฌํ๋ ๊ฑด ๋๋ฌธ๋ฐ์. ์ด๋ฒ ํ์ฌ๋ NVIDIA๋ฅผ ๊ฒฌ์ ํ๋ ค๋ ์์ง์ผ๋ก ํ์ด๋ฉ๋๋ค.
iPhone์ ChatGPT๋ฅผ ํ์ฌํ๋ค
: Apple์ด ์ฌํด ๋ง ์์ดํฐ์ ํ์ฌํ ์๋ก์ด ๊ธฐ๋ฅ์ ์ํด OpenAI์ ๋ ผ์๋ฅผ ์ฌ๊ฐํฉ๋๋ค. ๋ธ๋ฃธ๋ฒ๊ทธ ํต์ ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ฏธ ์ฌํด ์ด ๊ด๋ จ ํฉ์๋ฅผ ์งํํ์ง๋ง ์ต์ํ์ ๊ทธ์ณค๊ณ ์ต๊ทผ ๋ค์ ์์ฌ์ ๋ํ๊ฐ ์์๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค๊ณ ์ ํ์ต๋๋ค. ์ค๋ 6์ Apple์ ์ธ๊ณ ๊ฐ๋ฐ์ ์ปจํผ๋ฐ์ค WWDC์์ ์๋ก์ด ์๋น์ค๋ฅผ ๋ฐํํ๋ฉฐ ํฅํ ๋ฐฉํฅ์ฑ์ ์ฟ๋ณผ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์, ์ ๋ ํธ์คํ๋
AI ๋ผ์ดํ์ฌ์ดํด์ ํจ๊ปํ๋ ์ฌ์ธ์ ๋ฐ์ดํฐ ํ๋ซํผ์ ๋๋ค.
์ ๋ขฐํ ์ ์๋ AI๋ฅผ ์ํ ์ ํ