2023๋ ์ ์ ๋ AI์ ์ฑ์ฅ์ธ๊ฐ ๋ฌด์ญ๊ฒ ๋๊ปด์ง ํ ํด์์ต๋๋ค. LLM ๋ชจ๋ธ์ด ๋ฐ์ ํ๋ฉด์ LLM์ ํ์ฉํ ๋ค๋ฅธ ๋ถ์ผ๋ค๋ ๋ฉ๋ฌ์ ์ฑ์ฅํ๊ธฐ ์์ํ๋๋ฐ์. ๊ทธ์ค ํ๋๊ฐ ๋ฐ๋ก Vision Language Model(VLM)์ ๋๋ค. VLM์ ์ผ์ข ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ก์, ์๊ฐ์ ์ ๋ณด์ ์ธ์ด์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ํ์ตํ ๊ฒ์ ๋๋ค. ์ผ์ ์ํ ์์์ ์๊ฐํด๋ณด๋ฉด ๋์ผ๋ก ๋ณด๊ธฐ๋ง ํด๋ ์ดํดํ ์ ์๋ ์ ๋ณด๊ฐ ์๊ณ , ๋ฐ๋๋ก ๋ณด์ง ์๊ณ ๊ธ์ ์ฝ๊ธฐ๋ง ํด๋ ์ดํดํ ์ ์๋ ์ ๋ณด๊ฐ ์์ต๋๋ค. VLM์ ์ด ๋ ์ ๋ณด๋ค์ ์ ์ ํ๊ฒ ๊ฒฐํฉํ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ ๋ค๋ฉด VLM๋ ์ด๋ค ๋ถ์ผ์์ ์ ํ์ฉํ ์ ์์๊น์? ์ด๋ฏธ ์ธ์ด ๋ชจ๋ธ์ Copilot ๊ฐ๋ ์ผ๋ก, ์ฐ์์ ์ธ ์ง๋ฌธ์ ๋ฐ๋ผ์ ์ฌ์ฉ์๊ฐ ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋๋ก ๋์์ค๋๋ค. ์ฌ๊ธฐ์ ์๊ฐ์ ์ธ ์ ๋ณด๋ฅผ ๋ํ ์ ์๋ค๋ฉด ๋ ์ฝ๊ณ ๋น ๋ฅด๊ฒ ์ํ๋ ์ ๋ณด๋ฅผ ์ป์ ์ ์์ ๊ฒ์ ๋๋ค. ์ด๋ฒ์ฃผ๋ ์ด๋ฐ VLM ์ค ํ๋์ธ CogAgent์ ๋ํด์ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
์ง๋๋ฌ ๊ณต๊ฐ๋ <CogAgent: A Visual Language Model for GUI Agents>๋ ๋ ผ๋ฌธ ์ ๋ชฉ ๊ทธ๋๋ก GUI(Graphical User Interface)๋ฅผ ์ํ VLM์ ๋๋ค. GUI๋ ์ค๋งํธํฐ์ด๋ PC ํ๋ฉด์ ๋ณด์ด๋ ๋ชจ๋ ๊ทธ๋ํฝ ์์๋ก์ ์ปดํจํฐ์ ์ํธ์์ฉํ ์ ์๋ ์์๋ค์ด ์ฌ๊ธฐ์ ํด๋นํฉ๋๋ค.
์ธ๊ฐ์ ์์ ์ ๋์์ฃผ๋ ๋ชจ๋ธ์ด ์ด๋ฒ์ด ์ฒ์์ ์๋๋๋ค. 2023๋ , AutoGPT ๋ชจ๋ธ์ โ์์์โ ์ํ๋ ์์ ์ ์ํํ ์ ์๋๋ก ๋์์ค๋ค๊ณ ํ์ฌ ์ ๋ช ์ธ๋ฅผ ํ์ต๋๋ค. ํ์ง๋ง ์ด๋ ๋ชจ๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ํ ๊ฒฐ๊ณผ์ ๋๋ค. ์๊ฐ์ ์ ๋ณด์ธ ์์ด์ฝ, ์ด๋ฏธ์ง, ๋ค์ด์ด๊ทธ๋จ ๋ฑ์ ๋จ์ด์ ํํ๋ก ์ง์ ์ ๋ฌํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค. ๋ฐ๋ฉด CogAgent๋ ์๊ฐ์ ์ ๋ณด๊น์ง ์ดํดํ๊ณ , ํ๋ฉด ์์ ์ ํํ ์ขํ๋ก ๋ํ๋ด๋ฉฐ ํด์ผ ํ ์์ ์ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ค๋ ์ฅ์ ์ ๊ฐ์ต๋๋ค.
GUI๋ฅผ ์ดํดํ๋ค๋ ๊ฒ์ ์ธ๊ฐ ์ค์ฌ์ ์ธ ๊ด์ ์ ๋๋ค. ์ด๊ธฐ ์ปดํจํฐ์ฒ๋ผ ์ด๋์ด ํ๋ฉด์ ์ฝ๋๋ฅผ ์ ๋ ฅํ์ฌ ์ํ๋ ํ๋ก๊ทธ๋จ์ ์คํ์ํค๋ CLI(Command Line Interface)์ ๊ฐ์ ์ํธ์์ฉ ๋ฐฉ์์ ์ปดํจํฐ๋ฅผ ์ฌ์ฉํ๋ ๋ฐ ํฐ ์ฅ๋ฒฝ์ด ๋ฉ๋๋ค. GUI๋ ๊ทธ๋ฐ ์ด๋ ค์์ ๊ทน๋ณตํ ์ ์๋ ๋์์ผ๋ก์ ์ ์๋ ์ธํฐํ์ด์ค์ ๋๋ค. ์์ด์ ํธ๊ฐ GUI๋ฅผ ์ดํดํ ์ ์๋ค๋ฉด ์ธ๊ฐ์ ๋ ๋ง์ด ๋์์ค ์ ์์ ๊ฒ์ ๋๋ค. ์๋์ ์์๋ฅผ ๋ณด๊ฒ ์ต๋๋ค.
์์ ์ด๋ฏธ์ง์ฒ๋ผ ์ค๋งํธํฐ์ ๋ณด๊ณ ๋ผ์ดํธ ๋ชจ๋๋ก ๋ฐ๊พธ๊ฑฐ๋, ์ข์์๋ฅผ ๋ง์ด ๋ฐ์ ์ด์ ์ ๋ํด์ ์ค๋ช ํ๊ฑฐ๋, ์ํ๋ ์๊ฐ์ ๋ง์ถฐ ๊ธธ์ฐพ๊ธฐํ ์ ์๋ ์ ๋ณด๋ ์ฐพ์์ค๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ GUI๋ฅผ ์ดํดํ ์ ์๋ VLM์ ๊ฐ๋ฐํ์๊น์? ์ฐ๊ตฌ์ง์ ์์ฒด์ ์ผ๋ก ๊ฐ๋ฐํ CogVLM-17B๋ฅผ ๊ธฐ๋ฐ์ผ๋ก GUI๋ฅผ ์ดํดํ ์ ์๋๋ก ํ์ต์์ผ CogAgent๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค.
์น ํ๋ฉด์ ์คํฌ๋ฆฐ์ท์ ํฌ๊ธฐ๋ ๊ฒฐ์ฝ ์์ง ์๊ณ , ๊ทธ ์์๋ ๋ง์ ๋ฒํผ, ์ ๋ ฅ์ฐฝ ๋ฑ ๋ค์ํ GUI ์์๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค. ์คํฌ๋ฆฐ์ท์ ํฌ๊ธฐ๋ฅผ ์์๋ก ์๊ฒ ๋ง๋ค์๋ค๊ฐ๋ GUI ์์๋ค์ ์ดํดํ์ง ๋ชปํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ GUI๋ฅผ ์ดํดํ๊ธฐ ์ํด์๋ ๊ณ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๋ ๋ชจ๋ธ์ด ํ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ CogVLM์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋ถ์์ต๋๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ํด์ ์ค๋ช ์ ๋ง๋ถ์ด์๋ฉด, ๊ธฐ์กด VLM์ด ์ดํดํ ์ ์๋๋ก ๊ธฐ์กด ์คํฌ๋ฆฐ์ท์ ํ๋ฉด์ ๋ค์ด์ํ๋งํ๊ณ , ๊ทธ์ ๋ง๋ ์์ (Task)๊ณผ ํ๋(Action)์ ๋ํ๋ด๋ ํ ์คํธ๋ฅผ ์ ๋ ฅํฉ๋๋ค.
์ฌ๊ธฐ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ ์ ์๋ ์ด๋ฏธ์ง ์ธ์ฝ๋์์ ์ถ๋ ฅ๋ ์ ๋ณด์ Cross-Attention์ ๊ณ์ฐํ์ฌ ์ต์ข ์ถ๋ ฅ๊ฐ์ ์ป์ ์ ์๋๋ก ํฉ๋๋ค. ์ด๋ Cross-Attention์ ์๋ก ๋ค๋ฅธ ์ ๋ณด(๊ณ ํด์๋์ ์ด๋ฏธ์ง ์ ๋ณด - ์ ํด์๋ ์ด๋ฏธ์ง ์ ๋ณด ๋ฐ ํ ์คํธ ํน์ฑ ์ ๋ณด)์ ๋ํด์ ๊ด๋ จ์ฑ์ ๊ณ์ฐํ๋ ๊ณผ์ ์ด๋ผ ๋ณผ ์ ์์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ VLM์ ๊ฐ ํ๋ฉด์ ๋ณด๊ณ ์ธ๊ฐ์ด ์ด๋ค ์์ ์ ํ์๋ก ํ๋์ง ์ดํดํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด์๋ ์ธ๊ฐ์ด ์ง์ ๋ ์ด๋ธ๋ง ํด์ผ๊ฒ ์ฃ . ๋ฌผ๋ก ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ธ๊ฐ์ด ๋ ์ด๋ธ๋งํ์ฌ ํ์ตํ๋ ๊ฒ์ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด ์น ํ๋ฉด ๋ฐ ๋ชจ๋ฐ์ผ ํ๋ฉด์ ์บก์ฒํ ์คํฌ๋ฆฐ์ท์ GPT-4์ ์ ๋ ฅํ์ฌ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ ์์ฑํ๊ธฐ๋ ํ์ต๋๋ค.
๊ฒ๋ค๊ฐ ์คํฌ๋ฆฐ์ท์ ๋ณด๊ณ ์ดํดํ๋ ์์ ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฏธ์ง ๋ด์์ ์ ํํด์ผ ํ๋ ์์์ ๋ํ ์ขํ๋ฅผ ์ ํํ๊ฒ ์ฐ์ด์ผ ํฉ๋๋ค. ์ด๋ฐ ๋ชจ๋ ๊ณผ์ ์ ํ์ต ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ๋ฅผ ํ ๋๋ก ํ์ตํ ๊ฒฐ๊ณผ๊ฐ ๋ฐ๋ก CogAgent์ ๋๋ค.
CogAgent๋ ํฅ์๋ LLM ๋ฅ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ ์ ๋ณด๋ฅผ ๋์ด ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํด ์์ ์ ๋์์ค ์ ์๋ ๋ชจ๋ธ์ ๋๋ค. ๋ฌผ๋ก ์ด๊ธฐ ๋ชจ๋ธ์ด๊ธฐ์ ๊ฐ์ ํด์ผ ํ ๋ถ๋ถ์ ๋ง์ด ์์ต๋๋ค. ์์ง์ ์๋ชป๋ ์ขํ๋ฅผ ์ถ๋ ฅํ๊ธฐ๋ ํ๊ณ , ์ฌ๋ฌ ์ด๋ฏธ์ง๋ค์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค.
๊ทธ์น๋ง ์ค์ํ ๊ฒ์ ์์ผ๋ก AI๊ฐ ์ค์ํ์ ์ถ์ ๋์ธ ์ ์๋ ์์ญ์ด ๊ณ์ ๊ฐ๋ฐ๋๊ณ ์๋ค๋ ๊ฒ์ ๋๋ค. ์์ง์ ์คํฌ๋ฆฐ์ท์ ๊ธฐ๋ฐ์ผ๋ก ์์ด์ ํธ ์ญํ ์ ์ํํ๊ธฐ ๋๋ฌธ์ ์คํ๋ ค ๋ถํธํ์ง๋ง, ์์์ผ๋ก ์ดํดํ ์ ์๋ ๋ชจ๋ธ์ด ๋ฑ์ฅํ๋ค๋ฉด ์์ ์ ์ฐ์์ ์ผ๋ก ์ดํดํ์ฌ ๋ ์์ฐ์ค๋ฌ์ด ์ํธ์์ฉ์ด ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋๋ฌธ์ ๋ง์ ์ฐ๊ตฌ์๋ค์ด ์ด๋ฒ ์ฐ๊ตฌ์ ์ฃผ๋ชฉํ๊ณ ์์ต๋๋ค. CogAgent๋ ์คํ ์์ค๋ก ๊ณต๊ฐ๋ ์์ ์ธ ๋งํผ ์์ผ๋ก GUI๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋๋ ๋ชจ๋ธ ๊ฐ๋ฐ์ ๋ฐ์ฐจ๋ฅผ ๊ฐํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
: ๋ฏธ๊ตญ ํ์ง ์๊ฐ์ผ๋ก 1์ 9์ผ, ์ธ๊ณ ์ต๋ ๊ฐ์ ๋ฐ๋ํ CES 2024๊ฐ ๊ฐ์ต๋ฉ๋๋ค. ์ง๋ํด AI๊ฐ ํฐ ํ๋์๋ ๋งํผ ์ฌํด์๋ AI ๊ธฐ๋ฅ์ด ์ถ๊ฐ๋ ๊ฐ์ / ์ ์ ์ ํ๋ค์ด ๋ง์ด ์ถ์๋์ต๋๋ค.
'GPT ์คํ ์ด' ์คํ...๋ง์ถคํ AI ์ฑ๋ด ์ฌ๊ณ ํ๋ค
: ChatGPT๋ฅผ ๊ฐ๋ฐํ OpenAI๊ฐ GPT ์คํ ์ด๋ฅผ ์ด์์ต๋๋ค. ์ง๋ํด 11์, OpenAI์ DevDay์์ GPTs ์๋น์ค๋ฅผ ๊ณต๊ฐํ๋๋ฐ์. ๋๋ถ์ AI๋ฅผ ๋ชฐ๋ผ๋ ์ด์ ๋๊ตฌ๋ ํ๋กฌํํธ๋ฅผ ์ ๋ ฅํ์ฌ ํน์ ํ ๋ชฉ์ ์ ์ํํ๋ GPT๋ฅผ ๊ฐ๋ฐํ ์ ์๊ฒ ๋์ต๋๋ค.
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
: Meta์์ ๋ํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค์ ์ฌ๋๋ค์ด ์๊ธฐํ๋ ๊ฒ๊ณผ ๊ฐ์ ์์์ ์์ฑํ๋ AI ๊ธฐ์ ์ ๊ณต๊ฐํ์ต๋๋ค. ๋ชจ๋ธ์ด ์์ฑํ ์๋ฐํ๋ ๋ํ ์๋ฆฌ๋ง ๋ฃ๊ณ ์ ๋ชจ์์ ์์ฑํ๋ ๊ธฐ์ ์ ๋์ด์ ์ด์ ์์ฐ์ค๋ฝ๊ฒ ๋ชธ ๋์๊ณผ ์ ์ค์ฒ๋ฅผ ์ทจํ๊ธฐ๊น์ง ํ๋๋ฐ์. ๋ค๊ฐ๋์์ ์ดฌ์ํ ๋ํ ์ฅ๋ฉด ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๊ณ , ์ฝ๋์ ๋ฐ์ดํฐ์ ๋ชจ๋ ๊ณต๊ฐํ๋ค๊ณ ๋ฐํ์ต๋๋ค.
์ธ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์, ์ ๋ ํธ์คํ๋
AI ๋ผ์ดํ์ฌ์ดํด์ ํจ๊ปํ๋ ์ฌ์ธ์ ๋ฐ์ดํฐ ํ๋ซํผ์ ๋๋ค.
์ ๋ขฐํ ์ ์๋ AI๋ฅผ ์ํ ์ ํ