๐ซ ๋จ์ ์๊ธฐ ๋์ , ๋ฌธ๋งฅ์ ํตํด ๋ฐฐ์ฐ๋ AI 2025๋
10์ 5์ฃผ์ฐจ ์
๋ ํธ์คํ ๋ด์ค๋ ํฐ |
|
|
๐ฐ VLM์ด ์ฐ๋ฆฌ์ง ๊ณ ์์ด๋ฅผ ์์๋ณด๋ ๋ฐฉ๋ฒ |
|
|
AI๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๊ณ ์ธ์ด๋ก ํํํ๋ ๋ฅ๋ ฅ์ด ์ ์ ์ข์์ง๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ฌ๋์ฒ๋ผ ๋ฌธ๋งฅ์ ํ์
ํ๊ณ , ์ด์ ์ ๋ณธ ์ ๋ณด๋ฅผ ์๋ก์ด ์ํฉ์ ์ ์ฉํ๋ ๋ฅ๋ ฅ์ ์ฌ์ ํ ๋ถ์กฑํ๋ฐ์. ์ด๋ฒ ICCV 2025์์ ๋ฐํ๋ ๋
ผ๋ฌธ <Teaching VLMs to Localize Specific Objects from In-Context Examples>๋ ์ด ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ๋ํ ๋น์ -์ธ์ด ๋ชจ๋ธ(Vision-Language Model, VLM)์ '๋ฌธ๋งฅ ๊ธฐ๋ฐ ๊ฐ์ธํ๋ ๊ฐ์ฒด ํ์ง' ๋ฅ๋ ฅ์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋๋ฐ์. ๊ณผ์ฐ, ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์์๊น์?
|
|
|
์ด๋ฒ ์คํ์ ๊ฐ๋จํ ์ง๋ฌธ์์ ์์ํฉ๋๋ค:
VLM์ '์ฐ๋ฆฌ์ง ๊ณ ์์ด ์ค๋ํํจ' ์ฌ์ง์ ๋ช ์ฅ ๋ณธ ๋ค์,
๋ค๋ฅธ ์ฌ์ง ์์์๋ ์ค๋ํํจ์ ์ฐพ์๋ผ ์ ์์๊น?๐ง
ํ์ฌ์ VLM์ '๊ณ ์์ด'๋ '๋นํ๊ธฐ'์ฒ๋ผ ์ผ๋ฐ์ ์ธ ๋ฒ์ฃผ๋ฅผ ๊ตฌ๋ถํ๋ ๋ฐ๋ ๋ฐ์ด๋์ง๋ง, 'ํน์ ๊ณ ์์ด'๋ '๋ฌธ๋งฅ ์์์ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ ์ฌ๋ฌผ'์ ์ฐพ๋ ๋ฐ์๋ ์ฝํ๋ฐ์. ์ฐ๊ตฌ์ง์ "few-shot personalized localization", ์ฆ ๋ช ๊ฐ์ ์์๋ง์ผ๋ก ํน์ ๊ฐ์ฒด๋ฅผ ์๋ก์ด ์ฅ๋ฉด์์ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. |
|
|
IPLoc์ ํตํ ๊ฐ์ฒด ํ์ง ์ฌ๋ก. ์ถ์ฒ:๋
ผ๋ฌธ. |
|
|
์ ๊ทธ๋ฆผ์์ In-context Image๋ ์ฐพ์์ผ ํ๋ ๊ฐ์ฒด๋ฅผ ํ์ํ ๋ฐ์ดํฐ, Query Image๋ ๊ฐ์ฒด๋ฅผ ํ์งํด์ผ ํ๋ ์ฌ์ง์
๋๋ค. ๋ชจ๋ธ์ ์์ ์ด๋ฏธ์ง์์ ๋ณธ ๊ฒ๊ณผ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์ง์ ์ด๋ฏธ์ง ์์์ ์ฐพ์๋ด์ผ ํ์ง์. ์ฐ๊ตฌ์ง์ ๋ฐฉ์์ ์ ์ฉํ Our Model์ ์ฐพ์์ผ ํ๋ ๊ฐ์ฒด๋ฅผ ์๋ง๊ฒ ํ์งํ ๊ฒ ๊ฐ์ฃ ? ๐ฏ |
|
|
"AI์๊ฒ ๋ฌธ๋งฅ์ ๊ฐ๋ฅด์น๋ ค๋ฉด, ๋ฌธ๋งฅ์ด ๋ด๊ธด ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํด์ผ ํ๋ค"๊ณ ๋ฏฟ๋ ์ฐ๊ตฌ์ง์ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ง๋๋ ๋์ , ์๋ก์ด ํ์ต ์ ๋ต์ ์ธ์ ์ต๋๋ค. ๋ฐ์ดํฐ๋ฅผ ์ค์ฌ์ผ๋ก ๋ชจ๋ธ์ ๋ฌธ๋งฅ ์ดํด ๋ฅ๋ ฅ์ ํ์ฅํ๋ ๋ฐฉ์์ธ๋ฐ์. 'Data-centric' ์ ๊ทผ์ ํตํด ๊ธฐ์กด VLM์ด ๋ฌธ๋งฅ์ ์ดํดํ๋๋ก ๋ง๋๋ IPLoc (In-context Personalized Localization) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. ์คํ ๋ฐฉ์์ ๋ณผ๊น์?
1. ๋น๋์ค ๊ฐ์ฒด ์ถ์ ๋ฐ์ดํฐ
์ฐ๊ตฌ์ง์ ๋ชจ๋ธ์ด ๋์ผํ ๊ฐ์ฒด๋ฅผ ์ฌ๋ฌ ์ฅ๋ฉด์์ ์ถ์ ํ๋ ๊ฒฝํ์ ํด๋ณด๋๋ก, ๋ค์ ์ธ ๊ฐ์ง ๋๊ท๋ชจ ๋น๋์ค ์ถ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
- TAO (Tracking Any Object): 839๊ฐ ์นดํ
๊ณ ๋ฆฌ, ๋ณต์กํ ๋ค๊ฐ์ฒด ์ถ์ ๋ฐ์ดํฐ
- LaSOT: ์ฅ์๊ฐ(ํ๊ท 2,500ํ๋ ์) ๋์ ํ ๊ฐ์ฒด๋ฅผ ์ง์์ ์ผ๋ก ์ถ์
- GOT-10k: 10,000๊ฐ์ ์ค์ ํ๊ฒฝ ๊ฐ์ฒด ์ํ์ค
์ด ๋ฐ์ดํฐ๋ค์ ํ๋์ ๋์ผํ ๊ฐ์ฒด๊ฐ ๋ค์ํ ์กฐ๋ช
, ๊ฐ๋, ๋ฐฐ๊ฒฝ์์ ๋ฑ์ฅํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ด ๋จ์ํ '๋ฌด์์ธ์ง' ์ ์ ์์ ๋ฟ๋ง ์๋๋ผ, ๊ฐ์ ๋์์ ๋ค๋ฅธ ์กฐ๊ฑด์์ ์ธ์ํ๋ ๋ฒ ์์ฒด๋ฅผ ๋ฐฐ์ฐ๊ธฐ์ ์ ํฉํฉ๋๋ค. ์นดํ
๊ณ ๋ฆฌ ์๊ธฐ๊ฐ ์๋๋ผ ๋ฌธ๋งฅ ๊ธฐ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ตํ ์ ์์ง์.
2. ๋ํํ ํ์ต ํฌ๋งท
IPLoc์ ๋ฐ์ดํฐ๋ฅผ ๋ํ ํํ๋ก ์ฌ๊ตฌ์ฑํ๋ค๋ ํน์ง์ด ์๋๋ฐ์. ์๋ ์์๋ฅผ ๋ณผ๊น์? |
|
|
์ ๊ตฌ์กฐ๋ ๋ชจ๋ธ์ด ์ฌ๋ฌ ๊ฐ์ ์ธ์ปจํ
์คํธ(in-context) ์์๋ฅผ ์์ฐจ์ ์ผ๋ก ์
๋ ฅ๋ฐ์ ๋ค, ๋ง์ง๋ง ๋จ๊ณ์ 'Prediction' ์์ฒญ์ ๋ํด ๋์ผํ ๊ฐ์ฒด์ ์์น๋ฅผ ์์ธกํ๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋๋ค. ์ฌ์ฉ์๋ ์์ n๊ฐ์ ์์ ์ด๋ฏธ์ง์ ํด๋น ๊ฐ์ฒด์ ์ขํ๋ฅผ ์ ๊ณตํ๊ณ , ๋ง์ง๋ง์ "์ด ์ด๋ฏธ์ง์์ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์ฐพ์๋ณด๋ผ"๊ณ ์์ฒญํฉ๋๋ค. ๋ชจ๋ธ(Assistant)์ ์ง๊ธ๊น์ง ์ ๊ณต๋ฐ์ ์ ๋ณด๋ฅผ ๋ฌธ๋งฅ์ผ๋ก ํ์ฉํด ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ๋ฅผ ์ถ๋ ฅํ๊ฒ ๋์ง์. ๊ฒฐ๊ตญ ๋ชจ๋ธ์ ์์ ๋ณธ ์์๋ค์ ์ผ์ข
์ '๋ํ ๋งฅ๋ฝ'์ผ๋ก ์ผ์, ๋ง์ง๋ง ์ด๋ฏธ์ง ์์์ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์ถ๋ก ํฉ๋๋ค.
3. ๊ฐ์ง ์ด๋ฆ ๊ท์
์ฌ๊ธฐ์ ํ ๊ฐ์ง ๊ธฐ๋ฐํ ์์ด๋์ด๊ฐ ๋ํด์ง๋๋ค. ๋ชจ๋ธ์ด ๊ฐ์ฒด์ ๋ํ ์ฌ์ ์ง์์๋ง ์์กดํ์ง ์๋๋ก, ๊ฐ์ฒด ์ด๋ฆ์ ๋ฌด์๋ฏธํ ๊ฐ์ง ์ด๋ฆ์ผ๋ก ๋ฐ๊พธ๋ ๊ฑด๋ฐ์. ์๋ฅผ ๋ค์ด '๊ณ ์์ด'๋ฅผ '์ค๋ํํจ'์ผ๋ก ๋ฐ๊พธ๋ฉด ๋ชจ๋ธ์ ๋ ์ด์ '๊ณ ์์ด'๋ผ๋ ๊ฐ๋
์ ๊ธฐ๋์ง ์๊ณ , ์ค์ง ์๊ฐ์ ์ ์ฌ์ฑ๋ง์ ๊ทผ๊ฑฐ๋ก ํ๋จํ๊ฒ ๋๊ฒ ์ฃ ? ์ด ๊ณผ์ ์ ๋ชจ๋ธ์ด ์ธ์ด์ ์ ์๊ฐ ์๋ ๋ฌธ๋งฅ์ ์ ์ฌ์ฑ์ ๊ธฐ๋ฐํด ํ์ตํ๋๋ก ์ ๋ํฉ๋๋ค.
|
|
|
IPLoc์ ๋ฐ์ดํฐ ์์ฑ ๋ฐ ๋ํ ๊ตฌ์กฐ ๊ฐ์. ์ค๊ฐ์ ํ๋์์ผ๋ก ๊ฐ์ง ์ด๋ฆ์ธ โJamyโ๋ฅผ ์ด ๊ฒ์ ๋ณผ ์ ์๋ค. ์ถ์ฒ: ๋
ผ๋ฌธ. |
|
|
4. ๋ฏธ์ธ์กฐ์
ํจ์จ์ ์ธ ํ์ต์ ์ํด LoRA(Low-Rank Adaptation) ๋ฐฉ์๋ ํจ๊ป ์ ์ฉ๋๋๋ฐ์. LoRA๋ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์๋ก ํ์ต์ํค์ง ์๊ณ , ํ๋ผ๋ฏธํฐ ์ผ๋ถ๋ง ์กฐ์ ํ์ฌ ๊ธฐ์กด ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ ์๋ก์ด ๋ฅ๋ ฅ์ ์ถ๊ฐํ๋ ๋ฐฉ๋ฒ์
๋๋ค. ๋๋ถ์ ๋ชจ๋ธ์ ๊ธฐ์กด์ ์ธ์ด์ ์ดํด๋ ฅ์ด๋ ์๊ฐ์ ์ง์์ ์์ง ์์ผ๋ฉด์๋, ์ถ๊ฐ๋ก ๊ฐ์ธํ๋ ๋ฌธ๋งฅ ํ์ต์ ์ํํ ์ ์๊ฒ ๋์์ง์.
|
|
|
์ฐ๊ตฌ์ง์ Qwen2-VL ๋ชจ๋ธ์ IPLoc์ ์ ์ฉํ์ต๋๋ค. ์ดํ GPT-4o, LLaVA, Idefics ๋ฑ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ์ง์. ๋น๊ต๋ฅผ ์ํด ์ฌ์ฉํ ๋ฐ์ดํฐ์
์ผ๋ก๋ PDM, PerSeg, ๊ทธ๋ฆฌ๊ณ ICL-LASOT์ด ์์ต๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณผ๊น์?
|
|
|
GPT-4o๋ ์ค๋ช
์ ์ํ์ง๋ง ์ค์ ์ขํ ์์ธก์๋ ์ฝํ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ๋ฐ๋ฉด Qwen2-VL ๊ธฐ๋ฐ ๋ชจ๋ธ์ IPLoc ์ ์ฉ ํ ํ๊ท IoU๊ฐ 31.8%์์ 43.3%๋ก ์์นํ๋๋ฐ์. ๋ ํฐ ๋ชจ๋ธ(72B ํ๋ผ๋ฏธํฐ)์์๋ 55.8%๊น์ง ์ฌ๋ผ๊ฐ์ต๋๋ค. ๋ํ, ๊ฐ์ ํฌ๊ธฐ์ ๋ชจ๋ธ์ด๋ผ๋ IPLoc์ ์ ์ฉํ์ง ์์ ๊ฒฝ์ฐ๋ณด๋ค ์ฝ 20% ์ฑ๋ฅ ํฅ์์ด ๋ํ๋ฌ์ต๋๋ค.
์ฅ์ ์ด ๋ช
ํํ๋งํผ, ํ๊ณ๋ ๋๋ ทํ๋ฐ์. ํ์ฌ IPLoc์ ํ ๋ฒ์ ํ๋์ ๊ฐ์ฒด๋ง ์ฐพ์ต๋๋ค. ๋ฐ๋ผ์ ์ฌ๋ฌ ๊ฐ์ฒด๋ฅผ ๋์์ ๋ค๋ฃจ๋ ๋ฉํฐ ์ค๋ธ์ ํธ ์ํฉ์์๋ ์ฑ๋ฅ์ด 5.3% ์์ค์ผ๋ก ๊ธ๊ฐํ๋ ๋ชจ์ต์ ๋ณด์๋๋ฐ์. ์ด๋ ํ์กด VLM ๋๋ถ๋ถ์ ๊ณตํต์ ํ๊ณ์ด๊ธฐ๋ ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ํฅํ ๋ ๊ฐ๋ ฅํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ค๊ณผ ๊ฒฐํฉํ์ฌ, ์ฌ๋ฌ ๊ฐ์ฒด๋ฅผ ๋ฌธ๋งฅ์ ์ผ๋ก ๊ตฌ๋ณํ๊ณ ์ถ์ ํ๋ ๋จ๊ณ๋ก ํ์ฅ์ํค๊ณ ์ ํฉ๋๋ค. ๐
|
|
|
IPLoc์ ๊ฐ์ฅ ํฐ ์๋ฏธ๋ ์ฑ๋ฅ ์์ฒด๋ณด๋ค ํ์ต ๋ฐฉ์์ ์์ต๋๋ค. ์ด๋ฒ ์ฐ๊ตฌ๋ AI๊ฐ ์ธ๊ฐ์ฒ๋ผ ๋ฌธ๋งฅ์ ํตํด ๋ฐฐ์ฐ๋ ๋ฒ์ ํ๊ตฌํ ์ฌ๋ก์ธ๋ฐ์. ๋ชจ๋ธ์ ํฌ๊ธฐ๋ ์ฐ์ฐ ๋ฅ๋ ฅ์ด ์๋๋ผ, ๋ฐ์ดํฐ์ ๊ตฌ์กฐ์ ๋งฅ๋ฝ์ฑ์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์์ผ๋ก ์ธ๊ณต์ง๋ฅ์ ๋จ์ํ ๋ ํฐ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒฝ์์ด ์๋๋ผ, โ๋ ๋๋ํ ๋ฐ์ดํฐโ, ์ฆ ๋ฌธ๋งฅ์ ํ์ ๋ฐ์ดํฐ ๊ฒฝ์์ผ๋ก ์ ํ๋ ๊ฐ๋ฅ์ฑ๋ ์ ์ํ์ง์. AI๋ ๋จ์ ์๊ธฐ๋ณด๋ค๋ ์ดํดํ๋ ๊ฒ ๋ ์ค์ํ๋ค๋, ์ ์ ๋ ์ธ๊ฐ์ ๋ฎ์๊ฐ๋ ๋ฏํฉ๋๋ค.
|
|
|
Solution for Trustworthy AI
์ ๋ขฐํ ์ ์๋ AI๋ฅผ ์ํ ์ ํ
|
|
|
|
๐ ์ฌ์
๋ฐ ์ ํด ๋ฌธ์ contact@selectstar.ai
๐จ ์ฝํ
์ธ ๋ฐ ํ์ฌ ๋ฌธ์ marketing@selectstar.ai
|
|
|
|
|