์์ฐ์ด ์์ฑ(Natural Language Generation) ๋ถ์ผ์์ "์ข์ ํ ์คํธ"๋ฅผ ํ๊ฐํ๋ ์ผ์ ๋ ์ด๋ ต์ต๋๋ค. ์ธ๊ฐ์ ์ง๊ด๊ณผ ์ผ์นํ๋๋ก ํ ์คํธ์ ํ์ง์ ๊ฐ๋ ํ๋ ์์ ์ ํนํ๋ ์ฐฝ์์ ์ด๊ฑฐ๋ ๊ฐ๋ฐฉํ์ธ ์์ ์ผ์๋ก ๊น๋ค๋กญ์ง์. ๊ธฐ์กด์ ํ๊ฐ ์งํ์ธ BLEU๋ ROUGE๋ ์ฑ๋ฅ์ ์์นํํ๋ ๋ฐ ์ ์ฉํ์ง๋ง, ๋ํ๋ ์์ฝ๊ณผ ๊ฐ์ ์์ ์์ ์๊ตฌ๋๋ ๋ค์์ฑ๊ณผ ์ฐฝ์์ฑ์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
์๋ 5์, G-EVAL์ GPT-4์ ๊ณ ๊ธ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ๋ฐํ์ผ๋ก ์ธ๊ฐ์ ํ๊ฐ์ ๊ฐ๊น์ด ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋ ํ์ ์ ํ๋ ์์ํฌ๋ก ๋ ์ฌ๋์ต๋๋ค. ์ด ์๋ก์ด ํจ๋ฌ๋ค์์ NLG ํ๊ฐ ๋ฐฉ์์ ์ด๋ป๊ฒ ๋ณํ์์ผฐ์๊น์?
G-Eval์ ํ๋กฌํํธ ์ฑ์ฐ๊ธฐ ๋ฐฉ์("form-filling")์ ํตํด ๋ชจ๋ธ์ด ์์ฑํ ํ ์คํธ๋ฅผ ํ๊ฐํ๋ ์๋ก์ด ๋ฐฉ์์ธ๋ฐ์. ์ด๋ฌํ ๋ฐฉ์์ LLM์ ์ด์ฉํ ํ๊ฐ(LLM-as-a-Judge) ๋ฐฉ๋ฒ ์ค์ ํ๋กฌํํธ๋ฅผ ์ด์ฉํ ํ๊ฐ ๋ฐฉ์์ผ๋ก ๋๋ฆฌ ์ฐ์ด๋ ๋ฐฉ๋ฒ์ ๋๋ค. ํ๋กฌํํธ๋ฅผ ์ด์ฉํ ํ๊ฐ์์ ์ผ๋ฐ์ ์ผ๋ก ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํ๋ ๋ค ๊ฐ์ง ์์๊ฐ ์๋๋ฐ์: 1. Task instruction2. Evaluation criteria3. Input contents4. Evaluation methods ์ ํญ๋ชฉ์ผ๋ก ์ ์ฒด ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํด ์ด๋ฅผ LLM์๊ฒ ๋๊ฒจ ์ฃผ์ด ํ๊ฐ๋ฅผ ์งํํ๋ ๋ฐฉ์์ ๋๋ค.
G-Eval์ Task instruction๊ณผ Evaluation criteria๋ ์ฌ๋์ด ์ง์ ์์ฑํ๋๋ก ํ๊ณ , Evaluation methods๋ Chain-of-thought์ ์ด์ฉํ์ฌ ์๋ ์์ฑํ๋๋ก ํ์์ต๋๋ค. Evaluation methods๋ ์์ ์ด ๋ณต์กํ๊ณ ํ๊ฐ ๊ธฐ์ค์ด ๋ค์ํ๋ฐ์. ์ฌ๋์ด ์ง์ ์ค๊ณํ๊ธฐ์๋ ์๊ฐ์ด ๋ง์ด ์์๋๊ธฐ ๋๋ฌธ์ CoT๋ฅผ ์ด์ฉํ์ฌ ๋น ๋ฅด๊ฒ ์์ ์ ํ์์ต๋๋ค. ๊ทธ ํ์ ์ค์ ๋ก ๋ชจ๋ธ์ด ์์ฑํ text, ์ฆ Input contents๋ฅผ ๋ฃ์ด์ LLM์ด ์ต์ข ํ๊ฐ๋ฅผ ํ๋ ๋ฐฉ์์ด์ง์. ์ด๋ฌํ ํ์ ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ G-EVAL์ ํ์กดํ๋ ํ๊ฐ ๋ฐฉ์ ์ค์์ ์ฌ๋๊ณผ ๊ฐ์ฅ ์ ์ผ์นํ๋ ํ๊ฐ ๋๊ตฌ๋ก ๋ง๋ค์ด์ฃผ์์ต๋๋ค.
G-Eval์ ์ ๋ฐ์ ์ธ ํ๋ ์์ํฌ. ์ถ์ฒ: (๋งํฌ)
G-EVAL ํ๋ ์์ํฌ๋ ์ธ ๊ฐ์ง ํต์ฌ ์์๋ก ๊ตฌ์ฑ๋๋๋ฐ์:
G-EVAL์ SummEval, Topical-Chat, QAGS ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ์์ ์ฒ ์ ํ ํ ์คํธ๋์์ต๋๋ค. ํจ๊ป ์ดํด๋ณผ๊น์?
์ด๋ฌํ ๊ฒฐ๊ณผ๋ G-EVAL์ด ๋ค์ํ ์์ ์์ ์ธ๊ฐ ํ๊ฐ์ ์ผ์นํ๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๋ฉฐ, ๋จ์ผ ์ ์ ์ฐ์ถ์ด๋ ๋ค์ฐจ์์ ์ ์๋ ฅ์ด ๋ถ์กฑํ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ํจ์ฌ ์ ๋ขฐํ ์ ์๋ ํ๊ฐ ๋๊ตฌ์์ ์ ์ฆํฉ๋๋ค.
G-EVAL์ ์๋ก์ด CoT ๋ฐฉ๋ฒ๋ก ์ ์ด์ ๋ชจ๋ธ๋ค๊ณผ๋ ์๋นํ ์ฐจ์ด๋ฅผ ๋ณด์ ๋๋ค. GPTScore๋ BARTScore์ ๊ฐ์ ๊ธฐ์กด ๋ชจ๋ธ์ ๊ณ ์ ๋ ํ๊ฐ ๋ฐฉ์์ ๋ฐ๋ฅด์ง๋ง, G-EVAL์ ์ธ๋ถ์ ์ธ ํ๊ฐ ๊ตฌ์กฐ๋ฅผ ํตํด ๋ ๊น์ด ์๋ ๋ถ์์ ์ ๊ณตํฉ๋๋ค. G-EVAL์ ํ๋ฅ ๊ธฐ๋ฐ ์ ์ ์ฐ์ ์ UniEval๊ณผ ๊ฐ์ ์ด์ฐ์ ์ ์ ๋ชจ๋ธ์ ๋์ด ๋ ์ ๋ฐํ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํ๋กฌํํธ ์ฑ์ฐ๊ธฐ ๋ฐฉ์์ ํตํ ์ข ํฉ์ ์ธ ์ ๊ทผ ๋ฐฉ์ ๋๋ถ์ G-EVAL์ ๋จ์ํ ์ ์ ๋ถ์ฌ๊ฐ ์๋๋ผ ์ธ๊ฐ๊ณผ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ ์ ์์ต๋๋ค.
G-EVAL์ ์ ๋ขฐ์ฑ, ํ์ฅ์ฑ, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ ์ผ์น๋๋ฅผ ๊ฐ์ถ NLG ํ๊ฐ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํฉ๋๋ค. ํ๋ฅ ๊ฐ์ค์น๋ฅผ ์ ์ฉํ ์ ๊ตํ ํ๊ฐ์ GPT-4์ ๊ณ ๊ธ ์ธ์ด ์ดํด๋ฅผ ํ์ฉํด G-EVAL์ NLG ํ๊ฐ์์ ์๋ก์ด ํ์ค์ ์ธ์๋๋ค. ๋ค๋ง, AI ํ๊ฐ์๋ค์ด NLG ๊ฐ๋ฐ์ ํต์ฌ ์ญํ ์ ํ๊ฒ ๋จ์ ๋ฐ๋ผ ๊ธฐ๊ณ ์์ฑ ํ ์คํธ์ ๋ํ ์ ์ฌ์ ํธํฅ์ ์ ์คํ ๊ด๋ฆฌํ ํ์๊ฐ ์์ต๋๋ค.
AI ๋ฐ์ดํฐ์ ๊ธฐ์ค์ ๋ง๋ญ๋๋ค
์ ๋ขฐํ ์ ์๋ AI๋ฅผ ์ํ ์ ํ