2024λ
1μ 1μ£Όμ°¨ μ
λ νΈμ€ν λ΄μ€λ ν° |
|
|
κΈ: κΆνμ£Ό γ
£ κ²μ: μ μΈμ |
|
|
π° κΈμ΅ μ°μ
μ λν μΈμ΄ λͺ¨λΈ(LLM) λμ
μ νκ³Ό μ¬λ‘ |
|
|
κΈμ΅κΆ AI λμ
κΈ°λ ν¨κ³Ό.
κΈμ΅ μ°μ
μ νΉνλ AI λμ
κΈ°λ ν¨κ³Όκ° λμ λΆμΌμ
λλ€. μννΈμ¨μ΄μ μ±
μ°κ΅¬μ(SPRI)μ λ°λ₯΄λ©΄ κΈμ΅ λΆμΌλ μ 보ν΅μ μ μ΄μ΄ μΈ λ²μ§Έλ‘ AI μ΅ν© κ²½μλ ₯ μ§μκ° λμ΅λλ€. λ°©λνκ³ μ κ΅ν λ°μ΄ν°λ₯Ό λ€λ£¨λ κΈμ΅ μ°μ
μμ μΈκ³΅μ§λ₯μ νμ©νλ©΄, μμ¬ κ²°μ μ λ³΄λ€ λ€μν λ³μλ₯Ό λ°μνκ³ ν΅κ³μ μΌλ‘ μΌλ°νλ νΉμ§μ μ λ°ν νμ
ν μ μμ΅λλ€.
κΈμ΅ AI λμ
μμλ μ±μ§νΌν° λ±μ₯κ³Ό ν¨κ» μΈμ΄ λͺ¨λΈ(LLM)μ΄ μ£Όλͺ©λ°μΌλ©° λμ± λμ΄λ¬μ΅λλ€. μ΄μ κΉμ§λ κ°λ³ μκ³ λ¦¬μ¦μ μν΄ μν μΆμ², κ³ κ° μλ΄ λ±μ μλΉμ€κ° κ°κ° ꡬνλμλ€λ©΄, μ΄μ λ νλμ κΈ°λ° λͺ¨λΈ μμ λ€μν μλΉμ€λ₯Ό ꡬμΆν μ μκ² λμ΅λλ€. μ΄λ λ― λ€μν μμ
μνμ κ·Όκ°μ΄ λλ κ±°λν κΈ°μ΄ λͺ¨λΈμ νμ΄λ°μ΄μ
λͺ¨λΈμ΄λΌκ³ λΆλ¦
λλ€.
|
|
|
νμ§λ§ GPT, νμ΄νΌν΄λ‘λ°μ κ°μ νμ΄λ°μ΄μ
λͺ¨λΈμ κ³§λ°λ‘ κΈμ΅ μ
무μ νμ©νκΈ°λ μ΄λ ΅μ΅λλ€. λνμ μΈ μ΄μ λ‘λ μΈμ΄ λͺ¨λΈμ΄ 'μ¬μ€μ΄ μλ μ 보λ₯Ό κ·Έλ΄λ―νκ² λ΄λλ νκ° μ΄μ'μ 'νμ΅νμ§ μμ μ΅μ μ 보λ₯Ό λ΅λ³μ λ°μνμ§ λͺ»νλ λ¬Έμ ' λ±μ΄ κΌ½νλλ€.
μ΄λ₯Ό μν΄ λ€μν μ루μ
λ€μ΄ νμ©λκ³ μλλ°μ, μλ₯Ό λ€μ΄ λΈλ£Έλ²κ·Έλ κΈμ΅ μ 보 λ°μ΄ν°μ
μ λκ·λͺ¨λ‘ νμ΅ν λͺ¨λΈ 'λΈλ£Έλ²κ·ΈGPT(BloombergGPT)'λ₯Ό μ΄κΈ° μ¬μ νμ΅(pre-training) λ¨κ³λΆν° μ§μ κ°λ°νμ΅λλ€. μ΄λ¬ν λ§μΆ€ν λͺ¨λΈμ νΉμ λΆμΌμ κΉμ μ λ¬Έμ±μ κ°μ§ μ μμ΄ κΈμ΅ κΈ°μ
μ ν° μ΄μ μ μ 곡ν©λλ€.
λ€λ§ μ¬μ νμ΅ λ¨κ³μμλ μμ²λ κ·λͺ¨μ νμ΅ λ°μ΄ν°μ GPU μμμ΄ νμν©λλ€. λΈλ£Έλ²κ·Έμ μΈκ³΅μ§λ₯ 'λΈλ£Έλ²κ·ΈGPT'λ κΈμ΅ λΆμΌ ν
μ€νΈ λ°μ΄ν°λ₯Ό 3,630μ΅ ν ν°, λΉκΈμ΅ λ°μ΄ν°λ₯Ό 3,450μ΅ ν ν° νμ΅νμ΅λλ€. ChatGPTμ κΈ°λ°μ΄ λλ GPT-3μ μ¬μ νμ΅ νλ ¨ λ°μ΄ν° κ·λͺ¨κ° μ½ 4,990μ΅ ν ν°μ΄λΌλ μ μ κ³ λ €νλ©΄ μ΄λ§ν λ°μ΄ν°λ‘ μΈκ³΅μ§λ₯μ νμ΅μν¬ μ μλ κΈ°μ
μ μμ κΌ½μ΅λλ€.
|
|
|
Table 2.2: Datasets used to train GPT-3. 'Language Models are Few-Shot Learners', OpenAI.
κ·Έλ κΈ°μ μΌλ° κΈ°μ
μμλ κ°λ° λΉμ©κ³Ό μμ°μ κ³ λ €νμ¬, λΈλ£Έλ²κ·ΈGPT μ¬λ‘μ²λΌ λͺ¨λΈμ μ²μλΆν° μ§μ κ°λ°νμ§ μκ³ μμ
μ μΌλ‘ νμ© κ°λ₯ν κΈ°μ‘΄ AI λͺ¨λΈμ μ¬μ©νκ³ μμ΅λλ€. κ°μ₯ λνμ μΈ λ°©λ² μ€ νλλ λ©νμ 'λΌλ§(LLaMA)'μ κ°μ μ€ν μμ€ λͺ¨λΈμ μ°μ
νΉν λ°μ΄ν°λ‘ μΆκ° νμ΅(νμΈ νλ)νλ κ²μ
λλ€.
νμΈ νλ κ³Όμ μλ μλμ μΌλ‘ μ μ μμ νμ΅ λ°μ΄ν°μ GPU μμμ΄ νμν©λλ€. 'μνμΉ΄(Alpaca)' λͺ¨λΈμ κ²½μ°, μΆκ° νμ΅(SFT)μ μν ν둬ννΈ λ°μ΄ν°μ
κ·λͺ¨λ μ½ 52,000κ°, μμλ GPU μμμ 70μ΅ νλΌλ―Έν° LLaMA λͺ¨λΈ κΈ°μ€μΌλ‘ '80GB A100 8κ°μμ 3μκ°'μ΄ κ±Έλ Έμ΅λλ€. (ν΅μμ μΈ ν΄λΌμ°λ μλΉμ€λ₯Ό μ΄μ© νμ λ ν΄λΉ GPU 리μμ€ κ°κ²©μ 100λ¬λ¬ λ―Έλ§μ΄λ©°, νμΈ νλμ μν GPU μμλμ νλΌλ―Έν° λ° νμ΅ λ°μ΄ν° κ·λͺ¨μ, λ°λ³΅ νλ ¨ νμ λ±μ λ°λΌ λ¬λΌμ§λλ€. λ§ν¬)
νμΈ νλ μΈ λ€λ₯Έ μ κ·Ό λ°©λ²μΌλ‘λ λ²‘ν° λ°μ΄ν° λ² μ΄μ€λ₯Ό μ΄μ©ν κ²μ μ¦κ° μμ±(RAG, Retrieval Augmented Generation) κΈ°λ²μ΄ μ£Όλ‘ νμ©λ©λλ€. LLMκ³Ό μ 보 λ°μ΄ν°λ² μ΄μ€λ₯Ό μ°λνμ¬, λͺ¨λΈμ΄ λ°μ΄ν°λ² μ΄μ€ μ 보λ₯Ό κΈ°λ°μΌλ‘ λ΅λ³μ μμ±νκ² νλ μ루μ
μ
λλ€. νμν λͺ¨λ μ 보λ₯Ό λͺ¨λΈμ μ§μ νμ΅μν€μ§ μκΈ°μ λΉμ© λ©΄μμ ν¨μ¨μ μ΄λ©°, μΆμ²μ κΈ°λ°ν λ΅λ³ μμ±μΌλ‘ νκ° νμμ λλΉνκ³ μ΅μ μ 보λ₯Ό μ½κ² λ°μν μ μμ΅λλ€. |
|
|
RAG μν€ν
μ² κ°μ. μλ£. μ
λ νΈμ€ν.
RAG APIμ LLM μ€ μ΄λ€ κ²μ μ νν μ§λ νΉμ μꡬ μ¬νκ³Ό μννλ €λ μμ
μ μ±κ²©μ λ°λΌ λ¬λΌμ§λλ€.RAGμ Fine-Tuningμ λͺ¨λ μ¬μ©νμ¬ LLMμ νμ₯ν μλ μμ΅λλ€. λμ²΄λ‘ νμΈ νλμ νμ¬ μμ
μ λΉν΄ λ°μ΄ν° μΈνΈκ° μΆ©λΆν ν¬κ³ μ μ μΈ λ°μ΄ν°λ₯Ό νμ©ν λ μ νΈλ©λλ€.
|
|
|
RAGμ λ―ΈμΈ μ‘°μ μ μ°¨μ΄μ λ° νΉμ§. μλ£. μ
λ νΈμ€ν. |
|
|
μ΄ κ°μ νμΈ νλκ³Ό κ²μ μ¦κ° μμ±(RAG) κΈ°λ²μ νμ©νκΈ° μν΄μλ λ°μ΄ν° μμ§ λ° κ΅¬μ‘°ν κ³Όμ μ΄ νμμ
λλ€. μμ§ λ¨κ³μμλ κΈμ΅ μμ₯ λ°μ΄ν°, κ³ κ° κ±°λ κΈ°λ‘, κ·μ κ΄λ ¨ λ¬Έμ λ± λ€μν μμ€λ‘λΆν° νμν λ°μ΄ν°λ₯Ό μμ§νκ³ , κ°κ³΅ λ¨κ³μμλ λ°μ΄ν°λ₯Ό μ μ νκ³ , λΆλ₯νλ©°, μ μ ν ννλ‘ λ³νν©λλ€. ꡬ쑰νλ λ°μ΄ν°λ λͺ¨λΈμ΄ λ΅λ³μ μ°Έμ‘°ν λ°μ΄ν°λ₯Ό λ μ½κ² μ΄ν΄νκ³ μ²λ¦¬ν μ μλλ‘ λμ΅λλ€. |
|
|
λ¬Έμ λ°μ΄ν° κ°κ³΅ λ° λ°μ΄ν°λ² μ΄μ€ κΈ°λ° λ΅λ³ μμ. |
|
|
RAGμ νμΈ νλμ μν μ
λ νΈμ€νμ μ루μ
|
|
|
λλ©μΈ μ λ¬Έκ°μ ν¨κ»νλ RAG - Finetuning μ μ© λ°μ΄ν°μ
ꡬμΆ
: νΉν κΈμ΅ μ°μ
κ³Ό κ°μ΄ μ λ¬Έμ μΈ μ§μμ΄ νμν λΆμΌμμλ λλ©μΈ μ λ¬Έκ°κ° λ§€μ° μ€μν©λλ€. κ΄λ ¨ μ격과 μ΄λ ₯μ κ°μΆ μΈλ ₯μ κ³ μ© λ° ν견νμ¬, λ°μ΄ν° νμ§μ 보μ₯ν©λλ€.
μλνλ λ°μ΄ν° μ²λ¦¬ λꡬ : λκ·λͺ¨ λ°μ΄ν°μ
μ ꡬμΆν λλ μλν μμ
μ΄ νμμ μ
λλ€. μκ³ λ¦¬μ¦ κΈ°λ° μ€λ³΅ λ°μ΄ν° μ κ±°, λ€μμ±(μ μ¬λ) λΆμ, μ΄λ² λ°μ΄ν° μμ± λ±μΌλ‘ μ 체 νλ‘μ νΈ μΌμ κ³Ό λ°μ΄ν° μκ°λ₯Ό ν©λ¦¬μ μΈ μμ€μΌλ‘ μ±
μ ν©λλ€.
λ°μ΄ν° νμ§ κ΄λ¦¬ μμ€ν
: λ°μ΄ν°μ μ νμ±κ³Ό μΌκ΄μ±μ μ μ§νλ κ²μ λ§€μ° μ€μν©λλ€. λ°μ΄ν° νμ§ κ΄λ¦¬ μμ€ν
μ λ°μ΄ν°μ μ νμ±, μμ μ±, μ λ’°μ±μ μ§μμ μΌλ‘ λͺ¨λν°λ§νκ³ κ°μ νλ λ° μ¬μ©λ©λλ€. μ΄λ¬ν μμ€ν
μ μλͺ»λ λ°μ΄ν°λ₯Ό κ°μ§νκ³ μμ νλ λ° λμμ μ€λλ€.
λ°μ΄ν° 보μ λ° νλΌμ΄λ²μ μ루μ
: κΈμ΅ λ°μ΄ν°λ μ’
μ’
λ―Όκ°ν μ 보λ₯Ό ν¬ν¨νκ³ μμ΄, λ°μ΄ν° 보μκ³Ό νλΌμ΄λ²μκ° λ§€μ° μ€μν©λλ€. λ°μ΄ν° 보μ μ루μ
μ λ°μ΄ν°μ μμ ν μ μ₯κ³Ό μ μ‘μ 보μ₯νκ³ , νλΌμ΄λ²μ μ루μ
μ λ°μ΄ν° μ¬μ© μ κ°μΈ μ 보 λ³΄νΈ κ·μ μ μ€μνλ λ° λμμ μ€λλ€.
|
|
|
The Data for Smarter AI
μΈμ λͺ¨λ λ°μ΄ν°λ₯Ό μ°Ύμ, μ
λ νΈμ€νλ
AI λΌμ΄νμ¬μ΄ν΄μ ν¨κ»νλ μ¬μΈμ λ°μ΄ν° νλ«νΌμ
λλ€.
|
|
|
π μ¬μ
λ° μ ν΄ λ¬Έμ contact@selectstar.ai
π¨ μ½ν
μΈ λ° νμ¬ λ¬Έμ marketing@selectstar.ai
|
|
|
|
|