π« λμΉλ©΄ μλλ μ΄λ²μ£Ό AI μμ TOP 3 2024λ
10μ 3μ£Όμ°¨ μ
λ νΈμ€ν λ΄μ€λ ν° |
|
|
κΈ: μ΄μ±λ°°, λ₯λ€μ΄λΈ(deep daiv.) μ ν΄ μ½ν
μΈ γ
£ μλν°: μ μΈμ |
|
|
π₯ Metaμ μλ‘μ΄ λͺ¨λΈ, Movie Gen |
|
|
μ¬ν΄ μ΄ OpenAIμ Soraλ μμ μμ± λͺ¨λΈμ κ°λ₯μ±μ 보μ¬μ€¬μ΅λλ€. μ΄νμ κ° κΈ°μ
μμ μμ μμ± λͺ¨λΈμ 곡κ°νλλ°μ. μ§λ 4μΌ, λλμ΄ Metaμμλ ν
μ€νΈ κΈ°λ° μμ μμ± λͺ¨λΈ(Text-to-Video)μ λ°ννμ΅λλ€. κ²λ€κ° βμμ±βκΉμ§ μμ±ν μ μλ κΈ°λ₯μ 첨λΆνλ©΄μ λμ± λλκ² νλλ°μ. Metaκ° κ³΅κ°ν νμ΄λ°μ΄μ
(Foundation) μμ μμ± λͺ¨λΈ Movie Genμ μ΄ν΄λ³΄λλ‘ νκ² μ΅λλ€.πΏ
|
|
|
Metaκ° λ³μ μμ± λͺ¨λΈ μ μ°λ€ |
|
|
Metaμ μ΄λ―Έμ§, μμ μμ± λͺ¨λΈμ μ΄λ²μ΄ μ²μμ μλλλ€. Metaλ μ§κΈκΉμ§ λ κ°μ νμ΄λ°μ΄μ
λͺ¨λΈμ λ°ννλλ°μ. κ°λ¨ν κ·Έ νΉμ§μ μ΄ν΄λ³΄κ² μ΅λλ€. 첫 λ²μ§Έλ 2022λ
7μ λ°νλ Make-A-Sceneμ
λλ€. μ§κ΄μ μΈ μ΄λ¦μμ μ μ μλ―μ΄ κ°λ¨ν μ€μΌμΉμ ν
μ€νΈλ₯Ό κΈ°λ°μΌλ‘ μνλ μ΄λ―Έμ§λ₯Ό μμ±νλ λͺ¨λΈμ
λλ€. λΉμλ Midjourney, StableDiffusion λ± μ΄λ―Έμ§ μμ± λͺ¨λΈμ΄ μ£Όλͺ©λ°λ λμμ΅λλ€. μλ‘μ΄ λͺ¨λΈμ μ΄λ³΄λ€ λ λ°μ΄λ μ±λ₯μ 보μ¬μ£Όκ±°λ μ°¨λ³νλΌμΌ νμ£ . Metaλ ν
μ€νΈλΏ μλλΌ νΉμ ν μ΄λ―Έμ§ 쑰건(μ€μΌμΉ)μ λ§μΆ° μμ±ν΄λ΄λ μ°¨λ³μ μ΄ μμμ΅λλ€. λλΆμ μ‘°κΈ λ μ°½μμκ° μνλ κ²°κ³Όμ κ°κΉκ² μ΄λ―Έμ§λ μμμ μμ±ν μ μμμ£ .
|
|
|
λ€μμ 2023λ
9μμ λ°νλ Emuμ
λλ€. Emuλ κΈ°μ‘΄ μ΄λ―Έμ§ μμ± λͺ¨λΈμ΄ λ―Ένμ μΈ λν
μΌμ λμΉλ€λ λ° μ£Όλͺ©νμ΅λλ€. μ΄μ Metaλ Diffusion λͺ¨λΈμ κΈ°λ°μΌλ‘ μλμ μ΄λ―Έμ§λ‘ νμΈνλνμ¬ λν
μΌμ μ‘λ λ°©λ²μ μ μνμ΅λλ€. μ¬λ¬ λ°μ΄ν° μμμ μμ λν
μΌμ μ°Ύλ κ²μ βNeedles in a Haystackβμ΄λΌκ³ νλλ°μ. Metaλ μ΄λ° μ΄λ―Έμ§μ λν
μΌμ βλͺ¨λλ°μμ λ°λ μ°ΎκΈ°βμ²λΌ μκ°ν κ²μ
λλ€. Emu μ΄νμλ Emu-Editμ λ°ννλ©° μ΄λ―Έμ§μ μΌλΆλΆλ§ μμ νλ λͺ¨λΈμ μ μνκΈ°λ νμ΅λλ€. λ§μ°¬κ°μ§λ‘ μ κ΅ν μμ μ΄ ν΅μ¬μ
λλ€.
|
|
|
Movie Genμ 무μμ΄ λ€λ₯ΌκΉ? |
|
|
Movie Gen μ리μ¦λ Metaκ° μ λ³΄μΈ μΈ λ²μ§Έ μ£Όμν μμ± λͺ¨λΈμ
λλ€. Movie Gen Videoμ Movie Gen Audio λ κ°μ§λ₯Ό λͺ¨λ ν¬ν¨νμ§μ. Movie Gen Videoμμλ νΉν μμ μΈκΈν Metaμ μ² νμ΄ μ λνλλλ°μ. κΈ°λ³Έμ μΌλ‘ μμμ μμ±νλ€λ λ° ν° μ°¨λ³μ μ΄ μκΈ°λ νμ§λ§ Metaκ° κ°μ‘°νλ Movie Genμ νΉμ§μ κ°μΈν(Personalization)μ μ κ΅ν νΈμ§(Precise Editing) μ±λ₯μ μ 보μ¬μ€λλ€.
κ°μΈνλ μμ± λͺ¨λΈμ νΉμ ν 쑰건μ μ
λ ₯νλ©΄ κ·Έμ λ§κ² μμ±ν μ μμμ μλ―Έν©λλ€. μλ μμμ²λΌ, νΉμ ν μΈλ¬Όμ μΌκ΅΄κ³Ό μνλ ν둬ννΈλ₯Ό μ
λ ₯νλ©΄ μ°½μμκ° μλν μμμ μμ±ν μ μμ΅λλ€. λν μ§μ μ¬νμ λ§μΆ° κΈ°μ‘΄ μμμ νΈμ§ν μλ μμ΅λλ€. μμ μΈκΈν Needles in a haystack λ¬Έμ μ κ°μ΄, λλμ λ°μ΄ν° μμμ μ΄λ―Έμ§μ μΌλΆλ§ μ κ΅νκ² λ°κΎΈκΈ°λ μκ°λ³΄λ€ λ μ΄λ €μ΄λ°μ. μλ μμμμλ λν΄μ λμ°λ μμμ λ νΌλ°μ€λ‘ μΌμ λν΄μ λΉλλ°©μΈλ‘ λ°κΎΈκ±°λ λ°°κ²½μ λ°κΎΈλ λ±μ μΈλ°ν μ§μ μ¬νμ λ°λΌ μμ±ν κ²°κ³Όλ₯Ό λ³Ό μ μμ΅λλ€. κΈ°μ‘΄ μ΄λ―Έμ§μμ κ°λ₯νλ κΈ°μ μ μμ μμμ ꡬνν κ²μ
λλ€.
|
|
|
μ΄λ μ΄λ―Έμ§μ λ¬λ¦¬ μμμμλ μ¬λ¬Όκ³Ό μ¬λμ λν μ곡κ°μ μΌκ΄μ±(Consistency)μ μ μ§ν΄μΌ ν©λλ€. μ΄λ―Έμ§μμ ν μ₯ ν μ₯ λ³Ό λλ μμ°μ€λ¬μΈ μ μμ΄λ μ΄λ€μ λΆμ¬λμΌλ©΄ λΆμμ°μ€λ½κ² λ³΄μΌ μ μκΈ° λλ¬Έμ
λλ€. μ΄μ μ₯λ©΄κ³Ό μ λλ‘ μ°κ²°λμ§ μκ±°λ κΈκ²©νκ² μ νμ΄ μ΄λ€μ§ μ μμ§μ. κ·ΈλΌ Movie Gen λͺ¨λΈμλ μ΄λ€ κΈ°μ μ΄ λ°μλμ΄ μλμ§ μμλ³ΌκΉμ?π§ |
|
|
Movie Gen Videoλ 30B νλΌλ―Έν°μ νμ΄λ°μ΄μ
λͺ¨λΈλ‘ Text-to-Image λͺ¨λΈκ³Ό Text-to-Video λͺ¨λΈμ κ²°ν©νμ¬ μ΄λΉ 16νλ μμ, 16μ΄ κΈΈμ΄μ κ³ νμ§μ λΉλμ€ μμμ μμ±ν©λλ€. Movie Gen Video λͺ¨λΈμ μ½ 10μ΅ κ°μ μ΄λ―Έμ§μ 1μ΅ κ°μ μμ λ°μ΄ν°μ
μ βμμ²(Watching)βν¨μΌλ‘μ¨ μ¬λ¬Όμ μμ§μ, 물체μμ μνΈμμ©, 물리μ μΈ κ΄κ³ λ±μ μμ°μ€λ½κ² βμκ°μ μΈμβμ λν΄ νμ΅ν΄ λκ°λλ€. μ΄λ¬ν νμ΅ κ³Όμ μ ν΅ν΄ Movie Gen Videoλ μ¬μ€μ μΈ λΉλμ€ μμ±λΏλ§ μλλΌ, λ€μν ν΄μλμ λΉμ¨μμλ μΌκ΄λ νμ§μ μ μ§ν©λλ€. μ΄λ₯Ό μν΄ κ³ νμ§ λΉλμ€ λ°μ΄ν°μ ν
μ€νΈ μΊ‘μ
μ νμ©ν΄ μΆκ°λ‘ λ―ΈμΈ μ‘°μ (Supervised Fine-Tuning, SFT)μ κ±°μΉκ² λμ§μ.
|
|
|
ν΅μ¬ μν€ν
μ²λ₯Ό μ΄ν΄λ³΄λ©΄ Time Auto-encoder(TAE) μΈμ½λλ₯Ό ν΅ν΄ μ΄λ―Έμ§κ° μλ² λ©λκ³ μ΄λ₯Ό ν
μ€νΈ μ 보μ ν¨κ» Cross-AttentionμΌλ‘ 곡λ νμ΅(Joint Learning)νμ¬ μ΄λ―Έμ§μ ν
μ€νΈ μ 보λ₯Ό μ°κ²°ν©λλ€. TAEλ κΈ°λ³Έμ μΈ VAE μμ± λͺ¨λΈμ μμμ μμ±νλ λͺ©μ μΌλ‘ μκ° μΆμ λν΄ κ°λ°ν λͺ¨λΈμΈλ°μ. μ곡κ°μ μ 보μ νΉμ§μ μΆμΆν΄ μμΆνλ ν¨κ³Όλ₯Ό κ°μ§λλ€. μμΆν μ 보λ€μ Diffusion, Transformer λΈλ‘μ ν΅κ³Όν΄ μμ μμ±μ μν΄ νμ΅λ©λλ€.
Movie Gen Audioλ 13B νλΌλ―Έν°λ₯Ό κ°μ§ νμ΄λ°μ΄μ
λͺ¨λΈλ‘, Text-Audio λ° Video-Audio μμ±μ νΉνλ κ³ νμ§μ μ¬μ΄λμ μμ
μ μ 곡ν©λλ€. μ΄ λͺ¨λΈμ 48kHzμ μλ€λ§ν± μμ€μ μ¬μ΄λ ν¨κ³Όμ μμ
μ λΉλμ€ μ
λ ₯κ³Ό μλ²½νκ² λκΈ°ννμ¬ μμ±ν΄λΌ μ μμΌλ©°, ν
μ€νΈ ν둬ννΈμ λ°λΌ μ κ΅νκ² μ‘°μ ν μ μμ΅λλ€. μ½ 100λ§ μκ°μ λ¬νλ μ€λμ€ λ°μ΄ν°μ
μ νμ΅ν¨μΌλ‘μ¨, 물리μ μ°κ΄μ±λΏλ§ μλλΌ μμ²μκ° λλΌλ μ¬λ¦¬μ μ°κ΄μ±κΉμ§ νμ΅νλ€λ νΉμ§μ΄ μμ§μ. νΉν Movie Gen Audioλ λ€μ΄μ ν±(diegetic) μ¬μ΄λμ λΉλ€μ΄μ ν±(non-diegetic) μ¬μ΄λλ₯Ό λͺ¨λ μμ±ν μ μμ΅λλ€. Movie Gen Audioλ μ΄λ¬ν μ리λ€μ μμ°μ€λ½κ² μ‘°νμμΌ, μκ°μ μμμ μΌκ΄μ± μκ² λ§μΆλ€λ μ μμ μ°½μμ μν μκ°μ λμ± λλ ·νκ² λ¬μ¬ν μ μλ€λ νΉμ§μ μ§λλλ€. |
|
|
Metaμ μμ± λͺ¨λΈμ νλ¦κ³Ό μ΅κ·Ό λ°νλ Movie Gen λͺ¨λΈμ λν΄ μμλ΄€μ΅λλ€. μ΄λ² λͺ¨λΈμ μμ λ‘κ³ μ°½μμ μΈ ννμ μν λͺ¨λΈμ λ§λ€κ² λ€λ Metaμ μ² νμ΄ λ΄κΈ΄ μ μλΌκ³ λ³Ό μ μμ΅λλ€. Metaμ μνλ©΄ Sora, Runway, Kling λ± κΈ°μ‘΄ λͺ¨λΈλ³΄λ€ ν¨μ¬ λ°μ΄λ μ±λ₯μ 보μ΄λλ°μ. νΉν κΈ°μ‘΄ λͺ¨λΈμμ μ½κ² λμ νμ§ λͺ»νλ Audio λͺ¨λΈκΉμ§ ν¬ν¨νμ¬ μ¬μ€μ μμ μ μμ μν μ¬μΈμ λͺ¨λΈμ΄λΌκ³ λ λ³Ό μ μμ΅λλ€.
μ΄μ μμ± κΈ°μ μ μ΄λ―Έμ§λ₯Ό λμ΄ μμκΉμ§ λλ¬νμ΅λλ€. λ μΌλ§λ μμ±λ λμ μμ± λͺ¨λΈμ΄ κ°λ°λ μ§ κΈ°λλ©λλ€.
|
|
|
: μΈκ³΅μ§λ₯(AI)μ νμ©ν μ°κ΅¬κ° μ¬ν΄ λ
Έλ²¨μμ μλ°λΌ μμνμ΅λλ€. λ°μ΄λΉλ λ² μ΄μ»€, λ°λ―Έμ€ νμ¬λΉμ€, μ‘΄ μ νΌ λ±μ΄ λ
Έλ²¨ ννμμ μμνλλ°μ, μ΄λ€μ AIλ₯Ό μ΄μ©ν΄ λ¨λ°±μ§ ꡬ쑰λ₯Ό μμΈ‘νκ³ μ μ½ κ°λ°μ κΈ°μ¬ν 곡λ‘λ₯Ό μΈμ λ°μμ΅λλ€. λν, λ¨Έμ λ¬λμ κΈ°λ°μΌλ‘ ν 물리νμμ μ‘΄ ννλμ μ ν리 νν΄μ΄ μμνμ΅λλ€. μ΄λ€μ μΈκ³΅μ κ²½λ§κ³Ό μ°μκΈ°μ΅μ₯μΉ κ°λ° λ±μ ν΅ν΄ AI λΆμΌμ κΈ°μ¬νμ΅λλ€. νΉν, νμ¬λΉμ€ CEOλ κ³Όνμκ° μλλ°λ λ
Έλ²¨ ννμμ μμν΄ μ£Όλͺ©λ°κ³ μμ΅λλ€. λ
Έλ²¨μμνλ μ΄λ€μ μ°κ΅¬κ° κ³Όν λ°μ μ ν° μ΄μ νκ° λ κ²μΌλ‘ νκ°νκ³ μμ΅λλ€.
Apple, 0.3μ΄λ§μ μ΄λ―Έμ§μ κΉμ΄κ°μ μμ°©νλ Depth Pro κ°λ°
: Appleμ μ°κ΅¬νμ΄ μλ‘μ΄ Depth Estimation λͺ¨λΈ 'Depth Pro'λ₯Ό κ°λ°νμ΅λλ€. μ΄ λͺ¨λΈμ λ¨μΌ μΉ΄λ©λΌλ‘ μΈ‘μ λ κ³ ν΄μλμ μ¬λ μ§λλ₯Ό μ€μκ°μΌλ‘ μμ±ν μ μμΌλ©°, μΉ΄λ©λΌ λ΄λΆμ λ©νλ°μ΄ν° μμ΄λ μ λμ μΈ κ·λͺ¨μ μ νν μμΈ‘μ΄ κ°λ₯ν©λλ€. 'Depth Pro'λ λ¬΄λ € 0.3μ΄ λ΄μ 2.25λ©κ°ν½μ
μ μ¬λ μ§λλ₯Ό μΆλ ₯νλλ°μ. λͺ¨λΈ ꡬ쑰λ ν¨μ¨μ μΈ λ©ν°μ€μΌμΌ λΉμ νΈλμ€ν¬λ¨Έ(ViT)λ₯Ό μ¬μ©νμ¬ μ€μ μ ν©μ± λ°μ΄ν°μ
μ κ²°ν©ν νλ ¨ νλ‘ν μ½λ‘, λμ λ©νΈλ¦ μ νμ±κ³Ό μ¬μΈν κ²½κ³ μΆμ μ λ¬μ±νμ΅λλ€. λν κΉμ΄ μ§λμ κ²½κ³ μ νμ±μ νκ°νκΈ° μν μ μ© νκ° λ©νΈλ¦μ κ°λ°νλ€κ³ λ°νμ΅λλ€. μ΄λ μμ¨μ£Όν, AR λ±μ κΈ°λ° κΈ°μ λ‘ μ¬μ©λ κ²μΌλ‘ 보μ
λλ€.
Tesla, λ¬΄μΈ λ‘보 νμ βμ¬μ΄λ²μΊ‘β νΉν
: Teslaκ° μμ¨μ£Όν κΈ°μ μ μ μ©ν λ¬΄μΈ νμ, 'μ¬μ΄λ²μΊ‘' μμ νμ 곡κ°νμ΅λλ€. μ΄ νμλ μ΄μ λμ νλ¬μ΄ μμΌλ©°, LA μλλΈλ¬λμ€ μν촬μ μ€νλμ€μμ 곡κ°λμμ΅λλ€. μ΄λ² 곡κ°λ Teslaμ 4680 λ°°ν°λ¦¬κ° μ μ©λ κ²μ΄λΌλ μμκ³Ό ν¨κ» μ΄μ°¨μ μ§ μμ₯μλ ν° μν₯μ λ―Έμ³€μ΅λλ€. κ·Έλ¬λ λ‘보νμ κ³΅κ° ν μ€λ§μ€λ½λ€λ νκ°λ₯Ό λ°μΌλ©° Tesla μ£Όκ°λ 9% νλ½νλλ°μ. 2026λ
λΆν° λλ μμ°μ μμν κ³νμ΄μ§λ§, μ€μ μμ° μκΈ°κ° λ μ§μ°λ κ°λ₯μ±μ΄ ν¬λ€λ μΌλ‘ λ¨Έμ€νΈμ λ°μΈμ μν₯μ λ°μ κ²μΌλ‘ 보μ
λλ€.
|
|
|
The Data-centric AI company
AI λ°μ΄ν°μ κΈ°μ€μ λ§λλλ€
|
|
|
π μ¬μ
λ° μ ν΄ λ¬Έμ contact@selectstar.ai
π¨ μ½ν
μΈ λ° νμ¬ λ¬Έμ marketing@selectstar.ai
|
|
|
|
|