All in One AI 데이터 솔루션 All in One
AI DATA SOLUTION-
SELECTSTAR |
2D 상용화를 지나
3D로 쭉쭉 뻗어가는
Generative AI의
Image 그리고 비디오에 관하여 |
|
|
구글 논문으로 알아보는 Generative AI:
Images & Video편
이번 레터에서는 구글의 비전 분야 Generative AI를 살펴봅니다.
업계에선 이미 DALL·E 2, NovelAI 등 텍스트 기반으로 2D 이미지를 생성하는 서비스가 널리 활용되고 있지만, 기술 연구는 한발 나아가 3D 이미지와 영상 등을 생성하는 방향으로 진행되고 있었습니다.
-YOUTUBE
|
|
|
Images - DreamFusion
구글은 Google Presents: AI@ ’22에서 4가지 비전 생성 모델을 소개합니다. Parti, Imagen, DreamBooth 그리고 DreamFusion입니다. 앞의 3가지 모델은 이미지 생성 모델, 마지막 DreamFusion은 3D 생성 모델입니다. 먼저 Parti와 Imagen을 간단히 설명드린 후 DreamFusion을 중점적으로 설명드리겠습니다.
Parti와 Imagen
Parti와 Imagen은 모두 텍스트를 입력값으로 받아 텍스트 설명에 맞는 이미지 생성 모델입니다. 두 모델은 이미지를 생성하는 방법에 차이가 있습니다. 이미지 생성 방식으로 Parti는 ‘Autoregressive’ 방식, Imagen은 ‘Diffusion’ 방식을 차용하고 있습니다.
Autoregressive 방식은 이전 예측값을 새로운 입력값으로 받아 다음 시퀀스를 예측하는 방식입니다. Parti는 입력된 텍스트를 기반으로 Encoder-Decoder 구조의 Autoregressive 생성 방식으로 토큰을 생성합니다. 최종적으로 생성한 토큰을 이미지로 복원하면 새로운 이미지가 생성됩니다.
|
|
|
Diffusion은 원래 이미지에 노이즈를 더하고 이를 다시 제거하는 과정에서, 획득한 이미지의 특성을 바탕으로 새로운 이미지를 생성하는 방식입니다. 구글은 Diffusion 모델과 ‘대규모 사전 훈련된 언어 모델’을 결합해 Imagen을 완성했습니다. ‘텍스트에 대한 깊은 이해’로부터 사실적인 이미지를 생성한다는 맥락입니다.
상대적으로 Parti는 텍스트 정보에 조금 더 민감하고 Imagen은 이미지 생성에 집중하는 경향이 있습니다. 구글은 Parti를 소개하며 “Parti와 Imagen은 각각 Autoregressive와 Diffusion이라는 두 가지 다른 생성 모델 제품군을 탐색하는 데 상호 보완적이며, 이 두 강력한 모델의 결합에 대한 흥미로운 기회를 열어준다”고 강조했습니다.
DreamFusion
3D 렌더링 모델 NeRF가 올해의 트렌드로 자리매김 했습니다. 통상 NeRF를 통한 3D 렌더링 작업에는 양질의 2D 이미지가 필요한데요, DreamFusion은 2D 이미지없이 텍스트만으로 3D 모델을 생성하는 Text-to-3D 모델입니다.
|
|
|
DreamFusion은 NeRF와 Imagen을 함께 활용합니다. 우선 NeRF 부분에서 임의의 각도에서 촬영한 3D Ray를 추출하고 밀도와 색상을 예측합니다. 그리고 NeRF 모델을 통해 3D 모양과 빛을 비췄을 때의 그림자 모양을 예측하여 렌더링합니다.
Imagen 부분은 텍스트 기반 이미지 생성을 도와줍니다. 먼저 이미지 생성 과정에 텍스트 정보를 입력하며 텍스트와 그림 사이의 관계를 학습시킵니다. 그리고 렌더링된 2D 이미지에 노이즈를 더하고 제거하는 과정에서 더 좋은 이미지를 생성하는 방법을 학습합니다(이런 학습 방식을 Diffusion 모델이라고 합니다). 이렇게 얻은 설명력을 다시 NeRF 모델에 넘겨줌으로써 NeRF의 3D 렌더링 생성 능력을 향상시킵니다. DreamFusion은 위 과정을 반복하면서 텍스트 기반 3D 렌더링을 생성할 수 있게 됩니다.
|
|
|
DreamFusion에 ‘다각형 모형의 게(a crab, low poly)‘를 입력한 결과물입니다. 언뜻 보았을 때 꽤 괜찮은 결과물이 나왔습니다. 비록 현 Text-to-Image 모델들 만큼 실제 사진 같은(photo-realistic) 결과물은 아니지만, Text-to-Image 모델이 1년 만에 빠르게 성장한 만큼 앞으로의 발전 가능성을 엿볼 수 있습니다.
Video - Phenaki
Phenaki
드디어 상상하는 대로 영상을 만들 수 있는 시대가 온 걸까요? 구글이 텍스트 설명에 알맞은 영상을 생성하는 모델을 선보였습니다. 바로 Phenaki입니다.
영상은 이미지보다 처리하기 어렵습니다. 여러 이유 중 하나로 계산 비용을 꼽아보겠습니다. 영상은 이미지에 비해 용량이 큽니다. 1초짜리 영상이라고 하더라도 보통 30장의 이미지가 포함되어 있으니까요. 텍스트로 영상을 생성할 때도 같은 어려움을 겪게 됩니다. 그래서 Phenaki는 비디오를 생성할 수 있는 작은 토큰을 생성하여 압축하고, 이를 복원하는 방식으로 학습을 진행합니다.
|
|
|
Phenaki (Villegas, 2022)
디코더에서는 인코더에서 생성한 토큰을 복원하며 영상을 생성합니다. Phenaki는 디코더 과정에서 이미지의 연속성을 부여하기 위해 이전 시점까지의 토큰은 고정시킨 후 다음 토큰을 생성합니다. 프롬프트의 내용이 이전과 달라진다고 하더라도(즉, 스토리가 달라진다고 하더라도) 자연스러운 영상을 생성하기 위함입니다.
|
|
|
Phenaki (Villegas, 2022)
이렇듯 짧은 프롬프트로 2분짜리 영상도 만들 수 있습니다. 물론, 아직은 상업적 이용이 가능한 수준은 아닙니다. 화질도 개선돼야 하고, 장면 간의 연결은 더욱 자연스러워야 합니다. 그럼에도 텍스트를 이해하고 이러한 수준의 영상이 생성된다는 점은 놀랍네요.
올해는 Generative AI의 해가 아닌가 싶을 정도로 뛰어난 생성 AI가 많이 등장했습니다. 멋진 모델 하나가 만들기 위해 다수의 모델이 종합적으로 활용되고 있었습니다. 특히 Transformer, Diffusion, NeRF 기반 모델들은 이전에 비해 훨씬 뛰어난 성능을 보이며 주류를 차지하고 있습니다. 새로운 기초 모델이 등장해 Generative AI 분야에 다시 한번 혁신을 가져올 수도 있겠습니다. 지금까지 구글의 Generative AI를 알아보았습니다.
|
|
|
AI NETWORKING NIGHT → →
스포츠로 하나되는 AI
스포츠와 AI라는 주제로 열리는 11월 AI/DX 네트워킹 나이트 토크쇼 연사가 공개되었습니다.
1부 - 딥다이브 리더 이성배 님의 'HOT AI 트렌드' 2부 - 셀렉트스타 김세엽 대표와 황민영 이사의 AI 토크쇼
'스포츠와 인공지능 데이터, 어떻게 연결될까?' : 그 까다로웠던 데이터 수집과 구축 성공기 : 제로부터 시작하는 데이터 프로젝트
뒤이어 한국 국대의 2022월드컵 첫경기를 함께 응원하며 네트워킹하는
뜨거운 응원 이벤트가 펼쳐질 예정입니다. |
|
|
축구응원에는 치맥+피맥이 기본! 이 시간을 통해 AI라는 공통분모로 서로 끈끈한 네트워킹하는 절호의 찬스를 놓치지마세요!
<본 뉴스레터를 수신하신 분들께 드리는 특별한 혜택!>
지인 동반 가능! + 현장 참가비 5,000원 면제!
- 사전참가신청은 필수입니다!
- "신청경로"에 "뉴스레터"를 선택해주세요
- 동반지인도 신청은 필수입니다
|
|
|
AI, 머신러닝(ML), 뇌과학 분야에서 최상급 권위의 인공지능(AI) 학회 '뉴립스(NeurlIPS, 인공신경망학회)'. 이곳에 한국 최초의 조직위원으로 선정된 연구자를 무려 세분이나 모시고 들어보는 AI의 미래 비전.
AI에 진심인 여러분의 많은 시청과 성원 바랍니다.
#NeurlPS #AI #인공지능#뉴립스 #데이터셋
|
|
|
셀렉트스타의 핵심 가치이자 최고 장점 "자율"
1-5시 코어타임만 지키면 그 외엔 언제 어디서나
나에게 맞는 편한 환경에서 업무가 가능합니다.
자율이 보장된다는 건 내가 가장 일을 잘할 수 있는 환경에서 일하고,
휴식할 땐 온전히 충전할 수 있다는 거에요.
|
|
|
Join Us → →
AI 데이터 업계 속에서 빛나는
셀렉트스타와 함께 하세요!
|
|
|
타업체 견적 대비 10%(최대 500만원)의 할인 혜택을 드립니다
|
|
|
*셀렉트스타는
실무에 바로 활용할 수 있는 오픈 데이터셋 자료를
무료로 제공해드립니다
홈페이지에서 신청해보세요
|
|
|
1666-3282 (1666-DATA)
*본 콘텐츠는 deep daiv. 와의 제휴로 구성 되었습니다.
|
|
|
|
|