All in One AI 데이터 솔루션 All in One
AI DATA SOLUTION-
SELECTSTAR |
|
|
작년 여름을 더욱 뜨겁게 했던 AI, Stable Diffusion을 기억하시나요? Stable Diffusion은 텍스트 프롬프트를 입력하면 그에 맞는 이미지를 생성하는 Text-to-Image 모델입니다. 일반인들도 원하는 설명만 입력하여 고품질 이미지를 얻을 수 있다는 점에서 많은 관심을 받았습니다. 그리고 지난 2월, Stable Diffusion을 한층 더 개선한 ControlNet이 공개되었습니다. 이름에서 알 수 있듯이 인간이 통제(Control)할 수 있는 영역이 늘어났습니다. 기존에는 텍스트만 입력했다면 이제는 원하는 구도의 이미지를 넣어 그와 비슷한 이미지를 생성할 수 있게 되었습니다. |
|
|
출처: Adding Conditional Control to Text-to-Image Diffusion Models(Zhang&Agrawala, 2023)
이미지 생성(Image Generation)하면 대표적으로 2가지 모델을 꼽습니다. 바로 GAN과 Diffusion 모델인데요 최근에는 Diffusion 기반 모델에 관한 연구가 상대적으로 활발하게 이루어지고 있습니다. 또다른 Image-to-Text 모델인 DALL-E 2(OpenAI)나 Imagen(Google) 등도 모두 Diffusion 모델이 기반입니다. 이번 호에서는 Diffusion 모델에 대해 알아보도록 하겠습니다.
Diffusion 모델이란?
Diffusion 모델은 2015년 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 논문에서 처음 제안되었습니다. 하지만 공개 초반에는 많은 주목을 받지 못한 듯했습니다. 하지만 2020년, NeurIPS에서 Denoising Diffusion Probabilistic Models(DDPM) 논문이 발표되면서 다시 한번 주목받게 되었습니다. 앞으로 설명드릴 Diffusion 모델은 해당 논문(DDPM)을 기반으로 하고 있음을 말씀드립니다.
첫 논문 제목에 포함된 ‘Nonequilibrium Thermodynamics’는 ‘비평형 열역학’이라는 뜻인데요, 열역학에서 Diffusion의 의미는 ‘확산’입니다. 확산은 농도가 높은 곳에서 낮은 곳으로 퍼져나가려는 현상을 의미합니다. AI도 어려운데 과학까지 나오니 더욱 어렵게 느껴진다고요? 도대체 Diffusion(확산)과 이미지 생성에는 어떤 관계가 있는 것일까요?
Diffusion 모델은 입력 데이터 분포를 가우시안 분포(평균이 0, 분산이 1인 정규 분포) 형태로 ‘확산’시킨다는 특징을 가지고 있습니다. 우리가 알고 있는 흔히 알고 있는 디퓨저(Diffuser)를 떠올려보면 쉽습니다. 디퓨저 향은 공기에 노출되면서 은은하게 퍼져 나갑니다. 농도가 높은 디퓨저 용액 분자들이 농도가 낮은 공기 중으로 퍼져 나가면서 공간을 향으로 채우는 원리입니다. 이처럼 공기 분자의 확산 등 자연 현상에서 가장 쉽게 찾아볼 수 있는 확률 분포가 바로 ‘가우시안 분포’입니다.
이처럼 Diffusion 모델은 이미지에 가우시안 노이즈를 더한 다음, 이로부터 다시 입력 이미지 데이터의 분포를 추정하는 과정을 거치며 생성 방법을 학습하게 됩니다. 전자를 Diffusion Process, 후자를 Reverse Process라고 부릅니다.
Diffusion Process
Diffusion Proces부터 살펴 보겠습니다. 앞서 말씀드린 것처럼 입력 데이터(이미지)의 분포를 가우시안 분포로 확산시킵니다. 방법은 이미지에 조금씩 가우시안 노이즈를 더하는 것입니다. 이를 수식으로 표현하면 다음과 같습니다. |
|
|
수식을 원리를 알기 위해서 마르코프 체인(Markov Chain)개념을 알아야 합니다. '특정 상태의 확률은 오직 과거의 상태에 의존한다’는 개념입니다. 현재 시점(t)의 분포가 직전 시점(t-1) 분포에 따라 결정되니, 수학적으로는 $\mathbf{x}{t-1}$에 대한 조건부 확률 형식으로 현재 분포 ‘$\mathbf{x}{t}$’를 정의할 수 있습니다.
해당 식에서 $\mathcal{N}$은 정규 분포를, $I$는 가우시안 노이즈를, $\beta_t$는 얼마만큼 가우시안 노이즈를 추가할지 결정하는 작은 상수를 의미합니다. 주목할 건 $\mathbf{x}_{t-1}$와 $$ $I$ 각각에 곱해진 $\sqrt{1-\beta_t}$와 $\beta_t$ 입니다. 확률 분포의 분산(Variance)을 일정하게 유지하기 위함입니다. 두 수을 곱함으로써 Diffusion Process가 진행되는 와중에도 평균이 0, 분산이 1인 정규 분포가 유지됩니다.
해당 프로세스를 계속 반복(논문에서는 1,000번)하다 보면 이미지는 본래의 형체를 알아볼 수 없을 만큼 노이즈에 오염될 것입니다. 사실 이 과정에서는 별다른 학습이 일어나지는 않습니다. Diffusion Process는 이후 Reverse Process에서 매 스텝별로 추정해야 할 분포를 알기 위한 잠재 변수(Latent Variables)를 획득하기 위해 필요합니다.
Reverse Process
앞서 Diffusion Process를 통해 오염된 이미지를 다시 복원하는 과정입니다. 최종적으로 만들어진 값은 가우시안 분포를 따르는 잠재 변수입니다. 즉, 랜덤한 잠재 변수를 의미하기 때문에 아무것도 없는 상황에서 노이즈를 제거(De-noising)하며 새로운 이미지를 생성하는 과정이라고 볼 수 있습니다. |
|
|
위 수식을 살펴보면 Diffusion Process 수식과 \mathbf{x}_t와 \mathbf{x}_{t-1}의 위치가 바뀐 것을 알 수 있습니다. 1,000번 반복해서 노이즈를 주입한 것처럼 반대로 1000번 반복하여 이미지를 추정합니다. 하지만 아무것도 모른 채로 오염된 이미지에서 노이즈를 제거한 모습을 추정하는 것은 쉽지 않습니다. 그래서 매 스텝마다 Diffusion Process에서 획득한 잠재 변수 정보를 활용합니다. 학습 파라미터(\theta)를 바꾸어 가며 그와 이미지 분포가 유사해지도록 학습하는 것입니다. 이 과정에서 DDPM은 이미지 생성하는 방법을 학습하게 됩니다. |
|
|
DDPM은 앞서 2015년 발표된 논문에 비해 손실 함수(Loss Function)을 더욱 단순화하여 성능을 비약적으로 개선했다는 특징이 있습니다. 그리고 De-noising 모델로 U-Net을 활용하였고 여기에 Attention 매커니즘을 도입하였습니다. 이렇게 잠재 변수에서 이미지를 추정하는 DDPM에 다른 요소를 조건화(텍스트, 다른 이미지)하여 비로소 우리가 원하는 새로운 이미지를 획득할 수 있습니다.
이렇게 DDPM에 대해 간단하게 알아보았습니다. DDPM은 뛰어난 이미지 생성 능력을 가지고 있었지만 상대적으로 느린 추론 속도를 보인다는 단점이 있었습니다. 이후 논문들은 속도를 개선하거나 더 개선된 이미지를 학습하는 방법을 제안하였고, 초고화질 모델로 복원하는 SR 모델을 비롯하여 Text-to-Image 모델 등으로 다양하게 발전했습니다.
열역학의 확산 개념에서 출발하여, 노이즈를 주입하고 제거하는 단순한 과정에서 이미지 생성 패턴을 학습할 수 있다는 아이디어 수 년 뒤 결국 대중적인 Text-to-Image 생성 모델로 발전했습니다. 딥러닝의 발전 과정을 살펴보다보면 이렇게 참 흥미로운 이야기들이 많은 것 같습니다. 앞으로 Diffusion 모델이 얼마나, 어떻게 더 발전될지 기대됩니다. |
|
|
대한민국 최초,
피쳐스페이스(Feature Space) 기반으로 데이터셋의 분포를 눈으로 확인하고 데이터셋의 커버리지(Coverage)와 AI 모델 개선에 필요한 데이터를 보다 구체적으로 파악할 수 있는 데이터셋 분석 SAAS, DATUMO FST.
자유도 높은 분석과 큐레이션(Curation)을 통해 엣지 케이스(Edge case)를 분석하고 선별 알고리즘을 통해 엣지 케이스와 유사한 데이터를 조회하거나 전체 데이터셋을 대표하는 일부 데이터셋을 추출할 수도 있어 기존 기업의 AI 모델 성능 향상에 따르는 시간과 비용 절감에 혁신을 가져올 것입니다.
DATUMO FST는 현재 Free Trial로 제공 되고 있습니다.
DATUMO FST에 관심이 있거나 참여를 원하는 단체나, 기관, 기업은 아래 링크로 무료 체험을 부담없이 신청하셔서 AI DATA 분야에서 한걸음 앞서가는 얼리어답터가 되십시오.
|
|
|
데이터라벨링도 최종 데이터셋의 품질이 중요합니다.
SAMSUNG, SK, LG 등 대기업을 비롯하여 ETRI, KAIST등의 국가기관과 연구소들과 셀수없이 많은 스타트업들이 결과물에 대한 확실한 만족으로
계속 이어가는 파트너십. 그것이 바로, 셀렉트스타의 독보적인 데이터 품질을 방증하고 있습니다. 거기다 세계적 AI 학회(NeurlPS, EMNLP, CVPR)에 논문이 모두 등재된 국내 유일의 데이터 플랫폼과 함께 귀사의 AI를 더욱 스마트하게 만드십시오!
DATA 수집,라벨링, 분석과 큐레이션까지
ALL in One AI DATA Solution, 셀렉트스타
|
|
|
다른 데이터라벨링 업체보다
셀렉트스타를 선택해야하는 이유
- 최대 USD10,000 상당의 AWS 크레딧 지원
- 모든 고객사에게 1:1 AI 멘토링 지원
-
업계 최고 투자자들의 '투자 검토' 기회 부여
- VC, 법률, 특허보호관련 특강 참석 기회
|
|
|
AI 관심있는 누구나! 와서 노다지를 캐가세요!
- 직군, 나이에 상관없이 참여할 수 있는 오픈 모임입니다.
- AI와 AI 도입, AI 비즈니스, 사업개발에 대한 다양한 프로그램을 운영하고 있는 AI 중심의 커뮤니티입니다.
- 신사업팀, 사업개발팀, 변화혁신팀 등 회사 내에서 Digital Transformation을 위해 AI 도입을 고민하는 분들이 모여있는 곳입니다.
- 최신 정보와 기술, 작업 노하우, AI 모델 개발을 위한 플랫폼 서치, 전략 등에 대한 고민, 질문, 다양한 경험 등을 자유롭게 나누고 자기만의 값진 노다지를 캐가십시오!
|
|
|
Weekly AI Issues → →
GPT-4, 이달 16일 공개 예정
세계가 주목하고 있는 AI 기술 GPT-4가 이달 16일에 공개될 예정입니다. 독일 마이크로소프트(MS)의 CTO는 지난 9일 독일에서 개최한 ‘AI인 포커스-디지털 킥오프’ 행사에서 다음주에 ‘GPT-4’를 공개하겠다고 밝혔습니다. 아직 공식적으로 발표된 내용은 없지만, 오는 16일에 MS 자체 행사에서 공개할 가능성이 높은 것으로 보입니다.
AI로 만든 ‘진주 귀고리를 한 소녀’ 미술관 전시
한 번 더 AI 예술 논란이 일고 있습니다. 네덜란드 헤이그의 마우리츠하위스 미술관에서는 ‘진주 귀고리를 한 소녀’를 다른 미술관에 대여하면서 이를 대체할 작품 공모전을 열었습니다. 이때 전시된 작품 중 한 작품이 미드저니로 생성된 이미지로 밝혀졌습니다. 예술계에서는 모욕적인 결과라는 지적을 하는 한편, 창조적인 과정에서 나온 결과물로 보는 시각도 있습니다.
ChatGPT가 만든 악성코드
ChatGPT가 만든 악성코드를 활용한 사이버 공격이 성공했습니다. ChatGPT에 웹사이트 관리자 권한과 IP캠 실시간 영상 정보를 해킹하는 방법을 묻자 코드를 생성해냈고, 실제로 해킹에 성공할 수 있는 것으로 확인됐습니다. 아직 정교한 공격은 어렵지만, 앞으로 AI가 고도화될수록 잠재적인 위험은 더 커질 것으로 보입니다.
카톡 ChatGPT, AskUp 10만명 돌파
AI 스타트업 업스테이지는 ChatGPT 기반의 카카오톡용 챗봇 AskUp을 출시했습니다. 그리고 일주일만에 채널 친구 10만 명을 달성하며 입소문 효과를 톡톡히 보고 있습니다. 현재 하루에 100건씩 이용할 수 있는 것으로 알려졌는데요, 해당 이벤트를 이달 말까지 연장한다고 밝혔습니다.
|
|
|
Join Us → →
지금
AI 데이터 업계에서
제일 밝게 빛나고 있는
셀렉트스타와
함께 하세요!
|
|
|
*이외, 셀렉트스타는
실무에 바로 활용할 수 있는 "오픈 데이터셋" 자료를
무료로 제공해드리고 있습니다.
홈페이지에서 신청해보세요
|
|
|
*본 콘텐츠는 deep daiv. 와의 제휴로 구성 되었습니다.
|
|
|
|
|