📰 '달리 3'에도, '알파카'에도 합성 데이터

DALL-E 3 / Synthetic data / Alpaca / Stanford

2023. 10. 24.

2023년 10월 4주차 셀렉트스타 뉴스레터

글: 권혁주 ㅣ 검수: 정인영

📰 '달리 3'에도, '알파카'에도 합성 데이터

보름달 아래 북적이는 도시 거리. 보행로는 문화를 즐기는 보행자들로 북적입니다. 달리 3.

합성 데이터는 실제 데이터셋의 통계 패턴을 모방하여 인공적으로 만들어진 데이터를 뜻합니다. 인공지능에게 학습시킬 실세계(real-world) 데이터를 구하기 어려울 때, 의료 및 개인 정보처럼 접근이 제한되거나 사고 현장처럼 극도로 사례가 적은 데이터를 구축할 때 합성 데이터 기술은 활용되곤 합니다.

최근 합성 데이터는 비전과 언어 등 모델 유형을 막론하고 널리 쓰이고 있습니다. 라벨링 단가를 고려하면 비용 측면에서 저렴할 때가 많고, 데이터의 다양성을 일정 수준 이상 확보하는 등 품질 측면에서도 경쟁력 있기 때문입니다.

최근 공개된 달리3 논문 ‘Improving Image Generation with Better Captions‘에서도 합성 데이터 기술은 강조되고 있습니다. 이번 레터에서는 합성 데이터 활용 사례와 부작용에 대해 살펴 보겠습니다.

학습할 이미지에 대한 설명을 AI로 생성

인터넷에서 스크래핑한 이미지와
짧은 합성 캡션(SSC), 서술적인 합성 캡션(DSC)의 예

'달리 3'은 사용자 프롬프트에 따라 멋진 이미지를 생성해 주는 최신 이미지 생성 모델입니다. '달리 3' 학습에 합성 데이터가 어떻게 활용됐는지 소개하기 위해 먼저 학습 방법을 간략히 짚어 보겠습니다.

'달리 3'은 사전 학습 단계에서 이미지와 해당 이미지를 설명하는 캡션이 짝지어진 데이터를 통째로 학습합니다. 수많은 이미지와 그 해설을 미리 학습했기에, 학습을 마친 뒤에는 사용자가 입력한 프롬프트와 어울리는 적절한 이미지를 생성해 낼 수 있게 됩니다.

하지만 이 ‘캡션’에 중요한 정보가 누락될 수 있습니다. 연구자들에 따르면 이미지 속에 글자 정보나, 물체의 색상과 크기와 같은 세부 정보들이 주로 누락된다고 합니다. 그래서 연구자들은 학습을 위해 적절한 캡션을 별도로 생성하기로 했습니다.

맞춤형 이미지 캡션 생성기(bespoke image captioner)를 학습시키고, 이를 통해 학습 데이터셋의 캡션을 다시 작성하는 방식입니다. 최종적으로 '달리 3'은 95%의 합성 캡션과 5%의 실제 캡션을 혼합하여 훈련되었으며, 이전 모델인 DALL-E 2보다 많은 개선을 보였습니다.

합성 캡션과 실제 캡션 학습 비율에 따른 모델 성능 비교(CLIP Score)

연구진에 따르면 합성 캡션 비율이 높아짐에 따라 성능이 향상됐다.

"...우리는 이 문제가 훈련 데이터셋의 잡음이 많고 부정확한 이미지 캡션에서 비롯되었다고 가정합니다. 우리는 맞춤형 이미지 캡셔너를 훈련시켜 훈련 데이터셋을 재캡션하는 방식으로 이를 해결합니다. 그런 다음 여러 텍스트-이미지 모델을 훈련시키고, 이러한 합성 캡션으로 훈련하면 프롬프트를 따르는 능력이 신뢰성 있게 향상된다는 것을 발견합니다."

"We hypothesize that this issue stems from noisy and inaccurate image captions in the training dataset. We address this by training a bespoke image captioner and use it to recaption the training dataset. We then train several text-to-image models and find that training on these synthetic captions reliably improves prompt following ability". Improving Image Generation with Better Captions. OpenAI.

알파카 사례와 합성 데이터 부작용

알파카 모델 학습 개요. 링크

대규모 언어 모델(LLM) 분야에서도 합성 데이터는 활발히 활용되고 있습니다. 대표적으로는 지난 3월 스탠포드 대학에서 메타의 오픈 소스 모델 ‘라마 2’를 파인 튜닝한 알파카 사례입니다.

알파카 모델은 오픈 소스 모델 '라마 2'를 GPT 3.5(text-davinci-003)가 만든 52,000개의 예제를 활용해서 파인 튜닝한 모델입니다. 알파카 모델은 70억 개의 비교적 적은 파라미터로도 GPT 3.5와 비슷한 성능을 보였고, 연구진은 데이터 생성을 위한 GPT API 비용이 500달러 이하였다고 밝혔습니다.

생성 모델 출력물을 학습에 활용할 시 생기는 자기소비(Self-Consuming) 루프.

자료. Self-Consuming Generative Models Go MAD

한편 합성 데이터가 각광받기 시작하면서 그 문제점에 대한 연구도 활발히 진행되고 있습니다. 여러 연구에서는 인공지능이 충분한 실제 데이터 없이, 합성 데이터를 지나치게 학습한다면 점점 성능이 낮아지고 이상해진다고 지적합니다.

7월 라이스 대학과 스탠포드 대학 연구진은 Self-Consuming Generative Models Go MAD라는 흥미로운 제목의 논문을 발표했는데, 주요 내용은 아래와 같습니다.

“생성적 모델이 생성적 모델로부터의 합성 데이터에 훈련되고 있습니다” “이는 지속되는 자기소비적 루프를 만들고, 각 루프 단계에서 충분한 신선한 실제 데이터가 없으면 미래의 생성 모델의 정확도는 감소합니다. 우리는 이 상태를 Model Autophagy Disorder (MAD, 모델 자기 소비 장애)라고 부르며, 이는 광우병에 비유하고 있습니다.”

이처럼 인공지능이 지나치게 합성 데이터를 많이 학습했을 때 생기는 문제를 광우병에 비유하기도 하고, ‘합스부르크 인공지능’이라고 칭하기도 합니다. 셀렉트스타에서도 합성 데이터를 활용할 땐 알고리즘 기반 데이터 유사도 분석, 인간 라벨러에 의한 전수 검수 등을 꼼꼼히! 거치고 있다는 점 말씀 드리며 레터 마칩니다 🙂

10월 4주 AI 뉴스 클리핑

‘AI를 활용한 KM 혁신’ 서비스 개요. 사진. LG CNS 홍보센터.

LG CNS, 생성형 AI로 사내 유용한 데이터 즉시 제공 l 지디넷코리아

LG CNS가 생성형 인공지능(AI)으로 기업 내부의 유용한 지식과 데이터를 찾는 ‘AI를 활용한 지식관리(KM) 혁신(Assetization with AI)’ 서비스를 개시했다. (...) 기업 내부 데이터 분석을 위해 자체 기술 ‘오케스트레이터’를 사용한다. ‘오케스트레이터’는 임직원 질의에 대한 답변과 유사도가 높은 톱5 자료, 페이지 등을 찾아내 챗GPT에 제공한다.

"애플, 부랴부랴 생성형 AI 제품 개발"…내년에 시리 등에 탑재 l 연합뉴스

애플이 이르면 내년에 챗GPT와 같은 생성형 AI를 자체 제품에 탑재할 예정이라고 블룸버그 통신이 보도했다. (...) 애플도 수년 간 연구를 통해 '에이잭스'(Ajax)라는 자체 대규모 언어 모델(LLM)을 갖고 있으며, '애플 GPT'라는 챗봇 서비스를 구축한 것으로 알려졌다.

‘아이폰도 통화녹음 가능’ SKT AI 통화요약 서비스 제공 ㅣ 매일경제

SK텔레콤은 AI 개인비서 서비스 에이닷의 아이폰 앱 ‘A. 전화’를 통해 통화 녹음과 통화 요약 등 기능을 제공한다고 밝혔다. (...) ‘A. 전화’를 통해 AI가 통화 내용의 맥락을 분석하고 통화 유형을 분류하고 요약 내용을 제공한다.