All in One AI 데이터 솔루션 All in One
AI DATA SOLUTION-
SELECTSTAR |
|
|
"CLIP"이 하찮다고?
2005년 7월, 캐나다의 블로거 카일 멕도날드씨는 빨간 클립 단 한개를 물고기 모양의 볼펜으로 교환합니다. 그펜을 같은날 수공예 문고리로 교환한 뒤 1년동안 12번의 물물교환을 거듭한 끝에 키플링에 있는 2층집으로 물물교환을 마무리하게 됩니다. 위에 보신 조형물은 그 전설적인 물물교환을 기념하는 의미로 키플링에 설치되어 있다고 합니다. 그럼, CLIP이 AI와 무슨상관이 있냐고요?
바로 Contrastive Language-Image Pre-training의 이야기를 해보고자 뿌린 밑밥이었습니다. |
|
|
CLIP: 텍스트와 이미지를 연결하다
멀티모달(Multimodal)은 두 가지 이상의 모달리티를 결합한 AI의 학습 방법입니다. 본래 모달리티(Modality)란 시각, 청각, 촉각 등 다양한 감각을 뜻하는데요, AI 분야에서는 텍스트, 이미지, 오디오 등 다양한 형태의 데이터를 의미하기도 합니다.
두 가지 이상의 모달리티를 결합하면 무엇이든 ‘멀티모달’이라고 할 수 있겠지만 일반적으로는 텍스트와 이미지 데이터를 학습한 모델을 의미합니다. 다시 말해 AI의 가장 큰 두 분야가 결합된 것입니다. 이렇게 학습한 모델을 토대로 텍스트 설명에 따라 이미지를 생성하거나, 이미지에 맞는 텍스트 설명을 추출할 수 있습니다.
이번에 소개할 모델은 대표적인 멀티모달 학습 모델인 CLIP입니다. CLIP은 OpenAI(아... 또...)에서 개발한 모델로, 대표적인 생성형(Generative) AI ‘DALL·E 2’에 적용된 바 있습니다. 형식이 다른 텍스트와 이미지 데이터는 어떻게 하나의 모델에서 학습할 수 있었을까요? 그리고 의미 관계는 어떻게 연결 지을 수 있었을까요? |
|
|
CLIP 학습 원리
CLIP은 Contrastive Language-Image Pre-training의 줄임말입니다. 이름에서 알 수 있듯이 Contrastive Learning 방식을 텍스트와 이미지 데이터에 적용하여 구축한 사전학습(Pre-training) 모델입니다. 학습에 활용된 데이터셋은 약 4억 개의 (이미지-텍스트) 쌍인데요, 이렇듯 방대한 양의 이미지 데이터를 하나씩 레이블링 한다면 많은 시간과 비용이 듭니다. 그래서 연구진은 인터넷 상에서 이미지를 수집할 때 그에 딸린 텍스트(Caption)를 함께 수집하였습니다.
하지만 인터넷 상에서 구축한 데이터에는 너무 많은 노이즈들이 내포되어 있습니다. 이미지와 텍스트가 관련이 없을 수도 있고, 캡션 텍스트의 일부만 이미지와 직접적인 관련이 있을 수도 있지요. 즉, 이미지와 캡션 데이터를 활용해서 정확히 하나의 레이블을 예측하는 분류 모델을 구현하기는 어렵다는 의미다. 하여 연구진은 이미지와 텍스트의 ‘관계’를 학습시키기 위해 Contrastive Learning 방식을 채택하였습니다. CLIP의 Contrasive pre-training 방식을 간단히 설명합니다.
|
|
|
사진. CLIP이 이미지-텍스트 간의 유사도를 측정하는 방식. OPEN AI.
- N개의 이미지와 이와 짝지어지는 N개의 텍스트가 있습니다. 각 이미지와 텍스트는 이미지 인코더와 텍스트 인코더를 거쳐 벡터로 변환됩니다.
- N개의 이미지 벡터와 N개의 텍스트 벡터가 생성됐습니다. 이들이 만들어 낼 수 있는 (이미지, 텍스트) 벡터의 쌍은 총 N²개 입니다.
- N²개 벡터 쌍의 코사인 유사도를 모두 구한 다음 테이블에 적어봅시다. 이중 이미지와 텍스트가 올바르게 짝지어진 쌍의 개수는 N개(I₁·T₁, I₂·T₂ …)이며, 나머지 벡터 쌍의 개수는 N²-N개입니다.
- 이미지와 텍스트가 올바르게 짝지어진 벡터 쌍 N개의 코사인 유사도는 높이고, 나머지 벡터 쌍의 코사인 유사도는 낮추는 방향으로 텍스트 및 이미지 인코더를 조정합니다.
(*코사인 유사도는 두 벡터의 유사한 정도를 나타내는 지표입니다. 1에 가까울수록 두 벡터는 비슷한 벡터이고, 0에 가까울수록 서로 상관이 없습니다.) |
|
|
사과, 복숭아, 자동차 텍스트 데이터와 [🍎] [🍑] [🚗] 이미지 데이터를 가상 인코더로 벡터화한 모습.
먼저 이미지 데이터 3개[🍎] [🍑] [🚗] 와 텍스트 데이터 3개[사과] [복숭아] [자동차]를 각각 벡터화했습니다. 이후 만들어질 수 있는 총 9개의 이미지-텍스트 벡터 쌍의 코사인 유사도를 3X3 테이블에 적어놓았습니다. 마지막 파란색 박스의 코사인 유사도 ‘1’은 이미지 인코더와 텍스트 인코더를 거쳐 이미지[🚗]와 텍스트[자동차]가 같은 벡터로 변환됐다는 것을 의미합니다.
이제 파란색 박스 속 코사인 유사도는 ‘1’에 가깝게, 나머지 코사인 유사도는 ‘0’에 가까워지게끔 각 인코더를 조정합니다. 조정이 잘 될수록 신경망은 [🍎] 이미지와 [사과] 텍스트를 더욱 정확하게 매칭하게 됩니다. 이처럼 CLIP은 컴퓨터가 같은 사물을 표현하는 이미지와 텍스트는 동일하게 인식할 수 있게, 서로 다른 텍스트와 이미지는 다르게 인식할 수 있게끔 인코더를 조정하며 학습을 진행합니다. |
|
|
CLIP과 여타 모델의 성능 비교. 이미지. OPEN AI.
앞서 말씀드린 것처럼 CLIP은 사전학습 모델로, 이 모델을 활용하여 다양한 멀티모달 테스크를 수행할 수 있습니다. 대표적으로 이미지가 입력되었을 때 적절한 설명 텍스트를 만들어낼 수 있습니다. 특히 CLIP은 학습한 적 없는 데이터를 예측하는 Zero-Shot 예측에 강점을 보입니다.
심지어 Contrastive Learning 방식을 적용했음에도 이미지 분류 문제에서 분류에 특화된 모델보다 뛰어난 성능을 보였습니다. 이 사실이 고무적인 이유는 CLIP에 학습한 데이터는 인터넷에서 수집한 데이터셋이기 때문입니다. 즉, 특정 벤치마크 점수를 높이기 위한 모델이 아니라는 것이지요. CLIP은 그만큼 일반적으로 활용할 수 있는 강건한(Robust) 모델입니다. 이러한 특성 덕분에 CLIP은 이후에 많은 멀티모달 태스크에 활용됩니다.
멀티모달 분야는 앞으로 발전 가능성이 무궁무진합니다. 여러 감각(데이터)을 활용한다는 점에서 인간이 세상을 인식하는 방법과 유사하기도 하고요.
CLIP은 멀티모달 태스크를 수행하는 데 초석이 되었습니다. 덕분에 뛰어난 성능을 보이는 Text-to-Image, Image Captioning 등 다양한 모델들이 개발될 수 있었습니다.
지금은 더욱 텍스트-영상, 음성-텍스트 등 다양한 멀티모달 모델들이 개발되고 있습니다. 빠르게 발전하고 있는 멀티모달이 앞으로 우리 삶을 어떻게 바꾸게 될까요. |
|
|
대한민국 최초,
피쳐스페이스(Feature Space) 기반으로 데이터셋의 분포를 눈으로 확인하고 데이터셋의 커버리지(Coverage)와 AI 모델 개선에 필요한 데이터를 보다 구체적으로 파악할 수 있는 데이터셋 분석 SAAS, DATUMO FST.
자유도 높은 분석과 큐레이션(Curation)을 통해 엣지 케이스(Edge case)를 분석하고 선별 알고리즘을 통해 엣지 케이스와 유사한 데이터를 조회하거나 전체 데이터셋을 대표하는 일부 데이터셋을 추출할 수도 있어 기존 기업의 AI 모델 성능 향상에 따르는 시간과 비용 절감에 혁신을 가져올 것입니다.
DATUMO FST는 현재 Free Trial로 제공 되고 있습니다.
DATUMO FST에 관심이 있거나 참여를 원하는 단체나, 기관, 기업은 아래 링크로 무료 체험을 부담없이 신청하셔서 AI DATA 분야에서 한걸음 앞서가는 얼리어답터가 되십시오.
|
|
|
데이터 라벨링 작업을
정부의 DATA 바우처 지원사업으로 부담없이 수행하고 싶으신가요?
154건의 성공 노하우가 보장하는 데이터 바우처 공급 기업,
세계적 AI 학회(NeurlPS, EMNLP, CVPR)에 논문이 모두 등재된
대한민국 AI 데이터 선두 기업과 지금, 함께 하십시오!
3월2일 성수를 시작으로
서울,대전, 그리고 부산에서 현장 설명회를 개최합니다.
망설일 시간에 경쟁사들보다 먼저 신청하셔서
정부비용으로 데이터작업을 진행하세요!
|
|
|
데이터셋 분석 SaaS, DATUMO FST에 관심 가져 주셔서 감사합니다.
DATUMO FST의 기능 개선과 합리적인 가격 정책 마련을 위해,
여러분들의 의견을 적극 반영하고자 USER SURVEY를 실시합니다.
DATUMO FST에 대한 당신의 생각을 부담없이 들려주세요.
아직 사용전이라도 가이드 자료 숙지만으로도 참여하실 수 있습니다.
보내주신 답변은 오직 제품과 서비스 개선을 위해 활용될 예정이며
성의 있게 참여해주신 분께는 스타벅스 상품권을 보내드립니다.
|
|
|
AI 관심있는 누구나! 와서 노다지를 캐가세요!
- 직군, 나이에 상관없이 참여할 수 있는 오픈 모임입니다.
- AI와 AI 도입, AI 비즈니스, 사업개발에 대한 다양한 프로그램을 운영하고 있는 AI 중심의 커뮤니티입니다.
- 신사업팀, 사업개발팀, 변화혁신팀 등 회사 내에서 Digital Transformation을 위해 AI 도입을 고민하는 분들이 모여있는 곳입니다.
- 최신 정보와 기술, 작업 노하우, AI 모델 개발을 위한 플랫폼 서치, 전략 등에 대한 고민, 질문, 다양한 경험 등을 자유롭게 나누고 자기만의 값진 노다지를 캐가십시오!
|
|
|
Weekly AI Issues → →
AI와 대화가 직업?
25일(현지 시각) 워싱턴포스트(WP)는 “기술 분야에서 가장 인기 있는 새로운 직업은 ‘AI 위스퍼러(whisperer)”라며 프롬프트 엔지니어라는 새로운 직업군을 소개했다. 프롬프트 엔지니어는 AI 시스템으로 원하는 것을 정확하게 생산하도록 돕는 이들로 AI에 입력하는 텍스트 프롬프트를 만들고 개선하는 업무를 한다.
NAVER, 서치GPT 발표
"네이버 검색창에 '2박스 이상 사면 할인되는 제철 과일 중 많이 사는 제품 순으로 추천해 줘. 수요일까지 도착해야 해'라고 치면 '서치GPT'가 쇼핑 정보와 블로그 문서를 이용한 답변을 생성하고, 실제 구매 링크를 제시합니다."
AI뱅커가 온다
디지털 생존 기로에 선 은행들이 인공지능(AI) 개발에 팔을 걷어붙였다. 역대급 실적 속에서도 행원들은 내보내고 그 자리를 ‘디지털 키오스크’와 ‘AI 행원(뱅커)’으로 채운다는 구상이다.스타트업 업계에서는 초거대 AI 모델을 활용하여 특정 분야에 특화된 ‘버티컬 서비스’를 통해 틈새 시장을 공략하고 있습니다. |
|
|
Join Us → →
지금
AI 데이터 업계에서
제일 밝게 빛나고 있는
셀렉트스타와
함께 하세요!
|
|
|
*이외, 셀렉트스타는
실무에 바로 활용할 수 있는 "오픈 데이터셋" 자료를
무료로 제공해드리고 있습니다.
홈페이지에서 신청해보세요
|
|
|
*본 콘텐츠는 deep daiv. 와의 제휴로 구성 되었습니다.
|
|
|
|
|