All in One AI 데이터 솔루션 All in One
AI DATA SOLUTION-
SELECTSTAR |
|
|
GPT-4가 온다
1. GPT는 무엇인가?
인공지능에 관심 있는 분들이라면 GPT에 대해 한 번쯤 들어보셨을 것입니다. GPT는 2018년 6월 OpenAI가 공개한 언어 처리 모델로, BERT와 더불어 언어 모델의 양대 산맥입니다. BERT가 연구자들 사이에서 다양한 과제의 기초 모델로 활용된다면, GPT는 AI 기업 중심으로 상용 서비스를 제작하는 데 활용되고 있습니다.
OpenAI는 매년 연구를 거듭해가며 새로운 버전의 GPT를 발표하고 있습니다. 2019년 2월엔 GPT-2, 2020년 6월엔 GPT3이 발표됐습니다. 특유의 사람다움으로 유명해진 스캐터랩社의 챗봇 AI ‘이루다’가 바로 GPT-2를 기반으로 만들어졌습니다. |
|
|
출처 : openai.com/blog/better-language-models |
|
|
한데 GPT-4가 곧 출시된다고 합니다. 튜링 테스트를 통과했다는 소문도 돕니다. 튜링 테스트란 인간 평가자가 직접 대화를 나누면서 인간을 흉내내는 기계인지 실제 인간인지 구분하는 테스트를 말합니다. 아직까지 공식적으로 튜링테스트를 완벽히 통과한 AI 모델은 없습니다.
매번 새로운 버전이 출시될 때마다 여러 이슈를 불러 일으켰던 GPT. 이번 글에서는 GPT 모델의 원리와 발전 과정에 대해서 살펴보겠습니다. |
|
|
Transformer와 GPT-1
GPT는 Generative Pre-trained Transformer의 줄임말입니다. 그 이름대로 Generative Pre-trained(생성적 사전 학습) 기법을 적용한 Transformer 기반 모델입니다. GPT의 원리를 알아보기 앞서, 그 기반이 된 ‘Transformer’ 모델에 대해 살펴보겠습니다.
Transformer는 2017년 12월 Google Brain 팀에서 기계 번역(Machine Translation)을 위해 제안했던 모델입니다. 그래서 번역하고자 하는 문장을 입력하면 다른 언어의 문장을 출력하는 Encoder-Decoder 구조를 갖습니다.
먼저 문장을 입력하면 Encoder에서 각 단어 토큰 간의 관계를 학습합니다. 이때 어떤 토큰끼리 관련이 있는지(어떤 토큰에 주목하고 있는지) 계산하는 Attention 매커니즘이 활용됩니다.
예를 들어 특정 단어가 자주 같이 등장한다면, 두 단어가 관련이 깊다고 보아 Attention Score는 높아질 것입니다. Attention 연산은 입력 문장 내에서 이루어지므로, 같은 언어 내에서 단어 토큰의 연관성을 계산하는 셈입니다. 그래서 해당 프로세스를 Self-Attention이라고 부릅니다. |
|
|
Transformer 모델의 구조 출처: Attention is All you Need (2017, Vaswani)
이렇게 얻은 Attention Score를 Decoder에서도 계산합니다. Decoder에서는 Encoder에서 얻은 정보와 Decoder에 입력된 문장의 정보(번역된 문장) 간의 관계를 학습하며 서로 다른 언어 사이의 단어 토큰 연관도를 계산하게 됩니다. 이로써 두 언어 사이의 관계가 학습됩니다.
이때 Decoder에서는 타깃 뒤에 위치한 단어가 Self-Attention에 영향을 주지 않도록 문장 정보를 가립니다(Masking). 인코더에서 입력된 정보와 디코더에서 이미 예측한 정보만을 가지고 다음 단어를 예측하는 것입니다. 이를 Masked Self-Attention이라고 합니다.
2018년 6월, OpenAI 연구진은 이런 Transformer 모델을 응용하여 GPT-1 모델을 선보입니다. GPT는 Transformer 모델의 Decoder 부분만을 이용하여 학습을 진행합니다. 아래 그림은 논문에서 소개된 모델 아키텍처인데요, 기존 Transformer 모델에서 인코더 부분과 결합하는 Self-Attention 블록이 제거됐습니다. 또한 Masked Self-Attention 블록과 Feed Forward 네트워크를 12번 반복하여 활용한 점을 찾아볼 수 있습니다.
|
|
|
(좌) GPT-1 모델 구조, (우) GPT-1의 하위 과제들을 학습하는 방법 출처: GPT-1 (Radford, 2018)
OpenAI는 2019년 2월 GPT-2를 공개합니다. 모델 구조는 GPT-1과 크게 다르지 않지만, 가장 큰 차이점은 Fine-tuning 작업이 사라지고 다양한 태스크를 하나의 모델에서 처리할 수 있도록 Multitask Learning을 진행한다는 점입니다. GPT-1은 추가 학습을 위해 라벨링 된 데이터가 필요했지만, GPT-2는 추가 학습 또한 비지도 학습으로 수행합니다.
하지만 다양한 태스크를 하나의 모델에서 처리하는 만큼 더욱 많은 학습 파라미터가 필요한 문제가 생겼습니다. 연구진은 이를 해결하기 위해 디코더 블록의 개수를 늘려 모델 성능을 개선하는 데 성공했습니다.
GPT-2를 구성하는 핵심 중 하나는 ‘하나의 모델의 여러 과제를 수행할 수 있느냐’는 발상입니다. 연구진은 이를 주제로 여러 가지 실험을 진행하였습니다. GPT-2는 문서 요약 과제를 제외하고 문맥 파악, 명사의 의미 관계 등 다양한 과제에서 뛰어난 성과를 보여주었습니다. GPT-2는 비지도 학습 방법의 확장과 처음 본 데이터에도 잘 예측하는 Zero-shot 방법에 대한 가능성을 보여주었습니다.
GPT-2 모델의 다양한 사례와 달성한 평가 지표는 아래 OpenAI 블로그에서 확인하실 수 있습니다.
https://openai.com/blog/better-language-models/#sample4
|
|
|
지금까지 Transformer와 GPT, GPT-2로 이어지는 AI 모델 발전 흐름에 대해 살펴봤습니다. OpenAI는 GPT-2 공개 당시, 성능이 너무 뛰어나서 악용을 우려해 코드를 공개하지 않았습니다. (현재는 OpenAI 공식 깃허브에 공개되어 있습니다(https://github.com/openai/gpt-2).
하지만 이런 걱정이 무색하게 GPT-3는 훨씬 뛰어난 성능을 보이며 자연어 생성 분야에 새 지평을 열었습니다. 도대체 GPT-3는 어떻게 유명해지게 되었을지 궁금합니다.
|
|
|
AI NETWORKING NIGHT → →
스포츠로 하나되는 AI
스포츠와 AI라는 주제로 열리는 11월 AI/DX 네트워킹 나이트가
11월 24일(목)에 개최됩니다!
1부 - 딥다이브 리더 이성배 님의 'HOT AI 트렌드' 2부 - 셀렉트스타 김세엽 대표와 황민영 이사의 AI 토크쇼
'스포츠와 인공지능 데이터, 어떻게 연결될까?' : 그 까다로웠던 데이터 수집과 구축 성공기 : 제로부터 시작하는 데이터 프로젝트
뒤이어 한국 국대의 2022월드컵 첫경기를 함께 응원하며 네트워킹하는
뜨거운 응원 이벤트가 펼쳐질 예정입니다. |
|
|
축구응원에는 치맥+피맥이 기본!
이 시간을 통해 AI라는 공통분모로 서로 끈끈하게 네트워킹하는
절호의 찬스를 놓치지 마세요!
아직 늦지 않았습니다!
|
|
|
본 뉴스레터를 수신하신 분들께 드리는 특별한 혜택!
지인 동반 가능! + 현장 참가비 5,000원 면제!
- 사전참가신청은 필수입니다!
- "신청경로"에 "뉴스레터"를 선택해주세요
- 동반지인도 신청은 필수입니다
|
|
|
Weekly AI Issues → →
한 발 차이 오프사이드, AI 심판은 가려낼 수 있다
오프사이드 논란 종결! 피파가 각잡고 개발한 AI심판
2022년 카타르 월드컵이 시작되었습니다. 최근 스포츠에도 AI가 적극적으로 도입되고 있는데요, 국제축구연맹 FIFA가 MIT, 취리히 공과대학과 3년 동안 개발한 AI 기술이 개막전에서부터 빛을 발했습니다. 해설위원들조차도 정확하게 파악하지 못한 오프사이드 시비를 빠르고 정확하게 파악했습니다
CES 2023에서 혁신상 수상한 국내 기관들
SKT·딥브레인AI·카이스트 등 CES 2023 혁신상 수상
SKT, 딥브레인AI, 카이스트 등 국내 산학이 CES에서 혁신상을 수상했습니다.
SKT는 동물과 시각장애인을 위한 AI 서비스, 딥브레인AI는 AI 추모 서비스 등을 개발하였습니다
KT, 초거대 AI ‘믿음’ 공개
구현모 KT 대표, 초거대 AI '믿음' 공개... "韓 디지털전환 앞당길 것"
국내 통신사가 AI 개발에 투자를 아끼지 않고 있습니다. 구현모 KT 대표는 초거대 AI ‘믿음’을 공개하면서 AI 인프라에 대한 중요성을 강조했습니다. KT는 AI를 어떻게 활용하고 있을까요
옛날 방송 자료 화면 찾는 AI 기술
방송국이 30년 전 영상 3초만에 찾을 수 있는 이유 / 오목교 전자상가 EP.114
방송국에서 옛 자료화면을 찾을 때마다 저렇게 오래된 자료를 어떻게 찾아오는지 궁금하셨나요? SBS에서 AI 기술을 활용하여 인물의 과거 모습을 검색하거나, 비슷한 장면을 찾는 시스템을 도입했다고 합니다. 그 원리를 한 번 살펴보세요
|
|
|
AI, 머신러닝(ML), 뇌과학 분야에서 최상급 권위의 인공지능(AI) 학회 '뉴립스(NeurlIPS, 인공신경망학회)'. 이곳에 한국 최초의 조직위원으로 선정된 연구자를 무려 세분이나 모시고 들어보는 AI의 미래 비전.
AI에 진심인 여러분의 많은 시청과 성원 바랍니다.
#NeurlPS #AI #인공지능#뉴립스 #데이터셋
* 온라인 참가 신청하신 분들만 LIVE 시청이 가능합니다
|
|
|
셀렉트스타의 핵심 가치이자 최고 장점 "자율"
1-5시 코어타임만 지키면 그 외엔 언제 어디서나
나에게 맞는 편한 환경에서 업무가 가능합니다.
자율이 보장된다는 건 내가 가장 일을 잘할 수 있는 환경에서 일하고,
휴식할 땐 온전히 충전할 수 있다는 거에요.
|
|
|
Join Us → →
AI 데이터 업계에서 빛나는
셀렉트스타와 함께 하세요!
|
|
|
타업체 견적 대비 10%(최대 500만원)의 할인 혜택을 드립니다
|
|
|
*셀렉트스타는
실무에 바로 활용할 수 있는 오픈 데이터셋 자료를
무료로 제공해드립니다
홈페이지에서 신청해보세요
|
|
|
1666-3282 (1666-DATA)
*본 콘텐츠는 deep daiv. 와의 제휴로 구성 되었습니다.
|
|
|
|
|