📰 금융 산업의 대형 언어 모델(LLM) 도입 유형과 사례 |
|
|
금융 산업은 특히나 AI 도입 기대 효과가 높은 분야입니다. 소프트웨어정책연구소(SPRI)에 따르면 금융 분야는 정보통신에 이어 세 번째로 AI 융합 경쟁력 지수가 높습니다. 방대하고 정교한 데이터를 다루는 금융 산업에서 인공지능을 활용하면, 의사 결정에 보다 다양한 변수를 반영하고 통계적으로 일반화된 특징을 정밀히 파악할 수 있습니다.
금융 AI 도입 수요는 챗지피티 등장과 함께 언어 모델(LLM)이 주목받으며 더욱 늘어났습니다. 이전까지는 개별 알고리즘에 의해 상품 추천, 고객 상담 등의 서비스가 각각 구현되었다면, 이제는 하나의 기반 모델 위에 다양한 서비스를 구축할 수 있게 됐습니다. 이렇듯 다양한 작업 수행의 근간이 되는 거대한 기초 모델을 파운데이션 모델이라고 부릅니다.
|
|
|
하지만 GPT, 하이퍼클로바와 같은 파운데이션 모델을 곧바로 금융 업무에 활용하기란 어렵습니다. 대표적인 이유로는 언어 모델이 '사실이 아닌 정보를 그럴듯하게 내놓는 환각 이슈'와 '학습하지 않은 최신 정보를 답변에 반영하지 못하는 문제' 등이 꼽힙니다.
이를 위해 다양한 솔루션들이 활용되고 있는데요, 예를 들어 블룸버그는 금융 정보 데이터셋을 대규모로 학습한 모델 '블룸버그GPT(BloombergGPT)'를 초기 사전 학습(pre-training) 단계부터 직접 개발했습니다. 이러한 맞춤형 모델은 특정 분야에 깊은 전문성을 가질 수 있어 금융 기업에 큰 이점을 제공합니다.
다만 사전 학습 단계에서는 엄청난 규모의 학습 데이터와 GPU 자원이 필요합니다. 블룸버그의 인공지능 '블룸버그GPT'는 금융 분야 텍스트 데이터를 3,630억 토큰, 비금융 데이터를 3,450억 토큰 학습했습니다. ChatGPT의 기반이 되는 GPT-3의 사전 학습 훈련 데이터 규모가 약 4,990억 토큰이라는 점을 고려하면 이만한 데이터로 인공지능을 학습시킬 수 있는 기업은 손에 꼽습니다.
|
|
|
Table 2.2: Datasets used to train GPT-3. 'Language Models are Few-Shot Learners', OpenAI.
그렇기에 일반 기업에서는 개발 비용과 예산을 고려하여, 블룸버그GPT 사례처럼 모델을 처음부터 직접 개발하지 않고 상업적으로 활용 가능한 기존 AI 모델을 사용하고 있습니다. 가장 대표적인 방법 중 하나는 메타의 '라마(LLaMA)'와 같은 오픈 소스 모델을 산업 특화 데이터로 추가 학습(파인 튜닝)하는 것입니다.
파인 튜닝 과정에는 상대적으로 적은 양의 학습 데이터와 GPU 자원이 필요합니다. '알파카(Alpaca)' 모델의 경우, 추가 학습(SFT)을 위한 프롬프트 데이터셋 규모는 약 52,000개, 소요된 GPU 자원은 70억 파라미터 LLaMA 모델 기준으로 '80GB A100 8개에서 3시간'이 걸렸습니다. (통상적인 클라우드 서비스를 이용 했을 때 해당 GPU 리소스 가격은 100달러 미만이며, 파인 튜닝을 위한 GPU 자원량은 파라미터 및 학습 데이터 규모와, 반복 훈련 회수 등에 따라 달라집니다. 링크)
파인 튜닝 외 다른 접근 방법으로는 벡터 데이터 베이스를 이용한 검색 증강 생성(RAG, Retrieval Augmented Generation) 기법이 주로 활용됩니다. LLM과 정보 데이터베이스를 연동하여, 모델이 데이터베이스 정보를 기반으로 답변을 생성하게 하는 솔루션입니다. 필요한 모든 정보를 모델에 직접 학습시키지 않기에 비용 면에서 효율적이며, 출처에 기반한 답변 생성으로 환각 현상에 대비하고 최신 정보를 쉽게 반영할 수 있습니다. |
|
|
RAG 아키텍처 개요. 자료. 셀렉트스타.
RAG API와 LLM 중 어떤 것을 선택할지는 특정 요구 사항과 수행하려는 작업의 성격에 따라 달라집니다.RAG와 Fine-Tuning을 모두 사용하여 LLM을 확장할 수도 있습니다. 대체로 파인 튜닝은 현재 작업에 비해 데이터 세트가 충분히 크고 정적인 데이터를 활용할 때 선호됩니다.
|
|
|
RAG와 미세 조정의 차이점 및 특징. 자료. 셀렉트스타. |
|
|
이 같은 파인 튜닝과 검색 증강 생성(RAG) 기법을 활용하기 위해서는 데이터 수집 및 구조화 과정이 필수입니다. 수집 단계에서는 금융 시장 데이터, 고객 거래 기록, 규제 관련 문서 등 다양한 소스로부터 필요한 데이터를 수집하고, 가공 단계에서는 데이터를 정제하고, 분류하며, 적절한 형태로 변환합니다. 구조화된 데이터는 모델이 답변에 참조할 데이터를 더 쉽게 이해하고 처리할 수 있도록 돕습니다. |
|
|
문서 데이터 가공 및 데이터베이스 기반 답변 예시. |
|
|
RAG와 파인 튜닝을 위한 셀렉트스타의 솔루션 |
|
|
도메인 전문가와 함께하는 RAG - Finetuning 전용 데이터셋 구축
: 특히 금융 산업과 같이 전문적인 지식이 필요한 분야에서는 도메인 전문가가 매우 중요합니다. 관련 자격과 이력을 갖춘 인력을 고용 및 파견하여, 데이터 품질을 보장합니다.
자동화된 데이터 처리 도구 : 대규모 데이터셋을 구축할 때는 자동화 작업이 필수적입니다. 알고리즘 기반 중복 데이터 제거, 다양성(유사도) 분석, 초벌 데이터 생성 등으로 전체 프로젝트 일정과 데이터 원가를 합리적인 수준으로 책정합니다.
데이터 품질 관리 시스템 : 데이터의 정확성과 일관성을 유지하는 것은 매우 중요합니다. 데이터 품질 관리 시스템은 데이터의 정확성, 완전성, 신뢰성을 지속적으로 모니터링하고 개선하는 데 사용됩니다. 이러한 시스템은 잘못된 데이터를 감지하고 수정하는 데 도움을 줍니다.
데이터 보안 및 프라이버시 솔루션 : 금융 데이터는 종종 민감한 정보를 포함하고 있어, 데이터 보안과 프라이버시가 매우 중요합니다. 데이터 보안 솔루션은 데이터의 안전한 저장과 전송을 보장하고, 프라이버시 솔루션은 데이터 사용 시 개인 정보 보호 규정을 준수하는 데 도움을 줍니다.
|
|
|
The Data for Smarter AI
AI 라이프사이클을 함께하는 올인원 데이터 플랫폼입니다.
|
|
|
📋 사업 및 제휴 문의 contact@selectstar.ai
📨 콘텐츠 및 행사 문의 marketing@selectstar.ai
|
|
|
|
|