AI 신뢰성 평가에 대해 알아봅시다! 📰 AI는 만들었고, 신뢰성 검증은 누가 할래? |
|
|
최근 생성형 AI가 더욱 빠르게 진화하고 있다는 것, 님도 몸소 체감하고 계실 텐데요. 오늘은 전 세계적으로 주목받고 있는 'AI 신뢰성 검증'에 대한 이야기를 전해드립니다.
AI가 다양한 산업 현장에서 적용되기 위해서 출시 전 과정에서 신뢰성 평가 및 검증이 매우 중요한 단계로 자리잡고 있는데요.
|
|
|
일례로 에어캐나다가 AI 챗봇을 고객 상담 업무에 시범 도입했다가 큰 곤욕을 치른 사건이 있었습니다. 항공권 가격 안내와 변경·취소 규정 등 중요한 문의를 잘못 응대하면서, 결국 재정 손실과 기업 이미지에 타격을 입는 결과로 이어졌습니다.
오늘 뉴스레터에서는 셀렉트스타의 이정수 AI 연구원과 함께 AI 신뢰성 검증에 대해 심도 있는 이야기를 나눠봤는데요. AI 신뢰성에 대한 국내외 동향부터 셀렉트스타가 출시한 국내 최초 신뢰성 검증 솔루션까지 흥미로운 인사이트가 가득하니, 재미있게 읽어주세요!
|
|
|
글로벌 AI 트렌드 : 신뢰성 검증이 주목받는 이유 |
|
|
(*이어지는 내용은 AI 신뢰성 검증을 주제로 한 Q&A 형태로 진행됩니다.)
1️⃣ 생성형 AI 및 LLM 개발 단계에서 신뢰성 검증이 필수적인 이유가 무엇인가요?
- 💁🏻♂️ 정확히 말하자면, 생성형 AI 자체보다 LLM 개발 단계에서 신뢰성 검증이 필수적이라고 보는 것이 맞습니다. 최근에는 RAG(Retrieval-Augmented Generation) 방식에서 MAS(Multi-Agent System) 방식으로 점차 변화하면서 ‘대 에이전트 시대’가 열리고 있습니다.
LLM 어플리케이션은 여러 AI 에이전트가 각자의 역할을 수행하며 협력해 하나의 목표를 이루는 시스템인데요. 각 에이전트가 맡은 역할에 따라 제 기능을 발휘해야 최종 목표를 달성할 수 있습니다. 이때 신뢰성 검증은 전체 시스템이 사용자 요청을 처리하는 과정에서 어디가 병목현상이 되는지 파악하고, 이를 어떻게 해결할지를 구체화하는 필수적인 평가 도구입니다.
2️⃣ 그렇다면 AI 신뢰성 검증에서 중요한 것은 무엇인가요?
- 💁🏻♂️ 신뢰성 검증의 핵심은 각 에이전트의 기반이 되는 LLM 모델을 선정하는 기준을 마련하고, 에이전트가 맡은 역할(system prompt)에 따라 목표 달성 능력을 검증하는 것입니다. 또 에이전트 간 상호작용이 원활히 진행되는지도 평가해야 하죠.
3️⃣ 해외에서는 AI 신뢰성 검증이 이미 활발하게 진행되고 있다고 하는데요.
- 💁🏻♂️ 글로벌 기업들 대부분이 LLM 어플리케이션을 개발하면서 신뢰성 검증을 필수 단계로 인식하고 있습니다.
앞으로는 MAS 평가가 트렌드가 될 것으로 보입니다. MAS는 RAG 시스템보다 훨씬 복잡해, 에이전트마다의 고유 역할(시스템 프롬프트), 에이전트 간 소통 방식(프로토콜)까지 모두 점검해야 하거든요. 결국, 신뢰성 검증의 최종 목적은 고객사의 유즈케이스(use-case) 달성을 위해 문제를 진단하고, 해결 방향까지 제시하는 데 있다고 할 수 있습니다.
4️⃣ 한국에서는 AI 신뢰성 검증 기술이 어느 정도 단계에 와 있나요?
- 💁🏻♂️ 많은 기업들이 신뢰성 검증의 필요성을 인지하고 있지만 ‘무엇을, 어떻게, 왜 해야 하는지’ 아직은 구체적 기준이 부족한 상황입니다. 또한 기업 니즈를 충족시킬 수 있는 정밀한(fine-grained) 평가를 제공하는 곳도 많지 않습니다.
셀렉트스타는 이런 시장 상황을 고려해, 데이터셋 구축과 자동화 기술에서 쌓아온 경험과 노하우를 바탕으로 생성형 AI 신뢰성 검증 자동화 솔루션 'Datumo Eval(다투모 이밸)'을 선보이게 됐습니다. 고도화된 평가용 데이터셋 합성 기술을 통해 고객사의 유즈케이스 달성에 필요한 AI 시스템의 세부 능력을 나눠 평가하고, 난이도별로 구성된 평가 과제를 생성하여 검증을 진행합니다.
|
|
|
생성형 AI 신뢰성 검증 자동화 솔루션 'DATUMO Eval' |
|
|
5️⃣ 'Datumo Eval'에 대해 더 자세하게 설명해주실 수 있을까요?
- 💁🏻♂️ 'Datumo Eval'은 LLM의 능력이 무엇인지 분별해 그 능력을 정밀하게 검증하는 평가용 Task(쿼리 형태)를 난이도별로 합성합니다. 이후 해당 Task에 대한 기대 결과물도 함께 생성해, 실제로 결과가 어느 정도 수준으로 나오는지 측정하죠. 이를 통해 고객사의 AI가 어떤 부분에서 오류가 발생하는지를 파악하고, 개선 방향을 제시하는 것이 핵심입니다.
특히, 셀렉트스타는 RAG나 MAS를 활용하는 기업에게 맞춤형 평가를 제공합니다. 현재는 싱글턴 RAG 및 멀티턴 RAG 성능 평가를 위한 데이터셋 합성과 평가에 주력 중이고, MAS 시스템이 실시간으로 평가를 받고 스스로 진화할 수 있도록 하는 ‘라이브 평가(Live-evaluation)’ 기능도 추가됩니다.
6️⃣ 아직 국내에는 표준화된 신뢰성 평가 지표나 프로세스가 부족하다는 점이 걸림돌입니다. 이를 어떻게 해결하시나요?
- 💁🏻♂️ 셀렉트스타는 최신 논문과 연구 결과를 빠르게 분석해 글로벌 트렌드를 반영한 표준화된 평가 지표를 구축하고 있습니다. 특히 능력별・난이도별 정밀 평가를 위한 데이터셋 합성 기술은 셀렉트스타가 지금까지 쌓아온 경험과 기술력이 큰 기반이 되고요. 여기에 여러 기업과 협업하며 LLM 어플리케이션 QA 프로세스를 정립한 경험을 바탕으로, 검증 자동화 솔루션을 개발했습니다. 결과적으로 end-to-end 검증을 제공하여 문제의 원인을 명확히 파악하고 개선할 수 있도록 돕습니다.
7️⃣ 향후 AI 신뢰성 검증 솔루션의 수요 분야는 어디까지 확장될까요?
- 💁🏻♂️ 지금은 Virtual Assistant(고객 응대 챗봇)에서 Knowledge Assistant(지식 보조 챗봇)으로 시장이 확장되는 단계입니다. 대표적으로 IBM의 HR 부서는 한 명의 직원이 HR 전용 MAS를 통해 업무를 수행하는 사례가 있는데, 정책 이해부터 정보 제공까지 챗봇이 큰 역할을 하고 있습니다. 올해 말쯤에는 스스로 결정을 내리고 결과를 실행할 수 있는 Knowledge Creator 챗봇이 등장할 것으로 예상되며, 이 기술은 모든 기업이 도입을 고민하게 될 가능성이 높습니다.
이 과정에서 주목할 부분은 '에이전트 보안'입니다. 에이전트가 많은 권한을 가진 만큼 Red-teaming(보안 테스트)에 더욱 취약할 수 있기 때문이죠. 또한, 부서 간 민감한 정보가 무분별하게 공유되지 않도록 보안 가드레일 설정이 필요합니다. 따라서 앞으로는 에이전트가 올바르게 추론하고, 툴을 적절히 사용하며, 정보 보호를 위한 가드레일이 잘 설정되어 있는지를 검증하는 것이 매우 중요합니다.
|
|
|
셀렉트스타가 예측한 2025 AI Trends - Singularity |
|
|
AI 서비스를 개발·출시를 앞두고 있다면, 이제 AI 신뢰성 평가는 선택이 아닌 필수가 되었습니다. 셀렉트스타 역시 이 점에 주목해 2025 AI 핵심 키워드 중 하나로 ‘AI 신뢰성’을 꼽았습니다.
자세한 내용은 ‘2025 AI Trends - Singularity’ 리포트를 통해 확인해 볼 수 있는데요. '2025 AI Trends' 리포트에서는 AI 에이전트부터 SLM 시대를 대비하는 구체적인 전략까지, AI가 바꿔놓을 산업 전반의 흐름과 트렌드를 제시하고 있습니다.
AI의 미래가 궁금하시다면, 아래 링크를 통해 2025 AI Trends 리포트를 확인해보세요.
|
|
|
일년에 한 번, 데이터를 무료로 받을 수 있는 '2025 데이터바우처 지원사업'이 시작되었습니다.
셀렉트스타는 데이터바우처 공급기업으로서 AI 도입을 희망하는 중소기업, 소상공인, 공공·연구기관 등이 AI 학습 데이터를 구축할 수 있도록 지원하고 있는데요.
올해도 셀렉트스타는 기업에 따라 맞춤형 데이터 구축 및 정제 서비스를 제공할 계획입니다. AI 기반 서비스 개발을 고려 중인 기업이라면, 무료로 고품질 데이터셋 구축의 기회를 놓치지 마세요!
|
|
|
The Data-centric AI company
|
|
|
📋 사업 및 제휴 문의 contact@selectstar.ai
📨 콘텐츠 및 행사 문의 marketing@selectstar.ai
|
|
|
|
|