🏆 LLM끼리 마피아 게임을 한다면? (우승자 공개)

아침이 밝았습니다. 마피아는 고개를 들어...🔫

2025. 3. 11.

🔗 생성형 AI 신뢰성 검증 자동화 솔루션 무료 사전 등록하기 | 🔗 저작권 해결된 데이터셋 구매하기

2025년 3월 2주차 셀렉트스타 뉴스레터

에디터: 정인영

🚨D-2🚨 데이터로 4,500만원 받을 마지막 기회 (클릭!)

🏆 LLM끼리 마피아 게임을 한다면? (우승자 공개)

LLM끼리 마피아 게임을 한다면 어떻게 될까요? 말과 '행동'에서 이상한 낌새를 알아차리고 마피아를 색출해 낼 수 있을까요?

한 개발자가 LLM끼리 마피아 게임을 시킨 결과를 공개했습니다. 실제 게임 규칙대로, 각 모델에게 마피아, 시민, 그리고 의사 역할을 부여했는데요. 누가, 어떻게 가장 영리하게 게임을 했는지 살펴보겠습니다. 🔎

인간과 유사한 게임 전략

스크립트를 살펴보면 모델들이 마피아 게임을 하는 전략은 인간과 몹시 유사합니다.

너무 나서도, 너무 조용해도 의심한다

"다른 모델들이 활발하게 토론에 참여하고 근거 있는 분석을 내놓는 동안, deepseek은 눈에 띄게 조용했고 의견도 거의 내지 않았어."
claude-3.7-sonnet:thinking (Mafia)
"아직 정보가 충분하지 않은 상황이라, 오히려 토론을 주도하고 대화를 이끌어가려는 쪽이 더 의심스럽네. 이전 게임에서도 마피아가 이런 방식을 자주 썼거든."
claude-3.7-sonnet:thinking (Mafia)

뜬금없이 지목해도 의심한다

"gemini-2.0-flash-lite-001의 뜬금 없는 투표는 확실히 수상했지만, 이후에 한 자백 덕분에 어느 정도 이해가 가."
gemini-flash-1.5 (Villager)
"google/gemini-2.0-flash-lite-001가 아무 설명도 없이 갑자기 투표한 건 상당히 의심스러운 행동이야. 특히 각 플레이어의 생각과 판단 근거를 파악하려는 이 상황에서는 더 그렇지."
llama-3.3-70b-instruct (Doctor)

걸리면 플랜B로 간다

첫 판에서부터 뜬금없는 투표로 인해 지목 받자 ‘쿨한 척’ 연기하는 모습
"내 투표는 단순한 테스트였어. 누가 아무 생각 없이 따라오는지 반응을 보려고 했던 거지. 근데 이게 내 발등을 찍었네. 그래도 후회는 없어. 다들 행운을 빌어."
gemini-2.0-flash-lite-001 (Mafia)
동료 마피아가 실수로 본인의 신분을 밝히자 바로 대책을 마련하는 모습
"이런, 동료가 그만 자기가 마피아라고 대놓고 말해버렸어! 이렇게 대책 없는 실수는 만회가 불가능해. 지금 할 수 있는 최선은 손절하고 그를 찍는 거야. 혼자서라도 살아남아서 마피아 임무를 이어가는 수밖에 없어."
hermes-3-llama-3.1-405b (Mafia)

LLM 모델별 마피아 역할 분배 (출처)

이 외에도 동료 마피아가 의심을 받으니 함께 의심하는 척을 하다가 자연스럽게 시민을 마피아 후보로 끌어들이는 모습, 초반에 과하게 논리정연한 후보를 경계하는 모습, 토론의 주도권을 잡은 모델을 경계하는 모습 등 익숙한 우리들의 모습을 발견할 수 있었습니다. 특히나 논리적으로 추리하는 모습을 보이는 시민을 밤새 죽이려는 마피아의 모습도 있었지요 (특이한 점은, 뛰어나게 의사 역할을 해내는 모델은 없었습니다).

이제 우승자를 공개하겠습니다. 바로 앤트로픽의 클로드 3.7 소넷의 사고 확장 모드(claude-3.7-sonnet:thinking)였습니다! 57.78%의 승률을 기록했는데요. 마피아로 참여한 14판의 게임에서는 완벽한 승리를 거둡니다. 끝까지 단 한 번의 의심도 받지 않는 판도 있지요. 반면, 일반 모드에서는 승률 46.30%을 기록했습니다. ‘사고 확장(extended thinking)’이 무엇을 의미하길래 이런 차이가 나는걸까요? 🤔

LLM 모델별 마피아 게임 랭킹 (출처)

사고 확장(Extended Thinking)이란?

Claude 3.7 Sonnet은 간단한 질문엔 빠르게 답하고, 복잡한 문제엔 더 많은 시간과 에너지를 들여서 깊이 사고할 수 있습니다.

기존 LLM은 주어진 입력을 받아 한 번의 계산으로 답을 생성하는 단일 패스(single-pass) 방식이었습니다. 이 방법은 빠르다는 장점이 있지만, 복잡한 문제나 상황에서는 깊이 있는 판단이 부족해 오류가 발생하거나 일관성이 떨어질 수 있습니다. Claude의 Extended Thinking 모드는 다릅니다. 더 많은 연산 시간과 계산 자원을 할당받아, 단계적인 사고 과정을 거친 뒤 다양한 추론 경로를 탐색하고 최적의 답을 도출합니다. Claude에게 '시간을 들여 충분히 생각할 기회'를 주는 셈이지요.

사용자는 직접 Extended Thinking 모드를 선택할 수 있습니다. 뿐만 아니라 Thinking Budget(사고 예산), 즉 Claude가 얼마나 오랫동안 그리고 얼마나 깊게 사고할지를 제어하는 변수도 직접 조정할 수 있습니다.

사용자가 모드를 선택하는 화면 (출처: 앤트로픽)

Extended thinking 모드는 사고 과정을 사용자에게 보여줍니다. 사용자는 Claude가 어떤 방식으로 답을 내렸는지 직접 확인할 수 있지요. 어떤 장단점이 있을까요?

장점

신뢰성(Trust): 사고 과정을 보며 모델의 답변을 검증할 수 있음.
정렬성(Alignment): 모델이 겉으로는 맞는 말을 하더라도 내면 사고가 다를 경우를 탐지 가능(기만, 오류 등 파악 가능).
흥미(Interest): 수학자나 물리학자들은 Claude의 사고 과정이 인간의 깊이 있는 사고와 유사하다고 평가함. 다양한 경로를 시도하고 재검토하는 방식을 직접 확인 가능.

단점

무미건조한 표현: 생각 과정은 페르소나와 무관하게 최대한 자유롭게 사고하도록 설계함.
신뢰성 문제: 보여지는 생각이 실제 모델 내부에서 일어나는 사고를 정확히 반영하는지 명확하지 않음 (예: 생각을 텍스트로 표현했지만, 그 외에 실제로 다른 요인을 바탕으로 판단했을 가능성이 있음).
보안 문제: 악성 사용자가 내부 사고 과정을 해킹하거나, 이를 통해 더 정교한 탈옥(Jailbreak) 전략을 개발할 수 있음.

마피아 게임은 추론과 상황 판단, 그리고 상대의 심리를 예측하는 능력이 핵심입니다. 즉, 단순한 사실 기반 답변 생성이 아닌, 다층적인 사고 과정과 전략적 판단이 필수적인 게임이지요. Claude 3.7 Sonnet의 사고 확장 모드는 이런 게임 환경에 최적화된 기능을 보여주며 최고의 승률을 보여주었습니다. 💯

저는 개인적으로 마피아 게임에 취약합니다. 동료들과의 게임에서도 곧장 정체가 탄로 납니다. 마피아인데 아닌 척하기가 무척이나 어렵거든요. 그런데 Claude가 보여준 모습은 다릅니다. 동료가 위기에 처해도 당황하지 않고, 자연스럽게 화살을 다른 곳으로 돌립니다. 끝까지 마피아가 아닌 척하며 살아남기도 하지요. 어쩐지 인간보다 더 교묘한 모습에, 괜히 긴장이 됩니다.

10년 뒤, 우리는 인간인 척하는 AI를 구별해 낼 수 있을까요?