"에이전트 여러 개 동시에 돌리면 실제로 작업 시간이 얼마나 줄어요?"

"태스크를 의존성 레이어로 잘게 나눈 DAG 구조를 쓰면 수 주 걸리던 작업이 하루로 줄었다는 실사례가 있어요. 다만 이건 패턴 선택보다 태스크를 어떻게 쪼개느냐에 달려 있어서, 준비 없이 에이전트만 늘린다고 빨라지진 않아요."

"AGENTS.md 파일 그냥 AI한테 만들어 달라고 하면 안 되나요?"

"ETH 취리히 연구 결과 AI가 자동 생성한 AGENTS.md는 성공률을 오히려 3% 낮추고 추론 비용을 20% 이상 올렸어요. 사람이 직접 쓴 컨텍스트 파일이 성능을 4% 높인다는 게 실증됐으니, 이 파일만큼은 직접 작성하는 게 나아요."

"세션 바뀔 때마다 컨텍스트 날아가는 문제 어떻게 해결해요?"

"Obsidian에 마크다운으로 세션 요약과 아키텍처 결정을 저장하고, 로컬 임베딩으로 시맨틱 검색하는 방식이 효과적이에요. 외부 SaaS 임베딩 없이 로컬에서 돌리면 과금도 없고 코드베이스가 외부로 나가는 보안 문제도 막을 수 있어요."

"멀티 에이전트 오케스트레이션, 나한테 아직 이른 건 아닐까요?"

"Steve Yegge의 8단계 프레임워크 기준으로 오케스트레이션은 6단계부터 시작되는데, 대부분 개발자가 아직 3~4단계에 머물러 있어요. 단일 에이전트를 명확한 지시로 잘 다루는 것부터 익히고 넘어가는 게 현실적이에요."

"에이전트 팀 사이즈는 몇 명이 가장 잘 돌아가요?"

"실험 결과 3~5명 구성이 최적으로 나타났어요. Team Lead 하나에 공유 태스크 리스트와 P2P 메시지로 조율하는 3계층 구조가 기본이고, 이 범위를 넘으면 조율 비용이 성능 이득을 잡아먹기 시작해요."

AI 코딩 도구로 여러 AI 에이전트 동시에 쓸 때 편해지려면 설계가 먼저다

June 9, 2026 5 min read 한국어

에이전트 열다섯 개를 동시에 돌린 팀이 있어요. 몇 주 걸릴 작업을 하루 만에 끝냈다고 하죠. 근데 그게 진짜일까요?

AI 코딩 도구에서 여러 에이전트를 동시에 쓸 때 정말 편해지는지, 이 질문이 2026년 개발자들 사이에서 가장 뜨거운 토론 주제가 됐어요. “AI가 코드 써줘서 빠르다"는 시대는 이미 지났거든요. 지금은 에이전트들을 어떻게 묶어서 쓸 건지가 진짜 승부처예요.

핵심 요약
컬리 기술 블로그에 따르면, 태스크 의존성 레이어를 L0~L3로 구조화한 DAG 방식으로 여러 서버에 걸친 킬스위치 기능을 기존 수 주 대비 단 하루 만에 완성했다.
PyTorch KR이 인용한 ETH 취리히 연구에서, AI가 스스로 생성한 AGENTS.md 파일은 성공률을 약 3% 낮추고 추론 비용을 20% 이상 올리는 반면, 사람이 직접 쓴 컨텍스트 파일은 성능을 약 4% 높인다.
좋은 코드의 읽기:쓰기 비율은 10:1이에요. 지시가 명확할수록 AI 산출물 품질이 선형적으로 올라간다는 게 실증됐죠.
멀티 에이전트 오케스트레이션의 병목은 더 이상 코드 생성이 아니에요. 검증(Verification)이 핵심 병목으로 이동했어요.
Steve Yegge의 8단계 AI 코딩 프레임워크 기준으로 대부분 개발자가 3~4단계에 머물러 있고, 오케스트레이션은 6단계부터 시작돼요.

멀티 에이전트, 지금 왜 갑자기 뜨거워졌나

AI 코딩 도구의 역할이 바뀌었어요. 예전엔 “AI한테 코드 완성 부탁하는 도구"였다면, 지금은 “AI 팀을 편성하고 관리하는 플랫폼"으로 넘어가고 있어요.

전환점은 2025년 하반기였죠. GitHub Copilot이 Copilot Coding Agent를 발표했고, Google의 Jules, OpenAI Codex Web 같은 클라우드 비동기 에이전트들이 연달아 나왔어요. 여러 AI 에이전트를 동시에 쓸 때 정말 편해지는지를 직접 검증할 수 있는 도구들이 한꺼번에 등장한 거예요.

패러다임 변화를 간단하게 정리하면 이래요.

과거 (단일 AI 어시스턴트)	현재 (오케스트레이터 모델)
동기적 루프 (순서대로)	비동기 병렬 실행
하나의 컨텍스트 창	에이전트별 독립 컨텍스트
사람이 매번 확인	오케스트레이터가 자동 조율
파일 하나씩 작업	독립 파일 스코프 분산

PyTorch KR의 멀티 에이전트 오케스트레이션 글에 따르면, Steve Yegge의 8단계 AI 코딩 프레임워크에서 대부분의 개발자가 아직 3~4단계에 머물고 있어요. 오케스트레이션이 시작되는 건 6단계부터거든요. 실제로 쓸 수 있는 사람이 아직 많지 않다는 뜻이에요.

세 가지 핵심 분석

패턴 선택이 결과를 가른다

멀티 에이전트를 쓸 때 어떤 구조를 택하느냐가 핵심이에요. 크게 세 가지 패턴이 있어요.

서브에이전트 방식은 부모 오케스트레이터가 특화된 자식 에이전트를 생성하는 구조예요. 약 220K 토큰을 쓰지만 비용은 단일 에이전트와 거의 같아요. 의존성은 수동으로 관리해야 하는 게 단점이고요.

에이전트 팀 방식(CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 플래그 기반)은 3계층 구조예요. Team Lead, 공유 태스크 리스트, 에이전트 간 P2P 메시지로 구성되고, 최적 팀 사이즈는 3~5명으로 나타났어요.

계층적 위임 방식은 실제 엔지니어링 조직 구조를 그대로 따르는 방식이에요. 피처 리드 아래에 서브 스페셜리스트가 붙는 구조죠.

컬리 기술 블로그의 실전 운용 사례에서는 태스크를 의존성 레이어(L0→L3)로 나눈 DAG 구조를 썼는데, 여러 서버에 걸친 킬스위치 기능을 수 주에서 하루로 단축했어요. 패턴 자체보다 태스크를 어떻게 잘라내느냐가 더 중요하다는 게 핵심 발견이었어요.

컨텍스트 유지가 진짜 병목이다

AI 세션은 기본적으로 무상태(stateless)예요. 새 세션을 열면 이전 내용이 다 날아가요. 그러니까 여러 에이전트를 동시에 쓸 때 가장 먼저 부딪히는 문제는 “얘들이 이전에 뭘 결정했는지를 어떻게 기억하게 할 거냐"예요.

컬리 팀이 도입한 방식은 로컬 RAG 스택이에요.

Obsidian에 마크다운 지식 노트 저장 (세션 요약, 아키텍처 결정, 트러블슈팅 로그)
QMD 플러그인으로 외부 서버 없이 로컬 임베딩 생성
/recall <키워드> 명령으로 AI 세션 내 시맨틱 검색
Obsidian MCP로 AI가 vault에 직접 읽기/쓰기

SaaS 임베딩 모델에 의존하면 외부 과금이 생기고, 코드베이스 정보가 외부로 나가는 보안 문제도 생겨요. 로컬 RAG로 이 두 가지를 한 번에 잡은 셈이에요.

Ralph Loop도 같은 맥락이에요. Pick → Implement → Validate → Commit → Reset 다섯 단계로 돌아가는 자율 사이클인데, 이터레이션마다 컨텍스트를 초기화해요. 환각(hallucination) 누적을 막기 위한 장치죠. 대신 git 히스토리, 진행 로그, tasks.json, AGENTS.md 네 가지 메모리 채널은 초기화 후에도 유지돼요.

AI가 쓴 컨텍스트 파일은 오히려 독이 된다

이건 반직관적인 발견이에요. ETH 취리히 연구에 따르면, AI가 스스로 생성한 AGENTS.md 파일은 성공률을 약 3% 낮추고 추론 비용을 20% 이상 올려요. 반면 사람이 직접 쓴 컨텍스트 파일은 성능을 약 4% 높이고요.

AI가 생성한 컨텍스트 파일은 모호하고 일반적인 내용을 담는 경향이 있어요. 사람이 쓴 것보다 실제 프로젝트 맥락이 덜 반영되거든요. 결국 여러 에이전트를 동시에 쓸 때 정말 편해지는지의 답은 “사람이 얼마나 잘 세팅해주느냐"에 달려 있어요.

좋은 코드의 읽기:쓰기 비율이 10:1이라는 컬리 팀의 데이터도 같은 방향을 가리켜요. 지시 명확성과 AI 산출물 품질이 선형 관계라는 것, 이게 핵심이에요.

누가, 어떻게 써야 할까

현재 개발팀 리드라면 지금 당장 컨텍스트 파일 구조부터 손봐야 해요. AI가 자동으로 만든 AGENTS.md 그대로 쓰지 말고, 프로젝트 아키텍처 결정과 제약 조건을 사람이 직접 써 넣어야 해요.

솔로 개발자라면 멀티 에이전트 도입 전에 Ralph Loop 방식부터 실험해보는 게 맞아요. 복잡한 팀 구성 없이도 컨텍스트 초기화 + 메모리 채널 유지 패턴만으로 반복 실수를 크게 줄일 수 있거든요.

도구 선택 기준으로 보면 이래요.

도구 레이어	대표 도구	적합한 상황
Tier 1 (in-process)	Claude Code 서브에이전트	단일 코드베이스, 빠른 반복
Tier 2 (로컬 오케스트레이터)	Conductor, Claude Squad	중간 규모 팀, 로컬 통제 필요
Tier 3 (클라우드 비동기)	Copilot Coding Agent, Jules	대규모 병렬, 팀 협업

앞으로 3~6개월 안에 주시할 신호가 하나 있어요. 검증(Verification) 레이어의 표준화예요. 코드 생성은 이미 충분히 빠른데, 그 결과를 자동으로 검증하는 파이프라인이 아직 팀마다 제각각이에요. 이 부분이 표준화되는 시점이 멀티 에이전트 실용화의 진짜 임계점이 될 거예요.

결론: 편해지긴 하는데, 조건이 있다

정리할게요.

멀티 에이전트는 태스크 분해와 컨텍스트 설계를 사람이 잘할 때만 효과가 나요
ETH 취리히 연구 기준, AI 생성 컨텍스트 파일은 성공률 3% 감소 + 비용 20% 증가
Ralph Loop + 로컬 RAG 조합이 현재까지 검증된 가장 현실적인 패턴이에요
병목은 코드 생성이 아니라 검증이에요. 품질 게이트 설계가 진짜 작업이에요

여러 에이전트를 동시에 쓸 때 정말 편해지는지, 답은 “네, 근데 세팅에 공을 더 들여야 해요"예요. 편리함은 설계 품질에 비례해서 와요. 자동으로 오는 게 아니에요.

앞으로 6~12개월 안에 검증 레이어가 표준화되고, 컨텍스트 파일 작성을 돕는 도구들이 성숙해지면 진입 장벽이 크게 낮아질 거예요. 지금은 얼리어답터가 패턴을 만드는 시기고, 그 패턴들이 빠르게 문서화되고 있어요.

지금 팀에서 멀티 에이전트 도입을 고려 중이라면, 도구 선택보다 태스크 DAG 설계와 컨텍스트 파일 작성 방식을 먼저 정립해보는 게 순서예요.

참고자료

Photo by Igor Omilaev on Unsplash

멀티 에이전트, 지금 왜 갑자기 뜨거워졌나

세 가지 핵심 분석

패턴 선택이 결과를 가른다

컨텍스트 유지가 진짜 병목이다

AI가 쓴 컨텍스트 파일은 오히려 독이 된다

누가, 어떻게 써야 할까

결론: 편해지긴 하는데, 조건이 있다

참고자료

Related Posts

슬랙 AI 에이전트 도입, 직장인 실무에 진짜 도움 되나: 데이터로 본 실제 효과

노션 AI 3개월 써본 직장인 솔직 후기 2026: 월 24달러, 돈값 할까?

코딩 몰라도 되는 AI 부업 2026: 직장인이 현실적으로 가능한 방법만