AI 에이전트 업무 실행: Knowing AI에서 Doing AI로 넘어가는 5가지 실전 신호

AI 도입했는데 회의록 요약만 잘 됩니다.

의사결정 보고에서 자주 듣는 말이다. ChatGPT를 사내 도입한 지 1년이 넘었다. 검색은 빨라졌고, 메일 초안도 깔끔해졌다. 그런데 정작 매출이 늘었거나, 인력 한 명을 다른 일로 돌렸다는 사례는 손에 꼽힌다.

같은 시기 Salesforce는 분기당 100억 달러 매출을 찍으며 Agentforce 누적 거래 29,000건을 발표했다. 차이는 어디서 왔을까. 이쪽은 *”질문하면 답하는 AI”* 에 머물렀고, 저쪽은 *”대신 일을 하는 AI”* 로 넘어갔다. 이 차이가 바로 AI 에이전트 업무 실행 패러다임의 핵심이다.

Knowing model에서 Doing model로의 전환. 질문이 ‘나에게 무엇을 알려줄 수 있는가’에서 ‘나를 위해 무엇을 해줄 수 있는가’로 바뀌었습니다.

Scale AI 신임 CEO 제이슨 드뢰지(Jason Droege)가 첫 공식 인터뷰에서 던진 한 줄이다(Lenny’s Newsletter, 2025). 우버이츠를 200억 달러 사업으로 키운 경험을 들고 AI 데이터 라벨링 1위 기업의 키를 잡은 그가 본 풍경은 명확하다. 같은 LLM API를 쓰는데 왜 어떤 회사는 매출이 폭발하고, 어떤 회사는 회의록 요약기에 머무르는가. 답은 모델이 아니라 도입 방식에 있다.

책상 위에서 답을 기다리는 챗봇과, 화면 너머에서 직접 일을 끝내는 에이전트의 풍경은 다르다

신호 1: 학습 데이터의 ‘난이도 점프’가 게임의 룰을 바꿨다

18개월 전만 해도 LLM 학습은 단순했다. “이 단편소설이 저 단편소설보다 나은가?” 같은 선호 비교가 주류였다. 누구나 할 수 있는 작업이었다.

지금은 다르다. 학습 데이터에 “세계 최고 웹 개발자처럼 전체 사이트를 설계·구현하라”, “췌장암 특정 변이의 분자생물학적 메커니즘을 정확히 설명하라” 같은 과제가 들어간다. Scale AI 전문가 풀의 80%가 학사 이상, 15%가 박사다. AI를 가르치기 위해 박사가 필요한 시대가 왔다.

이 변화가 의미하는 것은 단순하다. AI 성능은 더 이상 데이터의 양에서 나오지 않는다. 얼마나 깊고 전문적인 지식이 학습됐는가가 승부를 가른다. 같은 결의 변화가 한국에도 시작됐다. 의료 영상 판독, 법률 계약 분석, 반도체 공정 이상탐지 같은 영역에서 한국형 도메인 데이터를 가진 회사들이 갑자기 모델 회사들의 우선 협상 대상이 된 이유다.

신호 2: Gartner 데이터가 보여주는 ’40 vs 40’의 역설

Gartner의 2026 전망은 단 두 줄로 요약된다.

2026년 말까지 기업 앱의 40%가 작업 특화 AI 에이전트를 탑재한다 (2025년 5% 미만 → 2026년 40%)(Gartner, 2025-08)
2027년 말까지 에이전트 AI 프로젝트의 40% 이상이 취소된다(Gartner, 2025-06)

같은 보고서가 양면을 한꺼번에 말한다. 도입은 폭발적으로 늘지만, 그중 절반에 가까운 프로젝트가 비용 폭증, 모호한 가치, 부실한 리스크 통제로 죽는다. 인프라·운영 책임자의 57%는 “기대를 너무 빨리, 너무 많이 했다” 를 실패 원인으로 꼽았다.

이 데이터는 두 가지를 말한다.

첫째, “우리도 AI 에이전트 도입해야 한다”는 결정 자체는 맞는 방향이다.
둘째, 그 결정이 곧 성공을 보장하지 않는다.

같은 결정으로 한쪽은 ROI 5~10배, 다른 한쪽은 사업부 통째 폐기다. 이 분기점이 어디에 있는지를 보는 게 다음 신호다.

신호 3: ‘아는 AI’와 ‘하는 AI’를 가르는 단 하나의 차이

같은 사용자 요청을 두 AI가 받는다고 해보자.

분기 영업 목표 달성을 위해 우선순위 고객 10명을 식별하고 맞춤 제안서 초안을 만들고 영업담당자 일정에 컨택 시점을 잡아라.

Knowing AI: “지난 분기 매출 데이터는 다음과 같습니다…”라고 답한다. 사용자가 그 데이터를 들고 다음 액션을 직접 짜야 한다
Doing AI: CRM에 접속해 데이터 쿼리, 우선순위 점수 계산, 제안서 템플릿 채우기, 캘린더 API로 일정 충돌 확인, 미팅 후보 시간 3개를 영업담당자에게 슬랙으로 전송. 사용자는 결과만 확인한다

차이는 하나다. 도구 호출(tool use) 권한과 워크플로우 오케스트레이션이 묶여 있는가. 이 한 줄이 6개월 ROI를 가른다. 같은 흐름의 산업별 적용 사례는 500개 AI 에이전트 프로젝트로 본 산업 혁신 실전 가이드에 풍부하게 정리돼 있다.

신호 4: Salesforce·Klarna가 증명한 ROI의 정체

추상론은 그만 하자. 실제로 돌아가는 숫자를 보자.

회사	적용 영역	결과	시기
Salesforce Agentforce	CS·세일즈 자동화	84% 자율 해결, 연 1억 달러 비용 절감, 생산성 +34%	2026 Q3
Klarna	고객 지원	6,000만 달러 절감, 853명 인력 분량 처리	2025 Q3
AMD	HR 문의 응답	처리 시간 80% 단축, 직원 만족도 70% (90일 내)	2025-2026

Salesforce 실적 자료는 더 구체적이다. 2026 회계연도 3분기에 Agentforce·Data 360이 ARR 약 14억 달러를 찍었고, 누적 유료 거래 9,500건, 처리 토큰 3.2조 개를 기록했다(Salesforce IR, 2025-12). 단순한 챗봇 단계와는 자릿수가 다르다.

산업 평균 ROI 데이터는 더 흥미롭다. 에이전트 AI 도입 기업의 평균 회수율이 171%, 미국 기업은 192%, 전통 자동화 대비 약 3배의 효율을 보였다. 한국 기업이 이 숫자를 그대로 가져올 수는 없다. 그러나 방향이 같다는 사실은 분명하다.

신호 5: 마지막 1%가 헤드라인 99%를 지배한다

여기서 가장 중요한 한 줄.

중요한 비즈니스 프로세스를 AI로 견고하게 자동화하는 데 최소 6~12개월이 걸린다.

제이슨 드뢰지가 인터뷰에서 비유한 표현이 인상적이다.

미국 전역에 광대역 인터넷을 깔기 위해 모든 도로를 파헤치는 작업과 같다.

헤드라인은 “초고속 인터넷 시대” 지만, 현장은 땅 파고 케이블 깔고 테스트하는 수개월의 지루한 노동이다. 데모와 PoC까지는 누구나 한다. 진짜 게임은 그 뒤에 있다.

예외 케이스 처리: 정상 흐름이 70%, 예외가 30%. 이 30%를 다 처리해야 자동화 성립
레거시 시스템 통합: ERP, CRM, 사내 인증, VPN, 데이터 웨어하우스 – 한국은 여기에 그룹웨어와 결재 시스템이 더 붙는다
보안 요구사항: 개인정보, 영업비밀, 산업기밀의 노출 위험 통제
사용자 교육: 기존 직원 워크플로우의 재설계와 저항 관리
운영 모니터링: 환각 탐지, 비용 트래킹, A/B 회귀 테스트 자동화

이 다섯이 “마지막 1%” 의 정체다. 기술이 부족해서가 아니라 이 인내가 부족해서 죽는 프로젝트가 매년 40%씩 쌓인다. 같은 함정의 거울상을 PostHog가 12개월간 배운 AI 제품 개발의 9가지 교훈에서 짚었다. 가드레일 4겹, eval 5단계, 모니터링과 사용자 가이드 – 모두 이 마지막 1% 작업이다.

한국 기업이 첫 분기에 적용할 도입 가이드

이론은 충분하다. 다음 90일 안에 무엇을 해야 하는가.

Step 1: 자동화 후보 프로세스 매트릭스 한 장

엑셀 한 장으로 시작한다. 가로축은 빈도(주당 발생 횟수), 세로축은 건당 처리 시간. 모든 부서별 정기 업무를 점으로 찍는다. 오른쪽 위(고빈도·고소요)에 들어오는 작업이 1순위다. 가장 흔한 후보군은 다음과 같다.

고객 문의 1차 응대 (CS)
회계 영수증 분류·전표 입력
채용 이력서 1차 스크리닝
공급사 견적서 비교·최저가 추천
영업 리드 우선순위화·미팅 일정 조율
마케팅 콘텐츠 다국어 변환·플랫폼별 변형

Step 2: ‘암묵지를 형식지로’ 변환 워크숍

AI 에이전트가 풀 작업을 정해도, 도메인 전문가의 머릿속에 있는 “왜 그렇게 처리하는지” 가 문서화돼 있지 않으면 학습이 안 된다. 90분짜리 워크숍 두 번이면 충분하다.

1차: 현장 베테랑이 한 케이스를 처음부터 끝까지 화면 공유로 처리. 모든 클릭과 판단 근거를 음성으로 설명
2차: 같은 베테랑이 “가장 까다로웠던 예외 5건” 을 시연. 예외가 자동화 품질의 80%를 결정한다

이 기록이 곧 시스템 프롬프트와 가드레일의 원본이 된다. 무엇을 자동화할지 정의하는 출발점은 결국 혁신적인 스타트업이 실패하는 이유: 문제 정의의 함정에서 다룬 *”누구의 어떤 통증인가”* 와 같은 질문이다. 잘못된 문제에 에이전트를 붙이면 6개월 후 똑같이 폐기된다.

Step 3: 6~12개월 단일 우선순위 약속

CEO·CFO에게 받아야 할 가장 중요한 약속은 한 줄이다.

앞으로 12개월 동안 이 한 가지 프로세스에 사람과 예산을 집중한다.

AI 에이전트 프로젝트의 가장 큰 적은 신기술이 아니라 3개월마다 우선순위를 바꾸는 조직 관성이다. 6개월의 지루한 마지막 1% 작업이 시작되기 전에 보고에 채인다.

Step 4: 도메인 전문가 + AI 엔지니어 페어 운영

AI팀 단독 운영은 거의 모든 경우 실패한다. 베스트 케이스는 도메인 전문가 1명 + AI 엔지니어 1명 페어가 12개월 동안 한 프로세스에 묶여 있는 구조다. 도메인이 “왜” 와 “예외” 를 책임지고, 엔지니어가 “어떻게” 를 책임진다. 협업의 큰 그림은 AI 협업 최적화 전략에서 다뤘다.

Step 5: 운영 KPI 4종 세트

PoC가 끝났다고 끝이 아니다. 운영 KPI 4가지를 첫 달부터 박아둔다.

자율 해결률: 사람 개입 없이 끝난 케이스 비율 (Salesforce 벤치마크 84%)
건당 비용: 토큰·인프라 비용을 처리 건수로 나눈 값
에스컬레이션 사유 분포: 사람으로 넘긴 이유의 카테고리 분석 → 다음 스프린트의 가드레일 수정 입력
사용자 신뢰도: 분기마다 사용자 NPS 측정. 50점 미만이면 일단 멈추고 재설계

이 KPI가 모니터링되지 않으면 6개월 후 “AI 에이전트가 또 헛소리했다” 사건 한 번에 프로젝트가 통째 폐기된다.

한국에서 가장 먼저 무너질 영역

이 변화가 한국 시장에서 가장 먼저 빠르게 진행될 영역은 어디일까. 다음 세 가지가 우선순위다.

고객 응대(특히 CS·콜센터): Salesforce·Klarna 사례가 가장 직접적으로 옮겨갈 수 있는 영역. 한국어 처리 품질이 충분히 올라왔고, 토큰 비용 대비 인건비 격차가 크다
금융·보험 백오피스: 정형 문서 처리, 청구·심사·약관 비교. 규제 준수 가드레일 설계가 핵심이지만 ROI는 가장 명확하다
이커머스 운영: 상품 상세 작성, 다국가 번역, 카탈로그 분류, 가격 모니터링. 1인 셀러부터 대형 플랫폼까지 적용 폭이 넓다

반대로 가장 늦게 변할 영역은 명확한 책임소재를 요구하는 의료 진단, 법률 최종 자문, 인사 평가 같은 곳이다. 여기는 Doing AI가 아니라 Knowing AI의 보조 도구로 머문다. 산업별 우선순위의 큰 지도는 AI 혁명의 승자와 패자: 기업 디지털 전환의 분기점에서 더 자세히 다뤘다.

‘정보의 도구’에서 ‘노동의 도구’로

마지막 한 줄. AI는 지금 *”정보의 도구”* 에서 *”노동의 도구”* 로 옮겨가고 있다. 이건 기술 진보가 아니라 인간이 일하는 방식 자체의 재정의다.

화려한 AI 헤드라인 뒤에는 데이터 정제, 프로세스 표준화, 시스템 통합, 모니터링이라는 지루한 작업이 깔려 있다. 이걸 견디지 않은 회사는 데모로 끝난다. 견디는 회사는 인력을 다른 일로 돌리고, 24시간 작동하는 운영 인프라를 갖는다. 이 두 그룹의 격차가 향후 3~5년의 경쟁 구도를 만든다.

오늘 한 가지만 시작하자. 자기 회사의 어떤 작업이 “하루에 100번 반복되고, 건당 30초 이상 걸리는데, 결과 품질은 베테랑이 와야 안정되는” 종류인지 한 줄로 적어보자. 답을 적었다면, 거기가 다음 분기 AI 에이전트 프로젝트의 가장 강력한 출발점이다.

당신의 비즈니스에서 AI가 대신 일할 수 있는 영역은 어디인가. 그 첫 한 줄을 적는 순간, 이미 Doing AI의 출발선 안쪽이다.

참고 자료

Lenny’s Newsletter, “First interview with Scale AI’s CEO Jason Droege”
Gartner, “40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026”
Gartner, “Over 40% of Agentic AI Projects Will Be Canceled by End of 2027”
Salesforce Investor Relations, “FY26 Q3 Earnings: Record Quarter Driven by Agentforce & Data 360”
Stanford Digital Economy Lab, “The Enterprise AI Playbook: Lessons from 51 Successful Deployments”