똑똑한 AI가 비즈니스 실무에서는 실패하는 이유

여러분은 최신 AI가 얼마나 똑똑한지 알고 계실겁니다. 코딩 테스트도 통과하고, 복잡한 SQL 쿼리도 척척 만들어내죠. 하지만 실제 기업 환경에 투입하는 순간, 마치 다른 존재가 된 것처럼 허둥대기 시작합니다. 왜 이런 일이 벌어질까요?

AI의 치명적 약점: 비즈니스 맥락에 대한 무지

오늘날 AI의 가장 큰 문제는 구문(syntax)은 완벽하게 처리하지만, 의미(semantics)와 비즈니스 맥락은 제대로 이해하지 못한다는 점입니다. 특히 마지막 약점이 치명적인데, 기업 가치의 핵심이 바로 이런 맥락적 지식에 숨어 있기 때문입니다.

현실에서 마주하는 복잡한 상황들

여러분의 회사에서도 이런 경험 있지 않으신가요? ‘활성 고객’의 정의가 부서마다 다르고, 화요일에만 적용되는 특별 할인 코드가 있으며, 인수합병 이후 바뀐 제품 코드 때문에 혼란이 생기는 상황 말입니다. 재무팀과 영업팀이 같은 매출 지표를 놓고도 다른 해석을 내놓는 건 이미 일상이 되었죠.

AI는 이런 미묘한 차이들을 전혀 알지 못합니다. 학술적 환경에서는 뛰어난 성과를 내지만, 기업의 방화벽 뒤에서 실제 데이터와 만나는 순간 성능이 급격히 떨어지는 이유입니다.

스파이더 2.0이 보여준 냉혹한 현실

투자자이자 분석가인 톰 텅구즈가 공개한 스파이더 2.0 벤치마크 결과는 이런 현실을 적나라하게 보여줍니다. 이 테스트는 AI가 자연어를 SQL로 변환하는 능력을 실제 기업 환경에서 평가한 것인데, 결과는 충격적이었습니다.

59%에서 40%로 떨어지는 정확도

모델의 정확 일치율은 약 59%에 머물렀고, 변환과 코드 생성의 복잡성이 추가되면 40%까지 떨어졌습니다. 더 중요한 건 이 데이터가 실험실의 장난감이 아니라 실제 기업이 운영하는 복잡한 스키마를 반영한다는 점입니다.

현실의 비즈니스 맥락에 가까워질수록 AI는 더 큰 어려움에 직면한다는 증거인 셈이죠.

‘거의 맞는 코드’의 숨겨진 비용

기업용 소프트웨어를 개발해본 분들이라면 아실 겁니다. AI의 가장 큰 문제는 코드를 만들어내지 못하는 게 아닙니다. 생성한 결과물을 신뢰할 수 있는지, 그리고 조직의 구체적인 맥락을 정확히 이해했는지가 핵심입니다.

디버깅과 검증에 허비되는 시간

모델이 만든 ‘거의 맞는 코드’를 디버깅하고 사실 확인하는 데 드는 시간과 비용이 바로 ‘거의 맞는 코드에 대한 세금’입니다. 이는 AI 도입으로 얻는 효율성을 크게 상쇄시키는 숨겨진 비용이죠.

왜 AI는 기업의 현실을 이해하지 못할까?

공개 웹에는 없는 비즈니스 로직

대형 AI 모델은 공개 텍스트를 학습한 패턴 엔진입니다. 하지만 기업 고유의 비즈니스 로직은 공개 웹에 존재하지 않습니다. 이탈률 계산 방식, 영업 구역 운영 방법, 거의 동일한 두 제품 라인의 미묘한 차이 같은 정보들은 지라 티켓, 파워포인트 문서, 제도적 지식, 그리고 데이터베이스 스키마에 숨어 있습니다.

복잡한 데이터 모델의 함정

1,000개가 넘는 컬럼을 가진 테이블, 이름이 바뀐 필드, 불안정하게 설계된 차원, 조직 개편 때마다 바뀌는 용어들이 AI의 발목을 잡습니다. 스파이더 2.0에서 다단계 쿼리, 낯선 스키마 간의 조인, 방언 차이, DBT 내 변환 작업에서 점수가 떨어지는 이유가 바로 여기에 있습니다.

엔지니어링적 접근이 답이다

다행히 이 문제를 해결하기 위해 철학적 돌파구가 필요한 건 아닙니다. 필요한 것은 더 정교한 엔지니어링적 접근입니다.

1단계: AI가 비즈니스를 ‘보게’ 만들기

검색 증강 생성(RAG)의 활용

모델이 답변하기 전에 적절한 데이터와 메타데이터를 제공해야 합니다. DDL, 스키마 다이어그램, DBT 모델, 행 샘플 등을 포함한 체계적인 정보 제공이 핵심입니다.

특히 텍스트-투-SQL의 경우 테이블·컬럼 설명, 데이터 계보 주석, 알려진 조인 키를 반드시 포함해야 합니다. 단순한 PDF 벡터가 아닌 카탈로그, 메트릭 저장소, 데이터 계보 그래프 같은 관리된 소스를 활용하는 것이 중요합니다.

2단계: 망각하는 AI에 메모리 추가하기

계층적 메모리 시스템 구축

대부분의 AI 애플리케이션은 기억상실증 환자와 같습니다. 매 요청마다 처음부터 시작하죠. 작업 메모리, 장기 메모리, 에피소드 메모리로 구성된 계층적 메모리를 추가하면 AI를 단순한 패턴 매칭에서 진정한 맥락 이해 시스템으로 끌어올릴 수 있습니다.

3단계: 구조화된 인터페이스로 모호함 제거

자유 텍스트에서 구조화된 접근으로

자연어로 모델이 테이블 이름을 추측하게 하는 대신, 함수·도구 호출을 사용해 get_metric('active_users', date_range='Q2')와 같은 방식으로 요청하게 만들어야 합니다. 추상 구문 트리(AST) 생성이나 제한된 SQL 방언 사용도 효과적입니다.

4단계: 인간 중심의 승인 프로세스

효율적인 검토 시스템 구축

위험한 조인을 강조 표시하고, 신뢰할 수 있는 쿼리와의 차이를 미리 보여주며, 구조화된 피드백을 수집해 시스템을 지속적으로 개선해야 합니다. 사람이 자연스럽게 시스템을 훈련시키는 구조를 만드는 것이 핵심입니다.

5단계: 실질적인 성과 측정

벤치마크보다 실제 업무 성과에 집중*

“스파이더 2.0에서 70% 달성”이 아니라 “재무팀이 분기를 정확히 마감하도록 도움”이 진정한 KPI여야 합니다. 과제별 맞춤 평가를 매일 실행하고, 접근 제어 100% 준수 같은 구체적인 목표를 설정해야 합니다.

개발자의 새로운 역할: 컨텍스트 엔지니어

AI 시대에 개발자의 역할이 완전히 사라질까요? 오히려 그 반대입니다. 개발자는 단순한 코드 생성자에서 컨텍스트 엔지니어로 진화하게 됩니다.

핵심 업무의 변화

시맨틱 레이어 관리
정책의 코드화
검색과 메모리 설계
AI와 현실 간의 정렬을 위한 피드백 루프 관리

자동화가 확대될수록 기계와 비즈니스를 동시에 이해하는 사람의 가치는 더욱 커집니다.

기억하고, 검색하며, 존중하는 AI 시스템

AI를 진정으로 유용하게 활용하려면 3R 시스템을 목표로 삼아야 합니다:

기억(Remember): 과거의 결정과 맥락을 저장하는 계층적 메모리
검색(Retrieve): 필요한 순간에 올바른 내부 정보를 불러오는 관리 시스템
존중(Respect): 기업의 정책과 프로세스를 따르는 권한 관리

인간과 AI의 파트너십이 미래다

스파이더 2.0의 냉정한 점수는 AI를 비난하기 위한 근거가 아닙니다. 어디에 투자해야 할지를 알려주는 청사진입니다. 모델의 성능 부족은 다른 모델이 아닌 다른 아키텍처로 해결해야 합니다.

비즈니스 맥락은 끊임없이 변하는 목표물입니다. 분기별 비즈니스 리뷰, 신제품 출시, 법적 정책 변화, 인수합병으로 모든 것이 재편됩니다. 이런 지속적인 재협상이 보장하는 사실은 단 하나입니다. 인간의 판단이 언제나 루프 안에 있어야 한다는 것입니다.

AI가 단순한 자동완성이 아닌 진정한 동료가 되려면, 모델 자체의 마법이 아닌 주변 시스템의 정교한 설계가 필요합니다. 여러분의 조직은 이런 변화에 얼마나 준비되어 있나요?

참고 자료: Tomasz Tunguz, “Why AI Can’t Crack Your Database”