PostHog가 12개월간 배운 AI 제품 개발의 9가지 교훈

AI 기능을 제품에 추가하는 것은 더 이상 선택이 아닌 필수가 되었습니다. 하지만 여러분, 여기 중요한 질문이 있습니다.

AI를 도입하면 정말 제품이 더 나아질까요?

PostHog가 12개월간 Max AI를 개발하며 깨달은 가장 중요한 교훈은 바로 이것입니다.

AI 기능은 제품을 오히려 악화시킬 수 있다.

분석 플랫폼 PostHog는 2024년 8월 해커톤에서 트렌드 생성 에이전트를 구축하며 AI 모델의 가능성을 확인했습니다. 그로부터 1년, 제품 분석을 돕는 AI 어시스턴트 Max AI를 출시하기까지의 여정에서 그들이 배운 것은 무엇일까요?

AI 기능 선택: 제품을 망치지 않는 법

검증된 패턴을 활용하라

AI 기능 개발에서 바퀴를 다시 발명할 필요는 없습니다. 이미 시장에서 검증된 세 가지 핵심 패턴이 있습니다.

첫 번째는 ‘데이터 대화’ 패턴입니다. AI는 방대한 정보를 검색하고 요약하는 데 탁월합니다. Intercom의 Fin이나 Mintlify의 문서 챗봇이 대표적인 사례죠. 사용자는 복잡한 문서를 직접 읽는 대신 AI와 대화하며 필요한 정보를 빠르게 찾습니다.
두 번째는 ‘생성기’ 패턴입니다. 코드, 문서, SQL 쿼리, 이미지까지 다양한 콘텐츠를 생성하는 기능이죠. Lovable과 Bolt.new 같은 앱 빌더는 이 패턴으로 폭발적인 성장을 기록했습니다. Figma, Rippling, Notion도 각자의 영역에서 생성 기능을 제품에 녹여냈습니다.
세 번째는 ‘도구 활용’ 패턴입니다. AI가 명확하게 정의된 도구를 사용해 워크플로우를 자동화하고 개선합니다. MCP 서버가 바로 이 개념을 기반으로 하며, Zapier, Atlassian, Asana가 이를 활용해 업무 효율을 크게 높였습니다.

PostHog의 Max AI는 이 세 가지를 모두 활용합니다. 데이터 및 문서와 대화하고, SQL 인사이트와 필터를 생성하며, 설문조사 생성과 분석 인사이트 같은 도구를 활용하죠. 향후에는 세션 레코딩을 자동으로 시청하고 분석하는 등 도구 활용 범위를 더욱 확장할 계획입니다.

AI가 해결할 수 있는 진짜 문제를 찾아라

AI로 무엇을 할 수 있을까 고민하기보다, AI가 사용자를 위해 무엇을 할 수 있는지 물어야 합니다. 제품 전반을 검토하며 다음 세 가지 유형의 작업을 찾아보세요.

30초 이상 걸리는 명확한 단일 작업이 첫 번째입니다. 긴 양식 작성, 수동 데이터 입력, 통합 설정, SDK 설치 같은 작업들이죠. PostHog는 AI 설치 마법사를 통해 설치 시간을 약 10분에서 90초로 단축했습니다. 자주 새 프로젝트를 시작하는 개발자들에게 혁신적인 변화였습니다.
사용자가 이해하지 못하는 언어나 인터페이스를 요구하는 작업이 두 번째입니다. 복잡한 UI, SQL 쿼리, 앱 빌딩 등이 여기 해당됩니다. Max AI는 SQL에 익숙하지 않은 사용자도 자연어로 복잡한 쿼리를 작성할 수 있게 해줍니다. 기술적 장벽을 허물어 더 많은 사용자가 맞춤형 인사이트를 생성할 수 있게 된 것이죠.
20회 이상 반복하는 작업이 세 번째입니다. 설명 작성, 요약 작성, 항목 생성 같은 반복 작업을 AI가 대신 처리하면 사용자의 생산성이 크게 향상됩니다.

incident.io의 Stephen Whitworth는 이렇게 말했습니다.

AI가 할 수 있는 멋진 새로운 것보다 사용자가 하루에 100번 하는 일을 AI가 더 잘 만들 수 있는 것에 집중하세요.

실제로 incident.io 사용자들은 직접 작성하는 것보다 자동 생성된 인시던트 요약을 압도적으로 선호했고, 현재 75%의 인시던트 요약이 AI로 생성되고 있습니다.

구체적이고 가치 있는 문제에 집중하라

여러 패턴과 문제를 발견했다면, 이제 구체적이면서도 가치 있는 것으로 범위를 좁혀야 합니다.

피해야 할 첫 번째 함정은 가치 없는 문제에 기존 패턴을 적용하는 것입니다. 초기 단계의 단순한 제품에 “문서와 대화” 기능을 추가하는 것은 오히려 핵심 사용성 문제를 가릴 수 있습니다.

두 번째 함정은 AI로 너무 큰 문제를 한 번에 해결하려는 것입니다. AI가 여러분을 억만장자로 만들어주진 않습니다. 좁은 문제를 먼저 해결한 후 점진적으로 확장하는 것이 현명합니다.

PostHog는 Max 구축 초기 “수익을 어떻게 늘릴까?” 같은 광범위한 질문이 효과적이지 않다는 것을 빠르게 깨달았습니다. 대신 PostHog에 깊이 통합되어 사용자의 구체적인 컨텍스트를 활용하는 기능에 집중했습니다. Max는 어떤 테이블을 사용할 수 있는지 알기 때문에 더 나은 SQL을 작성하고, 내장된 도구를 이해하므로 네이티브 시각화로 제품 질문에 답변할 수 있습니다.

AI 기능을 작동하게 만드는 핵심 요소

앱의 컨텍스트와 상태가 핵심이다

모든 사람이 OpenAI API를 호출할 수 있습니다. 하지만 여러분의 앱이 가진 고유한 컨텍스트가 차별화 요소입니다.

Max가 “지난주 가입이 감소한 이유”라는 질문을 받으면, API는 현재 페이지 정보(대시보드, 표시된 인사이트, 적용된 필터, 사용자 역할), 데이터 스키마(사용 가능한 이벤트, 이벤트 속성, 사람 속성), 계정 정보(조직 티어, 시간대, 보존 기간)를 모두 받습니다.

PostHog의 코드를 보면 UI 컨텍스트를 어떻게 AI 프롬프트로 포맷팅하는지 명확히 알 수 있습니다. 대시보드 이름, 표시된 인사이트, 적용된 필터, 날짜 범위와 같은 정보를 구조화해 전달하는 것이죠.

하지만 여기서 끝이 아닙니다. 워크플로우 내에서 상태(state) 관리도 필수입니다. 대화가 진행되면서 컨텍스트가 손실되면 AI의 응답 품질이 급격히 떨어집니다. 특히 여러 하위 에이전트가 있을 때 더욱 중요하죠.

PostHog는 메시지, 중간 단계, 계획, 현재 쿼리, 시각화 결과를 포함한 상태를 워크플로우의 모든 부분에서 저장하고 전달합니다. 이런 컨텍스트 최적화와 모델 선택이 모델 미세 조정보다 훨씬 효과적이고 실용적입니다.

쿼리 계획과 조건부 라우팅으로 AI를 유도하라

AI를 제한 없이 두면 예상치 못한 행동을 합니다. 성공을 위한 명확한 안내가 필요합니다.

PostHog는 여러 단계를 오케스트레이션하고 연결하여 구현합니다. 쿼리 계획 → 데이터 검색 → 시각화로 이어지는 흐름이죠. 상태 관리 외에도 AI가 사용할 수 있는 도구와 데이터를 인식하고, 의도된 작업에 따라 올바른 것을 선택하며, 쿼리 실행과 포맷팅 같은 도구가 실제로 작동하는지 확인해야 합니다.

최상위 수준에서 PostHog의 라우터는 인사이트 생성 여부, 문서 검색 여부, 청구 관련 여부를 판단합니다. 각 라우터 노드는 작업에 필요한 올바른 데이터와 도구로 연결되는 자체 조건을 가지고 있습니다. 이렇게 AI가 작업 완료에 필요한 모든 구성 요소를 갖추도록 보장하면 성공 가능성이 크게 향상됩니다.

모니터링과 가드레일로 실패에 대비하라

여러분이 구축한 구조가 실패를 방지하지만, AI는 결국 한계에 부딪힐 것입니다. 가드레일 제공은 필수입니다.

첫째, 모니터링입니다.: 문제 발생 시점을 알기 위해 처음부터 모니터링을 구현해야 합니다. Max AI 팀의 Georgiy는 이렇게 조언합니다. “프로덕션 트레이스 모니터링이 필수적입니다. 100개의 대화를 검토하는 것은 어렵고, 하루에 1,000개의 대화를 검토하는 것은 불가능합니다. 이러한 대화는 실제 사용자 질문과 어려움이며, 에이전트를 구축하는 데 필요한 모든 인사이트를 제공합니다.”
둘째, 환각 방지입니다.: AI가 환각할 수 있는 것은 모두 환각합니다. 직접 설정해야 하는 데이터와 따라야 할 규칙을 명시하세요. PostHog의 AI 설치 마법사는 “API 키를 절대 환각하지 말 것”, “플레이스홀더 주석 추가 금지”, “기존 비즈니스 로직 수정 금지”, “새 패키지 임포트 금지” 같은 명확한 규칙을 설정합니다.
셋째, 사용자 가드레일입니다.: 빈 텍스트 상자를 보면 사람들은 무엇을 해야 할지 막막해합니다. AI 기능 사용 방법에 대한 제안을 추가해 올바른 방향으로 유도하세요.
넷째, 오류 처리입니다.: 워크플로우가 때때로 중단되므로 재시도와 속도 제한으로 우아하게 처리해야 합니다. 고급 사용자를 위해서는 LLM 분석, 오류 추적, 기능 플래그를 설정할 수 있습니다.

AI 모델은 빠르고 예측 불가능하게 진화합니다. AI 기능은 예상보다 훨씬 많은 유지보수와 지속적인 개선이 필요합니다.

AI 기능 개선: 지속적인 발전 전략

AI 지식 사일로를 방지하라

AI 기능 구축은 팀의 “AI 담당자” 한 명의 책임이 되어서는 안 됩니다. AI는 제품에 깊이 통합되어야 하며, 이는 사용자와 대화하고 그들을 위한 무언가를 구축하는 사람들의 전문성이 필요합니다.

PostHog는 세 가지 방법을 권장합니다.

첫째, 프리미티브를 구축하고 AI 기능을 조합 가능하게 만들어 팀이 프롬프트, 스트리밍, 동의, eval, 분석을 재발명할 필요가 없도록 합니다.
둘째, 앱 전체에서 일관된 UX 패턴을 유지합니다. PostHog의 경우 Max가 그것이며, 수천 개의 AI 위젯으로 인한 혼란을 방지합니다.
셋째, AI 전문가를 팀에 일시적으로 배치합니다. 이를 통해 AI 기능을 더 빠르게 구축하도록 돕고 조직 전체에 AI 지식을 분산시킵니다.

속도에 집중하라

AI 기능의 큰 과제 중 하나는 느림입니다. 워크플로우는 종종 LLM 제공업체에 대한 여러 호출을 의미하며, 이는 많은 대기 시간으로 이어집니다. 앱이나 웹사이트에서 작업을 완료하는 대체 방법이 있을 때 특히 답답합니다.

Superhuman의 창립자 Rahul Vohra는 “속도가 승리한다”고 말합니다. Gmail과 Outlook도 답장 생성과 자동 요약 기능이 있지만 요청 시 생성해야 하고 완료될 때까지 기다려야 합니다. Superhuman은 이를 사전 계산하여 항상 즉각적으로 제공하며, 이러한 단순한 차이가 사용자 경험에 엄청난 영향을 미칩니다.

속도를 개선하는 방법은 세 가지입니다.

첫째, 모델 벤치마크와 새 모델 릴리스를 지속적으로 추적하고, 더 나은 모델이 출시되면 즉시 테스트합니다.
둘째, 작업에 따라 빠른 모델과 느린 모델을 혼합 사용합니다. PostHog는 제목 생성, 세션 재생 필터, 설문조사 요약에는 gpt-4.1-mini와 gpt-4.1-nano 같은 빠른 모델을 사용하고, 스키마 생성, 대화 처리, 컨텍스트 관리에는 gpt-4.1 같은 느린 모델을 사용합니다.
셋째, 비동기 처리를 활용합니다. 세션 요약과 패턴 추출 같은 복잡한 작업은 Temporal 워크플로우를 통해 비동기적으로 실행되어 사용자 상호작용을 차단하지 않습니다.

효과성을 지속적으로 모니터링하고 평가하라

새 기능이 AI라는 이유만으로 덜 엄격하게 판단되어서는 안 됩니다. 잘못된 아이디어는 제품을 악화시킬 수 있으며, 모델의 변화는 사용자 모르게 경험에 부정적인 영향을 미칠 수 있습니다.

PostHog가 찾은 효과적인 평가 방법은 다섯 가지입니다.

첫째, 초기에 eval을 추가합니다. 작은 골든 또는 합성 데이터셋도 일반적인 개발 주기에 비해 엄청난 성능 향상을 제공합니다.
둘째, A/B 테스트를 실행합니다. AI 기능과 일반 경험을 비교하고, 다양한 프롬프트, 컨텍스트, 워크플로우를 테스트합니다.
셋째, 다양한 고객 유형의 AI 사용률을 확인합니다. PostHog는 제품 관리자와 마케터가 이상적인 고객 프로필인 제품 엔지니어보다 Max를 더 자주 사용한다는 것을 발견하고 로드맵을 재고려했습니다.
넷째, 사용자가 AI 응답을 좋음/나쁨으로 평가하도록 허용하고, 나쁘게 평가하면 추가 세부 정보를 요청해 컨텍스트, 프롬프트, 워크플로우 조정에 활용합니다.
다섯째, AI 사용자와 비AI 사용자를 비교합니다. 기존 활성화 및 유지 지표를 사용해 AI가 제품과 사용자 라이프사이클에 이상적으로 맞는 위치와 긍정적인 영향 여부를 파악합니다.

AI는 제품을 위한 도구일 뿐이다

이 9가지 교훈은 독립적인 것이 아니라 함께 작동합니다. 끝으로 건너뛰어 eval 최적화만으로 훌륭한 제품을 구축할 수 있다고 생각하는 것은 실수입니다.

여러분의 목표는 사용자에게 가치 있는 것을 구축하는 것이지 화려한 기술 데모가 아닙니다. AI라고 해서 사용자가 자동으로 가치를 찾을 것이라는 의미는 아닙니다.

훌륭한 제품 구축에 대해 배운 모든 교훈이 여전히 적용됩니다. 사용자와 대화하고, 빠르게 출시하고, 실험을 실행하고, 반복하세요. AI는 이 과정을 돕는 강력한 도구일 뿐입니다. 제품의 핵심 가치를 만드는 것은 결국 여러분입니다.

참고 자료: Ian Vanagas, “What we’ve learned about building AI-powered features”