AI 업계에 또 하나의 흥미로운 변화가 일어났습니다. OpenAI가 드디어 첫 오픈소스 대규모 언어 모델인 gpt-oss-120b
와 gpt-oss-20b
를 공개했죠. 하지만 이 모델들을 자세히 들여다보면, 우리가 기대했던 것과는 조금 다른 모습을 보입니다. 우선 phi 모델에 대해 간단하게 알아보겠습니다.
- Phi‑4‑Mini, Phi‑4‑Multimodal, Phi‑4‑Reasoning, Phi‑4‑Reasoning‑Plus 등 Phi‑4 계열 모델들이 공개됨
- 고성능 수학·코딩·추론 능력을 제공하고 있으며, OpenAI 등의 대형 모델과 견줄 만한 성능을 보여줌
- Phi‑3.5 계열 모델들은 128 k 토큰 컨텍스트를 지원하며, 멀티모달 처리 능력도 갖춤
- Microsoft는 Phi 시리즈를 오픈소스 형태로 Azure AI Foundry, Hugging Face 등을 통해 배포하고 있고, 학습 데이터의 cutoff은 2024년 6월임
벤치마크는 화려하지만, 실전은 아쉬운 성능
OpenAI의 새로운 오픈소스 모델들은 분명 인상적인 면이 있습니다. 특정 벤치마크에서는 눈에 띄는 성과를 보이죠. 하지만 SimpleQA 같은 실제적인 테스트에서는 의외로 아쉬운 모습을 보입니다.
가장 흥미로운 점은 이 모델들의 지식 분포입니다. 과학 분야 같은 일반적인 지식은 풍부하지만, 대중문화나 특정 영역의 지식은 현저히 부족하다는 평가를 받고 있어요. 마치 교과서만 열심히 공부한 모범생이 실제 세상의 다양한 이야기는 잘 모르는 것과 비슷한 상황이랄까요.
Microsoft Phi 시리즈의 DNA를 이어받다
이런 특성이 낯설지 않은 이유가 있습니다. 2024년 Microsoft의 Sebastien Bubeck이 주도했던 Phi 시리즈와 놀랍도록 유사한 패턴을 보이거든요.
합성 데이터 학습의 양날의 검
Phi 모델들의 핵심 아이디어는 합성 데이터로만 학습하는 것이었습니다. 인터넷에서 긁어온 무작위 텍스트 대신, 다른 언어 모델이 생성하거나 엄선된 교재를 기반으로 한 데이터를 사용하는 거죠.
이 방식의 장점은 명확합니다:
- 완벽한 품질 통제: 원하는 수준의 데이터만 선별 가능
- 벤치마크 최적화: 시험 문제 유형에 맞춘 맞춤형 학습 가능
- 비용 대비 효율성: 적은 데이터로도 높은 벤치마크 성능 달성
하지만 단점도 분명합니다:
- 범용성 부족: 실제 환경에서는 기대 이하의 성능
- 편향된 지식: 특정 영역에 치우친 학습 결과
- 높은 생성 비용: 데이터를 직접 만들어야 하는 부담
흥미롭게도 Bubeck은 2024년 말 Microsoft를 떠나 OpenAI에 합류했습니다. 우연의 일치일까요?
안전성이라는 숨겨진 의도
OpenAI가 왜 이런 접근 방식을 선택했을지 생각해보면, 안전성이라는 키워드가 떠오릅니다.
오픈소스 모델을 공개하는 것은 대기업에게 상당한 리스크입니다. 한 번 공개되면 영원히 그 회사의 이름이 따라다니고, 수많은 연구자들이 안전 장치를 제거하려고 시도하거든요.
파인튜닝의 어두운 면
공개적으로 잘 언급되지 않지만, 소형 언어 모델의 주요 비공식 활용처 중 하나가 성인 역할극입니다. 로컬 모델을 다루는 온라인 커뮤니티를 살펴보면, 이런 용도로 모델을 파인튜닝하는 사람들이 상당히 많아요.
합성 데이터나 교재 기반 학습은 이런 위험을 원천적으로 차단합니다. 애초에 문제가 될 만한 콘텐츠가 학습 데이터에 없으니까요.
OpenAI의 전략적 선택
OpenAI의 입장에서 보면 이 전략은 매우 합리적입니다:
- 중국산 오픈소스 모델 대비 벤치마크 우위 확보
- 안전성 문제로 인한 스캔들 방지
- 주력 사업인 클로즈드 모델에 집중 가능
Meta와 달리 OpenAI는 오픈소스 모델이 실제로 뛰어날 필요가 없습니다. 그들의 진짜 사업은 GPT-4나 ChatGPT 같은 클로즈드 모델이니까요.
6개월 후의 진짜 평가
결국 이 모델들의 진짜 가치는 6개월 정도 후에 명확해질 것 같습니다. 벤치마크 성능과 실제 활용도 사이의 괴리가 얼마나 클지가 관건이죠.
지금까지의 패턴을 보면, 이 모델들은 사실상 Phi-5와 Phi-5-mini라고 봐도 무방할 것 같습니다. 안전성과 벤치마크 성능을 우선한 전략적 선택의 결과물이라는 거죠.
AI 발전의 새로운 패러다임
OpenAI의 이번 선택은 AI 업계의 흥미로운 변화를 보여줍니다. 단순히 성능만을 추구하던 시대에서, 안전성과 실용성을 균형 있게 고려하는 시대로의 전환 말이에요.
여러분은 이런 변화를 어떻게 보시나요? 벤치마크 성능과 실제 활용도, 그리고 안전성 사이에서 우리는 어떤 균형점을 찾아야 할까요?
참고 자료: sean goedecke, “OpenAI’s new open-source model is basically Phi-5”