OpenAI는 이전에 Predicted Outputs라는 강력한 기능을 공개했습니다. 이 기능은 기술 미디어에서 크게 주목받지 못했지만, AI 응용 프로그램의 효율성을 극대화하는 데 중요한 역할을 합니다. 이번 글에서는 Predicted Outputs의 핵심 기능과 장점, 구현 방법 및 제한 사항을 상세히 분석해보겠습니다.
Predicted Outputs란 무엇인가?
Predicted Outputs는 예측 가능한 출력이 있는 경우 Chat Completion API의 응답 속도를 크게 향상시키는 기능입니다. 이 기능을 통해 개발자는 예상되는 출력을 `prediction` 매개변수를 사용하여 모델에 제공함으로써, 응답 생성 시간을 단축하고 성능을 최적화할 수 있습니다. 현재 이 기능은 gpt-4o 및 gpt-4o-mini 모델에서만 지원됩니다.
Predicted Outputs의 작동 원리
Predicted Outputs는 주로 다음과 같은 방식으로 작동합니다:
- 예상 출력 제공: 개발자는 API 요청 시 `prediction` 매개변수를 통해 예상되는 출력을 모델에 제공합니다.
- 응답 속도 향상: 모델은 제공된 예측값을 활용하여 응답 생성을 가속화하고, 대기 시간을 줄입니다.
- 효율적인 결과 생성: 특히 문서나 코드 파일과 같이 대부분의 내용이 미리 예측 가능한 경우, 이 기능은 응답 시간을 현저히 단축시킵니다.
Predicted Outputs의 실용적인 예시: 구성 파일 업데이트
아래는 Predicted Outputs를 활용하여 JSON 구성 파일을 업데이트하는 예시입니다.
import OpenAI from "openai";
const config = `
{
"appName": "MyApp",
"version": "1.0.0",
"settings": {
"enableFeatureX": false,
"maxUsers": 100
}
}
`.trim();
const openai = new OpenAI();
const updatePrompt = `
Change "enableFeatureX" to true in the following JSON configuration. Respond only with the updated JSON, without any additional text.
`;
const completion = await openai.chat.completions.create({
model: "gpt-4o",
messages: [
{ role: "user", content: updatePrompt },
{ role: "user", content: config }
],
prediction: {
type: "content",
content: config
}
});
// 업데이트된 구성 파일 출력
console.log(completion.choices[0].message.content);
이 예시에서, 모델은 예측값을 활용하여 빠르게 업데이트된 구성 파일을 생성합니다.
스트리밍 응답과 Predicted Outputs
스트리밍 응답을 필요로 하는 애플리케이션에서는 Predicted Outputs가 더욱 효과적입니다. 다음은 스트리밍을 활용한 Predicted Outputs의 구현 예시입니다.
import OpenAI from "openai";
const config = `...`; // 기존 JSON 구성 파일
const openai = new OpenAI();
const updatePrompt = `...`; // 기존 요청 프롬프트
const completion = await openai.chat.completions.create({
model: "gpt-4o",
messages: [ /* ... */ ],
prediction: {
type: "content",
content: config
},
stream: true
});
for await (const chunk of completion) {
process.stdout.write(chunk.choices[0]?.delta?.content || "");
}
이 방식은 응답을 실시간으로 처리하며, 대기 시간을 더욱 줄여줍니다.
Predicted Outputs의 장점
- 응답 속도 향상: 예측 가능한 출력을 제공함으로써 API 응답 시간을 단축시킵니다.
- 성능 최적화: 모델의 효율성을 극대화하여 전반적인 성능을 향상시킵니다.
- 간편한 구현: 기존 API 요청에 단순히 새로운 매개변수를 추가하는 것만으로 쉽게 도입할 수 있습니다.
Predicted Outputs의 제한 사항
Predicted Outputs는 많은 장점을 제공하지만, 몇 가지 제한 사항도 존재합니다:
- 모델 호환성: 현재 gpt-4o 및 gpt-4o-mini 모델에서만 지원됩니다.
- 비용 관리: 거부된 예측 토큰도 생성된 토큰과 동일한 비용이 부과되므로, `rejected_prediction_tokens`를 모니터링하여 비용을 관리해야 합니다.
- 지원되지 않는 매개변수:
- ㆍ `n` (1보다 큰 값)
- ㆍ `logprobs`
- ㆍ `presence_penalty` (0보다 큰 값)
- ㆍ `frequency_penalty` (0보다 큰 값)
- ㆍ `max_completion_tokens`
- ㆍ `tools` (함수 호출 불가)
- 모달리티 제한: 텍스트 모달리티만 지원하며, 오디오 입력 및 출력은 불가능합니다.
비용 관리 팁
Predicted Outputs를 사용할 때는 비용 관리를 위해 다음 사항을 주의해야 합니다:
- 거부된 예측 토큰 모니터링: `rejected_prediction_tokens`를 정기적으로 확인하여 불필요한 비용 발생을 방지합니다.
- 효율적인 예측값 제공: 가능한 정확한 예측값을 제공하여 거부된 토큰의 발생을 최소화합니다.
Predicted Outputs가 AI 응용 프로그램에 미치는 영향
OpenAI의 Predicted Outputs는 AI 응용 프로그램에서 자주 발생하는 지연 문제를 효과적으로 해결하는 혁신적인 도구입니다. 예측 가능한 출력을 제공함으로써 응답 시간을 단축하고 사용자 경험을 향상시킬 수 있습니다. 또한, 간편한 구현과 높은 성능 최적화는 개발자들에게 큰 이점을 제공합니다. 그러나 제한 사항과 비용 관리에 대한 주의도 필요합니다.
참고 자료: hackernoon.com, “Predicted Outputs: The OpenAI Feature You Probably Missed”