오픈AI가 공개한 Sora2 공식 프롬프트 완벽 가이드

0

여러분은 AI로 영상을 만들어본 적 있으신가요? 아마 많은 분들이 기대와 달리 어색하고 짧은 영상에 실망했을 겁니다. 하지만 오픈AI의 Sora2는 이 모든 것을 바꿔놓았습니다. 이제 이미지를 살아있는 영상으로 만들고, 어울리는 소리까지 생성하는 시대가 왔으니까요.

그런데 여기 중요한 질문이 있습니다. 강력한 도구를 얻었다면, 이제 그것을 제대로 다룰 줄 알아야 하지 않을까요? 오늘은 오픈AI가 직접 공개한 공식 프롬프트 가이드를 바탕으로, Sora2를 제대로 활용하는 8가지 핵심 방법을 여러분과 공유하겠습니다.

왜 영상 생성 AI는 특별한 프롬프트가 필요할까?

텍스트 생성 AI와 영상 생성 AI는 근본적으로 다릅니다. 문장을 만드는 것과 움직이는 화면을 만드는 것은 전혀 다른 차원의 작업이니까요. 영상에는 카메라 위치, 렌즈 종류, 조명 방향, 피사체의 질감, 움직임의 타이밍 등 고려해야 할 요소가 훨씬 많습니다.

프롬프트를 작성하는 일은 마치 한 번도 만난 적 없는 촬영감독에게 여러분의 스토리보드를 설명하는 것과 같습니다. 세부 사항을 빠뜨리면 감독은 자신의 방식대로 해석할 것이고, 여러분이 원했던 장면과는 전혀 다른 결과가 나올 수 있죠.

그렇다고 해서 모든 것을 세세하게 지시해야 한다는 뜻은 아닙니다. 때로는 모델에게 창의적 자유를 허용하는 것이 더 아름다운 결과를 만들어냅니다. 세부적인 프롬프트는 통제와 일관성을, 여백을 둔 프롬프트는 창의적 다양성을 제공합니다. 여러분의 목표에 따라 선택하면 됩니다.

API 매개변수: 프롬프트로 할 수 없는 것들

본격적으로 프롬프트 작성법을 다루기 전에, 먼저 알아둬야 할 것이 있습니다. 영상의 일부 속성은 프롬프트가 아닌 API 매개변수로만 제어할 수 있다는 점입니다.

모델은 sora-2와 sora-2-pro 중 선택할 수 있고, 크기는 1280×720, 720×1280 등의 해상도를 지정합니다. sora-2-pro는 더 높은 해상도인 1024×1792, 1792×1024도 지원하죠. 영상 길이는 4초, 8초, 12초 중에서 선택 가능하며 기본값은 4초입니다.

“좀 더 길게 만들어줘”라고 프롬프트에 쓴다고 영상이 길어지지 않습니다. 이런 속성들은 반드시 API 호출에서 직접 설정해야 합니다. 프롬프트는 그 외의 모든 요소, 즉 피사체, 움직임, 조명, 스타일 등을 제어하는 역할을 합니다.

해상도와 길이의 전략적 선택

해상도는 단순히 화질의 문제가 아닙니다. 높은 해상도는 디테일, 질감, 조명 변화를 더 정확하게 표현하지만, 낮은 해상도는 시각적 정보를 압축해 부드러움이나 왜곡이 생길 수 있습니다.

영상 길이에 대해서는 명확한 원칙이 있습니다. 모델은 짧은 영상일수록 지시를 더 정확히 따릅니다. 8초짜리 한 클립을 만드는 대신, 4초짜리 두 클립을 만들어 편집 단계에서 연결하는 방식이 더 나은 결과를 줄 수 있습니다. 이는 실무에서 바로 적용할 수 있는 실용적인 팁입니다.

효과적인 프롬프트 구성의 핵심 원칙

명확한 프롬프트는 스토리보드에 장면을 그리듯이 하나의 샷을 묘사합니다. 예를 들어 이렇게 작성할 수 있습니다:

1990년대 다큐멘터리 스타일의 인터뷰 장면에서, 한 노년의 스웨덴 남성이 서재에 앉아 말한다. ‘젊었을 때가 아직도 기억나오.’

이 짧은 프롬프트가 효과적인 이유는 무엇일까요? “1990년대 다큐멘터리”라는 표현이 영상의 스타일을 설정하면, 모델은 이에 맞게 카메라 렌즈, 조명, 색보정 등을 자동으로 선택합니다. “노년의 스웨덴 남성이 서재에 앉아 있다”는 피사체와 배경을 간략히 설명하면서도, 모델이 창의적으로 해석할 여지를 남깁니다.

그러나 여기에는 명시되지 않은 것들이 많습니다. 시간대, 날씨, 의상, 분위기, 인물의 정확한 나이와 외형, 카메라 각도, 세트 디자인 등이 빠져 있죠. 이런 세부 사항을 직접 기술하지 않으면 Sora가 임의로 구성하게 됩니다.

초정밀 프롬프트: 영화 제작팀처럼 지시하기

복잡하고 영화적인 장면을 만들고 싶다면, 전문적인 제작 용어로 구체화할 수 있습니다. 이는 감독이 촬영팀에게 지시를 내리는 방식과 유사합니다.

예를 들어, 도시 통근 플랫폼을 배경으로 한 새벽 장면을 만든다고 가정해봅시다. 프롬프트는 다음과 같은 요소들을 포함할 수 있습니다:

  • 형식 및 룩: 길이 4초, 셔터 각도 180도, 65mm 필름 대비감을 모사한 디지털 촬영, 미세한 그레인, 반사광의 은은한 헤일레이션.
  • 렌즈 및 필터: 32mm 구면 단초점 렌즈, 블랙 프로미스트 1/4, 열차 창문 반사를 줄이기 위한 편광 필터.
  • 색보정: 하이라이트는 맑은 아침 햇살로 따뜻한 호박색 톤, 미드톤은 중립적 밸런스, 블랙은 부드럽고 중립적이며 안개 질감 보존을 위한 약한 리프트.
  • 조명: 카메라 왼쪽에서 들어오는 자연광, 낮은 각도(오전 7시 30분), 선로 쪽에서 반사판, 옅은 안개 속으로 스며드는 열차 배기.

이처럼 상세한 지시는 IMAX 항공 촬영, 35mm 핸드헬드, 빈티지 16mm 다큐멘터리 같은 실제 영화 촬영 스타일을 구현하거나, 여러 장면 간의 연속성을 유지해야 할 때 특히 효과적입니다.

시각적 연출을 이끄는 핵심 단서들

스타일이 모든 것을 결정한다

스타일은 모델을 원하는 결과로 이끄는 가장 강력한 조정 장치입니다. “1970년대 영화”, “IMAX 규모의 서사적 장면”, “16mm 흑백 필름”과 같은 표현은 그 자체로 영상의 시각적 톤을 설정하고, 이후의 모든 요소에 영향을 줍니다.

같은 세부 묘사라도 그것이 정제된 할리우드 드라마인지, 핸드헬드 스마트폰 영상인지, 빈티지 상업 광고인지에 따라 완전히 다르게 해석됩니다. 스타일은 가능한 한 초반에 확립해야 모델이 전반에 걸쳐 일관되게 유지할 수 있습니다.

구체성이 명확함을 만든다

“아름다운 거리”보다는 “젖은 아스팔트, 횡단보도 줄무늬, 네온사인 반사”라고 쓰세요. “빠르게 움직인다”보다는 “세 걸음 달려가 멈춰 선다”와 같이 구체적인 동작을 명시해야 합니다. 눈에 보이는 결과를 직접 가리키는 동사와 명사는 언제나 더 명확하고 일관된 출력을 제공합니다.

카메라 구도와 조명의 힘

카메라의 방향과 구도는 장면의 감정을 결정짓습니다. 높은 시점의 와이드 샷은 공간과 맥락을 강조하고, 눈높이의 클로즈업은 감정과 인물에 초점을 맞춥니다.

피사계 심도도 중요한 역할을 합니다. 얕은 심도는 인물을 배경과 분리시켜 돋보이게 하고, 깊은 심도는 전경과 배경 모두를 선명하게 유지합니다.

조명은 분위기를 강하게 좌우합니다. 부드럽고 따뜻한 키 라이트는 따스하고 친근한 느낌을, 차가운 색감의 단일 강한 조명은 드라마틱한 긴장감을 만들어냅니다.

좋은 프레이밍 지시어의 예시:

  • 와이드 확장 샷, 눈높이 시점
  • 와이드 샷, 왼쪽에서 오른쪽으로 이동하며 추적
  • 항공 와이드 샷, 약간 아래로 기운 각도
  • 미디엄 클로즈업 샷, 뒤쪽에서 약간 비스듬한 각도

움직임과 타이밍: 단순함이 승리한다

움직임은 가장 정확히 표현하기 어려운 요소이므로 단순하게 유지하는 것이 핵심입니다. 각 샷에는 하나의 명확한 카메라 움직임과 하나의 명확한 인물 동작만 포함시키세요.

“배우가 방을 가로질러 걷는다”는 구체적인 정보가 거의 없습니다. 반면 “배우가 창가로 네 걸음을 걸어가 멈춘 뒤, 마지막 1초에 커튼을 젖힌다”와 같이 표현하면 타이밍이 명확하고 모델이 재현하기 쉬운 프롬프트가 됩니다.

동작을 단계나 횟수로 묘사할 때 가장 자연스럽습니다. 작은 걸음, 손짓, 일시정지 같은 요소를 시간의 흐름에 맞게 배치하면 장면이 훨씬 현실감 있게 느껴집니다.

조명과 색상으로 연속성 만들기

여러 클립을 이어 편집하려면, 조명의 논리적 일관성을 유지하는 것이 자연스러운 편집의 핵심입니다. 조명의 질감과 이를 보완하는 색상 기준을 함께 기술하세요.

“밝은 방”과 같은 포괄적 표현 대신, “부드러운 창가 빛에 따뜻한 스탠드 조명, 복도에서 들어오는 차가운 빛이 가장자리를 감싸는 장면”처럼 빛의 종류와 방향, 색조의 조합을 구체적으로 써야 합니다.

3~5가지 색상을 지정하면 여러 샷을 이어붙일 때 색감의 안정성과 통일성을 유지할 수 있습니다. 예를 들어 “고정 색상: 호박색, 크림색, 월넛 브라운”처럼 명시하는 것이죠.

이미지 입력: 더 정밀한 제어

장면의 구도와 스타일을 더욱 세밀하게 제어하려면, 이미지 입력을 시각적 참고자료로 사용할 수 있습니다. 사진, 디지털 아트워크, 또는 AI로 생성된 시각 자료를 활용하는 것이죠.

이 방법은 인물 디자인, 의상, 세트 장식, 전체적인 미적 분위기 등의 요소를 고정시킵니다. 모델은 이미지를 첫 프레임의 기준으로 삼고, 그다음 장면 전개는 텍스트 프롬프트가 결정합니다.

준비된 참고자료가 없다면 오픈AI의 이미지 생성 모델을 활용해 직접 만들어 볼 수 있습니다. 배경 환경이나 장면 디자인을 빠르게 생성한 뒤, 이를 Sora의 참고자료로 전달하는 방식은 매우 효과적입니다.

대사와 오디오: 자연스러운 타이밍이 생명

대사는 반드시 프롬프트 안에 직접 기술해야 합니다. 텍스트 설명 아래에 별도의 블록으로 배치해, 모델이 화면 묘사와 대사 구간을 명확히 구분하도록 합니다.

대사는 간결하고 자연스럽게, 한두 문장 단위의 짧은 교환으로 유지하는 것이 좋습니다. 4초짜리 장면은 한두 번의 짧은 대화 교환에 적합하며, 8초짜리 클립에서는 몇 문장 더 주고받는 대화가 가능합니다.

대사 포함 프롬프트 예시:

창문 하나 없는 좁고 답답한 방. 벽은 오래된 재빛을 띠고 있다. 천장에서 맨전구 하나가 매달려, 중앙의 긁힌 금속 탁자 위로 빛을 떨어뜨린다.

대사:
- 형사: "넌 거짓말을 하고 있어. 침묵 속에서도 그게 들려."
- 용의자: "아니면 그냥, 말하기가 지겨운 걸지도."
- 형사: "어쨌든, 오늘 밤이 가기 전엔 말하게 될 거야."

장면에 고요함을 넣고 싶다면, “멀리서 들려오는 교통 소음”이나 “딱 하고 울리는 소리”처럼 짧은 음향 단서만 제시해도 장면의 리듬감을 표현할 수 있습니다.

리믹스 기능: 점진적 개선의 기술

리믹스는 미세 조정을 위한 기능입니다. 한 번에 하나씩 통제된 변경을 하고, 무엇을 바꾸는지 분명히 적으세요.

“같은 샷, 렌즈만 85mm로 교체” 또는 “같은 조명, 새 팔레트: 청록, 샌드, 러스트”처럼 구체적으로 지시하는 것이죠. 결과물이 의도에 가까워졌다면 그 결과를 참고자료로 고정해 두고, 수정점만 서술하세요.

만약 장면이 계속 빗나간다면 과감히 덜어내세요. 카메라는 고정하고, 동작은 단순화하며, 배경을 정리합니다. 원하는 대로 작동하기 시작하면, 단계적으로 복잡도를 더할 수 있습니다.

실전 프롬프트 템플릿

효과적인 프롬프트를 작성하는 한 가지 방법은 정보의 종류를 구분하여 구성하는 것입니다. 다음 템플릿을 참고하세요:

상세 묘사형 프롬프트 템플릿

[일상적인 언어로 장면을 서술합니다. 등장인물, 의상, 배경, 날씨 등 세부 요소를 묘사하세요.]

촬영 구성:
- 카메라 샷: [구도와 앵글]
- 분위기: [전체적인 분위기]
- 행동:
  - [행동 1: 명확하고 구체적인 동작]
  - [행동 2: 구분되는 또 다른 동작]
  - [행동 3: 추가 동작 또는 대사]

대사:
[장면에 대사가 있다면 짧고 자연스러운 문장으로]

모든 세부 사항을 반드시 포함할 필요는 없습니다. 일부 요소를 열린 상태로 남겨두면 모델이 더 창의적으로 해석할 수 있습니다.

프롬프트 설계가 곧 경쟁력이다

지금까지 오픈AI의 공식 Sora2 프롬프트 가이드를 살펴봤습니다. 핵심은 단순합니다. “멋진 장면을 만들어줘”가 아니라, 무엇을 어떻게 보여주어야 하는지를 명확히 전달하는 것입니다.

감독, 촬영감독, 미술감독의 역할을 모두 수행하는 프롬프트를 만들어야 합니다. 이를 익히면 단 한 줄의 프롬프트로도 디테일하고 일관된 결과를 얻을 수 있습니다.

Sora2와 앞으로 등장할 다양한 모델들은 점점 더 뛰어난 표현력을 갖출 것입니다. 하지만 그 성능을 진정으로 끌어내는 것은 여전히 사용자의 프롬프트 설계입니다. “AI가 알아서 잘 해주길” 기다리기보다, 더 나은 프롬프트를 설계하는 연습으로 원하는 영상을 만들어 보세요.

여러분은 어떤 장면을 만들고 싶으신가요? 구체적으로 상상하고, 정확하게 표현하고, 창의적으로 실험하세요.

참고 자료: Sora 2 prompting guide, OpenAI Cookbook

답글 남기기