🎬 Supplement 06: AI 에셋 생산 스택 (음성·영상·음악·이미지 통합)
목적: 텍스트 외의 모든 콘텐츠 자산(이미지·영상·음성·음악)을 AI로 생산하는 풀 스택 가이드. 연계: Master Prompts §5 (이미지), §25 (Voice/Video), Supplement 05 레시피 4
1. 콘텐츠 자산 6대 카테고리 + 추천 도구
| 카테고리 | 1순위 도구 | 2순위 | 무료 한도 | 유료 (월) |
|---|---|---|---|---|
| 이미지 (사실적) | DALL-E 3 / GPT Image (ChatGPT Plus) | Imagen 4 (Gemini) | Gemini 한도 내 | $20 |
| 이미지 (예술적) | Midjourney v7 | Ideogram 3 | Ideogram 무료 | $10~ |
| 단편 영상 (광고) | Sora 2 (ChatGPT Plus) / Veo 3 (Gemini Advanced) | Runway Gen-4 · Pika 2 | Sora/Veo 일 한도 | $20~ |
| AI 아바타 (얼굴 영상) | HeyGen | D-ID | HeyGen 1분/월 | $30~ |
| 음성 (TTS) | ElevenLabs v3 | OpenAI TTS-1-HD | EL 10분/월 | $5~ |
| 음악 (BGM) | Suno v4 | Udio v1.5 | Suno 50곡/일 | $10~ |
총 무료 스택: 월 $0로 영상 30개, 이미지 100장, 음성 10분, 음악 무제한 가능 유료 풀 스택: 월 ~$60로 무제한급 운영 가능
2. 이미지 생성 — 도구별 전략
DALL-E 3 (ChatGPT Plus 통합)
- 강점: 텍스트 처리 우수, 자연어로 수정 (in-paint)
- 약점: 사람 얼굴 일관성 약함, 시드 4개씩만
- 드랍쉬핑 적용:
- 상세페이지 라이프스타일 컷
- 광고 1번 컷 (Lifestyle Hero)
- 인포그래픽 (텍스트 포함)
[DALL-E 사용 팁]
1. ChatGPT 대화 안에서 "Make 4 variations" 반복 가능
2. "More minimalist", "Warmer lighting" 등 자연어 수정
3. 한 번에 1024×1024 / 1024×1792 / 1792×1024 선택
4. 생성된 이미지 우클릭 → "Edit" → in-paint 수정 가능
Midjourney v6.1 (전용 디스코드)
- 강점: 예술성·디테일·시드 일관성 압도적
- 약점: 디스코드 UI, 텍스트 처리 약함
- 드랍쉬핑 적용:
- 브랜드 로고 5종
- 광고 2~5번 컷 (UGC, Studio, In-Use)
- 패키지 디자인 컨셉
[Midjourney 핵심 파라미터]
--ar 9:16 : 틱톡 세로 영상용
--ar 1:1 : 로고·아이콘
--ar 4:5 : 인스타그램 피드
--v 6.1 : 최신 버전 (사실성)
--niji 6 : 애니메이션·일러스트 스타일
--s 50 : 스타일라이즈 약하게 (사실적 결과)
--seed [N] : 같은 시드로 일관성 유지
--cref [URL] : 캐릭터 일관성 (모델 얼굴 고정)
Imagen 4 (Gemini)
- 강점: 영문 타이포그래피 강력, Gemini Advanced 포함 시 사실상 무제한
- 약점: 미세 디테일은 여전히 Midjourney 대비 약함
- 드랍쉬핑 적용:
- 영웅 배너 (히어로 섹션)
- 블로그 썸네일
- 소셜 포스트 이미지
[Gemini Imagen 사용]
1. gemini.google.com 접속
2. "Create an image of ..." 입력
3. 1회 4장 생성, 무제한 반복 가능
4. 한국어 프롬프트도 가능 (단, 영문이 더 정확)
3. 영상 생성 — 2026 스택 (Sora 2 / Veo 3 / Runway / Pika)
Sora 2 (ChatGPT Plus 포함, 일 한도)
- 강점: 물리 시뮬레이션·동기화 사운드 자동, 최대 20초, 캐릭터 일관성 강력
- 약점: 일 생성 한도 (Plus 기준 일 ~30회), 한국 IP에서 일부 기능 제한
- 추천 용도: 광고 1번 컷 (Hook), 라이프스타일 시연
Veo 3 (Gemini Advanced 포함)
- 강점: 8초 클립에 음성·SFX 자동 포함, Native 1080p, 영문 립싱크
- 약점: 8초 단편만 (긴 컷은 다중 생성 + 편집)
- 추천 용도: UGC 스타일 토킹헤드, 음성 포함 광고
Runway Gen-4 ($15/월)
- 강점: 캐릭터 레퍼런스(Gen-4 References)로 일관 모션, 10초+
- 약점: 처리 시간 3~5분/영상
- 추천 용도: 시네마틱 B-roll, 같은 모델/제품으로 다중 컷
[Runway 프롬프트 패턴]
"Cinematic close-up of [SUBJECT] in [SCENE], [CAMERA MOVEMENT],
[LIGHTING], shot on Sony A7IV 50mm, shallow depth of field,
4K, 24fps"
예시:
"Cinematic close-up of hands using a silicone neckband
at a cozy modern desk, slow camera push-in, warm tungsten
lighting, shot on Sony A7IV 50mm, shallow depth of field,
4K, 24fps, 5 second duration"
Pika 2 ($10/월)
- 강점: 빠른 생성 (2분/영상), 만화·일러스트 스타일·Pikaffects 특수효과
- 약점: 사실적 표현 약함
- 추천 용도: 빠른 프로토타입, 일러스트 영상, 만화 스타일
본 강의 권장 결정 트리
음성 포함 광고 (5~8초)? → Veo 3 우선
물리 동작 + 자연 사운드 강조? → Sora 2 우선
같은 모델/제품으로 다중 컷? → Runway Gen-4 (Reference)
빠른 컨셉 검증 / 일러스트 톤? → Pika 2
[Pika 프롬프트 패턴]
"Animation of [SUBJECT] doing [ACTION], [STYLE], [DURATION]"
예시:
"Animation of a posture corrector floating and rotating,
clean studio background, soft lighting, 3 second loop"
4. AI 아바타 — HeyGen 풀 워크플로우
본인 얼굴 영상이 부담스러울 때, AI 아바타로 대체.
[HeyGen 5단계]
1. heygen.com → Sign Up
2. Avatars → Browse → "AI Avatar" 선택 (200+ 무료 아바타)
또는 본인 얼굴 1분 영상 업로드 → Personal Avatar 생성
3. Voice → ElevenLabs Voice ID 연동 또는 HeyGen 내장 보이스
4. Script 입력 (한국어/영어 가능)
5. Generate → 5분 후 1080p 영상 다운로드
[비용 절약]
- 무료: 1분/월 (15초 영상 4개)
- $30/월 Creator: 15분/월 (영상 60개)
- 요금제 1단계 위가 가성비 최고
HeyGen vs 본인 얼굴 영상 결정 트리
본인이 영상 출연 부담?
└─ YES → HeyGen Personal Avatar (본인 얼굴 학습)
└─ NO → 직접 촬영 (CapCut + 자동 자막)
영어 발음 자신 없음?
└─ YES → HeyGen + ElevenLabs Voice Clone (영어)
└─ NO → 직접 녹음
브랜드 정체성에 얼굴이 중요?
└─ YES → 본인 직접 (브랜드 자산)
└─ NO → AI 아바타로 OK
5. 음성 생성 — ElevenLabs 풀 가이드
Voice Cloning 단계 (Personal Voice)
1. elevenlabs.io → Sign Up
2. Voices → "Voice Lab" → "Add Voice"
3. "Instant Voice Cloning" 선택
4. 본인 음성 1분 샘플 업로드 (조용한 환경 + 명료한 발음)
5. Voice ID 발급 (예: voice_id_abc123)
6. Generation에서 항상 이 Voice ID 사용 → 영상 톤 일관성
[권장 샘플]
- 깨끗한 마이크 (스마트폰 내장도 OK)
- 1분간 자연스러운 톤으로 책 한 페이지 낭독
- 영어 영상용 → 영어 1분 샘플
- 한국어 영상용 → 한국어 1분 샘플 (별도 Voice ID)
보이스 선택 가이드 (드랍쉬핑 광고용)
| 페르소나 | 추천 Voice (내장) | 톤 |
|---|---|---|
| 25-35 여성 (라이프스타일) | "Bella" / "Nicole" | 친근, 차분 |
| 25-40 남성 (테크/가젯) | "Sam" / "Antoni" | 활기, 신뢰감 |
| 40+ 전문가 (의료/웰니스) | "Adam" / "Rachel" | 권위, 진중 |
| 18-25 Gen Z | "Charlie" / "Dorothy" | 캐주얼, 빠른 톤 |
[비용 계산]
무료: 10,000 chars/월 = 약 15분 음성 = 영상 60개 (15초 × 60)
Starter $5/월: 30,000 chars = 영상 200개
Creator $22/월: 100,000 chars = 영상 600개
→ 첫 3개월은 무료로 충분, 이후 Starter 권장
6. 음악 생성 — Suno AI
사용 패턴
1. suno.com → Sign In (Discord/Google)
2. "Create" 탭 → 프롬프트 입력
3. 무료 50곡/일 생성 가능
[프롬프트 예시 — 광고 BGM]
"Upbeat, modern lo-fi hip hop instrumental, no vocals,
[15 seconds], minimalist, suitable for tiktok ad,
[brand mood: calm, productive]"
[BGM 무료 옵션 비교]
- CapCut 무료 라이브러리: ⚠️ 일부만 상업적 OK
- Suno AI: ✓ 본인이 만든 음악 = 본인 저작권
- YouTube Audio Library: ✓ 무료 + 상업적 OK
- Epidemic Sound: ✓ 안전, $15/월
중요: 틱톡 트렌딩 사운드는 ⚠️ 상업적 이용 불가 가능성. AI 생성 음악 또는 YouTube Audio Library가 안전.
7. 통합 워크플로우 — 영상 1개 30분 제작
[15초 광고 영상 1개]
├─ Claude (1분): 스크립트 작성 (Master Prompts §25)
├─ ElevenLabs (1분): TTS 생성 (15초 음성)
├─ DALL-E (3분): 히어로 이미지 1장 (시드 4개 중 1)
├─ Runway (10분): B-roll 5초 1개
├─ Suno (1분): BGM 15초 1개
└─ CapCut (15분): 조립 + 자동 자막 + Export
총: 31분 (대기 시간 포함)
5종 영상 동시 제작 (효율화)
Step 1 (5분): Claude로 5종 스크립트 + 5종 이미지 프롬프트 + 5종 영상 묘사
Step 2 (5분): ElevenLabs에서 5개 TTS 일괄 생성
Step 3 (15분): DALL-E + Runway 5개씩 동시 큐 (대기)
Step 4 (1분): Suno BGM 1개 (5종 공통)
Step 5 (60분): CapCut에서 5개 영상 조립
총: ~85분으로 5개 영상 완성 (영상당 평균 17분)
8. 저작권·라이선스 체크리스트
| ☐ | 항목 |
|---|---|
| ☐ | DALL-E·Midjourney·Imagen 4 생성물은 상업적 이용 OK (각 약관 확인) |
| ☐ | Sora 2 생성 영상은 워터마크 + C2PA 메타데이터 자동 포함 (제거 시 OpenAI 약관 위반) |
| ☐ | Veo 3 생성 영상은 SynthID 워터마크 자동 삽입 (육안 비식별, 검출 도구 별도) |
| ☐ | ElevenLabs 본인 Voice Clone은 본인 저작권 |
| ☐ | ElevenLabs 내장 Voice는 ElevenLabs 약관 확인 (Starter 이상은 상업적 OK) |
| ☐ | Suno AI 본인 생성 음악은 본인 저작권 |
| ☐ | Runway/Pika 생성 영상은 본인 저작권 |
| ☐ | HeyGen 본인 얼굴 학습 시 본인 동의 명확 |
| ☐ | 타인 음성·얼굴·이미지를 AI로 학습하면 ⚠️ 초상권/퍼블리시티권 위반 |
| ☐ | "Inspired by [실존 인플루언서]" 같은 프롬프트는 위험 |
9. 비용 최적화 — 월 $0 ~ $60 단계
월 $0 (시작 단계)
이미지: Imagen 4 (Gemini 무료 한도)
영상: Veo 3 무료 한도 + Pika 2 무료
음성: ElevenLabs v3 무료 10분
음악: Suno v4 무료 50곡/일
편집: CapCut 무료
→ 영상 20~30개/월 가능
월 $20 (성장 단계)
+ ChatGPT Plus $20: DALL-E 3 + GPT-4o
→ 영상 60개/월, 이미지 무제한
월 $60 (스케일 단계)
ChatGPT Plus $20
+ ElevenLabs Starter $5
+ Runway Standard $15
+ Midjourney Basic $10
+ Suno Pro $10
→ 영상 100+개/월, 모든 자산 무제한
📌 영상 마케팅 1주일 챌린지 (W7 직후)
| Day | 챌린지 |
|---|---|
| Day 1 | DALL-E로 본인 상품 라이프스타일 이미지 5장 |
| Day 2 | Midjourney로 같은 상품 5종 다른 스타일 |
| Day 3 | ElevenLabs Voice Clone 본인 음성 등록 |
| Day 4 | Runway로 5초 B-roll 1개 |
| Day 5 | Claude로 영상 5종 스크립트 |
| Day 6 | CapCut으로 영상 1개 풀 조립 (15초) |
| Day 7 | 영상 5개 모두 완성 + 틱톡 업로드 |
결론: 졸업 즈음에는 1인 셀러가 영상 100개/월 + 이미지 500장/월 자체 제작이 표준이 됩니다. AI 에셋 스택을 구축한 셀러와 안 구축한 셀러의 차이는 1년 후 매출 5~10배입니다.