영상 편집 자동화 | Vrew·Whisper·FFmpeg·Remotion 실전 워크플로

영상 편집 자동화는 한 문장으로 압축된다. 영상을 텍스트와 타임코드로 환원한 뒤, 사람이 손으로 하던 판단을 명령과 숫자로 바꾸는 일이다. 컴퓨터는 어떤 컷이 감동적인지, 어떤 표정이 좋은지 같은 미적 판단을 하지 못한다. 대신 3.2초부터 7.8초까지 잘라라는 지시는 오차 없이, 1초 안에, 1000번이라도 반복한다.

유튜브 숏폼, 토킹 헤드, 인터뷰, 강의 영상처럼 말이 중심인 콘텐츠에 이 방식이 잘 맞는다. 말의 내용, 말이 나오는 시각, 무음 구간, 화면비는 모두 숫자와 텍스트로 표현되기 때문이다. 반대로 감성적인 B-roll을 알아서 골라 넣어 달라는 요구는 그대로는 자동화되지 않는다. 먼저 대본·자막으로 의미를 텍스트화하고, Claude Code·Cursor 같은 코딩 에이전트에 무엇을 언제 보여줄지 판단만 맡기는 식으로 우회한다.

이 문서는 Vrew(코딩 없음) 와 Whisper(코드 파이프라인) 두 갈래의 자막 생성 경로를 비교하고, FFmpeg 컷·합치기, 무음 제거, Remotion 모션그래픽, Remotion Agent Skills까지 한 흐름으로 정리한다. 윈도우와 macOS를 전제로 하며, PATH 오류, 타임스탬프 정밀도, 싱크 어긋남처럼 초보가 막히는 지점을 단계별로 다룬다.

1. 자동화의 본질과 다섯 단계 뼈대

어떤 작업이 자동화 가능한지는 이걸 텍스트와 숫자로 표현할 수 있는가로 갈린다. 표현 가능하면 자동화 후보이고, 불가능하면 텍스트화·AI 판단·사람 검수로 우회한다. 이 구분 감각이 매뉴얼 전체를 관통하는 뼈대다.

어떤 시스템을 만들든 결국 다섯 단계의 변주로 돌아간다. 막히거나 헷갈릴 때 지금 몇 단계를 하고 있는가로 돌아오면 길을 잃지 않는다.

단계	이름	하는 일	대표 도구
1	입력 분석	영상에서 말을 텍스트·타임코드로 추출	Vrew, Whisper, faster-whisper, WhisperX
2	편집 결정	남길·버릴 구간, 순서, 강조점 판단	Claude, Cursor, 스크립트 규칙
3	컷 실행	구간 자르기·이어붙이기	FFmpeg, auto-editor
4	꾸미기	자막, 모션그래픽, 화면비 변환	FFmpeg 필터, Remotion
5	출력	최종 인코딩·저장	FFmpeg, Remotion CLI, NVENC

1.1. 핵심 설계 원칙

의미 판단과 시간 산술을 분리한다. AI에게 횡설수설·중복·군말을 골라내라는 판단은 맡기되, 초 단위 더하기·빼기와 타임코드 변환은 코드가 처리하게 한다. AI가 직접 시간을 계산하면 0.1~0.5초 단위로 어긋나는 일이 잦다.
중간 산출물을 파일로 남긴다. SRT, JSON, 잘린 클립, 무음 제거본을 단계마다 저장해 두면 8단계 중 6단계에서 실패해도 그 지점부터 재개한다. 긴 영상일수록 중간 저장이 작업 시간을 지켜준다.
대본 결정과 타이밍 맞추기를 분리한다. 무엇을 보여줄지 먼저 정하고, 그다음 정확한 시간에 배치하면 Remotion·FFmpeg 합성 결과가 안정적이다.

핵심 포인트: 영상 편집 자동화는 미적 감각을 기계가 대신하는 과정이 아니라, 말·시간·무음 같은 숫자화 가능한 요소를 명령으로 바꾸는 과정이다. AI는 의미 판단, 코드는 시간 산술을 맡기는 역할 분리가 안정성의 핵심이다.

2. SRT를 따는 두 갈래 길

모든 자동 편집의 1단계는 같다. 영상에서 말을 텍스트와 그 말이 나온 시간으로 뽑아 SRT(타임스탬프 자막) 파일을 만드는 것이다. 여기서 길 A(Vrew) 와 길 B(Whisper 계열) 로 갈라지며, 둘 다 윈도우·맥을 가리지 않는다.

비교 항목	길 A — Vrew	길 B — Whisper 계열
코딩 필요	없음 (GUI)	Python·터미널 기본
환경 구성	프로그램 설치만	Python PATH, 선택적 CUDA·GPU
출력	SRT, 프로젝트보내기	SRT, JSON, VTT, TSV, 단어 단위 타임스탬프
무음 제거	GUI 무음 줄이기 내장	auto-editor, FFmpeg silencedetect
자동화 파이프라인	SRT만 넘기는 하이브리드에 적합	스크립트 전 구간 무인 처리에 적합
정밀 컷	문장 단위, 화면에서 미세 조정	JSON·WhisperX로 단어 경계 정밀화

2.1. 경로 선택 기준

빠르고 손쉽게 GUI로 끝내고 싶다 → Vrew. 자막 생성, 무음 제거, 문장 단위 컷, SRT보내기까지 한 프로그램에서 처리한다.
완전 자동 파이프라인을 코드로 짜고 정밀도를 높이고 싶다 → Whisper. large-v3-turbo, faster-whisper, WhisperX 조합이 한국어 작업에서 널리 쓰인다.
실전에서 가장 무난한 선택 → 하이브리드. Vrew나 Whisper로 SRT·JSON을 만든 뒤, 코딩 에이전트에 편집 판단을 맡기고 FFmpeg로 컷을 실행한다. Vrew로 자동 자막·무음 삭제 후 다른 도구로 마감하는 워크플로가 현업에서 흔하다.

3. 도구 설치와 환경 구성

자동화 도구는 대부분 명령어로 작동한다. Claude Code·Cursor가 명령을 생성하고 실행하려면 CLI 기반이어야 한다.

3.1. 터미널과 패키지 관리자

OS	터미널	패키지 관리자	용도
Windows	PowerShell	winget	FFmpeg, 기타 CLI 설치
macOS	터미널	Homebrew (brew)	FFmpeg, Python 등 통일 설치

맥에 Homebrew가 없다면 공식 설치 한 줄을 터미널에 붙여넣어 먼저 깔아두면, 이후 거의 모든 도구를 brew install로 통일해 설치한다.

3.2. FFmpeg 설치 (필수)

FFmpeg는 자르기·붙이기·변환·자막 굽기·무음 감지 등 실제 영상 가공을 전담하는 엔진으로, 어느 길을 택하든 반드시 필요하다.

OS	설치 명령	설치 후 확인
Windows	winget install ffmpeg	ffmpeg -version
macOS	brew install ffmpeg	ffmpeg -version

설치 후 터미널을 완전히 껐다 켠다. Windows에서 명령을 찾을 수 없습니다가 뜨면 십중팔구 PATH 등록 누락이다. FFmpeg bin 폴더 경로를 환경 변수 Path에 직접 추가하고 터미널을 재시작하면 해결된다. 초보가 가장 먼저 부딪히는 벽이기도 하다.

3.3. Vrew 설치 (길 A)

Vrew 공식 사이트에서 윈도우·맥용 설치 파일을 내려받아 설치한다. Python·CUDA 같은 환경 설정이 일절 필요 없고, 설치 후 바로 영상을 끌어다 놓으면 된다. 환경 구성 제로가 비개발자에게 Vrew가 매력적인 이유다.

3.4. Whisper 계열 설치 (길 B)

Python 설치. 윈도우 설치 화면에서 Add Python to PATH 체크가 필수다. 이를 놓치면 FFmpeg와 똑같은 명령을 찾을 수 없음 증상이 난다.
openai-whisper 설치: pip install -U openai-whisper
NVIDIA GPU가 있으면 faster-whisper 권장. CTranslate2 엔진으로 OpenAI Whisper를 재구현한 것으로, 같은 정확도에서 더 빠르고 메모리도 적게 쓰며 CPU·GPU 모두 지원한다. 윈도우에서 CUDA 구성이 부담되면 CPU 모드로도 돌아간다. 다만 느릴 뿐이다.
정밀 단어 경계·화자 분리가 필요하면 WhisperX. forced alignment로 단어 타임스탬프를 다시 맞추고, pyannote 기반 diarization으로 누가 언제 말했는지 구분한다.

3.5. OS별 명령 줄바꿈

긴 FFmpeg 명령을 여러 줄로 나눌 때 OS마다 연속 문자가 다르다. 같은 명령을 복사해 붙여도 OS가 다르면 줄바꿈에서 깨지는 일이 잦다.

OS	줄 이어쓰기 문자
Windows PowerShell	백틱
Windows CMD	캐럿(^)
macOS·Linux	백슬래시

핵심 포인트: FFmpeg는 모든 경로의 공통 엔진이고, PATH 미등록이 whisper·ffmpeg 명령 불가의 첫 번째 원인이다. 터미널 재시작과 Path 환경 변수 확인을 설치 직후 습관으로 두면 이후 단계에서 시간을 크게 절약한다.

4. Vrew로 SRT 자막 만들기

Vrew 워크플로는 코딩 없이 다음 순서로 진행한다.

Vrew를 열고 새 프로젝트로 영상을 불러온다.
AI가 음성을 인식해 문장 단위로 자막을 자동 생성한다. 1분 영상 기준 십수 초 수준이다.
화면에 대본처럼 텍스트가 펼쳐지고, 오인식 단어는 워드 문서 고치듯 클릭해서 바로 수정한다.
무음 줄이기로 말과 말 사이 침묵을 자동 감지해 한 번에 삭제한다.
상단 메뉴 보내기 → SRT로 시간 정보가 담긴 자막 파일을 저장한다.

Vrew SRT에는 언제부터 언제까지 어떤 말이 나왔는지가 담긴다. 유튜브 자막 업로드, FFmpeg 자동화, Remotion 타이밍 입력으로 그대로 넘긴다. Vrew만으로도 자막 생성 → 무음 제거 → 문장 단위 컷편집 → SRT보내기까지 전부 GUI에서 끝낸다. 코딩 없이 토킹 헤드 영상 편집의 상당 부분을 처리하는 가장 쉬운 경로다.

5. Whisper로 SRT·JSON 자막 만들기

Whisper는 명령 한 줄로 SRT를 뽑는다. 윈도우·맥 동일하게 작동하며, 단어 단위 타임스탬프나 JSON 정밀 데이터를 출력해 뒤 단계(FFmpeg 컷, AI 판단)와 코드로 이어진다.

옵션	값	의미
입력 파일	input.mp4	원본 영상
--model	large-v3-turbo	정확도·속도 균형 (현재 사실상 표준)
--language	ko	한국어 고정
--output_format	srt 또는 json	사람용 SRT vs 코드용 JSON
--word_timestamps	True	단어 하나하나의 시작·끝 시간

large-v3가 최고 정확도, large-v3-turbo는 디코더 층을 줄여 속도를 끌어올린 large-v3 최적화 버전으로 정확도는 거의 유지하면서 훨씬 빠르다. medium·small은 빠르지만 한국어 정확도가 눈에 띄게 떨어지니, 한국어 작업이라면 turbo 이상을 쓴다.

출력 형식	용도
srt	유튜브 업로드, 사람이 읽는 자막
json	단어·세그먼트별 타임스탬프, 자동 컷 스크립트 입력
vtt	웹 플레이어
tsv	스프레드시트·분석
txt	순수 대본만
all	위 형식 일괄 출력

SRT는 문장 자막, JSON은 단어 지도다. 사람이 읽을 자막은 SRT, 코드가 자를 재료는 JSON으로 이해하면 된다. faster-whisper를 쓸 때도 word_timestamps=True로 동일하게 단어 단위 데이터를 얻어 SRT·JSON으로 보낸다.

5.1. faster-whisper를 쓰는 이유

상황	권장 도구	이유
GPU·CUDA 설정이 부담될 때	faster-whisper (CPU 모드)	openai-whisper 대비 속도·메모리 효율 우수
NVIDIA GPU 사용 가능	faster-whisper (GPU) + NVENC	전사·인코딩 모두 가속
최고 정밀 단어 경계	WhisperX	forced alignment로 경계 재정렬
코딩 없이 빠른 결과	Vrew	환경 구성 제로

faster-whisper는 CTranslate2로 Whisper 모델을 재구현한 것이라 같은 계열 모델에서 정확도를 유지하면서 처리 속도가 빠르다. GPU가 아예 없거나 CUDA 설치가 번거로우면 CPU 모드로 돌려도 된다. 느릴 뿐 결과물은 나온다.

5.2. 한국어 인식률 올리기

Whisper 계열은 고유명사·전문용어(제품명, 영어 약어)를 자주 틀린다. --initial_prompt에 영상에 자주 나오는 용어를 미리 넣으면 인식률이 오른다. 예: RTX 5090, NVENC, FFmpeg, Remotion. 영상에 나올 법한 단어를 미리 알려주는 힌트다. Vrew는 별도 옵션 없이 인식 후 텍스트를 직접 고치면 된다.

6. 타임스탬프 정밀도 함정과 해결

초보가 가장 많이 실패하는 지점이다. AI 음성인식 타임스탬프는 종종 미세하게 부정확해서, 문장 단위로 그대로 자르면 말끝 음절이 잘리거나(안녕하세요가 안녕하세로) 다음 말의 첫 음절이 묻어 들어온다. 듣기에 거슬리는 어색함의 대부분이 여기서 나온다.

해결책	설명
단어 단위 컷	문장이 아니라 word_timestamps·JSON 단어 경계 기준
padding 0.1~0.2초	컷 지점 앞뒤 여유를 줘 음절이 잘리지 않게
WhisperX	phoneme 모델로 forced alignment 수행, 단어 경계 재정렬
Vrew 수동 확인	GUI에서 컷 경계를 눈으로 한 번 점검

WhisperX는 음소(phoneme) 모델로 단어 경계를 다시 맞추는 forced alignment를 수행해 Whisper 단독보다 훨씬 정확한 단어 타임스탬프를 만들고, 화자 분리까지 지원한다.

핵심 포인트: 타임스탬프 오차는 AI 음성인식의 구조적 한계이지 편집 실력 문제가 아니다. 단어 단위 데이터, 0.1~0.2초 padding, WhisperX 정렬 중 하나 이상을 조합하면 말끝 잘림과 싱크 어색함이 크게 줄어든다.

7. 편집 결정과 FFmpeg 컷 실행

자동 컷편집의 본질은 남길 구간 여러 개를 잘라서, 순서대로 다시 붙이는 작업이다.

7.1. AI에게 SRT·JSON 주고 판단시키기

SRT(또는 JSON)는 결국 텍스트다. 코딩 에이전트에게 통째로 주고 이 발화 내용을 보고 남길 문장과 버릴 문장을 정해 달라고 하면, 대본을 읽고 흐름을 정리해 남길 구간들의 시작·끝 시간 목록을 만들어 준다. 횡설수설·중복·군말(어… 그러니까…)을 골라내는 의미 판단이 여기서 일어난다.

가장 중요한 설계 원칙은 역할 분리다. AI는 무엇이 중요한가라는 의미 판단만 맡고, 정확한 시간 산술은 코드에 맡긴다. AI가 직접 시간을 계산하면 종종 어긋나는데, 의미 판단은 AI가, 산술은 코드가 하도록 나누면 이 오류가 사라진다.

실전에서는 AI에게 세그먼트 ID나 문장 번호만 반환하게 하고, 실제 초·밀리초 변환은 Python·Node 스크립트가 SRT·JSON을 파싱해 처리하는 패턴이 안정적이다. AI 출력이 [3, 7, 12]처럼 남길 세그먼트 번호 목록이면, 코드가 해당 번호의 start·end 타임코드를 lookup해 FFmpeg 명령을 생성한다.

7.2. 한 구간 자르기

방식	명령 예시	특징
무손실 복사	ffmpeg -i input.mp4 -ss 00:00:04.5 -to 00:00:08.1 -c copy out.mp4	재인코딩 없이 초고속. 키프레임 단위로만 잘려 시작점이 살짝 어긋날 수 있음
재인코딩	-c copy 생략	정확한 프레임에서 컷. 느리고 미세 화질 손실 가능

정밀하게 잘라야 하는 컷편집은 재인코딩, 대략적인 단순 추출은 -c copy가 원칙이다.

7.3. 여러 구간 자르고 붙이기

가장 간단하고 안정적인 방식은 각 구간을 따로 잘라 파일로 만든 뒤, 목록 파일로 한 번에 합치는 것이다.

단계	내용
1	clip1.mp4, clip2.mp4 등 구간별 파일 생성
2	list.txt에 file 'clip1.mp4', file 'clip2.mp4' 형식으로 나열
3	ffmpeg -f concat -safe 0 -i list.txt -c copy output.mp4 실행

합칠 클립들의 해상도·fps·코덱이 모두 같아야 한다. 같은 원본에서 잘라낸 조각이면 자동으로 충족된다.

한 명령으로 자르고 붙이는 filter_complex 방식을 쓸 경우, setpts=PTS-STARTPTS(영상)와 asetpts=PTS-STARTPTS(오디오)로 잘라낸 각 구간의 시간을 0부터 다시 세도록 리셋하는 게 핵심이다. 이 처리를 빼먹으면 붙인 뒤 영상과 소리의 싱크가 어긋난다. 컷편집 자동화에서 가장 흔한 버그이자, 해결책이 바로 이 한 줄이다.

8. 무음 자동 제거와 GPU 인코딩

Vrew를 쓰지 않고 코드로 직접 처리한다면 두 가지 길이 있다.

방법	명령·도구	설명
FFmpeg silencedetect	-af silencedetect=noise=-30dB:d=0.5	-30dB보다 조용한 상태가 0.5초 이상이면 무음으로 탐지 후 제거 스크립트 작성
auto-editor	auto-editor input.mp4 --margin 0.2s	무음 구간 자동 삭제. margin이 말 앞뒤 여유(padding) 역할

--margin 0.2s는 무음으로 잘라낼 구간 앞뒤에 0.2초를 남겨, 말이 뚝뚝 끊기지 않고 자연스럽게 이어지게 해준다. margin 값을 조금씩 키우거나 줄여가며 답답하지도, 늘어지지도 않은 지점을 찾는 게 무음 제거 품질의 거의 전부다.

재인코딩이 느릴 때 하드웨어 인코더를 쓰면 몇 배 빨라진다.

환경	비디오 인코더	비고
NVIDIA GPU	h264_nvenc	재인코딩 속도 대폭 향상
Apple Silicon·Mac	h264_videotoolbox	VideoToolbox 하드웨어 가속
CPU	libx264	화질 대비 효율이 좋아 최종 납품본에 자주 사용

화질 대비 효율은 CPU 소프트웨어 인코딩(libx264)이 조금 더 좋으니, 최종 납품본은 CPU로, 중간 미리보기는 GPU로 나누는 것도 방법이다.

8.1. 화면비 변환과 자막 입히기

가로 영상을 세로(9:16, 숏폼)로 바꿀 때는 **-vf crop=ih9/16:ih,scale=1080:1920으로 가운데를 세로로 잘라 1080×1920에 맞춘다. SRT 자막을 영상에 직접 구워 넣으려면 -vf subtitles=captions.srt를 쓴다. 유튜브에 올린다면 자막을 굽지 말고 SRT를 별도 파일로 업로드*하는 편이 낫다. 시청자가 자막을 켜고 끌 수 있고, 플랫폼이 자동 번역·위치 배치까지 처리한다.

9. Remotion 모션그래픽과 Agent Skills

Remotion은 React 코드로 영상의 매 프레임을 그리는 프레임워크다. 텍스트 애니메이션, 차트, 자막 바, 인트로를 코드로 정의해 영상으로 렌더링한다. 코드로 만들 수 있다 = 코딩 에이전트가 만들 수 있다는 통찰이 핵심이다.

Remotion 공식 문서는 Claude Code 같은 코딩 에이전트로 영상을 프롬프트(자연어 지시)로 만드는 워크플로를 직접 안내한다. 2025~2026년에는 Remotion Agent Skills가 추가되어 Claude Code·Cursor와의 연동이 수월해졌다.

9.1. Remotion Agent Skills 설치와 범위

Remotion Agent Skills는 Remotion 팀이 유지하는 에이전트용 스킬 패키지다. 타이밍·interpolate·spring·useCurrentFrame·Composition 등 Remotion 관례를 에이전트 컨텍스트에 주입해, 프레임 계산 오류·지원되지 않는 CSS 애니메이션·잘못된 오디오 트리밍 같은 흔한 실수를 줄인다.

항목	내용
설치 명령	npx skills add remotion-dev/skills
프로젝트 생성	bun create video (설치 중 스킬 추가 옵션)
공식 문서	remotion.dev/docs/ai/skills
스킬 범위	애니메이션·오디오·캡션·차트·3D·렌더링 등 28개 내외 규칙 파일
표준	Agent Skills 오픈 표준, remotion-dev/skills 저장소

설치 후 프로젝트에 .claude/skills/ 등 스킬 디렉터리가 생기고, Claude Code·Cursor·Codex가 Remotion 코드 작성 시 해당 규칙을 참조한다. 스킬이 인식되지 않으면 같은 명령으로 재설치하거나 에이전트 세션을 재시작한다.

Remotion 프로젝트를 처음 만들 때는 bun create video로 스캐폴딩을 생성하고, 설치 과정에서 Agent Skills 추가 옵션을 켜 두면 처음부터 에이전트 연동 환경이 갖춰진다. 이미 있는 프로젝트라면 루트에서 npx skills add remotion-dev/skills만 실행하면 된다.

Remotion Agent Skills가 다루는 영역	예시
애니메이션·타이밍	interpolate, spring, useCurrentFrame, Sequence
오디오·캡션	트리밍, 볼륨, 자막 동기화
미디어	이미지·GIF·Lottie·폰트
렌더링	CLI, Lambda, 파라미터화(Zod)

전사(SRT·JSON) 덕분에 어느 시점에 무슨 내용이 나오는지를 이미 알고 있으니, 특정 타임코드에 맞춘 정보성 그래픽(핵심 수치가 나올 때 화면에 숫자 카드 띄우기 등)을 코딩 에이전트에게 코드로 생성시키고 FFmpeg로 합성하면 된다.

9.2. SRT와 Remotion 연동 패턴

콘텐츠 기획 — SRT·대본을 읽고 어떤 시점에 어떤 그래픽을 보여줄지 텍스트 목록을 만든다.
타이밍 배치 — 초·프레임 단위로 Sequence·Composition에 배치한다. 대본 결정과 타이밍 맞추기를 분리하면 결과가 훨씬 안정적이다.
렌더·합성 — Remotion CLI로 MP4를 뽑고 FFmpeg로 본편 영상과 합친다.

핵심 포인트: Remotion은 코드 기반 영상 생성 프레임워크라 코딩 에이전트와 궁합이 좋다. Agent Skills를 설치하면 에이전트가 Remotion 관례를 따르는 코드를 처음부터 더 정확하게 생성한다. SRT·JSON 타임코드가 그래픽 배치의 입력이 된다.

10. 화자 분리와 전체 파이프라인 통합

WhisperX는 단어 단위 정밀 정렬(forced alignment)에 더해 화자 분리(diarization)를 지원한다. pyannote 모델을 결합해 누가 언제 말했는지를 구분하므로, 2인 대담·인터뷰·팟캐스트에서 화자별로 컷을 나누거나 자막 색을 다르게 입히는 자동화가 가능하다. 화자가 짧은 문장을 빠르게 주고받거나 발화가 겹치면 분리 정확도가 떨어지니, 결과는 한 번 검수하는 걸 전제로 두는 게 현실적이다.

10.1. 전체 흐름 한 줄 요약

영상 입력 → (Vrew 또는 Whisper로) SRT·타임코드 생성 → AI가 대본 읽고 남길 구간 결정 → 무음 제거 결합 → FFmpeg(가속)로 컷·concat 초안 → 화면비 변환 → Remotion 모션그래픽 합성 → 자막 → 최종 렌더링

이 전 과정을 하나의 스크립트로 묶어두면, 코딩 에이전트에게 이 폴더의 영상 편집해줘라고 시켰을 때 단계를 순서대로 실행하는 오케스트레이터(지휘자) 역할을 한다. 반드시 지킬 실전 원칙은 각 단계의 중간 산출물(SRT, 잘린 클립, 무음 제거본 등)을 파일로 저장하는 것이다.

중간 산출물	저장 시점	재사용 목적
input.srt / input.json	1단계 직후	편집 판단·컷 스크립트 입력
segments.json	2단계 직후	남길 구간 목록 재실행
clip_001.mp4 …	3단계 중	concat 실패 시 개별 클립 재시도
silent_removed.mp4	무음 제거 후	컷 전 베이스 영상
remotion_overlay.mp4	4단계 후	FFmpeg 최종 합성 입력

11. 어떤 길을 고를까

프로필	추천 경로	이유
비개발자·빠른 결과	Vrew 중심	GUI만으로 자막·무음·컷·SRT까지 처리
완전 무인·최고 정밀	Whisper + faster-whisper + WhisperX + FFmpeg	JSON 단어 컷, NVENC, 스크립트 일괄 실행
대부분의 크리에이터	하이브리드	Vrew/Whisper로 SRT → AI 판단 → FFmpeg 실행

코딩이 부담스럽고 빠르게 결과물을 원한다면 Vrew 중심으로 가면 된다. 완전 무인 자동 파이프라인과 최고 정밀도를 원한다면 Whisper 중심으로 코드를 짜되, GPU가 있으면 faster-whisper + NVENC로 속도를 끌어올리고, 정밀 컷이 중요하면 WhisperX로 단어 경계를 다듬으면 된다.

11.1. 자주 겪는 오류와 조치

증상	원인	조치
whisper·ffmpeg 명령 없음	PATH 미등록	Python·FFmpeg bin을 Path에 추가 후 터미널 재시작
말끝이 잘림	문장 단위 타임스탬프	word_timestamps, padding 0.1~0.2초, WhisperX
붙인 뒤 싱크 틀어짐	PTS 미리셋 누락	setpts·asetpts 적용 또는 concat demuxer 사용
concat 실패	해상도·코덱 불일치	동일 원본 클립만 합치거나 재인코딩으로 통일
Remotion 코드 오류	에이전트의 프레임워크 미숙	npx skills add remotion-dev/skills 설치
무음 제거 후 말이 끊김	margin 너무 작음	auto-editor --margin 값을 0.2~0.3초로 조절

12. 마무리

위에서 살펴본 영상 편집 자동화의 핵심 내용을 정리하면 다음과 같다.

핵심 요약:

영상 편집 자동화는 영상을 텍스트·타임코드로 환원해 컷·무음 제거·모션그래픽을 명령으로 바꾸는 과정이며, 미적 판단은 텍스트화·AI 판단으로 우회한다.
모든 자동 편집의 1단계는 SRT·JSON 자막 생성이고, Vrew(GUI·코딩 없음)와 Whisper(코드·정밀도) 두 갈래로 나뉜다.
하이브리드(Vrew/Whisper로 SRT 추출 → AI 편집 판단 → FFmpeg 컷)가 실전에서 가장 무난한 선택이다.
AI는 의미 판단만, 코드는 시간 산술만 맡기는 역할 분리와 단계별 중간 파일 저장이 안정적인 파이프라인의 핵심이다.
타임스탬프 정밀도는 word_timestamps·padding·WhisperX로 보완하고, FFmpeg concat 시 setpts·asetpts로 싱크를 맞춘다.
Remotion Agent Skills(npx skills add remotion-dev/skills)로 코딩 에이전트가 Remotion 관례에 맞는 모션그래픽 코드를 생성하게 한다.

코딩이 부담스럽다면 Vrew로 SRT와 무음 제거까지 GUI에서 끝내고, 정밀 자동화가 필요해지면 Whisper·FFmpeg 파이프라인을 단계적으로 붙이면 된다. 도구 이름을 외우기보다 영상을 텍스트와 타임코드로 환원한다는 원리를 익히는 편이 낫다. Vrew든 Whisper든 결국 SRT를 만드는 같은 일을 다른 난이도로 할 뿐이고, 그 SRT를 어떻게 컷·꾸미기·출력으로 흘려보내느냐가 자동화의 전부다.

자주 묻는 질문

영상 편집 자동화에서 가장 먼저 해야 할 일은 무엇인가요?
영상에서 말을 텍스트와 시간 정보로 추출해 SRT 또는 JSON 자막 파일을 만드는 것입니다. Vrew는 GUI로, Whisper는 터미널 명령으로 같은 목표에 도달합니다. 이 파일이 이후 AI 편집 판단과 FFmpeg 컷의 공통 입력이 됩니다.
Vrew와 Whisper 중 무엇을 선택해야 하나요?
코딩 없이 빠르게 자막·무음 제거·문장 컷까지 GUI로 끝내려면 Vrew가 맞습니다. 코드로 전체 파이프라인을 무인 실행하고 단어 단위 정밀 컷·JSON 출력이 필요하면 Whisper·faster-whisper·WhisperX 쪽이 낫습니다. 실무에서는 Vrew나 Whisper로 SRT만 뽑고 FFmpeg 자동화에 넘기는 하이브리드가 가장 흔합니다.
Whisper에서 large-v3와 large-v3-turbo 차이는 무엇인가요?
large-v3가 최고 정확도를 목표로 하고, large-v3-turbo는 디코더 층을 줄여 속도를 올린 최적화 버전입니다. 한국어 작업에서는 turbo가 정확도를 거의 유지하면서 처리 시간이 짧아 현재 사실상 표준 선택에 가깝습니다. medium·small은 빠르지만 한국어 오인식이 늘어납니다.
자동 컷 후 영상과 소리가 어긋나면 어떻게 하나요?
filter_complex로 여러 구간을 한 번에 자를 때 setpts=PTS-STARTPTS와 asetpts=PTS-STARTPTS로 각 클립의 타임라인을 0부터 다시 세지 않으면 싱크가 틀어지는 경우가 많습니다. 구간별 파일을 만든 뒤 concat demuxer로 합치는 방식이 초보에게는 더 안정적입니다.
Remotion Agent Skills는 무엇이고 어떻게 설치하나요?
Remotion 팀이 배포하는 에이전트용 스킬 묶음으로, Claude Code·Cursor 등이 Remotion 타이밍·애니메이션·컴포지션 규칙을 따르도록 돕습니다. 프로젝트 루트에서 npx skills add remotion-dev/skills 한 줄로 설치합니다. 공식 문서는 remotion.dev/docs/ai/skills에서 확인할 수 있습니다.
무음 제거 시 말이 뚝끊기면 어떻게 조정하나요?
auto-editor의 --margin 값을 키우면 무음으로 잘릴 구간 앞뒤에 여유 시간이 남아 말이 자연스럽게 이어집니다. 0.15~0.3초 사이에서 조절하며 답답함과 늘어짐의 균형을 맞춥니다. Vrew를 쓰면 GUI 무음 줄이기로 비슷한 효과를 낼 수 있습니다.
한국어 음성 인식 정확도를 높이려면 어떻게 해야 하나요?
Whisper에서는 --initialprompt에 영상에 자주 나오는 고유명사·제품명·영어 약어를 넣어 힌트를 줍니다. 모델은 한국어 작업 시 large-v3-turbo 이상을 권합니다. 컷 경계 정밀도는 wordtimestamps, 0.1~0.2초 padding, WhisperX forced alignment로 보완합니다. Vrew는 인식 후 텍스트를 직접 수정하면 됩니다.
영상 편집 자동화 파이프라인에서 중간 파일을 왜 저장해야 하나요?
SRT·JSON, 잘린 클립, 무음 제거본을 단계마다 디스크에 남겨 두면 8단계 중 6단계에서 실패해도 처음부터가 아니라 그 지점부터 재개합니다. 긴 영상일수록 Whisper 전사나 FFmpeg 재인코딩에 시간이 오래 걸리므로, 중간 저장이 작업 시간을 지켜주는 실전 원칙입니다.