슈퍼토닉3 무료 로컬 TTS 사용 가이드: CPU만으로 음성과 자막을 만드는 실전 워크플로

Definition

이 ZIP은 Supertonic 3를 로컬에서 즉시 실행할 수 있도록 통합 패키징한 TTS 작업 환경입니다.

Supertonic 3는 슈퍼톤이 공개한 온디바이스 다국어 TTS 엔진입니다. 공식 저장소는 ONNX 런타임 기반의 실행 구조, 31개 언어 지원, 약 99M 파라미터 규모의 공개 가중치, 그리고 데스크톱·모바일·브라우저·라즈베리파이까지 아우르는 폭넓은 배포 환경을 강조합니다. 핵심은 “로컬 실행”이라는 설계 철학입니다. 텍스트를 외부 서버로 전송해 합성하는 방식이 아니라, 사용자의 PC 안에서 준비된 모델과 런타임만으로 음성을 생성합니다.

“CPU만 있으면 된다”는 것은 GPU가 필요 없다는 의미일 뿐, 별도의 로컬 실행 조건은 존재합니다.

Supertonic 3와 faster-whisper가 CPU에서 동작한다고 해서, 아무런 사전 준비 없이 즉시 실행된다는 의미는 아닙니다. 이 ZIP은 Python 기반 웹 서버를 기동한 뒤 그 안에서 Supertonic SDK와 faster-whisper를 호출하는 구조이므로, 최소한의 런타임 환경은 반드시 갖춰져야 합니다.

운영체제

Windows 10/11 권장

기본 실행 진입점은 Windows용 실행.bat입니다. Windows 환경에서는 더블클릭만으로 기동이 가능하며, Linux나 macOS에서는 start.sh를 활용하거나 수동 실행 절차를 거쳐야 합니다.

Python

Python 3.11 권장

ZIP에는 .venv-win 가상환경이 포함되어 있지 않습니다. 실행.bat은 사용자 PC에 설치된 Python을 먼저 탐색한 뒤, 발견되지 않을 경우 winget을 통해 Python 3.11 설치 여부를 안내합니다.

Python 패키지

requirements.txt 기반 자동 설치

TTS 앱과 Whisper 보정 도구는 각각 독립된 requirements.txt를 갖습니다. 실행.bat은 .venv-win을 생성한 뒤 supertonic, Flask, faster-whisper를 포함한 필수 의존성을 자동으로 설치합니다.

ffmpeg

선택 설치 (TTS 필수 아님)

Supertonic 3 WAV 생성·기본 웹 UI 실행에는 FFmpeg가 없어도 됩니다. 실행.bat은 ffmpeg가 없을 때만 winget으로 Gyan.FFmpeg(GPLv3 빌드로 안내) 설치를 제안하며, 설치 전 라이선스 설명과 동의 확인을 표시합니다. ZIP에는 FFmpeg가 포함되지 않습니다. --skip-ffmpeg로 건너뛸 수 있습니다.

GPU/CUDA

필수 아님

GPU 없이 CPU만으로 TTS 생성과 Whisper 자막 보정이 모두 가능합니다. NVIDIA GPU, CUDA, cuDNN은 필수 요구사항이 아니며, GPU가 있을 경우 Whisper 보정 속도에서만 이점을 얻을 수 있습니다.

브라우저

Chrome/Edge 권장

실행.bat이 로컬 서버를 기동한 뒤 자동으로 http://127.0.0.1:3093 주소를 엽니다. 웹 UI를 통해 대본 선택, 음성 선택, 생성, 다운로드가 이루어지므로 최신 버전의 크로미움 계열 브라우저 사용을 권장합니다.

인터넷 연결

최초 준비 단계에서 필요할 수 있음

첫 실행 시 Python, ffmpeg, pip 패키지, Supertonic 모델, Whisper 모델을 다운로드해야 할 수 있습니다. 초기 셋업이 완료된 뒤에는 동일 PC에서 제한된 네트워크 환경으로도 운용이 가능합니다.

저장공간

여유 공간 권장

ZIP 자체는 약 159 MiB이지만, 압축 해제 이후 .venv-win, 모델 캐시, 생성 WAV 및 자막 파일이 누적되며 용량이 빠르게 증가합니다. 장문 TTS를 다룰 계획이라면 수 GB 이상의 여유 공간 확보를 권장합니다.

실행 권한

쓰기 권한이 보장된 폴더

생성 결과는 supertonic3-local-tts/data 폴더에 저장됩니다. Program Files처럼 권한이 제한된 경로보다는 사용자 폴더, 바탕화면, D 드라이브와 같이 쓰기 권한이 자유로운 경로에 압축을 푸는 것이 안정적입니다.

실행 전 점검 포인트

이 도구는 Windows 로컬 실행을 기준으로 구성되어 있습니다. GPU나 CUDA는 필요하지 않으나, Python과 필수 의존 패키지는 반드시 갖춰져야 합니다. 최종 ZIP에 .venv-win이 포함되지 않는 만큼, 첫 실행에서는 가상환경 생성과 패키지 설치 과정이 자동으로 수행됩니다.

최종 ZIP은 파일명, SHA256, 포함·제외 항목을 사전 확인한 뒤 사용하는 편이 안전합니다.

최종 배포 매니페스트를 살펴보면, 이 ZIP은 실행에 반드시 필요한 소스·문서·예제 산출물은 포함하되 가상환경과 서버 로그처럼 환경 의존적인 요소는 제외한 형태로 패키징되어 있습니다. 사용자는 파일명과 SHA256만 확인해도 다운로드 단계에서 발생할 수 있는 오류를 효과적으로 차단할 수 있습니다.

안전 다운로드

2026.05.17 r4

supertonic3-local-tts-20260517-r4.zip

171.6 MB (179,897,490 bytes)

다운로드 시 서버·브라우저에서 SHA-256을 자동 검증합니다.

SHA-256

0651a2d946c74cc23dfcc8648b0a174d16527f688a6b0b3209b718bcda69fd6f

패키지 파일 수: 274개

제외 항목(매니페스트): .git, .mypy_cache, .pytest_cache, .venv, .venv-win, __pycache__, dist, docs, node_modules, README-ZIP-배포-방법-현황.md, server.err, server.log, server_stderr.log, server_stdout.log

항목

확인값

의미

현재 배포 중인 ZIP

supertonic3-local-tts-20260517-r4.zip

DB에 등록된 최신 빌드입니다. 다운로드 시 SHA-256이 자동 검증됩니다.

파일 수 및 용량

274 files / 179,897,490 bytes

약 159 MiB 규모입니다. 압축 해제 이후에는 Python 가상환경, 모델 캐시, 생성 산출물이 추가되므로 실제 사용 용량은 이보다 더 늘어납니다.

SHA256 해시

0651a2d946c74cc23dfcc8648b0a174d16527f688a6b0b3209b718bcda69fd6f

함께 배포되는 .zip.sha256 파일과 비교해 일치 여부를 확인하면 다운로드 중 발생할 수 있는 손상 여부를 검증할 수 있습니다.

포함된 구성 요소

실행.bat, README, LICENSE_NOTICES.txt, requirements.txt, 예제 산출물

data 폴더에는 첫 사용자가 출력 형식을 미리 확인할 수 있도록 WAV, SRT, VTT, Whisper 분석 결과 등 공개 가능한 예제 파일이 함께 들어 있습니다.

제외된 항목

.git, .mypy_cache, .pytest_cache, .venv, .venv-win, __pycache__, dist, docs, node_modules

가상환경은 ZIP에 포함되어 있지 않습니다. 첫 실행 시 실행.bat이 사용자 PC 환경에 맞춰 가상환경과 의존성을 새로 구성합니다.

# PowerShell에서 ZIP의 SHA256 해시 확인 예시
Get-FileHash .\supertonic3-local-tts-20260517-r4.zip -Algorithm SHA256

로컬 온디바이스 TTS의 핵심 가치는 필요한 음성 파일을 반복적으로 재생성할 수 있다는 점에 있습니다.

로컬 TTS는 “단번에 완성도 높은 음성을 만들어주는 도구”라기보다, “필요할 때마다 WAV를 자유롭게 다시 생성할 수 있는 제작 환경”에 가깝습니다. 글자 수, 처리 시간, 크레딧 단위로 비용이 누적되는 클라우드 TTS와 달리, 초안 검수·반복 테스트·교육 자료 제작·장문 낭독과 같이 시안 반복이 필수적인 작업에서 특히 강점을 발휘합니다. 물론 전기, 시간, 저장공간은 사용됩니다. 본문에서 “비용 부담이 없다”는 표현은 클라우드 TTS의 과금이나 월 구독 크레딧을 소모하지 않는다는 의미로 한정됩니다.

사용 사례

로컬 TTS가 적합한 이유

권장 워크플로

유의사항

유튜브 롱폼·초장문 내레이션

클라우드 TTS는 글자 수, 처리 시간, 크레딧 단위로 비용이 누적되는 구조입니다. 로컬 TTS는 추가 과금 없이 동일한 대본을 반복적으로 재생성할 수 있어, 길이가 긴 영상 제작에 적합합니다.

대본을 장(章) 단위로 분할한 뒤 /api/tts-job 백그라운드 작업으로 순차 처리합니다. WAV, 대본 TXT, 입력 로그, 기본 SRT/VTT를 함께 저장하고, 최종본은 Whisper 보정 자막으로 타이밍을 맞춥니다.

CPU 전용 환경 특성상 처리 시간이 다소 길어질 수 있습니다. 한 시간 분량을 일괄 생성하기보다 5~10분 단위로 분할해 진행하면 오류 복구와 편집 효율이 모두 좋아집니다.

다국어 발음 예제 제작

교육 자료나 발음 비교 예제는 동일 문장을 여러 언어와 다양한 화자로 반복 생성해야 합니다. 로컬 생성 환경에서는 테스트 횟수에 대한 비용 부담 없이 자유롭게 시안을 만들 수 있습니다.

동일 문장을 ko, en, zh, ja 등 언어별 대본으로 분리해 비교 생성합니다. 인사말, 숫자, 날짜 표현, 짧은 회화문 등을 M/F 화자별로 각각 생성하면 자료 구성이 수월합니다.

TTS는 원어민 교사의 발음 판단을 대체하는 도구가 아닙니다. 교재나 강의에 포함할 경우 “듣기 예시” 용도로 활용하고, 정확한 발음 평가는 별도 검수가 필요합니다.

문장 읽기·쉐도잉 학습 자료

동일 문장을 느린 속도, 보통 속도, 빠른 속도 등 다양한 버전으로 생성할 수 있습니다. 반복 학습용 음성 파일을 무제한 생성하더라도 추가 과금이 발생하지 않습니다.

speed 값을 0.95, 1.00, 1.10 등으로 단계화해 같은 대본을 여러 파일로 출력합니다. 문장 사이 silence_duration을 늘리면 학습자가 따라 말하기 좋은 공백을 손쉽게 만들 수 있습니다.

학습 자료에서는 과도한 감정 연기보다 일정한 속도와 명료한 발성이 효과적입니다. 표현 태그는 최소한으로 사용하는 편을 권장합니다.

블로그·전자책·문서 낭독

긴 문서를 청각적으로 검토하면 어색한 문장, 중복 표현, 호흡이 긴 문단을 빠르게 발견할 수 있습니다. 로컬 TTS는 초안 검수용 오디오를 부담 없이 반복 생성할 수 있는 환경을 제공합니다.

문서를 1,000~3,000자 단위로 분할해 생성하고, 결과 WAV를 들으며 문장을 다듬습니다. 입력 로그가 함께 남기 때문에 어떤 설정으로 만든 음성인지 사후 추적이 가능합니다.

표, URL, 괄호, 특수기호는 TTS가 부자연스럽게 읽을 수 있습니다. 사람이 낭독한다는 가정으로 문장을 정제한 뒤 합성하는 편이 안정적입니다.

앱·웹서비스 안내 음성

버튼 안내, 오류 메시지, 튜토리얼 문구는 짧은 음성을 자주 교체해야 합니다. 로컬 TTS는 문구 수정 직후 새 WAV를 즉시 생성할 수 있어 프로토타이핑 단계에 잘 맞습니다.

짧은 문구는 /api/tts 엔드포인트로 즉시 생성하고, 파일명을 기능 단위로 체계화합니다. “업로드가 완료되었습니다”, “다시 시도해 주세요”와 같은 안내문을 빠르게 비교 테스트할 수 있습니다.

서비스에 탑재되는 안내 음성은 톤, 속도, 음량을 일관되게 유지하는 편이 안정적입니다. 화자를 혼용하면 사용자 경험에서 품질이 들쭉날쭉하게 느껴질 수 있습니다.

영상 편집용 더미 보이스·초안 더빙

최종 성우 녹음 이전, 컷 길이와 호흡을 맞추기 위한 더미 보이스가 필요한 경우가 많습니다. 로컬 TTS는 편집용 임시 음성을 빠르게 마련할 수 있어 프리프로덕션 단계에 효과적입니다.

초안 대본을 TTS로 생성한 뒤 편집 타임라인에 배치해 영상 길이를 우선 확정합니다. 이후 실제 녹음이나 유료 음성 서비스를 활용하더라도, 편집 의사결정에 드는 시간을 크게 줄일 수 있습니다.

최종 공개물에 활용할 경우 라이선스와 사용 조건을 재확인해야 합니다. 특히 특정 인물 사칭이나 동의 없는 음성 모사는 명백히 회피해야 할 영역입니다.

자막 파일이 필수인 반복 제작

음성 외에 SRT/VTT가 함께 필요할 경우 수작업 비중이 커집니다. 이 도구는 WAV, 기본 자막, Whisper 보정 자막을 하나의 산출물 묶음으로 자동 저장합니다.

기본 SRT/VTT로 초안을 빠르게 검토하고, 최종 편집 단계에서 faster-whisper 보정을 실행합니다. Whisper 결과의 JSON과 로그까지 보존해 타이밍 이슈를 정밀하게 추적할 수 있습니다.

Whisper 보정은 CPU에서도 동작하지만 장시간 파일에서는 처리 시간이 길어집니다. 초안은 small, 최종본은 medium 이상으로 단계별로 운영하는 방식이 현실적입니다.

오프라인·사내망·개인 작업 환경

외부 TTS 서비스에 원고를 업로드하기 어려운 작업이 있습니다. 로컬 실행은 대본과 생성 결과를 사용자 PC 내부에 머무르게 한다는 점에서 보안·기밀 측면의 이점을 제공합니다.

모델과 의존성을 미리 준비해 둔 뒤, 인터넷이 제한된 환경에서도 실행할 수 있습니다. 생성 결과는 SUPERTONIC3_OUTPUT_DIR 환경변수 또는 기본 data 폴더에 저장됩니다.

ZIP에는 .venv-win이 포함되지 않으므로, 완전 오프라인에 가깝게 운영하려면 Python, 가상환경, 패키지, 모델 캐시를 사전에 준비해 두는 과정이 필요합니다.

무료로 실행할 수 있다는 사실과 공개 콘텐츠에 자유롭게 사용할 수 있다는 사실은 별개입니다.

개인 테스트와 공개 콘텐츠 제작은 책임 범위가 다릅니다. 집에서 발음 예제를 만들거나 초안 음성을 검토하는 것과, 유튜브 영상·강의 교재·서비스 안내 음성처럼 외부에 노출되는 결과물에 활용하는 것은 적용되는 라이선스 조건과 윤리적 기준 모두에서 차이가 있습니다. 아래 내용은 ZIP 루트 LICENSE_NOTICES.txt(Supertonic 3 Local TTS Integration)를 칼럼용으로 요약한 것이며, 법적 자문을 대체하지 않습니다.

다운로드·배포 시 짧은 고지

이 ZIP은 Supertonic 3·faster-whisper를 묶은 로컬 통합 패키지이며, 원본 코드·모델 가중치·의존성은 각각의 업스트림 라이선스를 따릅니다.
「무료 다운로드」·「무료 로컬 사용」을 무제한 권리로 해석하면 안 됩니다. 코드(MIT)와 모델(Open RAIL-M)은 별개입니다.
생성한 텍스트·음성·자막·로그에 대한 책임은 사용자에게 있습니다. 사칭, 동의 없는 음성 복제, 기만·괴롭힘·불법·유해 자동 생성 용도는 금지됩니다.

구분

라이선스

사용자에게 의미하는 것

확인할 점

Supertonic 실행 코드

MIT License

Supertonic을 호출하는 예제 코드와 문서는 비교적 자유로운 MIT 라이선스를 따릅니다. 이 도구가 어떤 공개 기술 위에서 동작하는지 확인하고자 할 때 참고하는 영역입니다.

코드의 라이선스가 MIT라고 해서 음성 모델 가중치까지 동일한 조건이 적용되는 것은 아닙니다. 모델 사용 조건은 별도로 확인해야 합니다.

Supertonic 3 모델 가중치

BigScience Open RAIL-M

실제 음성 합성을 담당하는 모델 가중치에는 Open RAIL-M 계열의 책임 있는 AI 라이선스 조항이 적용됩니다. 개인 테스트와 공개 콘텐츠 제작은 성격이 다르므로, 외부에 공개되는 결과물에 활용하기 전 조항을 검토하는 편이 안전합니다.

무료로 다운로드할 수 있다는 사실과 무제한 사용 권한이 부여된다는 사실은 다릅니다. 특히 사칭, 무단 음성 복제, 유해 콘텐츠 자동 생성과 같은 용도는 명시적으로 제한됩니다.

faster-whisper

MIT License

생성된 WAV를 다시 분석해 실제 발화 구간에 맞춘 SRT/VTT 자막을 생성하는 데 사용됩니다. 자막 정확도가 요구되는 유튜브 영상 제작에 특히 유용합니다.

Whisper 모델을 새로 내려받는 구성이라면, 최초 실행 시 일시적으로 인터넷 연결이 필요할 수 있습니다. faster-whisper 런타임(MIT)과 Whisper 계열 모델 파일의 라이선스는 별도로 구분해 확인해야 합니다.

FFmpeg (선택 설치, ZIP 미포함)

Gyan 빌드: GPLv3 / FFmpeg 본체: LGPLv2.1+

Supertonic 3 WAV 생성에는 FFmpeg가 필수가 아닙니다. 실행.bat은 PC에 ffmpeg가 없을 때만 winget으로 Gyan.FFmpeg 설치를 제안합니다. 비-WAV 미디어 변환·일부 변환 기반 자막 싱크는 FFmpeg 없으면 제한될 수 있습니다.

이 ZIP에는 FFmpeg 바이너리가 들어 있지 않습니다. Gyan 빌드는 GPLv3로 안내됩니다. GPL 구성 요소가 포함된 FFmpeg를 제3자에게 재배포·서비스에 포함할 경우 GPL에 따른 소스코드 제공·고지 의무가 생길 수 있으므로, 설치 전 legal 페이지를 확인하세요. --skip-ffmpeg로 설치를 건너뛸 수 있습니다.

이 로컬 TTS 패키지

원본 조건 준수

Supertonic 3, faster-whisper, 로컬 웹 UI, 실행 스크립트, 샘플 대본을 한 번에 실행할 수 있도록 묶어 배포한 통합 도구입니다.

ZIP 루트 LICENSE_NOTICES.txt와 로컬 http://127.0.0.1:3093/license-notices 에 Supertonic 3·faster-whisper·FFmpeg·재배포 체크리스트가 정리되어 있습니다. 공식 Supertonic/SYSTRAN 제품이 아니며, 생성 음성·자막에 대한 책임은 사용자에게 있습니다.

FFmpeg — 선택 설치, ZIP 미포함, GPL 주의

이 배포 ZIP에는 FFmpeg 바이너리가 들어 있지 않습니다. 실행.bat은 사용자 PC에 ffmpeg가 없을 때만 Gyan.FFmpeg(winget) 설치를 제안합니다. 퍼블리셔는 해당 빌드를 GPLv3 빌드로 설명합니다. FFmpeg 본체는 일반적으로 LGPLv2.1 이상이지만, GPL 구성 요소가 포함된 빌드는 GPL 조건의 적용을 받을 수 있습니다.

TTS 필수 아님: FFmpeg 없이도 Supertonic 3 WAV 생성과 로컬 웹 UI(127.0.0.1:3093) 실행이 가능합니다. MP3·M4A·MP4 등 비-WAV 미디어 변환, 변환 기반 정밀 자막 싱크는 제한될 수 있습니다.
설치는 선택: 실행.bat은 라이선스 설명 후 사용자 동의를 받고, --skip-ffmpeg로 건너뛸 수 있습니다.
재배포·서비스 제공 시: GPL FFmpeg 바이너리를 제3자에게 배포·제공하거나 자신의 제품에 포함해 배포하는 경우, GPL에 따른 소스코드 제공(source offer), 저작권·라이선스 고지 유지 등 의무가 생길 수 있습니다. 개인 PC에만 설치해 자신만 쓰는 경우와, ZIP·설치 패키지·SaaS에 FFmpeg를 묶어 다시 나누는 경우는 책임 범위가 다릅니다.
설치·재배포 전 FFmpeg legal, Gyan FFmpeg builds를 확인하세요.

라이선스 4계층 요약

Supertonic GitHub 예제 코드 — MIT. 코드 라이선스가 모델 가중치까지 확장되지는 않습니다.
Supertonic 3 모델 — Open RAIL-M 계열. 사용 제한·생성물 책임은 upstream LICENSE를 따릅니다.
faster-whisper — MIT 런타임. Whisper 모델 파일은 별도 조건이 있을 수 있습니다.
이 로컬 ZIP 통합 UI — upstream 조건 준수. 공식 Supertone/SYSTRAN 제품이 아닙니다.

배포 안내(이 칼럼): https://min-inter.co.kr/youtube-curator-danbi/columns/supertonic3-free-local-tts-zip-guide · 로컬 고지: http://127.0.0.1:3093/license-notices

재배포·2차 배포 체크리스트

ZIP 루트 LICENSE_NOTICES.txt를 유지합니다.
Supertonic 예제 코드를 재배포하면 upstream MIT 고지·라이선스를 보존합니다 (supertonic-upstream/LICENSE).
Supertonic 3 모델 파일을 묶어 배포하면 Hugging Face 모델 LICENSE 파일을 포함합니다.
faster-whisper 소스·venv·모델 캐시를 묶으면 MIT 및 해당 Whisper 모델 라이선스를 함께 둡니다.
현재 ZIP은 FFmpeg 바이너리를 포함하지 않습니다. 향후 FFmpeg를 묶어 배포하면 GPL/LGPL에 따른 라이선스 고지·소스 제공 의무를 이행해야 합니다.
다운로드 페이지·README에 upstream 링크(Supertonic, 모델 LICENSE, faster-whisper, FFmpeg legal)를 보존합니다.

개인 학습·테스트에서는 부담이 상대적으로 적지만, 공개 콘텐츠·재배포 ZIP·설치 패키지 제작 시에는 LICENSE_NOTICES.txt 전문과 upstream LICENSE를 반드시 확인하세요. 다운로드 버튼 근처에도 「Supertonic 3·faster-whisper 통합 패키지이며 upstream 라이선스·생성물 책임은 사용자에게 있음」을 함께 고지하는 것을 권장합니다. FFmpeg를 언급할 때는 「ZIP 미포함·선택 설치·Gyan GPLv3 빌드」를 명시하세요.

압축을 해제하면 실행 파일, 로컬 TTS 앱, 자막 보정 도구, 라이선스 고지가 명확히 분리된 형태로 정리되어 있습니다.

처음에는 폴더 구성이 다소 복잡해 보일 수 있지만, 실제로 사용자가 직접 실행해야 하는 파일은 루트의 실행.bat 하나입니다. 나머지 디렉터리는 음성 합성 앱, Whisper 자막 보정 도구, 공식 참고 자료, 예제 산출물, 라이선스 고지로 역할이 명확히 분리되어 있습니다.

supertonic3-local-tts-20260516-r4/
  실행.bat
  README.md
  README-ZIP-배포.md
  LICENSE_NOTICES.txt
  sample.txt
  scripts/create_release_zip.py
  supertonic-upstream/
  supertonic3-local-tts/
    requirements.txt
    src/
    ui/
    public/
    data/        # 예제 WAV·자막·Whisper 결과 포함
  supertonic3-whisper-subtitles/
    requirements.txt
    whisper_subtitle_refiner.py
    refine_latest.ps1

실행.bat

Windows 실행 진입점

프로젝트 루트를 자동 식별한 뒤 Python, ffmpeg, .venv-win, 필수 pip 패키지의 상태를 점검합니다. 모든 준비가 완료되면 3093 포트로 로컬 서버를 기동하고 브라우저를 자동으로 엽니다.

supertonic-upstream

공식 Supertonic 참고 원본

공식 예제와 문서를 보관하는 폴더입니다. Python, Node.js, Browser, Java, C++, C#, Go, Swift, Rust, Flutter 등 언어별 예제와 ONNX 호출 방식을 참조할 때 활용합니다.

supertonic3-local-tts

실제 웹앱 본체

Flask 서버, 브라우저 UI, Supertonic Python SDK 래퍼, 대본 카탈로그, 음성 샘플, 생성 결과 저장 로직을 포함하는 핵심 실행 폴더입니다. requirements.txt 또한 이 디렉터리에 위치합니다.

supertonic3-whisper-subtitles

CPU 기반 자막 보정 도구

faster-whisper로 WAV를 재분석해 *_whisper.srt, *_whisper.vtt, *_whisper.txt, *_whisper.json, *_whisper_log.txt를 생성합니다. 독립된 requirements.txt를 사용하므로 가상환경 또한 별도로 관리됩니다.

LICENSE_NOTICES.txt

포함 기술 라이선스 고지

Supertonic 3, faster-whisper, 로컬 웹앱에 포함된 주요 라이선스 정보를 통합 정리한 파일입니다. 서버 실행 중에는 /license-notices 경로에서도 동일한 내용을 확인할 수 있습니다.

data 예제 산출물

출력 형식 미리보기

첫 실행 사용자가 WAV, SRT, VTT, Whisper 보정 JSON 및 로그가 어떤 구조로 저장되는지 즉시 확인할 수 있도록 공개 가능한 예제 파일이 포함되어 있습니다.

README.md

사용자 매뉴얼

빠른 실행, 수동 실행, 환경변수, 트러블슈팅, 라이선스 유의사항을 정리한 문서입니다. 실행이 막힐 경우 가장 먼저 확인해야 할 파일입니다.

sample.txt

테스트용 샘플 대본

첫 사용자가 곧바로 음성을 생성해 볼 수 있도록 준비된 한국어 장문 샘플 대본입니다.

Supertonic 3의 인라인 표현 태그 10종과 웹 UI 생성 옵션을 이해하면, 같은 대본도 훨씬 자연스럽게 다듬을 수 있습니다.

supertone-inc/supertonic 공식 README는 Supertonic 3의 Expression Tags를 “참조 음성·프롬프트 없이 대본 안 꺾쇠괄호만으로 호흡·감정을 넣는 기능”으로 소개합니다. 이 로컬 ZIP의 웹 UI·대본 요청함·/api/options는 동일한 10개 태그와 생성 옵션 메타데이터를 공유합니다.

인라인 표현 태그 10종

태그는 TTS가 읽을 평문에 그대로 넣습니다. UI의 “표현 태그” 버튼을 누르면 커서 위치에 삽입되며, 대본 요청 시 “표현 태그 사용”을 켜면 Codex/Cursor가 expression_tag_guidance 규칙을 따릅니다.

태그

의미

효과

쓰기 좋은 상황

주의

예시

<laugh>

웃음

짧은 웃음·밝은 반응을 넣습니다. 대사 뒤 “정말요?”처럼 가벼운 톤을 살릴 때 유용합니다.

대화형·유머 대본, 칭찬·반가움 장면, 밝은 마무리 문장 뒤.

연속 사용 시 인위적으로 들릴 수 있습니다. 설명문에는 거의 쓰지 않습니다.

오늘도 정말 수고 많으셨어요. <laugh> 이제 한숨 돌릴 시간이에요.

호흡

문장 사이 짧은 숨·쉼을 넣습니다. 긴 문장을 나누거나 다음 문장으로 넘어가기 전에 가장 많이 쓰는 태그입니다.

낭독·안내·교육 대본, 긴 문단 중간, 장면 전환 직전.

문장마다 넣으면 호흡이 과해집니다. 2~3문장에 한 번 정도가 자연스럽습니다.

먼저 준비물을 확인합니다. <breath> 그다음 단계로 넘어갈게요.

놀람

감탄·놀람·예상 밖 반응을 표현합니다.

스토리텔링, 반전, 질문에 대한 강한 반응, “어?”, “정말요?” 뉘앙스가 필요할 때.

정보 전달형 설명문에는 어울리지 않는 경우가 많습니다.

그런데 결과가 완전히 달랐어요. <surprise> 저도 깜짝 놀랐습니다.

<sigh>

한숨

아쉬움·피로·회상·잠시 멈춤을 표현합니다.

위로·회고·실패 후 정리, 감정이 가라앉는 구간.

<breath>보다 감정이 무겁게 들릴 수 있어, 밝은 안내 멘트에는 과합니다.

그때는 정말 힘들었죠. <sigh> 지금은 조금 나아졌어요.

비명·강한 외침

강한 놀람·비명·큰 소리 반응을 넣습니다.

연기·드라마·게임·공포·코미디에서 의도가 분명한 장면.

일반 안내·교육 TTS에는 부적합합니다. 한 대본에 0~1회가 안전합니다.

갑자기 문이 열렸어요. <scream> 모두가 놀랐습니다.

목 가다듬기

말하기 전 목을 가다듬는 소리를 넣습니다.

발표 시작, 마이크 테스트 느낌, 긴 침묵 뒤 첫 문장.

남용하면 촬영 전 리허설 느낌이 과해집니다.

<throatclear> 안녕하세요. 오늘 강의를 시작하겠습니다.

<sad>

슬픔

슬프거나 가라앉은 어조를 유도합니다.

이별·회상·위로·감동 스토리의 감정 하강 구간.

뉴스·매뉴얼 읽기에는 맞지 않을 수 있습니다.

그날 이후로는 연락이 끊겼어요. <sad> 아직도 생각이 나요.

<angry>

분노

짜증·분노·강한 어조를 유도합니다.

연기 대본, 갈등 장면, 강한 항의·질책 대사.

고객 안내·교육 콘텐츠에는 거의 쓰지 않습니다.

또 같은 실수를 반복하셨군요. <angry> 이번엔 정말 문제입니다.

<cough>

기침

짧은 기침 소리를 넣습니다.

캐릭터 연기, 병원·감기 맥락, 현실감이 필요한 장면.

청취 경험을 해칠 수 있어 의도가 있을 때만 사용합니다.

잠깐만요. <cough> 물 한 모금 마시고 이어갈게요.

<yawn>

하품

피곤함·지루함·늦은 밤 분위기를 표현합니다.

일상 브이로그, 졸린 캐릭터, 유머 연출.

진지한 설명·공식 안내에는 피하는 편이 좋습니다.

벌써 새벽이네요. <yawn> 오늘은 여기까지 할게요.

사용 규칙 요약

Supertonic 3는 참조 음성이나 별도 프롬프트 없이, 대본 안의 꺾쇠괄호 태그만으로 호흡·감정을 제어합니다. 공식 저장소는 이를 Expression Tags(표현 태그)로 소개합니다.
태그는 TTS가 읽을 평문 대본에 그대로 포함합니다. 마크다운, 이모지, HTML 장식은 제거·정규화될 수 있으므로 태그와 문장만 남기는 편이 안전합니다.
짧은 대본: 1~3개. 긴 대본: 장면 전환·감정 변화 지점에 소량만. 설명문은 <breath>, <sigh> 위주, 대화·연기는 <laugh>, <surprise>, <sad>, <angry>를 문맥에 맞게.
문장 중간보다 문장 사이·감정이 바뀌는 경계에 두는 것이 안정적입니다. 태그를 많이 넣을수록 어색해질 수 있습니다.
웹 UI 상단 “표현 태그” 버튼을 누르면 커서 위치에 태그가 삽입됩니다. 대본 요청함에서 “표현 태그 사용”을 켜면 Codex/Cursor가 latest.json의 expression_tag_guidance 규칙을 따릅니다.

# 설명형 대본 예시 (호흡 위주)
오늘은 로컬 TTS의 기본 흐름을 정리합니다. <breath>
먼저 ZIP을 받고 실행.bat으로 서버를 띄웁니다. <sigh>
마지막으로 짧은 문장으로 음색을 확인하세요.

# 대화형 대본 예시 (감정 태그 혼합)
정말 고생 많으셨어요. <laugh>
그런데 결과가 예상과 달랐어요. <surprise>
다음에는 조금 더 여유 있게 가봅시다. <breath>

웹 UI 생성 옵션

브라우저는 시작 시 /api/options를 호출해 모델·음성·언어·표현 태그 목록과 기본값·허용 범위를 받습니다. 속도·단계·청크·무음은 상단 프리셋 드롭다운으로 고르고, Custom 1~5 슬롯에 저장할 수 있습니다. 옵션 라벨에 마우스를 올리면 UI 오른쪽 “필터 팁” 패널에도 같은 설명이 표시됩니다.

옵션

UI 이름

범위

기본값

역할

권장

model

모델(Model)

supertonic / supertonic-2 / supertonic-3

supertonic-3

어떤 ONNX TTS 체크포인트를 쓸지 결정합니다. v3는 31개 언어·표현 태그를 지원합니다.

일반 사용은 supertonic-3 고정. v2 호환 테스트가 필요할 때만 변경.

voice

음성(Voice)

M1~M5(남성형), F1~F5(여성형) 프리셋

말투·음색의 기본 틀입니다. voice_style_path가 비어 있을 때 적용됩니다.

같은 문장으로 2~3개 음성을 비교한 뒤 확정. 샘플 재생(왼쪽)과 선택(오른쪽) 버튼이 분리되어 있습니다.

lang

언어(Language)

31개 언어 코드 + na(언어 비지정)

발음·억양·문자 해석 규칙을 정합니다. 한국어 대본은 ko가 가장 안정적입니다.

한국어: ko. 언어를 모를 때: na. 영어·일본어 섞임은 짧은 외래어 위주로 ko 유지 후 샘플 확인.

speed

속도(Speed)

옵션 조정 순서 (권장)

voice·lang으로 음색과 발음 규칙을 먼저 고정합니다.
짧은 문장으로 speed를 1.00~1.10 구간에서 맞춥니다.
total_step 8로 미리듣기 후, 최종본만 10~12로 올립니다.
장문이 끊기거나 반복되면 max_chunk_length를 100~150(한국어)부터 조정합니다.
청크 경계가 급하면 silence_duration을 0.3~0.5초로 늘립니다.
표현 태그는 문장 사이에 소량만 넣고, 만족스러운 조합을 Custom 슬롯에 저장합니다.

공식 Python 예제의 total_steps=8, speed=1.05, lang="en" 또는 lang="na"(언어 비지정)와 동일한 개념입니다. 로컬 UI는 한국어 작업을 기본으로 lang=ko를 둡니다.

실행 전 준비, 생성 결과, 자막 보정, 공개 사용 조건까지 핵심 질문을 항목별로 정리했습니다.

FAQ는 설치 전 단계에서 발생할 수 있는 의문과, 실제 제작 과정에서 자주 부딪히는 질문을 분리해 참고할 수 있도록 구성했습니다. “GPU가 없어도 되는지”라는 단일 질문보다, Python·ffmpeg·가상환경·산출물·라이선스 확인을 포함한 전체 워크플로를 이해하는 것이 더 중요합니다.

아래 문답은 이 ZIP을 처음 받은 사용자가 실행 전에 점검해야 할 사항과, 유튜브 롱폼·언어 교육·자막 제작처럼 반복 합성이 빈번한 작업에서 자주 발생하는 상황을 기준으로 구성되었습니다.

GPU가 정말 없어도 되나요?

네. 이 도구는 처음부터 CPU 전용 실행을 전제로 설계되었습니다. Supertonic 3 TTS는 CPU 환경에서 WAV를 합성할 수 있으며, faster-whisper 보정 또한 CPU int8 설정으로 동작합니다. GPU가 있다면 Whisper 보정 속도 면에서 이점이 있지만, NVIDIA GPU·CUDA·cuDNN을 필수로 요구하는 구성은 아닙니다.

로컬 PC에 필요한 사전 준비물은 무엇인가요?

Windows 10/11 환경을 기준으로 Python 3.11, 최신 크로미움 계열 브라우저, 충분한 디스크 여유 공간이 필요합니다. ZIP에는 .venv-win이 포함되지 않으므로 첫 실행 시 실행.bat이 가상환경 생성과 pip 의존성 설치를 자동으로 처리합니다. 자막 보정과 일부 미디어 처리에는 ffmpeg가 필요할 수 있으며, 누락 시 실행 과정에서 설치 여부를 안내합니다.

첫 실행 시 인터넷 연결이 반드시 필요한가요?

초기 준비 단계에서는 인터넷 연결이 필요할 수 있습니다. Python이나 ffmpeg가 설치되어 있지 않으면 winget 설치 안내가 표시될 수 있고, .venv-win 생성 과정에서 requirements.txt에 명시된 패키지를 내려받아야 할 수 있습니다. Supertonic 또는 Whisper 모델 캐시가 없는 경우에도 최초 다운로드가 필요합니다. 초기 셋업이 완료된 이후에는 동일 PC에서 제한된 네트워크 환경으로 운용이 가능합니다.

ZIP에 .venv-win을 포함하지 않은 이유는 무엇인가요?

가상환경은 사용자 PC의 경로, Python 버전, 설치된 패키지 상태에 종속적이며 용량 또한 큽니다. 이러한 환경 의존성과 휴대성 문제를 해소하기 위해 최종 ZIP에서는 가상환경을 제외하고, 실행.bat이 사용자 PC에서 새롭게 구성하도록 설계했습니다. 초기 셋업 시간이 다소 소요되지만, 다른 PC 간 이식 시 발생하는 경로 충돌과 가상환경 손상 문제를 효과적으로 방지할 수 있습니다.

실행.bat은 정확히 어떤 작업을 수행하나요?

실행.bat은 프로젝트 루트를 식별한 뒤 Python과 ffmpeg의 설치 상태를 점검하고, TTS 앱과 Whisper 도구의 .venv-win 가상환경을 준비합니다. 누락된 의존성이 있을 경우 requirements.txt 기준으로 설치를 진행한 뒤 127.0.0.1:3093 로컬 서버를 기동합니다. 동일 포트에 서버가 이미 떠 있으면 중복 기동 대신 기존 로컬 주소로 안내합니다.

ffmpeg는 반드시 설치해야 하나요?

WAV만 생성하는 기본 TTS 흐름에서는 ffmpeg가 항상 전면에 드러나지 않을 수 있습니다. 다만 Whisper 보정, 오디오 분석, 일부 미디어 처리 안정성을 확보하려면 ffmpeg를 갖춰두는 편이 안전합니다. 실행.bat은 ffmpeg 설치 여부를 점검하고, 없으면 설치 여부를 사용자에게 묻습니다. 별도로 관리하고 있거나 일단 건너뛰고자 한다면 --skip-ffmpeg 옵션을 사용할 수 있습니다.

macOS나 Linux에서도 사용할 수 있나요?

이 가이드의 ZIP 사용 흐름은 Windows 10/11과 실행.bat을 기준으로 설명합니다. 코드 자체는 Python, Flask, Supertonic SDK, faster-whisper를 중심으로 구성되어 있어 macOS나 Linux에서도 수동 실행이 가능하지만, 더블클릭 한 번으로 끝나는 동일 경험을 보장하지는 않습니다. Windows 이외의 환경에서는 start.sh, install.sh, requirements.txt를 기반으로 가상환경을 직접 구성하고 서버를 기동해야 합니다.

긴 유튜브 롱폼 대본을 한 번에 합성할 수 있나요?

기술적으로는 가능하지만, 권장 방식은 분할 합성입니다. 30분 또는 1시간 분량의 대본을 단일 작업으로 처리하면 CPU 합성 시간, 브라우저 대기 시간, 자막 보정 시간이 모두 길어지고, 실패 시 재시작 범위 또한 커집니다. 대본을 5~10분 단위 장(章)으로 나눠 각각 WAV와 자막을 검수한 뒤 편집 단계에서 통합하는 워크플로가 훨씬 안정적입니다.

영어·한국어·중국어·일본어 발음 예제에도 활용할 수 있나요?

언어 교육용 듣기 예제 제작에 적합합니다. 동일 문장을 여러 언어로 분리해 합성하고, 속도와 무음 길이를 조정하면 듣기 예제, 쉐도잉 자료, 문장 읽기 파일을 반복적으로 생성할 수 있습니다. 다만 TTS는 발음 평가 도구가 아닌 듣기 예시 제공 도구라는 점을 유념해야 하며, 교재나 강의에 포함할 경우 원어민 검수 또는 별도 발음 검토 과정을 거치는 편이 안전합니다.

합성이 완료되면 어떤 파일이 생성되나요?

기본적으로 WAV 음성 파일이 생성되며, 실제 TTS에 투입된 대본 TXT, 입력 로그 TXT, 기본 SRT/VTT 자막이 함께 저장됩니다. Whisper 보정을 실행하면 *_whisper.srt, *_whisper.vtt, *_whisper.txt, *_whisper.json, *_whisper_log.txt가 추가로 생성됩니다. 이 산출물 묶음은 결과의 재현성을 확보하고, 영상 편집이나 재합성 작업에 활용하기 위한 표준 기록입니다.

기본 자막과 Whisper 자막을 모두 제공하는 이유는 무엇인가요?

기본 자막은 입력 문장과 전체 음성 길이를 기준으로 빠르게 생성한 초안입니다. 합성 직후 흐름을 가볍게 확인하기에 충분하지만, 실제 발화 타이밍과 완전히 일치한다고 보기는 어렵습니다. Whisper 보정 자막은 생성된 WAV를 재분석해 실제 발화 구간에 맞춘 결과물입니다. 초안 점검은 기본 자막으로, 최종 편집은 Whisper 자막으로 분리하는 운영이 효율적입니다.

무료라는 이유로 공개 영상이나 상업 콘텐츠에 자유롭게 써도 되나요?

아닙니다. 코드와 모델 가중치는 서로 다른 라이선스 조건을 따릅니다. 개인 테스트, 내부 검토, 학습용 샘플 제작은 상대적으로 부담이 적지만, 유튜브 영상, 강의 콘텐츠, 앱 안내 음성과 같이 공개되는 결과물에 활용할 경우 ZIP의 LICENSE_NOTICES.txt와 Supertonic 3 모델 조건을 반드시 확인해야 합니다. 특정 인물 사칭, 동의 없는 음성 모사, 오해를 유발할 수 있는 사용은 명백히 제한됩니다.

이 ZIP은 Supertone Play와 동일한 서비스인가요?

아닙니다. Supertone Play는 슈퍼톤이 운영하는 유료 웹 서비스이며, 이 도구는 공개된 Supertonic 3 엔진을 로컬 PC에서 직접 실행해 음성을 합성할 수 있도록 만든 작업 환경입니다. 계정, 크레딧, 웹 서비스형 사용 흐름을 제공하는 SaaS 제품과는 성격이 다릅니다. 이 ZIP은 사용자가 로컬에서 대본을 입력하고 WAV와 자막을 반복 생성할 수 있도록 묶은 실행 패키지에 가깝습니다.

다운로드한 ZIP의 정상 여부는 어떻게 확인하나요?

다운로드 페이지의 ZIP 파일명과 함께 제공되는 .zip.sha256 파일을 비교해 무결성을 검증할 수 있습니다. PowerShell에서는 Get-FileHash .\supertonic3-local-tts-20260516-r4.zip -Algorithm SHA256 명령으로 해시를 확인합니다. 가이드에 명시된 SHA256 값과 일치하지 않는다면 파일이 변조되었거나 다운로드가 손상되었을 가능성이 있으므로, 재다운로드 또는 최신 안내 값을 다시 확인해야 합니다.

개인 대본이나 생성 로그가 외부로 전송되나요?

이 도구의 기본 사용 흐름은 로컬 서버가 대본을 처리하고 결과 파일을 사용자 PC에 저장하는 방식입니다. 다만 최초 설치 과정에서 패키지나 모델을 내려받기 위해 외부 저장소에 접속할 수는 있습니다. 생성된 data 폴더, 입력 로그, Whisper JSON에는 대본 내용이나 작업 메타데이터가 남을 수 있으므로, 별도의 검토 없이 공개 폴더에 업로드하지 않는 운영 원칙을 권장합니다.

슈퍼토닉3 무료 로컬 TTS 실전 가이드

이 ZIP은 Supertonic 3를 로컬에서 즉시 실행할 수 있도록 통합 패키징한 TTS 작업 환경입니다.

가장 큰 가치는 GPU 없이 CPU만으로 TTS와 자막 보정이 모두 가능하다는 점입니다.

Supertonic 3 TTS

faster-whisper 보정

“CPU만 있으면 된다”는 것은 GPU가 필요 없다는 의미일 뿐, 별도의 로컬 실행 조건은 존재합니다.

Windows 10/11 권장

Python 3.11 권장

requirements.txt 기반 자동 설치

선택 설치 (TTS 필수 아님)

필수 아님

Chrome/Edge 권장

최초 준비 단계에서 필요할 수 있음

여유 공간 권장

쓰기 권한이 보장된 폴더

실행 전 점검 포인트

최종 ZIP은 파일명, SHA256, 포함·제외 항목을 사전 확인한 뒤 사용하는 편이 안전합니다.

로컬 온디바이스 TTS의 핵심 가치는 필요한 음성 파일을 반복적으로 재생성할 수 있다는 점에 있습니다.

무료로 실행할 수 있다는 사실과 공개 콘텐츠에 자유롭게 사용할 수 있다는 사실은 별개입니다.

다운로드·배포 시 짧은 고지

FFmpeg — 선택 설치, ZIP 미포함, GPL 주의

라이선스 4계층 요약

재배포·2차 배포 체크리스트

Supertone Play와 Supertonic 3는 동일 기업의 제품이지만, 성격과 목적이 명확히 구분됩니다.

Supertone Play

Supertonic 3

이 로컬 도구

하이브의 슈퍼톤 투자 이력은 장기적 기술 개발 가능성을 가늠할 때 참고할 만한 배경입니다.

압축을 해제하면 실행 파일, 로컬 TTS 앱, 자막 보정 도구, 라이선스 고지가 명확히 분리된 형태로 정리되어 있습니다.

Windows 실행 진입점

공식 Supertonic 참고 원본

실제 웹앱 본체

CPU 기반 자막 보정 도구

포함 기술 라이선스 고지

출력 형식 미리보기

사용자 매뉴얼

테스트용 샘플 대본

실행.bat은 초기 셋업을 자동으로 완료한 뒤 127.0.0.1:3093에서 로컬 페이지를 엽니다.

ZIP 다운로드 및 무결성 확인

압축 해제 위치 선정

실행.bat을 통한 초기 셋업

브라우저 자동 접속

웹 UI는 대본 선택, 화자 선택, 생성 설정, 다운로드까지의 전 과정을 단일 화면에서 제공합니다.

대본 입력

표현 태그

음성 샘플

사용자 설정

Supertonic 3의 인라인 표현 태그 10종과 웹 UI 생성 옵션을 이해하면, 같은 대본도 훨씬 자연스럽게 다듬을 수 있습니다.

인라인 표현 태그 10종

사용 규칙 요약

웹 UI 생성 옵션

옵션 조정 순서 (권장)

생성 버튼을 누르면 대본 정규화, CPU 음성 합성, 보조 산출물 저장이 일관된 순서로 수행됩니다.

브라우저에서 TTS payload 구성

짧은 대본은 /api/tts로 즉시 처리

긴 대본은 /api/tts-job 백그라운드 처리

입력 텍스트 정규화

Supertonic SDK의 WAV 합성

보조 산출물 동시 저장

Whisper 보정은 CPU만으로 실제 발화 타이밍에 정밀하게 맞춘 자막을 다시 생성합니다.

기본 자막은 빠르지만 근사값에 가깝다

faster-whisper의 WAV 재분석

실제 발화 기준 산출물 생성

GPU 대비 속도 트레이드오프 인지

대본 요청함은 원하는 주제와 톤을 기록해 두는 메모 시스템에 가까운 역할을 합니다.

처음에는 안정적인 CPU 권장값으로 시작하고, 짧은 샘플을 통해 점진적으로 튜닝하는 방식을 권장합니다.

일반 한국어 낭독

긴 설명형 대본

짧은 안내·알림 멘트

CPU 전용 운영 가이드

합성이 완료되면 WAV뿐 아니라 대본·로그·자막 파일이 한 묶음으로 보존됩니다.

처음 다운로드했다면 짧은 샘플로 검증한 뒤, 공개 콘텐츠에는 사용 조건을 재확인하고 활용하세요.

먼저 시도해 볼 것

반드시 주의할 것