본 사이트는 파트너스 활동으로 수수료를 받으며, 서버 운영과 무료 앱 개발에 사용됩니다.
    본 사이트는 파트너스 활동으로 수수료를 받으며,서버 운영과 무료 앱 개발에 사용됩니다.
    CDB
    큐레이터 단비's 웹앱 아이디어 창고
    홈무료 앱큐레이터 단비프롬프트칼럼PPT위키AI 이미지AI 툴프로그램쇼핑 핫딜부업 백과RSS개발용어 사전
    CDB
    큐레이터 단비's 웹앱 아이디어 창고

    🧰 웹앱 · 📺 단비 · 📰 이슈트래커 · 📄 기타 페이지를 한 곳에서. 모든 도구를 쉽고 빠르게 사용하세요.

    사이트 방문
    전체-오늘-고유 전체-고유 오늘-
    방문 통계 / 인기 앱 순위 보러 가기→

    제품

    • 모든 도구
    • 카테고리
    • 인기 도구
    • 새로운 도구
    • 사이트맵

    지원

    • 통계
    • 업데이트
    • 도움말
    • 문의하기
    • 버그 신고
    • FAQ

    법적 고지

    • 개인정보처리방침
    • 이용약관
    • 쿠키 정책

    웹앱 아이디어 창고 - 모든 도구를 한 곳에서 © 2025 큐레이터 단비. All right reserved.

    Built with ❤️ using Next.js & Vercel

    칼럼 목록2026.05.16CPU-only local TTS

    Supertonic 3 + faster-whisper

    슈퍼토닉3 무료 로컬 TTS 실전 가이드

    ZIP 한 개로 음성 합성과 자막 보정을 모두 처리하는 로컬 워크플로를 정리했습니다. 설치 시 필요한 사전 조건, 생성되는 산출물의 구조, GPU 없이 CPU만으로 어디까지 가능한지를 차례대로 짚어보세요.

    핵심 요약

    NVIDIA GPU·CUDA·클라우드 TTS 없이도, 로컬 PC 한 대에서 WAV와 SRT/VTT 산출물을 완성할 수 있는 통합 도구입니다.

    CPU TTSCPU WhisperMIT 코드Open RAIL-M 모델

    목차

    핵심 이해

    배경 구분

    설치와 사용

    내부 로직

    사용 전 확인

    Definition

    이 ZIP은 Supertonic 3를 로컬에서 즉시 실행할 수 있도록 통합 패키징한 TTS 작업 환경입니다.

    Supertonic 3는 슈퍼톤이 공개한 온디바이스 다국어 TTS 엔진입니다. 공식 저장소는 ONNX 런타임 기반의 실행 구조, 31개 언어 지원, 약 99M 파라미터 규모의 공개 가중치, 그리고 데스크톱·모바일·브라우저·라즈베리파이까지 아우르는 폭넓은 배포 환경을 강조합니다. 핵심은 “로컬 실행”이라는 설계 철학입니다. 텍스트를 외부 서버로 전송해 합성하는 방식이 아니라, 사용자의 PC 안에서 준비된 모델과 런타임만으로 음성을 생성합니다.

    이 도구는 그 위에 웹 UI, 실행.bat, 음성 샘플, 대본 카탈로그, faster-whisper 자막 보정 도구를 결합한 통합 패키지입니다. 사용자는 ZIP을 해제한 뒤 실행 파일을 더블클릭하고, 브라우저에서 대본과 화자를 선택하기만 하면 됩니다. 명령행 도구를 직접 다루어야 하는 진입 장벽을 최소화하는 데 초점을 두었습니다.

    TTS 실행 방식

    GPU 불필요

    Supertonic 3는 ONNX 런타임 기반의 온디바이스 TTS 엔진입니다. NVIDIA GPU나 CUDA 환경을 별도로 갖추지 않아도, 일반적인 사양의 CPU만으로 한국어를 비롯한 다국어 음성을 합성할 수 있습니다.

    자막 보정 방식

    Whisper도 CPU 실행

    faster-whisper의 자막 보정 또한 CPU int8 연산을 기본값으로 채택해, 별도의 GPU 가속 없이도 동작합니다. GPU가 있다면 속도 면에서 이점이 있지만, 일반 Windows PC에서도 WAV를 재분석해 SRT/VTT를 생성할 수 있다는 점이 핵심입니다.

    배포 형태

    ZIP + 실행.bat

    공식 페이지에서 ZIP을 내려받아 압축을 푼 뒤 실행.bat을 실행하면, 로컬 서버가 127.0.0.1:3093 주소로 자동 기동됩니다. 별도의 설치 마법사나 시스템 권한 부여 과정이 필요하지 않습니다.

    대본 자동 생성

    LLM 직접 호출은 없음

    웹앱 자체는 ChatGPT나 Claude 등 외부 LLM API를 직접 호출하지 않습니다. 사용자가 “대본 요청”을 저장하면 JSON 파일이 기록되며, Codex나 Cursor 같은 보조 도구가 이를 참고해 대본 파일과 카탈로그를 갱신하는 분리형 구조입니다.

    Why it matters

    가장 큰 가치는 GPU 없이 CPU만으로 TTS와 자막 보정이 모두 가능하다는 점입니다.

    로컬 AI 도구를 도입할 때 가장 큰 부담은 GPU 환경 구성입니다. CUDA 버전, NVIDIA 드라이버, VRAM 용량을 맞추는 과정은 입문 사용자에게 상당한 진입 장벽으로 작용합니다. 이 도구는 그 부담을 구조적으로 해소합니다. 음성 합성과 자막 보정 모두 CPU에서 처리할 수 있도록 설계되어 있어, 일반적인 사양의 Windows PC에서도 곧바로 워크플로를 검증할 수 있습니다.

    Supertonic 3 TTS

    공식 문서는 GPU 없이도 동작하는 온디바이스 모델이라는 점을 명확히 밝히고 있습니다. 본 ZIP은 이러한 설계 철학을 그대로 계승해 CPU 기반 WAV 합성을 기본 워크플로로 채택합니다.

    faster-whisper 보정

    faster-whisper는 CPU int8 실행 예시와 공식 벤치마크를 제공합니다. GPU 가속을 전제하지 않더라도, CPU만으로 생성된 WAV를 재분석해 자막 정확도를 확보할 수 있습니다.

    물론 CPU 전용 실행은 GPU 대비 절대 속도에서 불리할 수 있습니다. 특히 medium이나 large-v3 모델로 장문 대본을 보정할 때는 처리 시간이 길어지는 경향이 있습니다. 그럼에도 고성능 장비 없이 음성 파일과 자막 초안을 직접 생성할 수 있다는 사실은, 실제 콘텐츠 제작 환경에서 분명한 경쟁력으로 작용합니다.

    Local requirements

    “CPU만 있으면 된다”는 것은 GPU가 필요 없다는 의미일 뿐, 별도의 로컬 실행 조건은 존재합니다.

    Supertonic 3와 faster-whisper가 CPU에서 동작한다고 해서, 아무런 사전 준비 없이 즉시 실행된다는 의미는 아닙니다. 이 ZIP은 Python 기반 웹 서버를 기동한 뒤 그 안에서 Supertonic SDK와 faster-whisper를 호출하는 구조이므로, 최소한의 런타임 환경은 반드시 갖춰져야 합니다.

    운영체제

    Windows 10/11 권장

    기본 실행 진입점은 Windows용 실행.bat입니다. Windows 환경에서는 더블클릭만으로 기동이 가능하며, Linux나 macOS에서는 start.sh를 활용하거나 수동 실행 절차를 거쳐야 합니다.

    Python

    Python 3.11 권장

    ZIP에는 .venv-win 가상환경이 포함되어 있지 않습니다. 실행.bat은 사용자 PC에 설치된 Python을 먼저 탐색한 뒤, 발견되지 않을 경우 winget을 통해 Python 3.11 설치 여부를 안내합니다.

    Python 패키지

    requirements.txt 기반 자동 설치

    TTS 앱과 Whisper 보정 도구는 각각 독립된 requirements.txt를 갖습니다. 실행.bat은 .venv-win을 생성한 뒤 supertonic, Flask, faster-whisper를 포함한 필수 의존성을 자동으로 설치합니다.

    ffmpeg

    선택 설치 (TTS 필수 아님)

    Supertonic 3 WAV 생성·기본 웹 UI 실행에는 FFmpeg가 없어도 됩니다. 실행.bat은 ffmpeg가 없을 때만 winget으로 Gyan.FFmpeg(GPLv3 빌드로 안내) 설치를 제안하며, 설치 전 라이선스 설명과 동의 확인을 표시합니다. ZIP에는 FFmpeg가 포함되지 않습니다. --skip-ffmpeg로 건너뛸 수 있습니다.

    GPU/CUDA

    필수 아님

    GPU 없이 CPU만으로 TTS 생성과 Whisper 자막 보정이 모두 가능합니다. NVIDIA GPU, CUDA, cuDNN은 필수 요구사항이 아니며, GPU가 있을 경우 Whisper 보정 속도에서만 이점을 얻을 수 있습니다.

    브라우저

    Chrome/Edge 권장

    실행.bat이 로컬 서버를 기동한 뒤 자동으로 http://127.0.0.1:3093 주소를 엽니다. 웹 UI를 통해 대본 선택, 음성 선택, 생성, 다운로드가 이루어지므로 최신 버전의 크로미움 계열 브라우저 사용을 권장합니다.

    인터넷 연결

    최초 준비 단계에서 필요할 수 있음

    첫 실행 시 Python, ffmpeg, pip 패키지, Supertonic 모델, Whisper 모델을 다운로드해야 할 수 있습니다. 초기 셋업이 완료된 뒤에는 동일 PC에서 제한된 네트워크 환경으로도 운용이 가능합니다.

    저장공간

    여유 공간 권장

    ZIP 자체는 약 159 MiB이지만, 압축 해제 이후 .venv-win, 모델 캐시, 생성 WAV 및 자막 파일이 누적되며 용량이 빠르게 증가합니다. 장문 TTS를 다룰 계획이라면 수 GB 이상의 여유 공간 확보를 권장합니다.

    실행 권한

    쓰기 권한이 보장된 폴더

    생성 결과는 supertonic3-local-tts/data 폴더에 저장됩니다. Program Files처럼 권한이 제한된 경로보다는 사용자 폴더, 바탕화면, D 드라이브와 같이 쓰기 권한이 자유로운 경로에 압축을 푸는 것이 안정적입니다.

    실행 전 점검 포인트

    이 도구는 Windows 로컬 실행을 기준으로 구성되어 있습니다. GPU나 CUDA는 필요하지 않으나, Python과 필수 의존 패키지는 반드시 갖춰져야 합니다. 최종 ZIP에 .venv-win이 포함되지 않는 만큼, 첫 실행에서는 가상환경 생성과 패키지 설치 과정이 자동으로 수행됩니다.

    Download check

    최종 ZIP은 파일명, SHA256, 포함·제외 항목을 사전 확인한 뒤 사용하는 편이 안전합니다.

    최종 배포 매니페스트를 살펴보면, 이 ZIP은 실행에 반드시 필요한 소스·문서·예제 산출물은 포함하되 가상환경과 서버 로그처럼 환경 의존적인 요소는 제외한 형태로 패키징되어 있습니다. 사용자는 파일명과 SHA256만 확인해도 다운로드 단계에서 발생할 수 있는 오류를 효과적으로 차단할 수 있습니다.

    안전 다운로드

    2026.05.17 r4

    supertonic3-local-tts-20260517-r4.zip

    171.6 MB (179,897,490 bytes)

    다운로드 시 서버·브라우저에서 SHA-256을 자동 검증합니다.

    SHA-256

    0651a2d946c74cc23dfcc8648b0a174d16527f688a6b0b3209b718bcda69fd6f

    패키지 파일 수: 274개

    제외 항목(매니페스트): .git, .mypy_cache, .pytest_cache, .venv, .venv-win, __pycache__, dist, docs, node_modules, README-ZIP-배포-방법-현황.md, server.err, server.log, server_stderr.log, server_stdout.log

    항목
    확인값
    의미
    현재 배포 중인 ZIP
    supertonic3-local-tts-20260517-r4.zip
    DB에 등록된 최신 빌드입니다. 다운로드 시 SHA-256이 자동 검증됩니다.
    파일 수 및 용량
    274 files / 179,897,490 bytes
    약 159 MiB 규모입니다. 압축 해제 이후에는 Python 가상환경, 모델 캐시, 생성 산출물이 추가되므로 실제 사용 용량은 이보다 더 늘어납니다.
    SHA256 해시
    0651a2d946c74cc23dfcc8648b0a174d16527f688a6b0b3209b718bcda69fd6f
    함께 배포되는 .zip.sha256 파일과 비교해 일치 여부를 확인하면 다운로드 중 발생할 수 있는 손상 여부를 검증할 수 있습니다.
    포함된 구성 요소
    실행.bat, README, LICENSE_NOTICES.txt, requirements.txt, 예제 산출물
    data 폴더에는 첫 사용자가 출력 형식을 미리 확인할 수 있도록 WAV, SRT, VTT, Whisper 분석 결과 등 공개 가능한 예제 파일이 함께 들어 있습니다.
    제외된 항목
    .git, .mypy_cache, .pytest_cache, .venv, .venv-win, __pycache__, dist, docs, node_modules
    가상환경은 ZIP에 포함되어 있지 않습니다. 첫 실행 시 실행.bat이 사용자 PC 환경에 맞춰 가상환경과 의존성을 새로 구성합니다.
    # PowerShell에서 ZIP의 SHA256 해시 확인 예시
    Get-FileHash .\supertonic3-local-tts-20260517-r4.zip -Algorithm SHA256

    Use cases

    로컬 온디바이스 TTS의 핵심 가치는 필요한 음성 파일을 반복적으로 재생성할 수 있다는 점에 있습니다.

    로컬 TTS는 “단번에 완성도 높은 음성을 만들어주는 도구”라기보다, “필요할 때마다 WAV를 자유롭게 다시 생성할 수 있는 제작 환경”에 가깝습니다. 글자 수, 처리 시간, 크레딧 단위로 비용이 누적되는 클라우드 TTS와 달리, 초안 검수·반복 테스트·교육 자료 제작·장문 낭독과 같이 시안 반복이 필수적인 작업에서 특히 강점을 발휘합니다. 물론 전기, 시간, 저장공간은 사용됩니다. 본문에서 “비용 부담이 없다”는 표현은 클라우드 TTS의 과금이나 월 구독 크레딧을 소모하지 않는다는 의미로 한정됩니다.

    사용 사례
    로컬 TTS가 적합한 이유
    권장 워크플로
    유의사항
    유튜브 롱폼·초장문 내레이션
    클라우드 TTS는 글자 수, 처리 시간, 크레딧 단위로 비용이 누적되는 구조입니다. 로컬 TTS는 추가 과금 없이 동일한 대본을 반복적으로 재생성할 수 있어, 길이가 긴 영상 제작에 적합합니다.
    대본을 장(章) 단위로 분할한 뒤 /api/tts-job 백그라운드 작업으로 순차 처리합니다. WAV, 대본 TXT, 입력 로그, 기본 SRT/VTT를 함께 저장하고, 최종본은 Whisper 보정 자막으로 타이밍을 맞춥니다.
    CPU 전용 환경 특성상 처리 시간이 다소 길어질 수 있습니다. 한 시간 분량을 일괄 생성하기보다 5~10분 단위로 분할해 진행하면 오류 복구와 편집 효율이 모두 좋아집니다.
    다국어 발음 예제 제작
    교육 자료나 발음 비교 예제는 동일 문장을 여러 언어와 다양한 화자로 반복 생성해야 합니다. 로컬 생성 환경에서는 테스트 횟수에 대한 비용 부담 없이 자유롭게 시안을 만들 수 있습니다.
    동일 문장을 ko, en, zh, ja 등 언어별 대본으로 분리해 비교 생성합니다. 인사말, 숫자, 날짜 표현, 짧은 회화문 등을 M/F 화자별로 각각 생성하면 자료 구성이 수월합니다.
    TTS는 원어민 교사의 발음 판단을 대체하는 도구가 아닙니다. 교재나 강의에 포함할 경우 “듣기 예시” 용도로 활용하고, 정확한 발음 평가는 별도 검수가 필요합니다.
    문장 읽기·쉐도잉 학습 자료
    동일 문장을 느린 속도, 보통 속도, 빠른 속도 등 다양한 버전으로 생성할 수 있습니다. 반복 학습용 음성 파일을 무제한 생성하더라도 추가 과금이 발생하지 않습니다.
    speed 값을 0.95, 1.00, 1.10 등으로 단계화해 같은 대본을 여러 파일로 출력합니다. 문장 사이 silence_duration을 늘리면 학습자가 따라 말하기 좋은 공백을 손쉽게 만들 수 있습니다.
    학습 자료에서는 과도한 감정 연기보다 일정한 속도와 명료한 발성이 효과적입니다. 표현 태그는 최소한으로 사용하는 편을 권장합니다.
    블로그·전자책·문서 낭독
    긴 문서를 청각적으로 검토하면 어색한 문장, 중복 표현, 호흡이 긴 문단을 빠르게 발견할 수 있습니다. 로컬 TTS는 초안 검수용 오디오를 부담 없이 반복 생성할 수 있는 환경을 제공합니다.
    문서를 1,000~3,000자 단위로 분할해 생성하고, 결과 WAV를 들으며 문장을 다듬습니다. 입력 로그가 함께 남기 때문에 어떤 설정으로 만든 음성인지 사후 추적이 가능합니다.
    표, URL, 괄호, 특수기호는 TTS가 부자연스럽게 읽을 수 있습니다. 사람이 낭독한다는 가정으로 문장을 정제한 뒤 합성하는 편이 안정적입니다.
    앱·웹서비스 안내 음성
    버튼 안내, 오류 메시지, 튜토리얼 문구는 짧은 음성을 자주 교체해야 합니다. 로컬 TTS는 문구 수정 직후 새 WAV를 즉시 생성할 수 있어 프로토타이핑 단계에 잘 맞습니다.
    짧은 문구는 /api/tts 엔드포인트로 즉시 생성하고, 파일명을 기능 단위로 체계화합니다. “업로드가 완료되었습니다”, “다시 시도해 주세요”와 같은 안내문을 빠르게 비교 테스트할 수 있습니다.
    서비스에 탑재되는 안내 음성은 톤, 속도, 음량을 일관되게 유지하는 편이 안정적입니다. 화자를 혼용하면 사용자 경험에서 품질이 들쭉날쭉하게 느껴질 수 있습니다.
    영상 편집용 더미 보이스·초안 더빙
    최종 성우 녹음 이전, 컷 길이와 호흡을 맞추기 위한 더미 보이스가 필요한 경우가 많습니다. 로컬 TTS는 편집용 임시 음성을 빠르게 마련할 수 있어 프리프로덕션 단계에 효과적입니다.
    초안 대본을 TTS로 생성한 뒤 편집 타임라인에 배치해 영상 길이를 우선 확정합니다. 이후 실제 녹음이나 유료 음성 서비스를 활용하더라도, 편집 의사결정에 드는 시간을 크게 줄일 수 있습니다.
    최종 공개물에 활용할 경우 라이선스와 사용 조건을 재확인해야 합니다. 특히 특정 인물 사칭이나 동의 없는 음성 모사는 명백히 회피해야 할 영역입니다.
    자막 파일이 필수인 반복 제작
    음성 외에 SRT/VTT가 함께 필요할 경우 수작업 비중이 커집니다. 이 도구는 WAV, 기본 자막, Whisper 보정 자막을 하나의 산출물 묶음으로 자동 저장합니다.
    기본 SRT/VTT로 초안을 빠르게 검토하고, 최종 편집 단계에서 faster-whisper 보정을 실행합니다. Whisper 결과의 JSON과 로그까지 보존해 타이밍 이슈를 정밀하게 추적할 수 있습니다.
    Whisper 보정은 CPU에서도 동작하지만 장시간 파일에서는 처리 시간이 길어집니다. 초안은 small, 최종본은 medium 이상으로 단계별로 운영하는 방식이 현실적입니다.
    오프라인·사내망·개인 작업 환경
    외부 TTS 서비스에 원고를 업로드하기 어려운 작업이 있습니다. 로컬 실행은 대본과 생성 결과를 사용자 PC 내부에 머무르게 한다는 점에서 보안·기밀 측면의 이점을 제공합니다.
    모델과 의존성을 미리 준비해 둔 뒤, 인터넷이 제한된 환경에서도 실행할 수 있습니다. 생성 결과는 SUPERTONIC3_OUTPUT_DIR 환경변수 또는 기본 data 폴더에 저장됩니다.
    ZIP에는 .venv-win이 포함되지 않으므로, 완전 오프라인에 가깝게 운영하려면 Python, 가상환경, 패키지, 모델 캐시를 사전에 준비해 두는 과정이 필요합니다.

    License

    무료로 실행할 수 있다는 사실과 공개 콘텐츠에 자유롭게 사용할 수 있다는 사실은 별개입니다.

    개인 테스트와 공개 콘텐츠 제작은 책임 범위가 다릅니다. 집에서 발음 예제를 만들거나 초안 음성을 검토하는 것과, 유튜브 영상·강의 교재·서비스 안내 음성처럼 외부에 노출되는 결과물에 활용하는 것은 적용되는 라이선스 조건과 윤리적 기준 모두에서 차이가 있습니다. 아래 내용은 ZIP 루트 LICENSE_NOTICES.txt(Supertonic 3 Local TTS Integration)를 칼럼용으로 요약한 것이며, 법적 자문을 대체하지 않습니다.

    다운로드·배포 시 짧은 고지

    • 이 ZIP은 Supertonic 3·faster-whisper를 묶은 로컬 통합 패키지이며, 원본 코드·모델 가중치·의존성은 각각의 업스트림 라이선스를 따릅니다.
    • 「무료 다운로드」·「무료 로컬 사용」을 무제한 권리로 해석하면 안 됩니다. 코드(MIT)와 모델(Open RAIL-M)은 별개입니다.
    • 생성한 텍스트·음성·자막·로그에 대한 책임은 사용자에게 있습니다. 사칭, 동의 없는 음성 복제, 기만·괴롭힘·불법·유해 자동 생성 용도는 금지됩니다.
    구분
    라이선스
    사용자에게 의미하는 것
    확인할 점
    Supertonic 실행 코드
    MIT License
    Supertonic을 호출하는 예제 코드와 문서는 비교적 자유로운 MIT 라이선스를 따릅니다. 이 도구가 어떤 공개 기술 위에서 동작하는지 확인하고자 할 때 참고하는 영역입니다.
    코드의 라이선스가 MIT라고 해서 음성 모델 가중치까지 동일한 조건이 적용되는 것은 아닙니다. 모델 사용 조건은 별도로 확인해야 합니다.
    Supertonic 3 모델 가중치
    BigScience Open RAIL-M
    실제 음성 합성을 담당하는 모델 가중치에는 Open RAIL-M 계열의 책임 있는 AI 라이선스 조항이 적용됩니다. 개인 테스트와 공개 콘텐츠 제작은 성격이 다르므로, 외부에 공개되는 결과물에 활용하기 전 조항을 검토하는 편이 안전합니다.
    무료로 다운로드할 수 있다는 사실과 무제한 사용 권한이 부여된다는 사실은 다릅니다. 특히 사칭, 무단 음성 복제, 유해 콘텐츠 자동 생성과 같은 용도는 명시적으로 제한됩니다.
    faster-whisper
    MIT License
    생성된 WAV를 다시 분석해 실제 발화 구간에 맞춘 SRT/VTT 자막을 생성하는 데 사용됩니다. 자막 정확도가 요구되는 유튜브 영상 제작에 특히 유용합니다.
    Whisper 모델을 새로 내려받는 구성이라면, 최초 실행 시 일시적으로 인터넷 연결이 필요할 수 있습니다. faster-whisper 런타임(MIT)과 Whisper 계열 모델 파일의 라이선스는 별도로 구분해 확인해야 합니다.
    FFmpeg (선택 설치, ZIP 미포함)
    Gyan 빌드: GPLv3 / FFmpeg 본체: LGPLv2.1+
    Supertonic 3 WAV 생성에는 FFmpeg가 필수가 아닙니다. 실행.bat은 PC에 ffmpeg가 없을 때만 winget으로 Gyan.FFmpeg 설치를 제안합니다. 비-WAV 미디어 변환·일부 변환 기반 자막 싱크는 FFmpeg 없으면 제한될 수 있습니다.
    이 ZIP에는 FFmpeg 바이너리가 들어 있지 않습니다. Gyan 빌드는 GPLv3로 안내됩니다. GPL 구성 요소가 포함된 FFmpeg를 제3자에게 재배포·서비스에 포함할 경우 GPL에 따른 소스코드 제공·고지 의무가 생길 수 있으므로, 설치 전 legal 페이지를 확인하세요. --skip-ffmpeg로 설치를 건너뛸 수 있습니다.
    이 로컬 TTS 패키지
    원본 조건 준수
    Supertonic 3, faster-whisper, 로컬 웹 UI, 실행 스크립트, 샘플 대본을 한 번에 실행할 수 있도록 묶어 배포한 통합 도구입니다.
    ZIP 루트 LICENSE_NOTICES.txt와 로컬 http://127.0.0.1:3093/license-notices 에 Supertonic 3·faster-whisper·FFmpeg·재배포 체크리스트가 정리되어 있습니다. 공식 Supertonic/SYSTRAN 제품이 아니며, 생성 음성·자막에 대한 책임은 사용자에게 있습니다.

    FFmpeg — 선택 설치, ZIP 미포함, GPL 주의

    이 배포 ZIP에는 FFmpeg 바이너리가 들어 있지 않습니다. 실행.bat은 사용자 PC에 ffmpeg가 없을 때만 Gyan.FFmpeg(winget) 설치를 제안합니다. 퍼블리셔는 해당 빌드를 GPLv3 빌드로 설명합니다. FFmpeg 본체는 일반적으로 LGPLv2.1 이상이지만, GPL 구성 요소가 포함된 빌드는 GPL 조건의 적용을 받을 수 있습니다.

    • TTS 필수 아님: FFmpeg 없이도 Supertonic 3 WAV 생성과 로컬 웹 UI(127.0.0.1:3093) 실행이 가능합니다. MP3·M4A·MP4 등 비-WAV 미디어 변환, 변환 기반 정밀 자막 싱크는 제한될 수 있습니다.
    • 설치는 선택: 실행.bat은 라이선스 설명 후 사용자 동의를 받고, --skip-ffmpeg로 건너뛸 수 있습니다.
    • 재배포·서비스 제공 시: GPL FFmpeg 바이너리를 제3자에게 배포·제공하거나 자신의 제품에 포함해 배포하는 경우, GPL에 따른 소스코드 제공(source offer), 저작권·라이선스 고지 유지 등 의무가 생길 수 있습니다. 개인 PC에만 설치해 자신만 쓰는 경우와, ZIP·설치 패키지·SaaS에 FFmpeg를 묶어 다시 나누는 경우는 책임 범위가 다릅니다.
    • 설치·재배포 전 FFmpeg legal, Gyan FFmpeg builds를 확인하세요.

    라이선스 4계층 요약

    1. Supertonic GitHub 예제 코드 — MIT. 코드 라이선스가 모델 가중치까지 확장되지는 않습니다.
    2. Supertonic 3 모델 — Open RAIL-M 계열. 사용 제한·생성물 책임은 upstream LICENSE를 따릅니다.
    3. faster-whisper — MIT 런타임. Whisper 모델 파일은 별도 조건이 있을 수 있습니다.
    4. 이 로컬 ZIP 통합 UI — upstream 조건 준수. 공식 Supertone/SYSTRAN 제품이 아닙니다.

    배포 안내(이 칼럼): https://min-inter.co.kr/youtube-curator-danbi/columns/supertonic3-free-local-tts-zip-guide · 로컬 고지: http://127.0.0.1:3093/license-notices

    재배포·2차 배포 체크리스트

    • ZIP 루트 LICENSE_NOTICES.txt를 유지합니다.
    • Supertonic 예제 코드를 재배포하면 upstream MIT 고지·라이선스를 보존합니다 (supertonic-upstream/LICENSE).
    • Supertonic 3 모델 파일을 묶어 배포하면 Hugging Face 모델 LICENSE 파일을 포함합니다.
    • faster-whisper 소스·venv·모델 캐시를 묶으면 MIT 및 해당 Whisper 모델 라이선스를 함께 둡니다.
    • 현재 ZIP은 FFmpeg 바이너리를 포함하지 않습니다. 향후 FFmpeg를 묶어 배포하면 GPL/LGPL에 따른 라이선스 고지·소스 제공 의무를 이행해야 합니다.
    • 다운로드 페이지·README에 upstream 링크(Supertonic, 모델 LICENSE, faster-whisper, FFmpeg legal)를 보존합니다.

    개인 학습·테스트에서는 부담이 상대적으로 적지만, 공개 콘텐츠·재배포 ZIP·설치 패키지 제작 시에는 LICENSE_NOTICES.txt 전문과 upstream LICENSE를 반드시 확인하세요. 다운로드 버튼 근처에도 「Supertonic 3·faster-whisper 통합 패키지이며 upstream 라이선스·생성물 책임은 사용자에게 있음」을 함께 고지하는 것을 권장합니다. FFmpeg를 언급할 때는 「ZIP 미포함·선택 설치·Gyan GPLv3 빌드」를 명시하세요.

    Product context

    Supertone Play와 Supertonic 3는 동일 기업의 제품이지만, 성격과 목적이 명확히 구분됩니다.

    슈퍼톤은 Supertone Play라는 유료 TTS·보이스 서비스를 운영합니다. Play는 웹 인터페이스, API 사용량, 보이스 클로닝, 다운로드 권한, 상업적 활용 조건 등을 요금제와 연계해 제공하는 전형적인 SaaS 제품입니다.

    반면 Supertonic 3는 로컬 실행에 초점을 맞춘 공개 TTS 프로젝트입니다. 사용자는 외부 서비스에 원고를 전송하지 않고 자신의 PC 내부에서 음성을 합성할 수 있습니다. 유료 서비스의 대체재라기보다는, 로컬 음성 생성 워크플로를 직접 설계할 수 있도록 공개된 엔진에 가깝습니다.

    Supertone Play

    요금제, 계정, API, 상업적 사용 조건이 결합된 SaaS 형태의 유료 제품입니다.

    Supertonic 3

    ONNX 기반 공개 TTS 엔진으로, 로컬·브라우저·엣지 디바이스 실행에 특화되어 있습니다.

    이 로컬 도구

    대본 입력, 음성 합성, 자막 보정을 단일 화면에서 처리하도록 통합한 사용자 친화형 작업 환경입니다.

    Company context

    하이브의 슈퍼톤 투자 이력은 장기적 기술 개발 가능성을 가늠할 때 참고할 만한 배경입니다.

    슈퍼톤은 하이브 계열의 AI 오디오 기술 회사입니다. 연합뉴스 보도에 따르면 하이브는 2023년 1월 31일 슈퍼톤에 450억 원을 추가 투자해 지분 56.1%를 확보했으며, 2021년에 먼저 취득한 18.2% 지분을 더해 최대주주 지위에 올랐습니다.

    사용자가 이러한 배경을 인지해 두면 도움이 됩니다. 음성 AI는 모델 연구, 음성 데이터 확보, 제품화, 안전 정책의 지속적 업데이트가 필수적인 분야이기 때문입니다. 콘텐츠 기업인 하이브와 음성 합성 기술을 보유한 슈퍼톤의 결합은 향후 기술적 개선 가능성을 기대하게 만드는 요인입니다. 다만 모기업의 안정성과 별개로, 개별 라이선스 조건은 별도로 검토해야 한다는 원칙은 그대로 유지됩니다.

    하이브 공식 사업 페이지 역시 슈퍼톤을 AI 오디오 기술 회사로 소개하며 음악, 영화, 유튜브, 버튜버 콘텐츠 영역과의 시너지를 언급하고 있습니다. 유튜브 내레이션, 언어 교육 음성, 안내 멘트처럼 크리에이터가 자주 활용하는 음성 자료를 로컬에서 직접 생성할 수 있다는 점이 이러한 사업 방향과 자연스럽게 맞물립니다.

    Package map

    압축을 해제하면 실행 파일, 로컬 TTS 앱, 자막 보정 도구, 라이선스 고지가 명확히 분리된 형태로 정리되어 있습니다.

    처음에는 폴더 구성이 다소 복잡해 보일 수 있지만, 실제로 사용자가 직접 실행해야 하는 파일은 루트의 실행.bat 하나입니다. 나머지 디렉터리는 음성 합성 앱, Whisper 자막 보정 도구, 공식 참고 자료, 예제 산출물, 라이선스 고지로 역할이 명확히 분리되어 있습니다.

    supertonic3-local-tts-20260516-r4/
      실행.bat
      README.md
      README-ZIP-배포.md
      LICENSE_NOTICES.txt
      sample.txt
      scripts/create_release_zip.py
      supertonic-upstream/
      supertonic3-local-tts/
        requirements.txt
        src/
        ui/
        public/
        data/        # 예제 WAV·자막·Whisper 결과 포함
      supertonic3-whisper-subtitles/
        requirements.txt
        whisper_subtitle_refiner.py
        refine_latest.ps1

    실행.bat

    Windows 실행 진입점

    프로젝트 루트를 자동 식별한 뒤 Python, ffmpeg, .venv-win, 필수 pip 패키지의 상태를 점검합니다. 모든 준비가 완료되면 3093 포트로 로컬 서버를 기동하고 브라우저를 자동으로 엽니다.

    supertonic-upstream

    공식 Supertonic 참고 원본

    공식 예제와 문서를 보관하는 폴더입니다. Python, Node.js, Browser, Java, C++, C#, Go, Swift, Rust, Flutter 등 언어별 예제와 ONNX 호출 방식을 참조할 때 활용합니다.

    supertonic3-local-tts

    실제 웹앱 본체

    Flask 서버, 브라우저 UI, Supertonic Python SDK 래퍼, 대본 카탈로그, 음성 샘플, 생성 결과 저장 로직을 포함하는 핵심 실행 폴더입니다. requirements.txt 또한 이 디렉터리에 위치합니다.

    supertonic3-whisper-subtitles

    CPU 기반 자막 보정 도구

    faster-whisper로 WAV를 재분석해 *_whisper.srt, *_whisper.vtt, *_whisper.txt, *_whisper.json, *_whisper_log.txt를 생성합니다. 독립된 requirements.txt를 사용하므로 가상환경 또한 별도로 관리됩니다.

    LICENSE_NOTICES.txt

    포함 기술 라이선스 고지

    Supertonic 3, faster-whisper, 로컬 웹앱에 포함된 주요 라이선스 정보를 통합 정리한 파일입니다. 서버 실행 중에는 /license-notices 경로에서도 동일한 내용을 확인할 수 있습니다.

    data 예제 산출물

    출력 형식 미리보기

    첫 실행 사용자가 WAV, SRT, VTT, Whisper 보정 JSON 및 로그가 어떤 구조로 저장되는지 즉시 확인할 수 있도록 공개 가능한 예제 파일이 포함되어 있습니다.

    README.md

    사용자 매뉴얼

    빠른 실행, 수동 실행, 환경변수, 트러블슈팅, 라이선스 유의사항을 정리한 문서입니다. 실행이 막힐 경우 가장 먼저 확인해야 할 파일입니다.

    sample.txt

    테스트용 샘플 대본

    첫 사용자가 곧바로 음성을 생성해 볼 수 있도록 준비된 한국어 장문 샘플 대본입니다.

    Run guide

    실행.bat은 초기 셋업을 자동으로 완료한 뒤 127.0.0.1:3093에서 로컬 페이지를 엽니다.

    Windows 사용자에게 가장 직관적인 진입점은 루트 폴더의 실행.bat입니다. 이 배치 파일은 현재 작업 디렉터리에 의존하지 않고 자기 위치와 호출 경로를 기준으로 프로젝트 루트를 식별한 뒤, 사전 점검 항목을 순차적으로 검증합니다.

    1

    ZIP 다운로드 및 무결성 확인

    공식 페이지에서 supertonic3-local-tts-20260516-r4.zip 파일을 내려받습니다. 함께 제공되는 .zip.sha256 파일이 있다면 SHA256 해시를 비교해 다운로드의 무결성을 검증합니다.

    2

    압축 해제 위치 선정

    D 드라이브나 바탕화면 등 사용자가 접근하기 쉬운 경로에 압축을 해제합니다. 한글 경로와 공백 경로를 고려해 설계되었지만, 초기 실행에서는 비교적 짧은 경로를 사용하는 편이 문제 해결에 유리합니다.

    3

    실행.bat을 통한 초기 셋업

    배치 파일은 Python, ffmpeg, .venv-win, 필수 pip 패키지 상태를 점검합니다. 누락된 항목은 설치 또는 생성 절차를 안내하며, 이미 준비된 항목은 자동으로 건너뜁니다.

    4

    브라우저 자동 접속

    정상 기동 시 http://127.0.0.1:3093 주소에서 웹 UI가 열립니다. 동일 포트에 서버가 이미 떠 있을 경우 중복 기동 대신 기존 인스턴스의 주소를 재오픈합니다.

    # 서버를 기동하지 않고 준비 상태만 점검
    실행.bat --check
    
    # 업데이트 확인을 건너뛰고 빠르게 점검
    실행.bat --check --skip-update
    
    # Python/ffmpeg/venv/pip 자동 준비를 건너뛰고 점검
    실행.bat --check --skip-bootstrap
    
    # ffmpeg 점검과 설치 제안을 건너뛰고 점검
    실행.bat --check --skip-update --skip-ffmpeg
    
    # 수동 접속 주소
    http://127.0.0.1:3093

    Web UI

    웹 UI는 대본 선택, 화자 선택, 생성 설정, 다운로드까지의 전 과정을 단일 화면에서 제공합니다.

    UI의 흐름은 단순하고 일관됩니다. 대본을 선택하거나 직접 입력하고, M1~M5 또는 F1~F5 중에서 화자를 고르고, 속도와 단계 값을 검토한 뒤 생성 버튼을 누릅니다. 합성이 완료되면 WAV, 대본 TXT, 입력 로그, 기본 SRT/VTT, Whisper 보정 파일을 일괄 다운로드할 수 있습니다.

    대본 입력

    public/scripts.json에 등록된 대본을 드롭다운에서 선택하거나, 텍스트 영역에 직접 입력할 수 있습니다. 장문 대본은 public/*.txt 파일로 보관한 뒤 text_url로 연결하는 방식이 안정적입니다.

    표현 태그

    Supertonic 3는 대본 안의 <laugh>, <breath> 등 10개 인라인 태그로 호흡·감정을 제어합니다. 상세 표는 아래 표현 태그·생성 옵션 섹션을 참고하세요.

    음성 샘플

    샘플 컨트롤은 좌측 영역이 재생, 우측 영역이 선택으로 분리되어 있습니다. 샘플 청취와 실제 드롭다운 화자 변경 동작을 의도적으로 구분한 UX입니다.

    사용자 설정

    Custom 1~5 슬롯에 속도, 단계 수, 청크 길이, 무음 길이 등의 값을 프리셋으로 저장할 수 있습니다. 설정은 동일 브라우저의 localStorage에 보관됩니다.

    Expression tags & options

    Supertonic 3의 인라인 표현 태그 10종과 웹 UI 생성 옵션을 이해하면, 같은 대본도 훨씬 자연스럽게 다듬을 수 있습니다.

    supertone-inc/supertonic 공식 README는 Supertonic 3의 Expression Tags를 “참조 음성·프롬프트 없이 대본 안 꺾쇠괄호만으로 호흡·감정을 넣는 기능”으로 소개합니다. 이 로컬 ZIP의 웹 UI·대본 요청함·/api/options는 동일한 10개 태그와 생성 옵션 메타데이터를 공유합니다.

    인라인 표현 태그 10종

    태그는 TTS가 읽을 평문에 그대로 넣습니다. UI의 “표현 태그” 버튼을 누르면 커서 위치에 삽입되며, 대본 요청 시 “표현 태그 사용”을 켜면 Codex/Cursor가 expression_tag_guidance 규칙을 따릅니다.

    태그
    의미
    효과
    쓰기 좋은 상황
    주의
    예시
    <laugh>
    웃음
    짧은 웃음·밝은 반응을 넣습니다. 대사 뒤 “정말요?”처럼 가벼운 톤을 살릴 때 유용합니다.
    대화형·유머 대본, 칭찬·반가움 장면, 밝은 마무리 문장 뒤.
    연속 사용 시 인위적으로 들릴 수 있습니다. 설명문에는 거의 쓰지 않습니다.
    오늘도 정말 수고 많으셨어요. <laugh> 이제 한숨 돌릴 시간이에요.
    <breath>
    호흡
    문장 사이 짧은 숨·쉼을 넣습니다. 긴 문장을 나누거나 다음 문장으로 넘어가기 전에 가장 많이 쓰는 태그입니다.
    낭독·안내·교육 대본, 긴 문단 중간, 장면 전환 직전.
    문장마다 넣으면 호흡이 과해집니다. 2~3문장에 한 번 정도가 자연스럽습니다.
    먼저 준비물을 확인합니다. <breath> 그다음 단계로 넘어갈게요.
    <surprise>
    놀람
    감탄·놀람·예상 밖 반응을 표현합니다.
    스토리텔링, 반전, 질문에 대한 강한 반응, “어?”, “정말요?” 뉘앙스가 필요할 때.
    정보 전달형 설명문에는 어울리지 않는 경우가 많습니다.
    그런데 결과가 완전히 달랐어요. <surprise> 저도 깜짝 놀랐습니다.
    <sigh>
    한숨
    아쉬움·피로·회상·잠시 멈춤을 표현합니다.
    위로·회고·실패 후 정리, 감정이 가라앉는 구간.
    <breath>보다 감정이 무겁게 들릴 수 있어, 밝은 안내 멘트에는 과합니다.
    그때는 정말 힘들었죠. <sigh> 지금은 조금 나아졌어요.
    <scream>
    비명·강한 외침
    강한 놀람·비명·큰 소리 반응을 넣습니다.
    연기·드라마·게임·공포·코미디에서 의도가 분명한 장면.
    일반 안내·교육 TTS에는 부적합합니다. 한 대본에 0~1회가 안전합니다.
    갑자기 문이 열렸어요. <scream> 모두가 놀랐습니다.
    <throatclear>
    목 가다듬기
    말하기 전 목을 가다듬는 소리를 넣습니다.
    발표 시작, 마이크 테스트 느낌, 긴 침묵 뒤 첫 문장.
    남용하면 촬영 전 리허설 느낌이 과해집니다.
    <throatclear> 안녕하세요. 오늘 강의를 시작하겠습니다.
    <sad>
    슬픔
    슬프거나 가라앉은 어조를 유도합니다.
    이별·회상·위로·감동 스토리의 감정 하강 구간.
    뉴스·매뉴얼 읽기에는 맞지 않을 수 있습니다.
    그날 이후로는 연락이 끊겼어요. <sad> 아직도 생각이 나요.
    <angry>
    분노
    짜증·분노·강한 어조를 유도합니다.
    연기 대본, 갈등 장면, 강한 항의·질책 대사.
    고객 안내·교육 콘텐츠에는 거의 쓰지 않습니다.
    또 같은 실수를 반복하셨군요. <angry> 이번엔 정말 문제입니다.
    <cough>
    기침
    짧은 기침 소리를 넣습니다.
    캐릭터 연기, 병원·감기 맥락, 현실감이 필요한 장면.
    청취 경험을 해칠 수 있어 의도가 있을 때만 사용합니다.
    잠깐만요. <cough> 물 한 모금 마시고 이어갈게요.
    <yawn>
    하품
    피곤함·지루함·늦은 밤 분위기를 표현합니다.
    일상 브이로그, 졸린 캐릭터, 유머 연출.
    진지한 설명·공식 안내에는 피하는 편이 좋습니다.
    벌써 새벽이네요. <yawn> 오늘은 여기까지 할게요.

    사용 규칙 요약

    • Supertonic 3는 참조 음성이나 별도 프롬프트 없이, 대본 안의 꺾쇠괄호 태그만으로 호흡·감정을 제어합니다. 공식 저장소는 이를 Expression Tags(표현 태그)로 소개합니다.
    • 태그는 TTS가 읽을 평문 대본에 그대로 포함합니다. 마크다운, 이모지, HTML 장식은 제거·정규화될 수 있으므로 태그와 문장만 남기는 편이 안전합니다.
    • 짧은 대본: 1~3개. 긴 대본: 장면 전환·감정 변화 지점에 소량만. 설명문은 <breath>, <sigh> 위주, 대화·연기는 <laugh>, <surprise>, <sad>, <angry>를 문맥에 맞게.
    • 문장 중간보다 문장 사이·감정이 바뀌는 경계에 두는 것이 안정적입니다. 태그를 많이 넣을수록 어색해질 수 있습니다.
    • 웹 UI 상단 “표현 태그” 버튼을 누르면 커서 위치에 태그가 삽입됩니다. 대본 요청함에서 “표현 태그 사용”을 켜면 Codex/Cursor가 latest.json의 expression_tag_guidance 규칙을 따릅니다.
    # 설명형 대본 예시 (호흡 위주)
    오늘은 로컬 TTS의 기본 흐름을 정리합니다. <breath>
    먼저 ZIP을 받고 실행.bat으로 서버를 띄웁니다. <sigh>
    마지막으로 짧은 문장으로 음색을 확인하세요.
    
    # 대화형 대본 예시 (감정 태그 혼합)
    정말 고생 많으셨어요. <laugh>
    그런데 결과가 예상과 달랐어요. <surprise>
    다음에는 조금 더 여유 있게 가봅시다. <breath>

    웹 UI 생성 옵션

    브라우저는 시작 시 /api/options를 호출해 모델·음성·언어·표현 태그 목록과 기본값·허용 범위를 받습니다. 속도·단계·청크·무음은 상단 프리셋 드롭다운으로 고르고, Custom 1~5 슬롯에 저장할 수 있습니다. 옵션 라벨에 마우스를 올리면 UI 오른쪽 “필터 팁” 패널에도 같은 설명이 표시됩니다.

    옵션
    UI 이름
    범위
    기본값
    역할
    권장
    model
    모델(Model)
    supertonic / supertonic-2 / supertonic-3
    supertonic-3
    어떤 ONNX TTS 체크포인트를 쓸지 결정합니다. v3는 31개 언어·표현 태그를 지원합니다.
    일반 사용은 supertonic-3 고정. v2 호환 테스트가 필요할 때만 변경.
    voice
    음성(Voice)
    M1~M5(남성형), F1~F5(여성형) 프리셋
    M1
    말투·음색의 기본 틀입니다. voice_style_path가 비어 있을 때 적용됩니다.
    같은 문장으로 2~3개 음성을 비교한 뒤 확정. 샘플 재생(왼쪽)과 선택(오른쪽) 버튼이 분리되어 있습니다.
    lang
    언어(Language)
    31개 언어 코드 + na(언어 비지정)
    ko
    발음·억양·문자 해석 규칙을 정합니다. 한국어 대본은 ko가 가장 안정적입니다.
    한국어: ko. 언어를 모를 때: na. 영어·일본어 섞임은 짧은 외래어 위주로 ko 유지 후 샘플 확인.
    speed
    속도(Speed)

    옵션 조정 순서 (권장)

    1. voice·lang으로 음색과 발음 규칙을 먼저 고정합니다.
    2. 짧은 문장으로 speed를 1.00~1.10 구간에서 맞춥니다.
    3. total_step 8로 미리듣기 후, 최종본만 10~12로 올립니다.
    4. 장문이 끊기거나 반복되면 max_chunk_length를 100~150(한국어)부터 조정합니다.
    5. 청크 경계가 급하면 silence_duration을 0.3~0.5초로 늘립니다.
    6. 표현 태그는 문장 사이에 소량만 넣고, 만족스러운 조합을 Custom 슬롯에 저장합니다.

    공식 Python 예제의 total_steps=8, speed=1.05, lang="en" 또는 lang="na"(언어 비지정)와 동일한 개념입니다. 로컬 UI는 한국어 작업을 기본으로 lang=ko를 둡니다.

    TTS logic

    생성 버튼을 누르면 대본 정규화, CPU 음성 합성, 보조 산출물 저장이 일관된 순서로 수행됩니다.

    이 도구는 WAV 파일 생성만으로 작업을 종료하지 않습니다. 어떤 대본을 어떤 설정으로 합성했는지 로그를 남기고, 동일한 명명 규칙으로 대본 TXT와 자막 파일을 함께 저장합니다. 만족스러운 결과를 재현하거나 설정을 비교 분석할 때 이 산출물들이 표준 기준점이 됩니다.

    1

    브라우저에서 TTS payload 구성

    텍스트, 모델, 음성, 언어, 속도, 단계 수, 최대 청크 길이, 청크 간 무음, 스레드 수, Whisper 보정 여부 등 모든 옵션이 하나의 요청 페이로드로 묶입니다.

    2

    짧은 대본은 /api/tts로 즉시 처리

    짧은 문장은 즉시 생성 API를 사용합니다. 서버는 요청 JSON을 파싱하고 기본값을 보강한 뒤 TTS 엔진으로 전달합니다.

    3

    긴 대본은 /api/tts-job 백그라운드 처리

    장문 대본은 브라우저의 요청 타임아웃 위험이 있으므로 백그라운드 작업으로 분리됩니다. UI는 job_id를 반환받아 일정 주기로 작업 상태를 폴링합니다.

    4

    입력 텍스트 정규화

    Windows 콘솔 출력이나 TTS 입력에서 문제를 일으킬 수 있는 이모지와 일부 제어 문자를 제거합니다. 따라서 대본 작성 시에는 시각적 장식보다 평문 안정성을 우선하는 편이 좋습니다.

    5

    Supertonic SDK의 WAV 합성

    Supertonic3Engine은 voice, lang, speed, total_step, max_chunk_length, silence_duration 등의 파라미터를 전달받아 CPU 상에서 음성을 합성하고 WAV 파일로 저장합니다.

    6

    보조 산출물 동시 저장

    WAV 단독으로 끝내지 않고, 실제 TTS에 투입된 대본 TXT, 입력 로그 TXT, 기본 SRT, 기본 VTT를 일관된 명명 규칙으로 함께 저장해 사후 추적성을 확보합니다.

    Whisper logic

    Whisper 보정은 CPU만으로 실제 발화 타이밍에 정밀하게 맞춘 자막을 다시 생성합니다.

    기본 자막은 빠르게 산출되지만, 영상 편집 단계에 곧바로 투입하기에는 발화 타이밍이 미세하게 어긋날 수 있습니다. 이러한 한계를 보완하기 위해 faster-whisper 보정 단계를 별도로 두었으며, 핵심은 이 모든 과정이 GPU 없이도 동작하도록 설계되었다는 점입니다.

    1

    기본 자막은 빠르지만 근사값에 가깝다

    기본 SRT/VTT는 입력 문장과 전체 음성 길이를 기준으로 타이밍을 분배합니다. 초안 확인에는 충분하지만, 실제 발화의 시작과 끝을 정확히 반영한 결과는 아닙니다.

    2

    faster-whisper의 WAV 재분석

    보정 버튼을 누르면 생성된 WAV를 faster-whisper가 다시 분석합니다. CPU 환경에서는 int8 연산을 기본값으로, language ko, beam_size 5, VAD, word timestamp 옵션을 조합해 사용합니다.

    3

    실제 발화 기준 산출물 생성

    보정 결과는 *_whisper.srt, *_whisper.vtt, *_whisper.txt, *_whisper.json, *_whisper_log.txt로 저장됩니다. 최종 영상 편집에는 이쪽 자막을 기준으로 작업하는 편이 효율적입니다.

    4

    GPU 대비 속도 트레이드오프 인지

    CPU 전용 실행은 접근성이 강점인 대신, 긴 대본을 medium 이상 모델로 분석할 경우 수 분 이상이 소요될 수 있습니다. 빠른 확인은 small, 최종본은 medium 또는 large-v3로 단계화하는 운영이 현실적입니다.

    # Whisper 보정 도구를 직접 실행하는 예시
    cd supertonic3-whisper-subtitles
    .\.venv-win\Scripts\python.exe .\whisper_subtitle_refiner.py --latest-from ..\supertonic3-local-tts\data

    Script request

    대본 요청함은 원하는 주제와 톤을 기록해 두는 메모 시스템에 가까운 역할을 합니다.

    본 웹앱은 OpenAI, Claude, Gemini와 같은 외부 LLM API를 직접 호출해 대본을 자동 생성하지 않습니다. 사용자가 “대본 요청 저장”을 누르면 supertonic3-local-tts/data/script_requests에 요청 파일이 기록되고, 가장 최근 요청은 latest.json으로 복사됩니다.

    이후 Codex나 Cursor와 같은 보조 도구가 최신 요청 파일을 참조해, 주제와 톤에 맞춘 TTS용 대본을 작성하고 목록에 등록하는 방식입니다. 웹앱 내부에서 모든 과정을 자동 처리하는 폐쇄형 구조가 아니라 “요청 저장 → 대본 작성 → TTS 생성”으로 역할이 명확히 분리된 분산형 워크플로입니다.

    사용자 요청 저장
      → data/script_requests/latest.json 생성
      → Codex/Cursor가 latest.json 확인
      → public/*.txt 대본 파일 작성
      → public/scripts.json에 신규 항목 등록
      → 웹 UI에서 대본 새로고침
      → Supertonic 3 TTS 합성

    Settings

    처음에는 안정적인 CPU 권장값으로 시작하고, 짧은 샘플을 통해 점진적으로 튜닝하는 방식을 권장합니다.

    속도, 단계 수, 청크 길이를 한 번에 크게 조정하면 합성 시간이 길어지고 결과 간 비교도 어려워집니다. 처음 사용한다면 짧은 샘플로 음색을 먼저 확정한 뒤, 아래 기준값을 토대로 한 번에 하나의 변수만 조정하는 방식이 가장 안정적입니다.

    일반 한국어 낭독

    • voice: M1 또는 F1부터 비교 시작
    • lang: ko
    • speed: 1.00~1.10
    • total_step: 8~12
    • max_chunk_length: 120
    • silence_duration: 0.3
    • whisper_refine: 활성화

    긴 설명형 대본

    • speed: 0.95~1.05
    • total_step: 10~12
    • max_chunk_length: 120~200
    • silence_duration: 0.3~0.5
    • <breath>, <sigh> 등의 태그는 소량만 사용

    짧은 안내·알림 멘트

    • speed: 1.05~1.20
    • total_step: 8
    • max_chunk_length: 120~300
    • silence_duration: 0.2~0.3
    • 문장은 짧게, 숫자는 자연어 표기를 우선

    CPU 전용 운영 가이드

    • 짧은 샘플로 음색을 먼저 확정
    • Whisper 보정은 small로 초안 확인 후 medium으로 최종 보정
    • large-v3는 시간 여유가 있는 최종 단계에서만 사용
    • TTS 생성과 자막 보정의 동시 다중 실행 지양

    Output files

    합성이 완료되면 WAV뿐 아니라 대본·로그·자막 파일이 한 묶음으로 보존됩니다.

    영상 작업을 진행하다 보면 음성 파일 하나만으로는 부족할 때가 많습니다. 어떤 대본을 읽었고, 어떤 설정값을 사용했으며, 자막 파일은 어떻게 정리되어 있는지까지 함께 기록되어야 사후 관리가 편리합니다. 본 도구는 합성 결과를 일관된 묶음으로 보존하므로, 후속 편집이나 재합성 작업에서 추적성을 높일 수 있습니다. 최종 ZIP에는 공개 가능한 예제 산출물도 포함되어 있어, 첫 실행 직후에도 출력 구조를 즉시 확인할 수 있습니다.

    WAV

    Supertonic 3가 합성한 최종 음성 파일입니다. 영상 편집, 낭독 검수, 안내 음성 테스트에 즉시 활용할 수 있습니다.

    대본 TXT

    실제로 TTS에 투입된 정제 텍스트입니다. 이후 동일 음성을 재생성하거나 문장을 수정할 때 기준점이 됩니다.

    입력 로그 TXT

    음성, 언어, 속도, 단계 수, 청크 길이 등 생성 시 적용된 모든 설정값이 기록됩니다. 만족스러운 결과의 재현성을 보장합니다.

    기본 SRT/VTT

    입력 문장과 전체 음성 길이를 기준으로 빠르게 생성한 자막입니다. 초안 확인 단계에서 효율적으로 활용할 수 있습니다.

    Whisper SRT/VTT

    faster-whisper가 WAV를 재분석해 만든 보정 자막입니다. 실제 발화 타이밍에 근접해 있어 최종 편집에 적합합니다.

    Whisper TXT/JSON/LOG

    보정 결과를 텍스트, 구조화 데이터, 로그 형태로 함께 보존합니다. 자막 이상 발생 시 어느 구간에서 문제가 생겼는지 정밀 분석이 가능합니다.

    Safe use

    처음 다운로드했다면 짧은 샘플로 검증한 뒤, 공개 콘텐츠에는 사용 조건을 재확인하고 활용하세요.

    도입 초기부터 장문의 유튜브 대본을 합성하기보다 짧은 문장으로 우선 검증하는 편이 효율적입니다. 화자·속도·자막 보정 시간을 가볍게 확인한 뒤 장문 작업으로 확장하면, 실패 시 되돌릴 수 있는 범위가 작아져 문제 해결 비용이 크게 줄어듭니다.

    먼저 시도해 볼 것

    • 실행.bat으로 로컬 페이지 정상 기동 확인
    • sample.txt 또는 짧은 문장으로 WAV 생성
    • M1~M5, F1~F5 화자 샘플 비교 청취
    • 기본 SRT/VTT와 Whisper 보정 자막의 차이 확인
    • 마음에 드는 속도·단계 값을 사용자 설정으로 저장

    반드시 주의할 것

    • 초기 단계부터 초장문 대본을 일괄 합성하지 않기
    • 사칭이나 동의 없는 음성 모사 용도로 사용하지 않기
    • 공개 영상 활용 전 라이선스와 사용 조건 재확인
    • 개인 대본과 생성 로그를 공유 폴더에 무분별하게 업로드하지 않기
    • Whisper 보정 속도가 느리면 small 모델로 우선 검증

    로컬 TTS의 진정한 강점은 동일 결과를 자유롭게 반복 생성할 수 있다는 점입니다. 짧게 만들고, 듣고, 다듬고, 다시 합성하는 사이클을 운영하면 최종 결과물의 품질을 한층 안정적으로 끌어올릴 수 있습니다.

    FAQ

    실행 전 준비, 생성 결과, 자막 보정, 공개 사용 조건까지 핵심 질문을 항목별로 정리했습니다.

    FAQ는 설치 전 단계에서 발생할 수 있는 의문과, 실제 제작 과정에서 자주 부딪히는 질문을 분리해 참고할 수 있도록 구성했습니다. “GPU가 없어도 되는지”라는 단일 질문보다, Python·ffmpeg·가상환경·산출물·라이선스 확인을 포함한 전체 워크플로를 이해하는 것이 더 중요합니다.

    아래 문답은 이 ZIP을 처음 받은 사용자가 실행 전에 점검해야 할 사항과, 유튜브 롱폼·언어 교육·자막 제작처럼 반복 합성이 빈번한 작업에서 자주 발생하는 상황을 기준으로 구성되었습니다.

    GPU가 정말 없어도 되나요?

    네. 이 도구는 처음부터 CPU 전용 실행을 전제로 설계되었습니다. Supertonic 3 TTS는 CPU 환경에서 WAV를 합성할 수 있으며, faster-whisper 보정 또한 CPU int8 설정으로 동작합니다. GPU가 있다면 Whisper 보정 속도 면에서 이점이 있지만, NVIDIA GPU·CUDA·cuDNN을 필수로 요구하는 구성은 아닙니다.

    로컬 PC에 필요한 사전 준비물은 무엇인가요?

    Windows 10/11 환경을 기준으로 Python 3.11, 최신 크로미움 계열 브라우저, 충분한 디스크 여유 공간이 필요합니다. ZIP에는 .venv-win이 포함되지 않으므로 첫 실행 시 실행.bat이 가상환경 생성과 pip 의존성 설치를 자동으로 처리합니다. 자막 보정과 일부 미디어 처리에는 ffmpeg가 필요할 수 있으며, 누락 시 실행 과정에서 설치 여부를 안내합니다.

    첫 실행 시 인터넷 연결이 반드시 필요한가요?

    초기 준비 단계에서는 인터넷 연결이 필요할 수 있습니다. Python이나 ffmpeg가 설치되어 있지 않으면 winget 설치 안내가 표시될 수 있고, .venv-win 생성 과정에서 requirements.txt에 명시된 패키지를 내려받아야 할 수 있습니다. Supertonic 또는 Whisper 모델 캐시가 없는 경우에도 최초 다운로드가 필요합니다. 초기 셋업이 완료된 이후에는 동일 PC에서 제한된 네트워크 환경으로 운용이 가능합니다.

    ZIP에 .venv-win을 포함하지 않은 이유는 무엇인가요?

    가상환경은 사용자 PC의 경로, Python 버전, 설치된 패키지 상태에 종속적이며 용량 또한 큽니다. 이러한 환경 의존성과 휴대성 문제를 해소하기 위해 최종 ZIP에서는 가상환경을 제외하고, 실행.bat이 사용자 PC에서 새롭게 구성하도록 설계했습니다. 초기 셋업 시간이 다소 소요되지만, 다른 PC 간 이식 시 발생하는 경로 충돌과 가상환경 손상 문제를 효과적으로 방지할 수 있습니다.

    실행.bat은 정확히 어떤 작업을 수행하나요?

    실행.bat은 프로젝트 루트를 식별한 뒤 Python과 ffmpeg의 설치 상태를 점검하고, TTS 앱과 Whisper 도구의 .venv-win 가상환경을 준비합니다. 누락된 의존성이 있을 경우 requirements.txt 기준으로 설치를 진행한 뒤 127.0.0.1:3093 로컬 서버를 기동합니다. 동일 포트에 서버가 이미 떠 있으면 중복 기동 대신 기존 로컬 주소로 안내합니다.

    ffmpeg는 반드시 설치해야 하나요?

    WAV만 생성하는 기본 TTS 흐름에서는 ffmpeg가 항상 전면에 드러나지 않을 수 있습니다. 다만 Whisper 보정, 오디오 분석, 일부 미디어 처리 안정성을 확보하려면 ffmpeg를 갖춰두는 편이 안전합니다. 실행.bat은 ffmpeg 설치 여부를 점검하고, 없으면 설치 여부를 사용자에게 묻습니다. 별도로 관리하고 있거나 일단 건너뛰고자 한다면 --skip-ffmpeg 옵션을 사용할 수 있습니다.

    macOS나 Linux에서도 사용할 수 있나요?

    이 가이드의 ZIP 사용 흐름은 Windows 10/11과 실행.bat을 기준으로 설명합니다. 코드 자체는 Python, Flask, Supertonic SDK, faster-whisper를 중심으로 구성되어 있어 macOS나 Linux에서도 수동 실행이 가능하지만, 더블클릭 한 번으로 끝나는 동일 경험을 보장하지는 않습니다. Windows 이외의 환경에서는 start.sh, install.sh, requirements.txt를 기반으로 가상환경을 직접 구성하고 서버를 기동해야 합니다.

    긴 유튜브 롱폼 대본을 한 번에 합성할 수 있나요?

    기술적으로는 가능하지만, 권장 방식은 분할 합성입니다. 30분 또는 1시간 분량의 대본을 단일 작업으로 처리하면 CPU 합성 시간, 브라우저 대기 시간, 자막 보정 시간이 모두 길어지고, 실패 시 재시작 범위 또한 커집니다. 대본을 5~10분 단위 장(章)으로 나눠 각각 WAV와 자막을 검수한 뒤 편집 단계에서 통합하는 워크플로가 훨씬 안정적입니다.

    영어·한국어·중국어·일본어 발음 예제에도 활용할 수 있나요?

    언어 교육용 듣기 예제 제작에 적합합니다. 동일 문장을 여러 언어로 분리해 합성하고, 속도와 무음 길이를 조정하면 듣기 예제, 쉐도잉 자료, 문장 읽기 파일을 반복적으로 생성할 수 있습니다. 다만 TTS는 발음 평가 도구가 아닌 듣기 예시 제공 도구라는 점을 유념해야 하며, 교재나 강의에 포함할 경우 원어민 검수 또는 별도 발음 검토 과정을 거치는 편이 안전합니다.

    합성이 완료되면 어떤 파일이 생성되나요?

    기본적으로 WAV 음성 파일이 생성되며, 실제 TTS에 투입된 대본 TXT, 입력 로그 TXT, 기본 SRT/VTT 자막이 함께 저장됩니다. Whisper 보정을 실행하면 *_whisper.srt, *_whisper.vtt, *_whisper.txt, *_whisper.json, *_whisper_log.txt가 추가로 생성됩니다. 이 산출물 묶음은 결과의 재현성을 확보하고, 영상 편집이나 재합성 작업에 활용하기 위한 표준 기록입니다.

    기본 자막과 Whisper 자막을 모두 제공하는 이유는 무엇인가요?

    기본 자막은 입력 문장과 전체 음성 길이를 기준으로 빠르게 생성한 초안입니다. 합성 직후 흐름을 가볍게 확인하기에 충분하지만, 실제 발화 타이밍과 완전히 일치한다고 보기는 어렵습니다. Whisper 보정 자막은 생성된 WAV를 재분석해 실제 발화 구간에 맞춘 결과물입니다. 초안 점검은 기본 자막으로, 최종 편집은 Whisper 자막으로 분리하는 운영이 효율적입니다.

    무료라는 이유로 공개 영상이나 상업 콘텐츠에 자유롭게 써도 되나요?

    아닙니다. 코드와 모델 가중치는 서로 다른 라이선스 조건을 따릅니다. 개인 테스트, 내부 검토, 학습용 샘플 제작은 상대적으로 부담이 적지만, 유튜브 영상, 강의 콘텐츠, 앱 안내 음성과 같이 공개되는 결과물에 활용할 경우 ZIP의 LICENSE_NOTICES.txt와 Supertonic 3 모델 조건을 반드시 확인해야 합니다. 특정 인물 사칭, 동의 없는 음성 모사, 오해를 유발할 수 있는 사용은 명백히 제한됩니다.

    이 ZIP은 Supertone Play와 동일한 서비스인가요?

    아닙니다. Supertone Play는 슈퍼톤이 운영하는 유료 웹 서비스이며, 이 도구는 공개된 Supertonic 3 엔진을 로컬 PC에서 직접 실행해 음성을 합성할 수 있도록 만든 작업 환경입니다. 계정, 크레딧, 웹 서비스형 사용 흐름을 제공하는 SaaS 제품과는 성격이 다릅니다. 이 ZIP은 사용자가 로컬에서 대본을 입력하고 WAV와 자막을 반복 생성할 수 있도록 묶은 실행 패키지에 가깝습니다.

    다운로드한 ZIP의 정상 여부는 어떻게 확인하나요?

    다운로드 페이지의 ZIP 파일명과 함께 제공되는 .zip.sha256 파일을 비교해 무결성을 검증할 수 있습니다. PowerShell에서는 Get-FileHash .\supertonic3-local-tts-20260516-r4.zip -Algorithm SHA256 명령으로 해시를 확인합니다. 가이드에 명시된 SHA256 값과 일치하지 않는다면 파일이 변조되었거나 다운로드가 손상되었을 가능성이 있으므로, 재다운로드 또는 최신 안내 값을 다시 확인해야 합니다.

    개인 대본이나 생성 로그가 외부로 전송되나요?

    이 도구의 기본 사용 흐름은 로컬 서버가 대본을 처리하고 결과 파일을 사용자 PC에 저장하는 방식입니다. 다만 최초 설치 과정에서 패키지나 모델을 내려받기 위해 외부 저장소에 접속할 수는 있습니다. 생성된 data 폴더, 입력 로그, Whisper JSON에는 대본 내용이나 작업 메타데이터가 남을 수 있으므로, 별도의 검토 없이 공개 폴더에 업로드하지 않는 운영 원칙을 권장합니다.

    References

    참고한 원본 자료

    supertone-inc/supertonic

    Supertonic 3의 공식 GitHub 저장소입니다. ONNX 기반 온디바이스 TTS, 31개 언어 지원, CPU 실행, 다국어 예제 코드 등을 확인할 수 있습니다.

    Supertonic 3 모델 라이선스

    Hugging Face에 게시된 Supertonic 3 모델의 LICENSE 파일입니다. 모델은 BigScience Open RAIL-M 계열 조건을 따릅니다.

    SYSTRAN/faster-whisper

    faster-whisper의 공식 저장소입니다. CTranslate2 기반 Whisper 재구현이며 CPU int8 실행 예시와 벤치마크가 제공됩니다.

    Supertone Play

    슈퍼톤이 제공하는 유료 TTS·보이스 서비스입니다. 로컬 Supertonic 도구와는 제품의 목적, 과금 방식, 사용 조건이 명확히 구분됩니다.

    HYBE의 Supertone 사업 소개

    HYBE 공식 사이트에서 Supertone을 AI 오디오 기술 회사로 소개하는 사업 페이지입니다.

    Yonhap: HYBE acquires Supertone stake

    2023년 1월 31일 하이브가 슈퍼톤 지분 56.1%를 확보했다는 사실을 보도한 연합뉴스 영문 기사입니다.

    0.7 ~ 2.0 (step 0.05)
    1.05
    읽기 빠르기입니다. 공식 Python 예제도 1.05를 기본으로 둡니다.
    안내·낭독 1.00~1.10, 짧은 알림 1.05~1.20. 너무 높이면 발음이 급해질 수 있습니다.
    total_step
    단계(Steps / total_step)
    1 ~ 100 (UI), 공식 품질 가이드 5~12
    8
    합성 시 모델이 음성을 다듬는 반복 횟수입니다. 높을수록 품질↑·시간↑.
    미리듣기 8, 최종본 10~12. CPU 장문은 8로 음색 확정 후 최종만 올리기.
    max_chunk_length
    최대 청크(Max chunk)
    10 ~ 100000자, 비우면 자동
    자동(한국어 약 120자)
    긴 대본을 나눠 합성할 때 한 묶음의 최대 글자 수입니다. SDK는 언어별 기본 청크를 적용합니다.
    한국어·일본어 100~150, 일반 장문 120~300. 너무 길면 반복·누락·지연이 늘 수 있습니다.
    silence_duration
    청크 무음(Chunk silence)
    0.0 ~ 30.0초 (step 0.05)
    0.3초
    청크가 나뉠 때 조각 사이에 넣는 무음 길이입니다. 문장 사이 호흡과 유사한 효과.
    일반 0.20~0.50초. 낭독·교육은 0.3~0.5, 빠른 안내는 0.2 전후.
    voice_style_path
    스타일 JSON(Style JSON path)
    로컬 파일 경로(선택)
    비움
    외부 음성 스타일 JSON을 지정하는 고급 옵션입니다. 지정 시 기본 voice 프리셋보다 우선될 수 있습니다.
    처음에는 비워 두고 M/F 프리셋만으로 테스트.
    model_dir
    모델 폴더(Model dir)
    로컬 폴더 경로(선택)
    기본 캐시
    ONNX·보이스 에셋이 있는 디렉터리를 직접 지정합니다. 오프라인·공유 캐시에 유용합니다.
    일반 사용자는 비움. Hugging Face에서 받은 assets를 고정 경로에 둘 때만 지정.
    intra_op_num_threads
    내부 스레드(Intra threads)
    1 이상 또는 자동
    자동
    한 연산 안에서 쓰는 CPU 코어 수입니다. 생성 속도와 PC 부하에 영향.
    자동 또는 2~8. 코어가 적은 PC는 2~4부터 실측.
    inter_op_num_threads
    상호 스레드(Inter threads)
    1 이상 또는 자동
    자동
    병렬 연산 흐름 수입니다. 단일 생성에서는 자동으로 충분한 경우가 많습니다.
    일반적으로 자동. 동시 다발 작업 환경에서만 조정.
    auto_download
    자동 다운로드(Auto download)
    켜기 / 끄기
    켜기
    로컬에 모델이 없을 때 Hugging Face 등에서 ONNX 에셋을 자동으로 받습니다. 최초 실행 시 인터넷이 필요할 수 있습니다.
    첫 셋업 후 오프라인만 쓸 계획이면 모델 캐시를 확보한 뒤 끄기.
    verbose
    자세한 로그(Verbose)
    켜기 / 끄기
    켜기(UI 기본)
    서버·콘솔에 합성 과정 로그를 더 남깁니다. 실패 원인 추적에 사용.
    문제 없으면 끄고 로그 창을 깔끔히. 오류 시에만 켜기.
    whisper_refine
    Whisper 자막 보정
    켜기 / 끄기
    켜기
    합성 직후 faster-whisper로 WAV를 재분석해 *_whisper.srt/vtt 등을 만듭니다.
    영상 편집용 최종 자막이 필요하면 켜기. 긴 대본은 medium·CPU 시간을 감안.