FAQ는 설치 전 단계에서 발생할 수 있는 의문과, 실제 제작 과정에서 자주 부딪히는 질문을 분리해 참고할 수 있도록 구성했습니다. “GPU가 없어도 되는지”라는 단일 질문보다, Python·ffmpeg·가상환경·산출물·라이선스 확인을 포함한 전체 워크플로를 이해하는 것이 더 중요합니다.
아래 문답은 이 ZIP을 처음 받은 사용자가 실행 전에 점검해야 할 사항과, 유튜브 롱폼·언어 교육·자막 제작처럼 반복 합성이 빈번한 작업에서 자주 발생하는 상황을 기준으로 구성되었습니다.
GPU가 정말 없어도 되나요?
네. 이 도구는 처음부터 CPU 전용 실행을 전제로 설계되었습니다. Supertonic 3 TTS는 CPU 환경에서 WAV를 합성할 수 있으며, faster-whisper 보정 또한 CPU int8 설정으로 동작합니다. GPU가 있다면 Whisper 보정 속도 면에서 이점이 있지만, NVIDIA GPU·CUDA·cuDNN을 필수로 요구하는 구성은 아닙니다.
로컬 PC에 필요한 사전 준비물은 무엇인가요?
Windows 10/11 환경을 기준으로 Python 3.11, 최신 크로미움 계열 브라우저, 충분한 디스크 여유 공간이 필요합니다. ZIP에는 .venv-win이 포함되지 않으므로 첫 실행 시 실행.bat이 가상환경 생성과 pip 의존성 설치를 자동으로 처리합니다. 자막 보정과 일부 미디어 처리에는 ffmpeg가 필요할 수 있으며, 누락 시 실행 과정에서 설치 여부를 안내합니다.
첫 실행 시 인터넷 연결이 반드시 필요한가요?
초기 준비 단계에서는 인터넷 연결이 필요할 수 있습니다. Python이나 ffmpeg가 설치되어 있지 않으면 winget 설치 안내가 표시될 수 있고, .venv-win 생성 과정에서 requirements.txt에 명시된 패키지를 내려받아야 할 수 있습니다. Supertonic 또는 Whisper 모델 캐시가 없는 경우에도 최초 다운로드가 필요합니다. 초기 셋업이 완료된 이후에는 동일 PC에서 제한된 네트워크 환경으로 운용이 가능합니다.
ZIP에 .venv-win을 포함하지 않은 이유는 무엇인가요?
가상환경은 사용자 PC의 경로, Python 버전, 설치된 패키지 상태에 종속적이며 용량 또한 큽니다. 이러한 환경 의존성과 휴대성 문제를 해소하기 위해 최종 ZIP에서는 가상환경을 제외하고, 실행.bat이 사용자 PC에서 새롭게 구성하도록 설계했습니다. 초기 셋업 시간이 다소 소요되지만, 다른 PC 간 이식 시 발생하는 경로 충돌과 가상환경 손상 문제를 효과적으로 방지할 수 있습니다.
실행.bat은 정확히 어떤 작업을 수행하나요?
실행.bat은 프로젝트 루트를 식별한 뒤 Python과 ffmpeg의 설치 상태를 점검하고, TTS 앱과 Whisper 도구의 .venv-win 가상환경을 준비합니다. 누락된 의존성이 있을 경우 requirements.txt 기준으로 설치를 진행한 뒤 127.0.0.1:3093 로컬 서버를 기동합니다. 동일 포트에 서버가 이미 떠 있으면 중복 기동 대신 기존 로컬 주소로 안내합니다.
ffmpeg는 반드시 설치해야 하나요?
WAV만 생성하는 기본 TTS 흐름에서는 ffmpeg가 항상 전면에 드러나지 않을 수 있습니다. 다만 Whisper 보정, 오디오 분석, 일부 미디어 처리 안정성을 확보하려면 ffmpeg를 갖춰두는 편이 안전합니다. 실행.bat은 ffmpeg 설치 여부를 점검하고, 없으면 설치 여부를 사용자에게 묻습니다. 별도로 관리하고 있거나 일단 건너뛰고자 한다면 --skip-ffmpeg 옵션을 사용할 수 있습니다.
macOS나 Linux에서도 사용할 수 있나요?
이 가이드의 ZIP 사용 흐름은 Windows 10/11과 실행.bat을 기준으로 설명합니다. 코드 자체는 Python, Flask, Supertonic SDK, faster-whisper를 중심으로 구성되어 있어 macOS나 Linux에서도 수동 실행이 가능하지만, 더블클릭 한 번으로 끝나는 동일 경험을 보장하지는 않습니다. Windows 이외의 환경에서는 start.sh, install.sh, requirements.txt를 기반으로 가상환경을 직접 구성하고 서버를 기동해야 합니다.
긴 유튜브 롱폼 대본을 한 번에 합성할 수 있나요?
기술적으로는 가능하지만, 권장 방식은 분할 합성입니다. 30분 또는 1시간 분량의 대본을 단일 작업으로 처리하면 CPU 합성 시간, 브라우저 대기 시간, 자막 보정 시간이 모두 길어지고, 실패 시 재시작 범위 또한 커집니다. 대본을 5~10분 단위 장(章)으로 나눠 각각 WAV와 자막을 검수한 뒤 편집 단계에서 통합하는 워크플로가 훨씬 안정적입니다.
영어·한국어·중국어·일본어 발음 예제에도 활용할 수 있나요?
언어 교육용 듣기 예제 제작에 적합합니다. 동일 문장을 여러 언어로 분리해 합성하고, 속도와 무음 길이를 조정하면 듣기 예제, 쉐도잉 자료, 문장 읽기 파일을 반복적으로 생성할 수 있습니다. 다만 TTS는 발음 평가 도구가 아닌 듣기 예시 제공 도구라는 점을 유념해야 하며, 교재나 강의에 포함할 경우 원어민 검수 또는 별도 발음 검토 과정을 거치는 편이 안전합니다.
합성이 완료되면 어떤 파일이 생성되나요?
기본적으로 WAV 음성 파일이 생성되며, 실제 TTS에 투입된 대본 TXT, 입력 로그 TXT, 기본 SRT/VTT 자막이 함께 저장됩니다. Whisper 보정을 실행하면 *_whisper.srt, *_whisper.vtt, *_whisper.txt, *_whisper.json, *_whisper_log.txt가 추가로 생성됩니다. 이 산출물 묶음은 결과의 재현성을 확보하고, 영상 편집이나 재합성 작업에 활용하기 위한 표준 기록입니다.
기본 자막과 Whisper 자막을 모두 제공하는 이유는 무엇인가요?
기본 자막은 입력 문장과 전체 음성 길이를 기준으로 빠르게 생성한 초안입니다. 합성 직후 흐름을 가볍게 확인하기에 충분하지만, 실제 발화 타이밍과 완전히 일치한다고 보기는 어렵습니다. Whisper 보정 자막은 생성된 WAV를 재분석해 실제 발화 구간에 맞춘 결과물입니다. 초안 점검은 기본 자막으로, 최종 편집은 Whisper 자막으로 분리하는 운영이 효율적입니다.
무료라는 이유로 공개 영상이나 상업 콘텐츠에 자유롭게 써도 되나요?
아닙니다. 코드와 모델 가중치는 서로 다른 라이선스 조건을 따릅니다. 개인 테스트, 내부 검토, 학습용 샘플 제작은 상대적으로 부담이 적지만, 유튜브 영상, 강의 콘텐츠, 앱 안내 음성과 같이 공개되는 결과물에 활용할 경우 ZIP의 LICENSE_NOTICES.txt와 Supertonic 3 모델 조건을 반드시 확인해야 합니다. 특정 인물 사칭, 동의 없는 음성 모사, 오해를 유발할 수 있는 사용은 명백히 제한됩니다.
이 ZIP은 Supertone Play와 동일한 서비스인가요?
아닙니다. Supertone Play는 슈퍼톤이 운영하는 유료 웹 서비스이며, 이 도구는 공개된 Supertonic 3 엔진을 로컬 PC에서 직접 실행해 음성을 합성할 수 있도록 만든 작업 환경입니다. 계정, 크레딧, 웹 서비스형 사용 흐름을 제공하는 SaaS 제품과는 성격이 다릅니다. 이 ZIP은 사용자가 로컬에서 대본을 입력하고 WAV와 자막을 반복 생성할 수 있도록 묶은 실행 패키지에 가깝습니다.
다운로드한 ZIP의 정상 여부는 어떻게 확인하나요?
다운로드 페이지의 ZIP 파일명과 함께 제공되는 .zip.sha256 파일을 비교해 무결성을 검증할 수 있습니다. PowerShell에서는 Get-FileHash .\supertonic3-local-tts-20260516-r4.zip -Algorithm SHA256 명령으로 해시를 확인합니다. 가이드에 명시된 SHA256 값과 일치하지 않는다면 파일이 변조되었거나 다운로드가 손상되었을 가능성이 있으므로, 재다운로드 또는 최신 안내 값을 다시 확인해야 합니다.
개인 대본이나 생성 로그가 외부로 전송되나요?
이 도구의 기본 사용 흐름은 로컬 서버가 대본을 처리하고 결과 파일을 사용자 PC에 저장하는 방식입니다. 다만 최초 설치 과정에서 패키지나 모델을 내려받기 위해 외부 저장소에 접속할 수는 있습니다. 생성된 data 폴더, 입력 로그, Whisper JSON에는 대본 내용이나 작업 메타데이터가 남을 수 있으므로, 별도의 검토 없이 공개 폴더에 업로드하지 않는 운영 원칙을 권장합니다.