유튜브 영상에 내레이션을 넣고 싶은데 직접 녹음하기는 부담스럽고, 성우 섭외 비용도 만만치 않아서 고민하는 분들이 많습니다. 수퍼톤 플레이는 이런 고민을 해결해주는 AI 음성 생성 서비스입니다. 단순히 텍스트를 읽어주는 수준을 넘어서 문맥을 이해하고, 감정을 담아 발화하며, 심지어 웃음 소리까지 구현합니다.
2025년 12월 9일 오늘, 수퍼톤이 새로운 TTS 모델 소나 스피치2를 전세계에 정식 출시했습니다. API도 함께 공개되어 개발자들도 바로 활용할 수 있게 되었습니다. 23개 언어 지원, 보이스 클로닝 기능, 비언어적 표현 구현까지 가능해진 소나 스피치2는 국내 TTS 솔루션 가운데 최다 언어를 지원합니다. 직접 수퍼톤 플레이에서 보이스 클로닝을 테스트해본 경험을 바탕으로, 이 서비스를 제대로 활용하는 방법을 공유합니다.
1) 회원분 질문에서 시작된 테스트
회원분이 질문을 주셨습니다. "목소리를 복사할 수 있냐, 내 목소리를 수퍼톤에." 그래서 직접 테스트해봤습니다. 먼저 수퍼톤 플레이에 들어가서 내 말투로 녹음을 시작했습니다. 녹음 시작 버튼을 누르고 평소에 말투를 그대로 이렇게 말씀하시면 됩니다.
클로닝은 20초 정도 녹음할 때 가장 자연스럽다고 하는데, 정해진 대본이 없습니다. 그냥 긴장을 풀고 평소 말하듯 이야기해 보시면 내 말투가 녹음이 되고, 이걸 인식해서 AI가 목소리를 만들어준다고 합니다. 잔소리로 계속 말을 해도 AI가 알아서 해줍니다. 길게 하셔도 되고, 하지만 20초에서 30초 정도 녹음하시면 충분합니다.
2) 브류(Vrew)와의 결정적 차이점
브류에도 이런 보이스 클로닝 기능이 있습니다. 그런데 브류는 30문장을 녹음해야 합니다. 무료로 하나 할 수 있고, 새로운 목소리를 만든 다음에 한국어 선택하고 녹음을 해야 합니다. 문장을 전부 다 녹음해야 하는데, 30문장이나 됩니다. 그러면 목소리가 만들어지고 그걸로 사용하시면 됩니다.
그런데 수퍼톤은 다릅니다. 녹음 버튼 누르고 대본 없이 평소처럼 한국어 몇 마디 하면 됩니다. 녹음이 끝나고 만들기 버튼을 누르면 '보이스 클로닝 진행 중, 목소리를 세밀하게 분석하는 중이에요'라는 메시지가 나옵니다. 몇 초 만에 클로닝이 완료됩니다. 어? 벌써 나왔네요. 수퍼톤이 훨씬 빠릅니다.
3) 클로닝된 목소리로 실제 뉴스 읽어보기
클로닝이 완료되면 바로 테스트해볼 수 있습니다. 스피커에서 보이스 클로닝 한 번에 이렇게 수많은 언어로 콘텐츠 제작이 가능해집니다. 이게 되네요. 아무거나 넣어봤습니다. "쿠팡 3370만 명 개인정보 유출, 너네 어떡해"라고 입력하고 생성하니까 바로 음성이 나옵니다. 이게 됩니다, 됩니다, 됩니다.
제 목소리로 여기 대본을 한번 넣어서 테스트해봤습니다. 샘플이라 짧게 들어가는데, 실제 뉴스 기사를 넣어봤습니다.
"복잡한 뉴스 기사 읽기 귀찮으시죠? 국토부가 발표한 고속철도 통합 로드맵, 딱 3단계로 정리해 드립니다. 1단계 내년 3월입니다. 서울역에 SRT가, 수서역에 KTX가 들어갑니다. 특히 수서역에는 좌석 많은 KTX1을 투입해서 혼잡을 줄입니다. 2단계 내년 6월입니다. KTX 열차 뒤에 SRT 열차를 붙여서 달리는 복합연결 운행을 시범적으로 시작합니다. 그리고 내년 하반기부터는 앱에서 구분 없이 통합예매를 하게 되죠. 마지막 3단계, 내년 12월 말입니다."
이게 몇 초 만에 된 겁니다, 녹음이. 자연스럽게 대충 녹음했는데도 AI가 그걸 캐치해서 목소리를 잘 만들어줍니다.
4) 고품질 모델 소나2로 한 번 더 테스트
제가 그냥 편하게 대충 했잖아요, 이제 꼼꼼하게 하시면 더 좋은 결과가 나옵니다. 고품질 모델이 새로 생겼습니다. 소나2가 나왔네요. 이걸로 생성하게 한번 해봤습니다. 제 목소리입니다.
"복잡한 뉴스 기사 읽기 귀찮으시죠? 국토부가 발표한 고속철도 통합 로드맵, 딱 3단계로 정리해 드립니다..."
소나2가 수퍼톤에 나왔는데, 대박입니다. 품질이 확실히 달라요.
5) 다국어 보이스 클로닝의 놀라운 기능
더 놀라운 건 다국어 지원입니다. 영어로도 해봤습니다. 이제 스페인어도 합니다. 스페인어 보이스를 저장해봤습니다. 여러 개 할 수 있습니다. 한국어로 녹음한 목소리로 영어, 스페인어 등 다른 언어 텍스트를 읽게 할 수 있습니다. 자신의 목소리 톤으로 외국어를 읽어줍니다.
소나 스피치2는 23개 언어를 지원하고, 수퍼토닉도 한국어, 영어, 일본어, 스페인어, 포르투갈어 5개 언어에서 보이스 클로닝이 가능합니다. 요새 기술력이 많이 좋아져서 글로벌 시장 진출도 준비 중이라고 합니다. API도 됩니다, API도. 컴퓨터에서 바로 연동해서 쓸 수 있습니다.
1) 홈 화면에서 보이스 탐색하기
수퍼톤 플레이에 접속하면 홈 화면 하단에 '내가 쓴 대사의 다양한 보이스를 들어보세요!' 메뉴가 있습니다. 이곳에서 신규 보이스, 추천 보이스, 유즈케이스별로 분류된 다양한 보이스를 미리 들어볼 수 있습니다. 궁금한 보이스를 클릭하면 샘플 음성을 들어볼 수 있고, 연필 버튼을 누르면 직접 대사를 작성할 수 있고, 작성한 대로 생성된 결과도 들어볼 수 있습니다.
2) 유즈케이스 태그 활용하기
내레이션용인지, 캐릭터 더빙용인지, 교육 콘텐츠용인지에 따라 어울리는 보이스 톤이 다릅니다. 유즈케이스별로 정리된 태그를 활용하면 원하는 콘텐츠 제작에 어울리는 톤을 빠르게 찾을 수 있습니다. 태그는 중복 선택이 가능해서 '차분한 + 전문적인' 같은 조합으로 검색 범위를 좁힐 수 있습니다.
3) 말투 키워드로 미리 들어보기
각 보이스를 클릭하면 해당 보이스가 지원하는 말투 키워드들이 표시됩니다. 'Happy', 'Sad', 'Angry' 같은 감정 스타일이 있고, 각 키워드를 눌러서 감정이 맞는 톤을 미리 들어볼 수 있습니다. 미리듣기를 통해 보이스의 분위기를 파악하면 프로젝트에 딱 맞는 목소리를 고르기 훨씬 쉬워집니다. 원하는 보이스 옆의 + 버튼을 누르면 바로 프로젝트에 사용할 수 있도록 연결됩니다.
4) 보이스 선택 시 고려할 점
콘텐츠 유형에 따라 보이스 선택 기준이 달라집니다. 정보 전달 위주의 뉴스나 교육 콘텐츠는 또박또박한 발음과 안정적인 톤이 중요합니다. 스토리텔링이나 오디오북은 감정 표현이 풍부한 보이스가 좋습니다. 광고나 프로모션 영상은 밝고 에너지 넘치는 보이스가 적합합니다. 각 보이스의 샘플을 여러 개 들어보고 자신의 콘텐츠 스타일에 맞는지 확인하세요.
1) 새 프로젝트 만들기
본격적인 콘텐츠 제작을 시작하려면 왼쪽 메뉴에서 '프로젝트' 탭으로 이동해야 합니다. 프로젝트 탭에서 '새 프로젝트 만들기'를 통해서 프로젝트를 생성할 수 있습니다. '새 프로젝트 만들기'를 클릭하면 프로젝트 이름과 보이스 모델을 선택할 수 있습니다. 어떤 모델이 나의 콘텐츠에 적합할지 궁금하다면 보이스 모델 선택 위에 있는 'Sona 모델 소개'를 클릭하면 모델에 대해 자세하게 소개해줘서 선택에 도움을 줍니다.
2) TTS 모델 선택: 소나 스피치1, 소나 스피치2, 수퍼토닉
수퍼톤 플레이는 현재 세 가지 모델을 제공합니다. 고품질 모델에서는 Sona 1과 Sona 2를 선택할 수 있고, 빠른 모델로는 Supertonic을 지원합니다.
소나 스피치1은 지난 2월 정식 출시된 모델로, 맑고 안정적인 음성에 자연스러운 표현력을 더한 것이 특징입니다. 실제 사람의 발화 스타일과 감정을 학습해 자연스러운 음성을 구현하며 높은 평가를 받아왔습니다.
소나 스피치2는 2025년 12월 9일 오늘 전세계에 정식 출시된 최신 모델입니다. 텍스트를 자연스럽게 읽는 수준을 넘어 문맥을 이해해 발화 속도, 호흡, 억양을 정교하게 재현합니다. 웃음 소리나 목을 가다듬는 소리 같은 비언어적 표현까지 구현합니다. 오디오북처럼 실제 사람이 연기하는 것 같은 몰입도 중심 콘텐츠를 제작할 때 유용합니다.
수퍼토닉은 2025년 11월에 오픈소스로 공개된 온디바이스 기반 모델입니다. 클라우드나 GPU 없이 실시간으로 텍스트를 고품질 음성으로 바꿔줍니다. 6600만 개 매개변수의 초경량 구조로 설계되어 교육용 컴퓨터 등 고가의 GPU가 없는 일반 노트북이나 모바일 환경에서도 실시간 수준으로 음성을 생성할 수 있습니다. 내부 벤치마크 결과, 일반 노트북 환경에서 수퍼토닉은 초당 약 2500자 이상의 텍스트를 음성으로 변환했습니다. 글로벌 주요 TTS 모델이 초당 400자 내외의 음성을 생성하는 것과 비교해 압도적으로 빠른 속도입니다.
3) 모델별 적합한 사용 환경
소나 스피치1은 뉴스 내레이션, 교육 콘텐츠, 기업 프레젠테이션 등 정보 전달이 중요한 콘텐츠에 적합합니다. 소나 스피치2는 오디오북, 게임 더빙, 드라마 나레이션, 감정 표현이 중요한 콘텐츠에 최적화되어 있습니다. 수퍼토닉은 인공지능 컨택센터(AICC), 음성 에이전트, 에듀테크나 이러닝, 그리고 데이터 보안이 필수적인 금융, 의료, 보안 산업 분야에서 활용도가 높습니다. 클라우드로 데이터를 전송하지 않기 때문에 정보 유출 우려가 적습니다.
4) 보이스 라이브러리에서 목소리 고르기
모델을 선택하고 나면 보이스를 선택할 수 있는 보이스 라이브러리가 나옵니다. 원하는 보이스는 다양한 성별, 연령대 필터를 통해 쉽게 고를 수 있습니다. 어떤 유즈케이스에 맞을지 더 상세히 고르고 싶다면 위에 유즈케이스 태그를 통해서도 고를 수 있습니다. 유즈케이스 태그는 중복 지원되어 폭넓게 골라볼 수 있습니다. 보이스를 클릭하면 해당 보이스가 가진 말투 키워드들을 확인할 수 있고, 각 말투 키워드를 눌러 감정에 맞는 톤을 미리 들어볼 수도 있습니다.
1) 텍스트 입력과 음성 생성
프로젝트 화면에서 라인에 텍스트를 입력합니다. 화면 라인에 텍스트를 적었으면 생성을 해야 합니다. 생성을 하지 않는다면 텍스트만 있고 TTS 오디오는 만들어지지 않은 상태입니다.
생성하는 방법은 두 가지입니다. 오른쪽 하단의 초록색 '생성하기' 버튼을 누르거나, 상단 중간 토글에서 '엔터 키로 생성' 토글을 클릭하여 텍스트 작성 후 엔터로 간편하게 생성할 수 있습니다. 편한 방식을 선택해서 사용하면 됩니다.
2) 라인 추가와 연속 작업
라인을 추가하여 계속 콘텐츠 생성을 이어나갈 수 있습니다. 라인 화면 중간에 있는 +박스 '새 라인 추가'를 누르면 라인이 추가되고, 또 텍스트를 작성할 수 있습니다. 각 라인은 독립적으로 생성되고 관리됩니다. 여러 캐릭터가 대화하는 콘텐츠라면 라인별로 다른 보이스를 지정할 수도 있습니다.
3) 오디오 파일 다운로드 옵션
TTS를 생성했으면 라인 상단 오른쪽에 위치한 '다운로드' 버튼을 통해 다운로드 받습니다. 다운로드할 때에는 어떤 라인을 다운로드할 건지 선택해야 합니다. 전체 선택 버튼을 통해 한 번에 모든 라인을 선택할 수도 있고, 직접 원하는 라인만 선택해서 다운로드 받을 수도 있습니다.
다운로드 옵션은 두 가지입니다. '개별파일로 저장'은 각 라인을 별도 파일로 다운로드하는 것으로, 영상 편집에 유리합니다. Creator 요금제 이상부터는 각 단어 사이의 간격도 조절이 가능합니다. '한 파일로 저장'은 여러 라인을 하나의 파일로 합쳐 다운로드하는 것으로, 연속 재생에 유리합니다. Creator 요금제 이상부터는 각 단어나 문장 사이의 간격도 조절이 가능합니다.
4) 다운로드 파일 형식과 품질 설정
다운로드 시 파일 형식과 품질도 선택할 수 있습니다. 고품질 음성이 필요한 경우 WAV 형식을, 파일 용량을 줄이고 싶다면 MP3 형식을 선택하세요. 팟캐스트나 오디오북 제작 시에는 고품질 WAV로 다운로드한 후 후처리하는 것을 권장합니다. 유튜브 영상 배경 나레이션 용도라면 MP3로도 충분합니다.
1) 완성된 문장 형태로 입력하기
수퍼톤 플레이는 단순 TTS 음성 합성을 넘어 감정과 맥락까지 표현 가능한 AI 보이스 생성 툴입니다. 그만큼 입력하는 문장 구조와 표현 방식이 결과물에 큰 영향을 미칩니다. 문장 끝에 온점이 찍히지 않거나, 너무 길거나, 너무 짧은 문장은 가끔 제대로 읽지 못할 수 있습니다. 최대한 완성된 문장 형태로 넣어주면 생성되는 품질이 훨씬 좋아집니다. 긴 문장은 나누어 입력하면 더 자연스럽게 발음됩니다. 쉼표를 적절히 넣으면 끊어 읽기가 좋아져 더욱 자연스럽게 읽을 수 있습니다. 참고로 수퍼토닉은 현재 베타 버전으로 너무 짧은 문장 생성은 완벽한 발화가 어렵습니다.
2) 반복이나 누락 오류 해결하기
특정 단어가 반복되거나 빠질 경우, 문장을 다시 분리하거나 순서를 바꿔보는 것도 방법입니다. 같은 내용이라도 표현 방식에 따라 결과물이 달라지기 때문에 여러 번 시도해보는 것을 권장합니다. 생성된 음성이 마음에 들지 않으면 같은 텍스트로 다시 생성해서 다른 테이크를 만들 수도 있습니다.
3) 숫자 표현 바꿔쓰기
"10,000원"보다 "만원"이라고 쓰는 편이 AI에게는 훨씬 이해가 쉽습니다. 숫자와 단위를 풀어쓰면 자연스럽고 정확한 음성이 만들어집니다. 날짜 표현도 마찬가지입니다. "2025년 12월 9일"보다 "이천이십오년 십이월 구일" 또는 자연스럽게 "올해 12월 9일"처럼 쓰는 것이 더 정확하게 읽힙니다. 전화번호, 주민등록번호 같은 숫자 나열도 하이픈이나 띄어쓰기를 적절히 활용하면 끊어 읽기가 자연스러워집니다.
4) 외래어와 영어 표현 처리하기
영어 단어가 섞인 문장은 발음이 어색해질 수 있습니다. 영어 단어를 한글로 표기하거나, 아예 영어 문장으로 분리해서 영어 보이스로 생성하는 것이 좋습니다. "YouTube"는 "유튜브"로, "TTS"는 "티티에스"로 바꿔쓰면 더 자연스럽습니다. 브랜드명이나 고유명사 중 영어 발음이 중요한 경우에는 해당 부분만 영어로 따로 생성해서 편집하는 방법도 있습니다.
5) 문장 부호 활용 팁
물음표(?)는 자연스러운 의문문 억양을 만들어줍니다. 느낌표(!)는 강조와 감탄의 뉘앙스를 더합니다. 줄임표(...)는 말끝을 흐리는 효과를 줍니다. 쉼표(,)는 짧은 쉼, 마침표(.)는 긴 쉼을 만듭니다. 이런 문장 부호를 적절히 활용하면 기계적인 읽기가 아닌 자연스러운 발화를 만들 수 있습니다.
1) 말투 스타일 선택하기
수퍼톤 플레이는 대부분의 보이스에 다양한 말투를 제공합니다. 콘텐츠에 생생함을 더하려면 감정이 살아있는 것이 중요합니다. 상황에 맞게 'Angry', 'Sad', 'Happy' 같은 말투 스타일로 생성해보세요. 실제같은 감정으로 깜짝 놀라실 겁니다.
'+'가 붙은 스타일은 감정 강도가 더 큽니다. 예를 들어 Angry+는 Angry보다 더 강한 분노 표현이 됩니다. 콘텐츠의 분위기에 맞게 적절한 강도를 선택하세요. 드라마틱한 장면에는 +가 붙은 강한 감정을, 일상적인 대화에는 기본 감정을 사용하는 것이 자연스럽습니다.
2) 보이스 파라미터 활용하기
음높이, 음높이 변화, 속도 세 가지 파라미터를 조절할 수 있습니다. 음높이는 음성의 높낮이를 조절합니다. 음높이 변화는 억양의 다양성을 조절하는데, 높이면 생생하고 역동적인 톤이 되고, 낮추면 기계적이고 단조로운 톤이 됩니다. 속도는 말 속도를 조절합니다.
2배속 TTS를 생성하고 싶다면 속도를 '2'로 올려주면 됩니다. 생성한 테이크의 초가 4초에서 2초로 반으로 줄어드는 것을 확인할 수 있습니다. 이 기능은 시간 안에 정보를 전달해야 하는 숏폼 콘텐츠를 사용할 때 아주 유용합니다. 참고로 수퍼토닉은 현재 속도 파라미터만 지원하고 있습니다.
3) 소나 스피치2 전용 기능: laugh와 clear 태그
소나 스피치2에서는 텍스트에 <clear>, <laugh>를 넣으면 자연스럽게 목을 가다듬고 웃을 수 있습니다. 그동안 웃는 소리를 타이핑하느라 힘드셨죠? 이제 <laugh> 텍스트를 넣어 자연스러운 웃음을 생성해보세요.
<clear>: 목을 가다듬는 소리 (예: '큼', '음', '으흠')<laugh>: 웃는 소리 (예: '하하하', '하하', '하', '아하핫')이 기능 사용 시 꼭 확인해야 할 팁이 있습니다. 두 개 연속으로 넣는다고 길게 해당 발화를 내지 않습니다. 예를 들어 <laugh> <laugh> 신난다!처럼 쓰면 안 됩니다. 적절한 문장의 공간에 넣어야 합니다. 말하는 중간에 넣으면 동작하지 않을 수 있습니다. 예를 들어 "이 댓글 정말 웃기<laugh>네요"처럼 문장 중간에 넣으면 안 됩니다. 한 문장에 여러 태그는 가끔 동작하지 않을 수 있습니다. 태그를 넣어도 가끔 안 동작할 수 있습니다. 영어에서는 <clear>, <laugh>가 잘 안 나올 수 있습니다. 이 기능은 Sona 2에서만 사용 가능합니다.
4) 파라미터 조합으로 캐릭터 만들기
같은 텍스트라도 파라미터 조합에 따라 전혀 다른 캐릭터가 됩니다. 음높이를 높이고 속도를 빠르게 하면 활발하고 명랑한 캐릭터가 됩니다. 음높이를 낮추고 속도를 느리게 하면 차분하고 신뢰감 있는 캐릭터가 됩니다. 음높이 변화를 극대화하면 감정 기복이 큰 드라마틱한 연기가 가능합니다. 여러 조합을 실험해보면서 콘텐츠에 맞는 최적의 설정을 찾아보세요.
1) 오디오 업로드 또는 직접 녹음하기
원하는 목소리가 잘 안 나오시나요? 그럼 직접 원하는 톤을 녹음해서 만들어보세요. '오디오로 생성' 버튼을 클릭하고 오른쪽 하단의 생성하기 버튼을 누르면 녹음 창이 뜹니다. 내 목소리를 바로 녹음하거나 오디오 파일을 업로드하면 내가 원하는 캐릭터 보이스로 변환할 수 있습니다.
2) 더 좋은 결과를 위한 녹음 팁
마이크 입력 볼륨이 너무 낮으면 음성이 작게 녹음될 수 있습니다. 깨끗한 환경에서 녹음된 선명한 음성을 적용해야 합니다. 기본 내장 마이크보다 외장 마이크를 사용하는 것이 좋습니다. 가장 중요한 것은 원하는 캐릭터 보이스를 연기한다고 생각하면서 녹음하는 것입니다. 억양, 감정, 속도를 원하는 대로 연기하면 AI가 그 특징을 살려서 변환해줍니다.
3) 오디오 생성 기능의 활용 사례
이 기능은 특정 장면의 감정을 정확히 표현하고 싶을 때 유용합니다. 예를 들어 놀라는 장면에서 "뭐라고?!"를 원하는 뉘앙스로 직접 연기해서 녹음하면, AI가 그 감정을 캐릭터 보이스로 재현해줍니다. 외국어 콘텐츠를 만들 때 발음은 AI가 처리하고, 억양과 감정은 직접 연기한 것을 반영하게 할 수도 있습니다.
1) 녹음 환경 최적화하기
보이스 클로닝해서 만든 보이스가 부자연스럽게 느껴진다면 녹음 환경을 점검해보세요. 조용한 공간에서 외장 마이크를 사용하는 것을 추천합니다. 발음을 또박또박 선명하게 녹음해야 합니다. 내장 마이크보다는 USB 마이크 사용이 좋습니다. 에어컨, 선풍기, 냉장고 같은 배경 소음도 품질에 영향을 미칩니다. 가능하면 옷장 안이나 이불을 덮은 공간처럼 반향이 적은 곳에서 녹음하세요.
2) 녹음 시 말하기 팁
20초에서 30초 정도가 적당하지만, 그 시간 동안 어떻게 말하느냐가 중요합니다. 너무 빠르게 말하면 AI가 특징을 제대로 잡지 못합니다. 웅얼거리거나 발음이 불명확하면 클로닝 품질이 떨어집니다. 대본 없이 평소처럼 자연스럽게 말하되, 평소보다 조금 더 또박또박 말하는 것이 좋습니다. 다양한 음높이와 억양을 포함해서 말하면 AI가 목소리의 특징을 더 잘 학습합니다.
3) 클로닝 보이스 저장 및 관리
생성된 클로닝 보이스는 저장해서 계속 사용할 수 있습니다. 보이스 저장하기 버튼을 눌러 저장해두면 다른 프로젝트에서도 바로 불러와서 쓸 수 있습니다. 여러 개의 클로닝 보이스를 만들어둘 수 있습니다. 예를 들어 밝은 톤, 차분한 톤, 진지한 톤 등 상황별로 다르게 녹음해서 저장해두면 콘텐츠에 따라 선택해서 사용할 수 있습니다.
1) TXT 파일로 스크립트 불러오기
스크립트 가져오기 기능을 활용하면 txt 파일로 스크립트를 불러올 수 있습니다. 이 기능은 대본 작업을 외부에서 미리 해놓고 가져올 때 특히 유용합니다. 워드나 메모장에서 대본을 완성한 후 txt 파일로 저장해서 불러오면 라인별로 자동 분리됩니다. 긴 스크립트를 일일이 복사 붙여넣기 하는 번거로움을 줄일 수 있습니다.
2) 데스크톱 앱 활용하기
2025년 11월에 베타 출시된 수퍼톤 플레이 데스크톱은 윈도우와 맥 환경에서 클라우드 없이도 다양한 캐릭터의 음성으로 텍스트를 빠르게 변환할 수 있는 소프트웨어입니다. 웹 브라우저를 거치지 않고 바로 앱에서 작업할 수 있어서 효율이 높아집니다. 12월 22일부터 프로(Pro) 요금제 이용자에게 무제한 음성 생성 혜택을 제공할 예정입니다.
3) API 연동으로 자동화하기
개발자라면 수퍼톤 API를 활용해서 자체 서비스에 TTS 기능을 통합할 수 있습니다. 소나 스피치2와 수퍼토닉 모두 API 형태로 제공됩니다. 2025년 12월 9일 오늘 소나 스피치2 API도 함께 출시되었습니다. API는 개발자들이 다른 서비스에서 제공하는 데이터나 기능을 가져와 자사 서비스에 내재화할 수 있는 일종의 디지털 연결고리입니다. 대량의 음성을 자동으로 생성해야 하거나 다른 서비스와 연동이 필요한 경우에 API를 활용하면 됩니다.
수퍼토닉 소스 코드는 깃허브에서, 모델의 학습 결과물인 체크포인트와 모델을 체험해볼 수 있는 데모 페이지는 허깅페이스에서 만나볼 수 있습니다. 개발자 편의를 위해 소스 코드는 파이썬, C++, 자바스크립트 등 8개 이상의 프로그래밍 언어로 지원됩니다. 누구나 자유롭게 사용, 수정, 배포할 수 있는 오픈소스로 공개되어 있습니다.
4) 효율적인 워크플로우 구성하기
대량 콘텐츠 제작 시 효율적인 워크플로우를 구성하면 시간을 크게 절약할 수 있습니다. 먼저 외부에서 스크립트를 완성합니다. txt 파일로 저장해서 수퍼톤 플레이에 불러옵니다. 전체 라인을 확인하고 필요한 부분만 수정합니다. 일괄 생성 후 결과물을 확인하고 마음에 안 드는 라인만 재생성합니다. 최종 확인 후 한 번에 다운로드합니다. 이렇게 하면 개별 작업 대비 작업 시간을 절반 이상 줄일 수 있습니다.
Q: 소나 스피치1과 소나 스피치2 중 어떤 모델을 선택해야 하나요? A: 콘텐츠 특성에 따라 선택하면 됩니다. 소나 스피치1은 맑고 안정적인 음성으로 뉴스 내레이션, 교육 콘텐츠 같은 정보 전달 위주 콘텐츠에 적합합니다. 소나 스피치2는 캐릭터성 있는 음성과 비언어적 표현이 가능해서 오디오북, 게임 더빙, 감정 표현이 중요한 콘텐츠에 더 좋습니다. 2025년 12월 9일 오늘 전세계 출시된 소나2는 실제로 써보면 품질이 확실히 다릅니다.
Q: 수퍼토닉은 어떤 경우에 사용하나요? A: 수퍼토닉은 온디바이스 모델로 클라우드 연결 없이 사용자 기기에서 직접 음성을 생성합니다. 6600만 개 매개변수의 초경량 구조로 설계되어 일반 노트북 환경에서 초당 약 2500자 이상의 텍스트를 음성으로 변환합니다. 빠른 생성 속도가 필요하거나 데이터 보안이 중요한 금융, 의료, AICC 분야에서 활용하기 좋습니다. 클라우드로 데이터를 전송하지 않아서 정보 유출 우려가 없습니다.
Q: 보이스 클로닝 품질이 좋지 않은데 어떻게 개선할 수 있나요? A: 녹음 환경을 점검해보세요. 조용한 공간에서 외장 마이크를 사용하고, 발음을 또박또박 선명하게 해야 합니다. 노트북 내장 마이크는 주변 소음을 많이 잡아서 품질이 떨어지는 경우가 많습니다. 20초에서 30초 정도 자연스럽게 말하되, 너무 빠르거나 웅얼거리지 않도록 주의하세요. 대본 없이 평소처럼 편하게 말하는 것이 오히려 더 자연스러운 결과를 만들어냅니다. 브류처럼 30문장을 녹음할 필요 없이 간단하게 끝납니다.
Q: laugh 태그가 작동하지 않아요.
A: <laugh> 태그는 소나 스피치2에서만 지원됩니다. 문장 중간이 아니라 적절한 위치에 넣어야 합니다. "이 댓글 정말 웃기네요 <laugh>"처럼 문장 끝에 넣어보세요. 한 문장에 여러 태그를 넣거나, <laugh> <laugh>처럼 연속으로 넣으면 동작하지 않을 수 있습니다. 영어에서는 잘 작동하지 않는 경우도 있으니 한국어로 테스트해보세요.
Q: 지원하는 언어는 몇 개인가요? A: 소나 스피치2는 현재 23개 언어를 지원하며 국내 TTS 솔루션 가운데 최다입니다. 향후 30개 언어로 확대될 예정입니다. 한국어, 영어, 일본어는 물론 프랑스어, 독일어, 스페인어, 중국어(간체/번체), 베트남어, 인도네시아어, 태국어, 러시아어, 아랍어 등을 지원합니다. 수퍼토닉은 한국어, 영어, 일본어, 스페인어, 포르투갈어 5개 언어를 지원합니다. 23개 언어 모두에서 보이스 클로닝 기능도 제공되어 자신의 목소리 톤으로 언어 장벽 없이 콘텐츠를 제작할 수 있습니다.
Q: 수퍼토닉이 오픈소스로 공개되었다고 하는데 직접 사용할 수 있나요? A: 수퍼토닉 소스 코드는 깃허브에서, 모델의 학습 결과물인 체크포인트와 모델을 체험해볼 수 있는 데모 페이지는 허깅페이스에서 만나볼 수 있습니다. 개발자 편의를 위해 소스 코드는 파이썬, C++, 자바스크립트 등 8개 이상의 프로그래밍 언어로 지원됩니다. 누구나 자유롭게 사용, 수정, 배포할 수 있는 오픈소스로 공개되어 있습니다. 수퍼톤 플레이 서비스에 탑재된 버전에서는 오픈소스 공개 버전에 없었던 보이스 클로닝 기능과 5개 언어 지원이 추가되어 있습니다.
Q: 데스크톱 앱은 언제 정식 출시되나요? A: 2025년 11월에 베타 버전으로 출시되었고 현재 윈도우와 맥 환경에서 사용할 수 있습니다. 12월 22일부터 프로(Pro) 요금제 이용자에게 무제한 음성 생성 혜택을 제공할 예정입니다. 정식 버전 출시 일정은 아직 공개되지 않았지만, 베타 버전만으로도 클라우드 없이 빠르게 음성을 생성할 수 있어서 작업 효율이 높습니다.
수퍼톤 플레이는 단순한 TTS 서비스를 넘어서 감정과 맥락까지 이해하는 AI 음성 생성 도구입니다. 2025년 12월 9일 오늘 전세계 출시된 소나 스피치2는 웃음 소리와 목 가다듬는 소리까지 구현하면서 AI 음성 합성의 새로운 기준을 제시했습니다. 직접 보이스 클로닝을 테스트해보니 20초 녹음만으로 몇 초 만에 자연스러운 음성이 생성되는 것에 놀랐습니다. 브류처럼 30문장을 녹음할 필요 없이 간단하게 끝납니다.
핵심 요약:
<laugh>, <clear> 태그로 비언어적 표현을 추가할 수 있습니다(소나 스피치2 한정)수퍼톤 플레이 웹사이트에서 무료로 기능을 체험해볼 수 있습니다. 직접 텍스트를 입력하고 다양한 보이스로 생성해보면서 자신의 콘텐츠에 맞는 최적의 설정을 찾아보세요.

ElevenLabs의 텍스트 음성 변환, 음성 클로닝, 실시간 STT, 감정 표현, 음악 생성, AI 에이전트까지 모든 기능을 초보자도 이해할 수 있게 체계적으로 정리했습니다.
젠스파크 AI 워크스페이스의 모든 기능을 상세히 설명합니다. AI 시트, AI 슬라이드, AI 인박스 등 20개 이상의 AI 에이전트로 업무를 자동화하는 방법을 알아보세요.
구글 원 AI 요금제의 Gemini Pro와 Ultra 차이점, 2TB에서 30TB까지 요금제 비교, 노트북LM과 Flow, Veo 등 유료 기능 상세 설명, 업그레이드 방법과 환불 정책까지 정리했습니다.
Veo, Sora, Kling 등 텍스트 to 비디오 AI를 위한 프롬프트 작성법을 소개합니다. JSON 형식 템플릿과 핀셋 수정 기법으로 원하는 영상을 정확하게 연출하는 실전 가이드입니다.
오픈라우터 기반 305개 AI 모델의 가격을 한눈에 비교하고, 용도별 최적의 모델을 선택하는 방법을 알아보세요. 무료 모델부터 프리미엄까지 완벽 정리.