1. ElevenLabs 완벽 가이드: AI 음성 합성 플랫폼의 모든 기능 총정리
ElevenLabs는 텍스트를 사람처럼 자연스러운 음성으로 바꿔주는 AI 플랫폼입니다. 유튜브 영상 나레이션, 팟캐스트 제작, 오디오북 녹음, 게임 캐릭터 목소리 작업 등 음성이 필요한 거의 모든 분야에서 활용되고 있습니다. 단순히 텍스트를 읽어주는 수준을 넘어서 감정 표현, 음성 복제, 실시간 대화, 심지어 음악 생성까지 가능한 올인원 오디오 AI로 진화했습니다. 한국에서는 일레븐랩스로 알려져 있고, 타입캐스트와 함께 AI TTS 업계에서는 매우 유명하며, 세계 무대에서 뛰고 있습니다.
이 문서에서는 ElevenLabs를 처음 접하는 분들도 쉽게 이해할 수 있도록 기본 개념부터 고급 기능까지 순서대로 설명합니다. 각 기능이 무엇인지, 어떤 상황에서 쓰이는지, 어떻게 활용하면 좋은지를 구체적인 예시와 함께 다룹니다.
- 일레븐랩스 실제 사용 영상 (공식 채널) - How to Make AI Ads with ElevenLabs (Full Workflow)
2. ElevenLabs란 무엇인가
ElevenLabs를 본격적으로 사용하기 전에 이 플랫폼이 정확히 무엇을 하는 서비스인지, 기존 음성 합성 도구와 어떻게 다른지 이해하는 것이 중요합니다.
1) 핵심 정체성 - AI 기반 오디오 생성 플랫폼
- ElevenLabs는 2022년에 설립된 AI 음성 기술 회사입니다. 텍스트를 입력하면 사람이 직접 녹음한 것처럼 자연스러운 음성을 생성해줍니다.
- 기존의 TTS(Text-to-Speech) 서비스들이 로봇 같은 딱딱한 음성을 만들어냈다면, ElevenLabs는 감정, 억양, 호흡까지 재현하는 것이 특징입니다.
- 웹 인터페이스에서 직접 사용할 수도 있고, API를 통해 개발자가 자신의 서비스에 통합할 수도 있습니다.
2) 기존 TTS와의 차별점
- 전통적인 TTS는 미리 녹음된 음성 조각을 이어붙이는 방식이었습니다. 그래서 문장이 길어지면 어색해지고, 감정 표현이 불가능했습니다.
- ElevenLabs는 딥러닝 기반으로 음성의 패턴 자체를 학습합니다. 덕분에 "슬프게 말해줘", "신나는 톤으로" 같은 감정 지시도 반영할 수 있습니다.
- 32개 이상의 언어를 지원하며, 한국어도 자연스럽게 발음합니다. 외국어 이름이나 전문 용어 발음도 사전으로 직접 지정할 수 있습니다.
3) 누가 사용하면 좋은가
- 유튜버나 콘텐츠 크리에이터는 직접 녹음하지 않고도 나레이션을 만들 수 있습니다. 목소리 컨디션이 안 좋은 날에도 일관된 품질을 유지할 수 있죠.
- 게임 개발자는 수백 개의 NPC 대사를 성우 섭외 없이 생성할 수 있습니다. 프로토타입 단계에서 특히 유용합니다.
- 기업은 고객 상담 챗봇에 자연스러운 음성을 입히거나, 사내 교육 영상의 나레이션을 자동화할 수 있습니다.
- 접근성 분야에서는 시각장애인을 위한 오디오 콘텐츠 제작에 활용됩니다.

3. 텍스트를 음성으로 바꾸기 - TTS 기본 기능
ElevenLabs의 가장 핵심적인 기능은 텍스트를 음성으로 변환하는 TTS(Text-to-Speech)입니다. 이 기능을 제대로 이해하면 나머지 기능들도 쉽게 파악할 수 있습니다.
1) 기본 TTS 작동 방식
- 텍스트를 입력하고 원하는 목소리를 선택한 뒤 생성 버튼을 누르면 끝입니다. 몇 초 안에 MP3나 WAV 형식의 오디오 파일이 만들어집니다.
- 웹 인터페이스에서는 미리듣기 기능으로 결과물을 확인하고, 마음에 들면 다운로드할 수 있습니다.
- API를 사용하면 프로그램에서 자동으로 수천 개의 텍스트를 음성으로 변환하는 것도 가능합니다.
2) 일반 TTS vs 스트리밍 TTS
- 일반 TTS는 전체 텍스트를 한 번에 처리해서 완성된 오디오 파일을 반환합니다. 오디오북처럼 긴 콘텐츠를 만들 때 적합합니다.
- 스트리밍 TTS는 텍스트를 입력받는 즉시 음성을 생성하면서 동시에 재생합니다. 실시간 대화 앱이나 라이브 방송에서 사용됩니다.
- 스트리밍 방식은 지연 시간이 150ms 이하로 매우 짧아서, 사용자가 기다린다는 느낌을 받지 않습니다.
3) 타임스탬프 기능 - 영상 싱크의 핵심
- 생성된 음성에서 각 단어가 몇 초에 시작하고 끝나는지 정확한 시간 정보를 받을 수 있습니다.
- 이 정보를 활용하면 영상 자막을 음성과 정확히 일치시키거나, 캐릭터 입 모양을 말하는 내용에 맞춰 움직이게 할 수 있습니다.
- 문자 단위 타임스탬프도 지원해서, 노래방 자막처럼 글자가 하나씩 하이라이트되는 효과도 구현 가능합니다.
4) 텍스트 정규화 - 숫자와 기호 읽는 방법 제어
- "2024년"을 "이천이십사년"으로 읽을지 "이공이사년"으로 읽을지 지정할 수 있습니다.
- 전화번호 "010-1234-5678"을 자연스럽게 끊어 읽도록 설정하거나, 수학 공식의 기호를 어떻게 발음할지 제어합니다.
- 금융 보고서나 기술 문서처럼 특수한 읽기 규칙이 필요한 콘텐츠에서 특히 중요한 기능입니다.

4. 여러 캐릭터가 대화하는 콘텐츠 만들기
드라마, 팟캐스트, 게임처럼 여러 사람이 대화하는 콘텐츠를 만들 때 유용한 기능들입니다.
1) Text to Dialogue - 멀티 캐릭터 대화 생성
- 대본 형식으로 "철수: 안녕하세요", "영희: 반가워요" 같이 입력하면 각 캐릭터에 다른 목소리를 자동으로 적용합니다.
- 한 번의 요청으로 전체 대화를 생성할 수 있어서, 캐릭터별로 따로 녹음하고 편집하는 수고를 덜 수 있습니다.
- voice_segments 정보가 함께 제공되어 어떤 캐릭터가 언제 말했는지 프로그램에서 추적할 수 있습니다.
2) 활용 사례 - 오디오 드라마 제작
- 웹소설을 오디오 드라마로 변환할 때, 등장인물마다 다른 목소리를 지정하면 청취자가 누가 말하는지 쉽게 구분할 수 있습니다.
- 남성 캐릭터에는 낮고 굵은 목소리, 여성 캐릭터에는 밝은 목소리, 노인 캐릭터에는 느린 템포의 목소리를 적용하는 식입니다.
- 감정 태그를 추가하면 "화난 목소리로", "속삭이듯이" 같은 연기 지시도 반영됩니다.
3) 활용 사례 - 교육 콘텐츠
- 언어 학습 앱에서 원어민 선생님과 학생의 대화를 시뮬레이션할 수 있습니다.
- 역사 다큐멘터리에서 나레이터와 역사 인물의 대화를 재현할 때도 유용합니다.
- 기업 교육 영상에서 상황극 형식의 콘텐츠를 쉽게 제작할 수 있습니다.

5. 원하는 목소리 선택하고 관리하기
ElevenLabs에서는 수천 개의 기성 목소리 중에서 선택하거나, 완전히 새로운 목소리를 만들 수 있습니다.
1) 보이스 라이브러리 - 기성 목소리 활용
- ElevenLabs는 다양한 성별, 연령대, 악센트, 언어의 목소리를 미리 제공합니다. 영어 미국식, 영어 영국식, 한국어 등 언어별로 분류되어 있습니다.
- 각 목소리에는 메타데이터가 붙어 있어서 "젊은 여성, 밝은 톤, 미국 영어" 같은 조건으로 검색할 수 있습니다.
- 자주 사용하는 목소리는 즐겨찾기에 추가하거나 디폴트로 설정해서 매번 찾는 수고를 줄일 수 있습니다.
2) Voice Design - 맞춤형 목소리 생성
- 원하는 목소리가 라이브러리에 없다면 직접 만들 수 있습니다. 27개의 파라미터를 조절해서 이상적인 목소리를 디자인합니다.
- 피치(높낮이), 속도, 목소리 질감(거친 정도, 부드러운 정도), 발음 정확도 등을 슬라이더로 조절합니다.
- 텍스트 프롬프트로 "40대 남성, 차분하고 신뢰감 있는 목소리, 뉴스 앵커 스타일"처럼 설명하면 AI가 그에 맞는 목소리를 생성해줍니다.
3) Voice Remix - 기존 목소리 변형
- 라이브러리의 목소리가 마음에 들지만 약간 수정하고 싶을 때 사용합니다.
- 예를 들어 특정 목소리의 피치만 조금 낮추거나, 말하는 속도만 빠르게 조절할 수 있습니다.
- 원본 목소리의 특성을 유지하면서 미세 조정이 가능해서 브랜드 보이스를 만들 때 유용합니다.
4) 발음 사전 - 특수 단어 발음 지정
- 회사명, 제품명, 전문 용어처럼 AI가 잘못 읽을 수 있는 단어의 발음을 직접 지정합니다.
- "NVIDIA"를 "엔비디아"로, "iOS"를 "아이오에스"로 읽도록 사전에 등록하면 이후 모든 생성에 적용됩니다.
- 버전 관리 기능이 있어서 발음 사전을 수정한 이력을 추적하고, 필요하면 이전 버전으로 되돌릴 수 있습니다.
6. 음성 클로닝 - 특정 사람의 목소리 복제하기
ElevenLabs의 가장 강력한 기능 중 하나는 실제 사람의 목소리를 AI로 복제하는 것입니다.
1) 음성 클로닝이란
- 특정 사람의 음성 샘플을 AI에게 학습시켜서, 그 사람이 직접 말하는 것처럼 새로운 텍스트를 읽게 하는 기술입니다.
- 성우가 직접 녹음하지 않아도 그 성우의 목소리로 무한히 콘텐츠를 생성할 수 있습니다.
- 본인의 목소리를 복제해두면 목이 아플 때나 시간이 없을 때도 일관된 음성 콘텐츠를 만들 수 있습니다.
2) Instant Voice Cloning - 빠른 복제
- 짧은 음성 샘플(몇 십 초~몇 분)만으로 빠르게 목소리를 복제합니다.
- 품질은 Professional 버전보다 낮지만, 테스트나 프로토타입 용도로 충분합니다.
- 웹 인터페이스에서 오디오 파일을 업로드하면 몇 분 안에 복제된 목소리를 사용할 수 있습니다.
3) Professional Voice Cloning (PVC) - 고품질 복제
- 더 많은 샘플(보통 30분 이상)을 학습시켜서 원본과 거의 구분이 안 되는 수준의 복제를 만듭니다.
- 감정 표현, 호흡, 말버릇까지 재현해서 실제 그 사람이 녹음한 것처럼 들립니다.
- 화자별로 샘플을 분리해서 등록하고, 각 샘플의 품질을 확인하는 관리 기능도 제공됩니다.
4) 주의사항과 윤리적 고려
- 다른 사람의 목소리를 복제할 때는 반드시 그 사람의 동의가 필요합니다. 무단 복제는 법적 문제가 될 수 있습니다.
- ElevenLabs는 악용 방지를 위해 복제된 음성에 워터마크를 삽입하고, 의심스러운 사용을 모니터링합니다.
- 상업적 사용 시에는 해당 목소리의 권리 관계를 명확히 정리해야 합니다.
7. 음성을 텍스트로 바꾸기 - STT 기능
TTS의 반대 방향인 STT(Speech-to-Text), 즉 음성을 텍스트로 변환하는 기능도 제공합니다.
1) Scribe - 음성 인식 엔진
- 오디오나 비디오 파일을 업로드하면 그 안의 음성을 텍스트로 변환해줍니다.
- 99개 언어를 지원하며, 한국어 인식 정확도도 높은 편입니다.
- 단순 텍스트 변환을 넘어서 워드 단위 타임스탬프, 화자 분리 기능까지 제공합니다.
2) 화자 분리 (Speaker Diarization)
- 여러 사람이 대화하는 오디오에서 누가 언제 말했는지 자동으로 구분합니다.
- 회의 녹음을 텍스트로 변환할 때 "화자 1: ...", "화자 2: ..." 형태로 정리됩니다.
- 인터뷰 영상의 자막을 만들 때 질문자와 답변자를 구분하는 데 유용합니다.
3) Scribe v2 Realtime - 실시간 음성 인식
- WebSocket 기반으로 마이크 입력을 실시간으로 텍스트로 변환합니다.
- 지연 시간이 약 150ms로 매우 짧아서 라이브 자막 생성에 적합합니다.
- 실시간 번역 앱, 접근성 도구, 회의 실시간 기록 등에 활용됩니다.
4) 오디오 태깅
- 음성 외의 소리도 감지해서 태그로 표시합니다. [박수], [웃음], [음악] 같은 정보가 텍스트에 포함됩니다.
- 팟캐스트나 인터뷰 녹취록을 만들 때 맥락 파악에 도움이 됩니다.
- 접근성 자막에서 청각장애인에게 비언어적 정보를 전달하는 데도 중요합니다.
8. 감정 표현과 음성 세밀 조절
ElevenLabs가 다른 TTS 서비스와 차별화되는 핵심 기능 중 하나는 정교한 감정 표현입니다.
1) 17가지 감정 벡터
- 기쁨, 슬픔, 분노, 두려움, 놀람 같은 기본 감정부터 호기심, 지루함, 당혹감 같은 미묘한 감정까지 17가지를 지원합니다.
- 각 감정의 강도를 0~100% 사이에서 조절할 수 있습니다. "약간 슬픈"과 "매우 슬픈"을 구분해서 표현합니다.
- 여러 감정을 혼합할 수도 있습니다. 예를 들어 "기쁨 70% + 놀람 30%"으로 설정하면 기쁜 놀라움을 표현합니다.
2) 감정 이행 (Emotion Transition)
- 문장 중간에 감정이 바뀌는 것도 표현할 수 있습니다.
- "처음에는 기대에 찬 목소리로 시작해서 점점 실망하는 톤으로 끝나게"와 같은 연출이 가능합니다.
- 오디오 드라마나 게임 대사에서 캐릭터의 심리 변화를 자연스럽게 표현할 때 유용합니다.
3) Stability와 Similarity 조절
- Stability는 음성의 일관성을 조절합니다. 높으면 안정적이고 예측 가능한 톤, 낮으면 더 다양하고 감정적인 표현이 나옵니다.
- Similarity는 생성된 음성이 원본 목소리(클로닝의 경우)나 선택한 목소리와 얼마나 비슷한지를 조절합니다.
- 뉴스 읽기처럼 일관성이 중요한 경우 Stability를 높이고, 연기가 필요한 경우 낮추는 식으로 활용합니다.
4) 오디오 태그로 감정 지시
- 텍스트 안에 특수 태그를 넣어서 감정을 지시할 수 있습니다.
- 예: "[슬프게] 오늘 정말 힘든 하루였어요. [밝게] 하지만 내일은 더 나을 거예요!"
- 코드 없이 텍스트만으로 감정 변화를 제어할 수 있어서 비개발자도 쉽게 사용합니다.
9. 오디오 편집 유틸리티 기능
TTS와 STT 외에도 오디오 작업에 유용한 다양한 유틸리티를 제공합니다.
1) Voice Changer - 목소리 변환
- 이미 녹음된 음성의 목소리를 다른 목소리로 바꿉니다. 원본의 감정과 억양은 유지하면서 음색만 변경됩니다.
- 게임 스트리머가 자신의 목소리를 캐릭터 목소리로 바꾸거나, 익명 인터뷰에서 신원을 보호할 때 사용합니다.
- 실시간 변환도 지원해서 라이브 방송 중에도 목소리를 바꿀 수 있습니다.
2) Voice Isolator - 음성 분리
- 배경 소음이 섞인 오디오에서 사람 목소리만 깨끗하게 추출합니다.
- 야외에서 녹음한 인터뷰, 소음이 많은 환경의 회의 녹음을 정리할 때 유용합니다.
- 분리된 깨끗한 음성은 음성 클로닝의 학습 데이터로도 활용할 수 있습니다.
3) Dubbing - 자동 더빙
- 영상이나 오디오의 언어를 다른 언어로 자동 변환합니다.
- 원본 화자의 음색과 감정을 최대한 유지하면서 다른 언어로 말하게 합니다.
- 유튜브 영상을 여러 언어로 배포하거나, 해외 콘텐츠를 한국어로 더빙할 때 사용합니다.
- SRT, WebVTT, JSON 형식의 자막 파일도 함께 생성됩니다.
4) Sound Effects - 효과음 생성
- 텍스트로 원하는 효과음을 설명하면 AI가 생성해줍니다.
- "숲속에서 새가 지저귀는 소리", "우주선 엔진 시동 소리", "유리창 깨지는 소리" 같은 설명을 입력합니다.
- 게임, 영화, 팟캐스트의 배경음이나 효과음을 직접 녹음하거나 구매하지 않고 만들 수 있습니다.

10. 음악 생성 기능
ElevenLabs는 음성을 넘어 음악 생성 기능도 제공하기 시작했습니다.
1) AI Music Creation
- 텍스트 프롬프트로 음악을 생성합니다. "신나는 일렉트로닉 댄스 음악, 120 BPM, 에너지 넘치는 분위기"처럼 설명합니다.
- 프롬프트는 최대 4,100자까지 입력할 수 있어서 상세한 음악 스타일을 지정할 수 있습니다.
- 가사가 포함된 노래도 생성 가능하며, 가사 한 줄은 최대 200자까지 지원됩니다.
2) Music Composition Plan
- 음악 생성 과정을 단계별로 제어하는 기능입니다.
- 먼저 전체 구성을 계획하고, 각 섹션(인트로, 벌스, 코러스, 아웃트로)을 개별적으로 조정할 수 있습니다.
- 파라미터 최적화 기능으로 원하는 스타일에 가장 잘 맞는 설정을 찾을 수 있습니다.
3) Stem Separation - 음원 분리
- 기존 음악 파일에서 보컬, 드럼, 베이스, 기타 등을 각각 분리해서 추출합니다.
- 노래방 트랙(MR) 제작, 리믹스 작업, 샘플링에 활용됩니다.
- 분리된 각 트랙은 ZIP 파일로 다운로드할 수 있습니다.
4) 활용 사례
- 유튜브 영상의 배경 음악을 직접 생성해서 저작권 걱정 없이 사용할 수 있습니다.
- 팟캐스트 인트로/아웃트로 음악, 게임 배경음악, 광고 징글 제작에 활용됩니다.
- 기존 곡의 MR을 만들어서 커버 영상을 제작하거나, 노래 연습에 사용할 수 있습니다.
11. 대화형 AI 에이전트 만들기
ElevenLabs는 단순 음성 생성을 넘어 음성으로 대화하는 AI 에이전트를 구축할 수 있는 플랫폼을 제공합니다.
1) AI 에이전트란
- 사용자와 음성으로 실시간 대화하는 AI입니다. 고객 상담 봇, 음성 비서, 교육용 튜터 등으로 활용됩니다.
- ElevenLabs의 자연스러운 TTS와 실시간 STT를 결합해서 사람과 대화하는 것 같은 경험을 제공합니다.
- ChatGPT, Claude 같은 LLM(대규모 언어 모델)과 연동해서 지능적인 대화가 가능합니다.
2) 에이전트 구성 요소
- LLM 선택: OpenAI GPT-5.1, Google Gemini 2.5, Anthropic Claude Sonnet 4.5 등 원하는 AI 모델을 연결합니다.
- 목소리 설정: 에이전트가 사용할 목소리를 라이브러리에서 선택하거나 직접 만듭니다.
- 프롬프트 설정: 에이전트의 성격, 역할, 대화 스타일을 정의합니다. "친절한 고객 상담원", "엄격한 영어 선생님" 등.
- 도구 연결: 외부 API, 데이터베이스, 예약 시스템 등을 연결해서 실제 작업을 수행하게 합니다.
3) 전화 시스템 연동
- 실제 전화번호를 연결해서 전화로 AI 에이전트와 대화할 수 있습니다.
- SIP 트렁크, Twilio 연동을 지원해서 기존 콜센터 시스템에 통합할 수 있습니다.
- Batch calling 기능으로 대량의 아웃바운드 콜을 자동화할 수 있습니다.
4) 워크플로우와 조건 분기
- 대화 흐름을 논리적으로 설계할 수 있습니다. "고객이 환불을 요청하면 A로, 제품 문의면 B로" 같은 분기를 설정합니다.
- AND/OR 연산자, 비교 연산자를 조합해서 복잡한 조건도 처리합니다.
- 동적 변수를 활용해서 고객 이름, 주문 번호 등을 대화 중에 참조할 수 있습니다.
12. 프로젝트와 스튜디오 관리
대규모 오디오 콘텐츠를 체계적으로 관리하기 위한 기능들입니다.
1) Projects - 프로젝트 관리
- 오디오북, 팟캐스트 시리즈처럼 여러 오디오 파일로 구성된 작업을 하나의 프로젝트로 묶어서 관리합니다.
- 오디오, 비디오, 이미지, 썸네일 등 다양한 에셋을 프로젝트 안에서 통합 관리합니다.
- 프로젝트별로 사용한 목소리, 설정, 생성 이력을 추적할 수 있습니다.
2) Chapters - 챕터 구조
- 긴 콘텐츠를 챕터 단위로 나눠서 관리합니다. 오디오북의 각 장, 팟캐스트의 각 에피소드 등.
- 챕터별로 다른 목소리를 지정할 수 있습니다. 멀티 보이스 오디오북에서 캐릭터별 목소리를 챕터마다 다르게 설정합니다.
- voice_ids 필드로 각 챕터에 사용된 목소리 정보를 확인할 수 있습니다.
3) Snapshots - 버전 관리
- 프로젝트의 특정 시점 상태를 스냅샷으로 저장합니다.
- 수정 작업 중 문제가 생기면 이전 스냅샷으로 복원할 수 있습니다.
- audio_duration_secs 필드로 각 스냅샷의 총 오디오 길이를 확인할 수 있습니다.
4) 팟캐스트 생성
- 텍스트 스크립트를 입력하면 팟캐스트 형식의 오디오를 자동 생성합니다.
- 호스트와 게스트 역할을 지정하고 각각 다른 목소리를 적용할 수 있습니다.
- safety-identifier 헤더로 생성된 콘텐츠의 안전성을 관리합니다.
13. 개발자를 위한 API와 SDK
ElevenLabs의 모든 기능은 API를 통해 프로그래밍 방식으로 접근할 수 있습니다.
1) REST API 기본
- 표준 REST API로 모든 기능에 접근합니다. HTTP 요청을 보내고 JSON 응답을 받는 방식입니다.
- API 키 인증을 사용하며, 키는 대시보드에서 발급받습니다.
- OpenAPI 스펙을 제공해서 Swagger UI로 API를 탐색하거나, 자동으로 클라이언트 코드를 생성할 수 있습니다.
2) JavaScript SDK
- npm으로 설치해서 Node.js나 브라우저 환경에서 사용합니다.
- TypeScript 타입 정의가 포함되어 있어서 자동완성과 타입 체크가 가능합니다.
- Realtime Scribe 헬퍼, WebSocket 메시지 핸들러 등 편의 기능을 제공합니다.
3) Python SDK
- pip로 설치해서 Python 프로젝트에서 사용합니다.
- 비동기(async) 지원으로 대량 요청을 효율적으로 처리할 수 있습니다.
- 로깅 기능이 개선되어 디버깅이 편리합니다.
4) React / React Native 패키지
- 웹앱과 모바일앱에서 ElevenLabs 기능을 쉽게 통합할 수 있는 컴포넌트를 제공합니다.
- ConvAI 위젯으로 음성 대화 인터페이스를 빠르게 구현할 수 있습니다.
- 재접속 로직, 에러 핸들링 등이 내장되어 있어서 안정적인 앱을 만들 수 있습니다.
5) CLI 도구
- 명령줄에서 ElevenLabs 기능을 사용할 수 있는 도구입니다.
- 배치 작업, 자동화 스크립트, CI/CD 파이프라인에 통합하기 좋습니다.
- --env 플래그로 여러 환경(개발, 스테이징, 프로덕션)을 관리할 수 있습니다.
14. 요금제와 워크스페이스 관리
ElevenLabs는 다양한 규모의 사용자를 위한 요금제와 팀 협업 기능을 제공합니다.
1) 요금제 구조
- 무료 플랜: 기본 TTS 기능과 제한된 크레딧을 제공합니다. 서비스를 테스트하거나 소규모 개인 프로젝트에 적합합니다.
- 유료 플랜: 더 많은 크레딧, Professional Voice Cloning, 우선 처리 등 고급 기능을 제공합니다.
- 기업용 플랜: 대량 사용, 전용 지원, SLA 보장, 맞춤 계약 등을 제공합니다.
2) 크레딧 시스템
- 음성 생성량에 따라 크레딧이 차감됩니다. 생성된 오디오의 길이(문자 수)에 비례합니다.
- 모델별로 크레딧 소비량이 다릅니다. Flash 모델은 저렴하고, 고품질 모델은 더 많은 크레딧을 사용합니다.
- 대시보드에서 사용량을 실시간으로 확인하고, 잔여 크레딧을 관리할 수 있습니다.
3) 워크스페이스 - 팀 협업
- 여러 팀원이 하나의 워크스페이스에서 협업할 수 있습니다.
- 역할 기반 권한 관리로 누가 어떤 기능에 접근할 수 있는지 제어합니다.
- 목소리, 프로젝트, API 키 등 리소스를 팀 내에서 공유할 수 있습니다.
4) 보안 기능
- 단일 사용 토큰으로 일회성 접근을 안전하게 처리합니다.
- TLS 암호화로 모든 통신을 보호합니다.
- 외부 공유 제한 기능으로 민감한 목소리 자산이 외부로 유출되는 것을 방지합니다.
15. 일레븐랩스에도 AI 이미지 + AI 비디오가? ㄷㄷ!!
-
일레븐랩스 AI 비디오 & 이미지 출시
-
일레븐랩스 AI 비디오 & 이미지 생성 소요 크레딧

16. 일레븐랩스 가격표 한눈에 보고 비교해보기
1) ElevenLabs 요금제 핵심 비교표 (환율 1,470원 기준)
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 월 요금 (USD) | $0 | $5 | $22 | $99 |
| 월 요금 (KRW) | ₩0 | ₩7,350 | ₩32,340 | ₩145,530 |
| 월 크레딧 | 10,000 | 30,000 | 100,000 | 500,000 |
| TTS 분량 | ~10분 | ~30분 | ~100분 | ~500분 |
| 1,000크레딧당 추가 비용 | 추가 불가 | 추가 불가 | $0.30 (₩441) | $0.24 (₩353) |
| 1분당 비용 (KRW) | ₩0 (제한적) | ₩245 | ₩323 | ₩291 |
2) 주요 기능별 플랜 비교표
| 기능 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 고품질 TTS 모델 | ✓ | ✓ | ✓ | ✓ |
| Turbo/Flash 모델 | ✓ | ✓ | ✓ | ✓ |
| 동시 처리 수 | 2 | 3 | 5 | 10 |
| 커스텀 보이스 | 3개 | 10개 | 30개 | 160개 |
| Instant 클로닝 | ✓ | ✓ | ✓ | ✓ |
| Professional 클로닝 | ✗ | ✗ | 1개 | 1개 |
| Voice Changer | 10분 | 30분 | 100분 | 500분 |
| Studio 프로젝트 | 3개 | 20개 | 1,000개 | 3,000개 |
| 상업적 사용 | ✗ | 제한적 | 제한적 | 제한적 |
| 저작자 표시 면제 | ✗ | ✗ | ✓ | ✓ |
| 오디오 품질 | 128kbps | 128kbps | 192kbps | 192kbps |
3) Speech to Text (STT) 요금표
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| UI 포함 시간 | - | 1시간 | 4시간 53분 | 24시간 45분 |
| UI 시간당 비용 | - | - | $4.50 (₩6,615) | $4.00 (₩5,880) |
| API 포함 시간 | - | 10시간 | 62시간 51분 | 300시간 |
| API 추가 시간당 비용 | - | $0.48 (₩706) | $0.48 (₩706) | $0.40 (₩588) |
| Realtime 포함 시간 | - | - | 48시간 | 225시간 |
| Realtime 추가 비용 | - | - | $0.63 (₩926) | $0.53 (₩779) |
4) AI Agents 플랫폼 요금표
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 포함 분량 | - | 50분 | 250분 | 1,100분 |
| 추가 분당 비용 (USD) | - | 이용 불가 | ~$0.12 | ~$0.11 |
| 추가 분당 비용 (KRW) | - | - | ~₩176 | ~₩162 |
5) Dubbing (더빙) 요금표 - 비디오 기준
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 비디오 (워터마크 O) | 12분 | 15분 | 50분 | 250분 |
| 비디오 (워터마크 X) | - | 6분 | 33분 | 167분 |
| 추가 분당 비용 (KRW) | - | - | ₩588 | ₩559 |
6) Eleven Music 요금표
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 월 포함 분량 | 11분 | 22분 | 62분 | 304분 |
| 추가 분당 비용 (USD) | - | - | $0.40 | $0.38 |
| 추가 분당 비용 (KRW) | - | - | ₩588 | ₩559 |
7) Sound Effects & Voice Isolator 포함량
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| Sound Effects (초) | 250초 | 750초 | 2,500초 | 12,500초 |
| Voice Isolator (분) | 10분 | 30분 | 100분 | 500분 |
8) 플랜 선택 가이드
| 사용 목적 | 추천 플랜 | 월 비용 (KRW) | 핵심 이유 |
|---|---|---|---|
| 테스트/체험 | Free | ₩0 | 10분 무료, 기본 기능 체험 |
| 개인 취미 프로젝트 | Starter | ₩7,350 | 30분/월, 저렴한 입문용 |
| 유튜버/콘텐츠 크리에이터 | Creator | ₩32,340 | 100분/월, PVC 1개, 상업적 사용 |
| 전문 제작자/소규모 팀 | Pro | ₩145,530 | 500분/월, 높은 동시 처리 |
| 스타트업/퍼블리셔 | Scale | ₩485,100 | 2,000분/월, 대량 처리 최적화 |
| 대규모 서비스 운영 | Business | ₩1,940,400 | 11,000분/월, 최저 단가 ₩176/분 |
| 엔터프라이즈 급 | Enterprise | 협의 | 무제한 협의, 최저 $0.03/1000크레딧 |
17. 모든 기능 표로 한눈에 보기
| 카테고리 | 기능명 | 설명 | 주요 특징 |
|---|---|---|---|
| TTS (텍스트→음성) | Text to Speech | 텍스트를 자연스러운 음성으로 변환 | MP3/WAV 출력, 배치 처리 |
| Stream TTS | 실시간 스트리밍 음성 생성 | 150ms 이하 지연, 라이브 앱용 | |
| Text to Dialogue | 멀티 캐릭터 대화 생성 | voice_segments 제공, 드라마/게임용 | |
| Timestamps | 워드/문자 단위 타임스탬프 | 자막 싱크, 립싱크 애니메이션 | |
| Text Normalisation | 숫자/기호 읽기 방식 제어 | Enum 기반 정규화 전략 | |
| STT (음성→텍스트) | Scribe v1 | 오디오를 텍스트로 변환 | 99개 언어, 화자 분리, 오디오 태깅 |
| Scribe v2 Realtime | 실시간 음성 인식 | ~150ms 지연, WebSocket 기반 | |
| TTS 모델 | Eleven v3 | 감정 표현 특화 최신 모델 | 70+ 언어, 멀티 스피커, 드라마틱 낭독 |
| Eleven Multilingual v2 | 장문 안정성 모델 | 29개 언어, 최대 10,000자 | |
| Eleven Flash v2.5 | 초저지연 경제형 모델 | ~75ms 지연, 가격 50% 절감, 32개 언어 | |
| Eleven Turbo v2.5 | 품질-속도 밸런스 모델 | 32개 언어, 최대 40,000자 | |
| 음성 관리 | Voice Library | 기성 목소리 라이브러리 | 수천 개 목소리, 메타데이터 검색 |
| Voice Design | 맞춤형 목소리 생성 | 27개 파라미터, 텍스트 프롬프트 | |
| Voice Remix | 기존 목소리 변형 | 피치/속도 미세 조정 | |
| Default Voice | 기본 목소리 설정 | 자주 쓰는 목소리 즐겨찾기 | |
| 음성 클로닝 | Instant Voice Cloning | 빠른 음성 복제 | 몇 분 샘플로 즉시 복제 |
| Professional Voice Cloning | 고품질 음성 복제 | 30분+ 샘플, 감정/호흡까지 재현 | |
| Speaker Samples | 화자별 샘플 관리 | 샘플 등록/조회/분리 | |
| 감정 표현 | Emotion Vectors | 17가지 감정 벡터 | 감정 혼합, 강도 조절 (0~100%) |
| Emotion Transition | 감정 이행 표현 | 문장 중 감정 변화 연출 | |
| Stability Control | 음성 일관성 조절 | 안정적 톤 ↔ 감정적 표현 | |
| Similarity Boost | 원본 유사도 조절 | 클로닝 음성 정확도 제어 | |
| Audio Tags | 텍스트 내 감정 태그 | [슬프게], [밝게] 등 직접 지시 | |
| 오디오 유틸리티 | Voice Changer | 목소리 변환 | 실시간/배치, 음색만 변경 |
| Voice Isolator | 음성 분리 | 배경 소음에서 음성 추출 | |
| Dubbing | 자동 더빙 | 다국어 변환, SRT/WebVTT 자막 | |
| Sound Effects | 효과음 생성 | 텍스트 설명으로 효과음 제작 | |
| 음악 생성 | AI Music Creation | 텍스트로 음악 생성 | 프롬프트 4,100자, 가사 200자/줄 |
| Music Composition Plan | 음악 생성 플랜 | 단계별 제어, 파라미터 최적화 | |
| Stem Separation | 음원 분리 | 보컬/드럼/베이스/기타 분리, ZIP | |
| 발음 제어 | Pronunciation Dictionary | 발음 사전 | 특수 단어 발음 지정, 버전 관리 |
| External Sharing Control | 외부 공유 제한 | 워크스페이스 레벨 보안 설정 | |
| AI 에이전트 | Agents | 음성 에이전트 생성 | LLM 연동, 프롬프트/개성 설정 |
| Telephony | 전화 시스템 연동 | 전화번호, SIP 트렁크, Twilio | |
| Batch Calling | 대량 콜 자동화 | 콜 제출/상태/취소/재시도 | |
| MCP Server Integration | 외부 도구 연결 | 도구 실행, interrupt 제어 | |
| Tool Call Sound | 도구 실행 효과음 | 효과음 타이밍 제어 | |
| Agent Workflows | 대화 흐름 설계 | AND/OR 조건, 동적 변수 | |
| Test Invocations | 에이전트 테스트 | 자동 테스트, 패스/실패 통계 | |
| Conversations | 대화 이력 관리 | 필터링, 검색, 분석 | |
| Feedback | 피드백 수집 | 별점+코멘트, 구조화 데이터 | |
| Realtime Streaming | 실시간 대화 | WebSocket, 부분 응답 스트리밍 | |
| 지원 LLM | OpenAI | GPT-5.1 연동 | gpt-5.1-2025-11-13 |
| Gemini 연동 | 2.5 Flash/Lite, 3 Pro Preview | ||
| Anthropic | Claude 연동 | Sonnet 4.5, Haiku 4.5 | |
| 프로젝트 관리 | Projects | 프로젝트 통합 관리 | 오디오/비디오/이미지 에셋 |
| Chapters | 챕터 구조 | 멀티 보이스, voice_ids 필드 | |
| Snapshots | 버전 관리 | 스냅샷 저장/복원, 오디오 길이 | |
| Podcast Generation | 팟캐스트 생성 | 호스트/게스트 역할, safety 헤더 | |
| Image Assets | 이미지 자산 관리 | ProjectImageResponseModel | |
| SDK/개발도구 | JavaScript SDK | JS/TS 클라이언트 | npm, 타입 정의, WebSocket 핸들러 |
| Python SDK | Python 클라이언트 | pip, async 지원, 로깅 개선 | |
| React Package | React 컴포넌트 | ConvAI 위젯, 재접속 로직 | |
| React Native | 모바일 SDK | iOS/Android 음성 에이전트 | |
| ElevenLabs CLI | 통합 CLI 도구 | 배치 작업, CI/CD 통합 | |
| Agents CLI | 에이전트 전용 CLI | 다중 env, 테스트, pull | |
| REST API | HTTP API | OpenAPI 스펙, JSON 응답 | |
| 인증/보안 | API Keys | API 키 인증 | 대시보드에서 발급 |
| Single-use Tokens | 일회용 토큰 | tts_websocket 타입 | |
| TLS Security | 통신 암호화 | 구식 cipher 비허용 | |
| 빌링/워크스페이스 | Subscription | 구독 관리 | 할인, subtotal, tax 상세 |
| Invoices | 청구서 관리 | discounts 배열 통합 | |
| Workspaces | 팀 워크스페이스 | 역할 기반 권한, 리소스 공유 | |
| Usage Dashboard | 사용량 대시보드 | 실시간 모니터링, 알림 | |
| 다국어 지원 | Multilingual | 다국어 TTS/STT | 32개+ 언어 TTS, 99개 언어 STT |
| Auto Accent Adaptation | 억양 자동 적응 | 언어별 발음/억양 최적화 |
18. FAQ
Q: ElevenLabs 무료 플랜 에서는 어떤 기능을 사용할 수 있나요? A: 무료 플랜에서도 기본적인 텍스트 음성 변환 기능을 사용할 수 있습니다. 매월 일정량의 크레딧이 제공되며, 라이브러리의 기성 목소리를 활용해서 음성을 생성할 수 있습니다. 다만 Professional Voice Cloning, 대량 배치 처리, 우선 처리 같은 고급 기능은 유료 플랜에서만 이용 가능합니다. 서비스를 테스트하거나 개인 프로젝트에 소규모로 사용하기에는 무료 플랜으로 충분합니다.
Q: 음성 클로닝에 필요한 샘플 오디오는 얼마나 준비해야 하나요? A: Instant Voice Cloning은 몇 십 초에서 몇 분 정도의 샘플로도 빠르게 복제할 수 있습니다. 하지만 고품질 결과를 원한다면 Professional Voice Cloning을 사용하는 것이 좋으며, 이 경우 30분 이상의 깨끗한 음성 샘플을 권장합니다. 샘플의 품질도 중요한데, 배경 소음이 없고 다양한 톤과 감정이 포함된 녹음일수록 더 자연스러운 복제 결과를 얻을 수 있습니다.
Q: 생성한 음성이나 음악을 상업적으로 사용해도 되나요? A: 유료 플랜 사용자는 생성한 콘텐츠를 상업적 목적으로 사용할 수 있습니다. 유튜브 영상, 광고, 제품 소개 등에 활용 가능합니다. 다만 음성 클로닝의 경우 원본 화자의 동의가 반드시 필요하며, 동의 없이 타인의 목소리를 복제해서 사용하면 법적 문제가 발생할 수 있습니다. 플랜별로 세부 조건이 다를 수 있으니 이용약관을 확인하는 것이 좋습니다.
Q: 한국어 음성 합성 품질은 어떤가요? A: ElevenLabs는 32개 이상의 언어를 지원하며 한국어도 포함됩니다. 한국어 음성 합성 품질은 상당히 자연스러운 편이며, 발음과 억양이 자동으로 적응하는 기능이 있습니다. 외래어나 고유명사의 발음이 어색할 경우 발음 사전 기능을 활용해서 직접 발음 방식을 지정할 수 있습니다. 한국어 전용 목소리도 라이브러리에서 선택할 수 있습니다.
Q: 실시간 스트리밍 TTS의 지연 시간은 어느 정도인가요? A: Eleven Flash v2.5 모델 기준으로 약 75ms의 초저지연을 제공합니다. 일반 스트리밍 TTS도 150ms 이하의 지연으로 실시간 애플리케이션에 충분히 활용할 수 있는 수준입니다. 이 정도 지연은 사람이 체감하기 어려운 수준이라 실시간 대화 앱, 라이브 방송 자막, 음성 비서 등에 적합합니다. 다만 네트워크 상태에 따라 실제 지연은 다소 변동될 수 있습니다.
Q: API 사용량 제한이 있나요? A: 플랜별로 월간 크레딧 한도가 있으며, 크레딧은 생성한 오디오의 문자 수에 따라 차감됩니다. API 호출 횟수 자체에는 별도 제한이 없지만, 동시 요청 수에는 제한이 있을 수 있습니다. 대량 처리가 필요한 경우 기업용 플랜을 통해 맞춤 한도를 협의할 수 있습니다. 대시보드에서 실시간으로 사용량을 모니터링하고 알림을 설정할 수 있습니다.
19. 마무리
ElevenLabs는 텍스트 음성 변환이라는 핵심 기능을 중심으로 음성 클로닝, 실시간 음성 인식, 감정 표현, 대화형 AI 에이전트, 음악 생성까지 아우르는 종합 오디오 AI 플랫폼입니다. 단순히 텍스트를 읽어주는 수준을 넘어서 사람처럼 자연스럽게 말하고, 감정을 표현하고, 실시간으로 대화하는 것이 가능해졌습니다.
핵심 요약:
- TTS 기능으로 텍스트를 자연스러운 음성으로 변환하며, 타임스탬프와 멀티 캐릭터 대화도 지원합니다
- 음성 클로닝으로 특정 사람의 목소리를 복제하거나, Voice Design으로 완전히 새로운 목소리를 만들 수 있습니다
- 17가지 감정 벡터와 다양한 파라미터로 정교한 음성 표현이 가능합니다
- STT 기능으로 99개 언어의 음성을 텍스트로 변환하며, 실시간 인식도 지원합니다
- 대화형 AI 에이전트 플랫폼으로 음성 기반 챗봇이나 상담 시스템을 구축할 수 있습니다
- 음악 생성, 효과음 제작, 음원 분리 등 다양한 오디오 유틸리티를 제공합니다
- JavaScript, Python SDK와 REST API로 모든 기능을 프로그래밍 방식으로 활용할 수 있습니다
콘텐츠 크리에이터는 나레이션 작업을 자동화하고, 개발자는 음성 기능을 서비스에 통합하며, 기업은 고객 상담을 혁신할 수 있습니다. ElevenLabs 공식 문서와 API 레퍼런스를 참고해서 프로젝트에 적합한 기능을 선택하고 활용해 보시기 바랍니다.

20. 미디어
