ElevenLabs는 텍스트를 사람처럼 자연스러운 음성으로 바꿔주는 AI 플랫폼입니다. 유튜브 영상 나레이션, 팟캐스트 제작, 오디오북 녹음, 게임 캐릭터 목소리 작업 등 음성이 필요한 거의 모든 분야에서 활용되고 있습니다. 단순히 텍스트를 읽어주는 수준을 넘어서 감정 표현, 음성 복제, 실시간 대화, 심지어 음악 생성까지 가능한 올인원 오디오 AI로 진화했습니다. 한국에서는 일레븐랩스로 알려져 있고, 타입캐스트와 함께 AI TTS 업계에서는 매우 유명하며, 세계 무대에서 뛰고 있습니다.
이 문서에서는 ElevenLabs를 처음 접하는 분들도 쉽게 이해할 수 있도록 기본 개념부터 고급 기능까지 순서대로 설명합니다. 각 기능이 무엇인지, 어떤 상황에서 쓰이는지, 어떻게 활용하면 좋은지를 구체적인 예시와 함께 다룹니다.
ElevenLabs를 본격적으로 사용하기 전에 이 플랫폼이 정확히 무엇을 하는 서비스인지, 기존 음성 합성 도구와 어떻게 다른지 이해하는 것이 중요합니다.
1) 핵심 정체성 - AI 기반 오디오 생성 플랫폼
2) 기존 TTS와의 차별점
3) 누가 사용하면 좋은가

ElevenLabs의 가장 핵심적인 기능은 텍스트를 음성으로 변환하는 TTS(Text-to-Speech)입니다. 이 기능을 제대로 이해하면 나머지 기능들도 쉽게 파악할 수 있습니다.
1) 기본 TTS 작동 방식
2) 일반 TTS vs 스트리밍 TTS
3) 타임스탬프 기능 - 영상 싱크의 핵심
4) 텍스트 정규화 - 숫자와 기호 읽는 방법 제어

드라마, 팟캐스트, 게임처럼 여러 사람이 대화하는 콘텐츠를 만들 때 유용한 기능들입니다.
1) Text to Dialogue - 멀티 캐릭터 대화 생성
2) 활용 사례 - 오디오 드라마 제작
3) 활용 사례 - 교육 콘텐츠

ElevenLabs에서는 수천 개의 기성 목소리 중에서 선택하거나, 완전히 새로운 목소리를 만들 수 있습니다.
1) 보이스 라이브러리 - 기성 목소리 활용
2) Voice Design - 맞춤형 목소리 생성
3) Voice Remix - 기존 목소리 변형
4) 발음 사전 - 특수 단어 발음 지정
ElevenLabs의 가장 강력한 기능 중 하나는 실제 사람의 목소리를 AI로 복제하는 것입니다.
1) 음성 클로닝이란
2) Instant Voice Cloning - 빠른 복제
3) Professional Voice Cloning (PVC) - 고품질 복제
4) 주의사항과 윤리적 고려
TTS의 반대 방향인 STT(Speech-to-Text), 즉 음성을 텍스트로 변환하는 기능도 제공합니다.
1) Scribe - 음성 인식 엔진
2) 화자 분리 (Speaker Diarization)
3) Scribe v2 Realtime - 실시간 음성 인식
4) 오디오 태깅
ElevenLabs가 다른 TTS 서비스와 차별화되는 핵심 기능 중 하나는 정교한 감정 표현입니다.
1) 17가지 감정 벡터
2) 감정 이행 (Emotion Transition)
3) Stability와 Similarity 조절
4) 오디오 태그로 감정 지시
TTS와 STT 외에도 오디오 작업에 유용한 다양한 유틸리티를 제공합니다.
1) Voice Changer - 목소리 변환
2) Voice Isolator - 음성 분리
3) Dubbing - 자동 더빙
4) Sound Effects - 효과음 생성

ElevenLabs는 음성을 넘어 음악 생성 기능도 제공하기 시작했습니다.
1) AI Music Creation
2) Music Composition Plan
3) Stem Separation - 음원 분리
4) 활용 사례
ElevenLabs는 단순 음성 생성을 넘어 음성으로 대화하는 AI 에이전트를 구축할 수 있는 플랫폼을 제공합니다.
1) AI 에이전트란
2) 에이전트 구성 요소
3) 전화 시스템 연동
4) 워크플로우와 조건 분기
대규모 오디오 콘텐츠를 체계적으로 관리하기 위한 기능들입니다.
1) Projects - 프로젝트 관리
2) Chapters - 챕터 구조
3) Snapshots - 버전 관리
4) 팟캐스트 생성
ElevenLabs의 모든 기능은 API를 통해 프로그래밍 방식으로 접근할 수 있습니다.
1) REST API 기본
2) JavaScript SDK
3) Python SDK
4) React / React Native 패키지
5) CLI 도구
ElevenLabs는 다양한 규모의 사용자를 위한 요금제와 팀 협업 기능을 제공합니다.
1) 요금제 구조
2) 크레딧 시스템
3) 워크스페이스 - 팀 협업
4) 보안 기능
일레븐랩스 AI 비디오 & 이미지 출시
일레븐랩스 AI 비디오 & 이미지 생성 소요 크레딧

1) ElevenLabs 요금제 핵심 비교표 (환율 1,470원 기준)
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 월 요금 (USD) | $0 | $5 | $22 | $99 |
| 월 요금 (KRW) | ₩0 | ₩7,350 | ₩32,340 | ₩145,530 |
| 월 크레딧 | 10,000 | 30,000 | 100,000 | 500,000 |
| TTS 분량 | ~10분 | ~30분 | ~100분 | ~500분 |
| 1,000크레딧당 추가 비용 | 추가 불가 | 추가 불가 | $0.30 (₩441) | $0.24 (₩353) |
| 1분당 비용 (KRW) | ₩0 (제한적) | ₩245 | ₩323 | ₩291 |
2) 주요 기능별 플랜 비교표
| 기능 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 고품질 TTS 모델 | ✓ | ✓ | ✓ | ✓ |
| Turbo/Flash 모델 | ✓ | ✓ | ✓ | ✓ |
| 동시 처리 수 | 2 | 3 | 5 | 10 |
| 커스텀 보이스 | 3개 | 10개 | 30개 | 160개 |
| Instant 클로닝 | ✓ | ✓ | ✓ | ✓ |
| Professional 클로닝 | ✗ | ✗ | 1개 | 1개 |
| Voice Changer | 10분 | 30분 | 100분 | 500분 |
| Studio 프로젝트 | 3개 | 20개 | 1,000개 | 3,000개 |
| 상업적 사용 | ✗ | 제한적 | 제한적 | 제한적 |
| 저작자 표시 면제 | ✗ | ✗ | ✓ | ✓ |
| 오디오 품질 | 128kbps | 128kbps | 192kbps | 192kbps |
3) Speech to Text (STT) 요금표
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| UI 포함 시간 | - | 1시간 | 4시간 53분 | 24시간 45분 |
| UI 시간당 비용 | - | - | $4.50 (₩6,615) | $4.00 (₩5,880) |
| API 포함 시간 | - | 10시간 | 62시간 51분 | 300시간 |
| API 추가 시간당 비용 | - | $0.48 (₩706) | $0.48 (₩706) | $0.40 (₩588) |
| Realtime 포함 시간 | - | - | 48시간 | 225시간 |
| Realtime 추가 비용 | - | - | $0.63 (₩926) | $0.53 (₩779) |
4) AI Agents 플랫폼 요금표
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 포함 분량 | - | 50분 | 250분 | 1,100분 |
| 추가 분당 비용 (USD) | - | 이용 불가 | ~$0.12 | ~$0.11 |
| 추가 분당 비용 (KRW) | - | - | ~₩176 | ~₩162 |
5) Dubbing (더빙) 요금표 - 비디오 기준
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 비디오 (워터마크 O) | 12분 | 15분 | 50분 | 250분 |
| 비디오 (워터마크 X) | - | 6분 | 33분 | 167분 |
| 추가 분당 비용 (KRW) | - | - | ₩588 | ₩559 |
6) Eleven Music 요금표
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| 월 포함 분량 | 11분 | 22분 | 62분 | 304분 |
| 추가 분당 비용 (USD) | - | - | $0.40 | $0.38 |
| 추가 분당 비용 (KRW) | - | - | ₩588 | ₩559 |
7) Sound Effects & Voice Isolator 포함량
| 항목 | Free | Starter | Creator | Pro |
|---|---|---|---|---|
| Sound Effects (초) | 250초 | 750초 | 2,500초 | 12,500초 |
| Voice Isolator (분) | 10분 | 30분 | 100분 | 500분 |
8) 플랜 선택 가이드
| 사용 목적 | 추천 플랜 | 월 비용 (KRW) | 핵심 이유 |
|---|---|---|---|
| 테스트/체험 | Free | ₩0 | 10분 무료, 기본 기능 체험 |
| 개인 취미 프로젝트 | Starter | ₩7,350 | 30분/월, 저렴한 입문용 |
| 유튜버/콘텐츠 크리에이터 | Creator | ₩32,340 | 100분/월, PVC 1개, 상업적 사용 |
| 전문 제작자/소규모 팀 | Pro | ₩145,530 | 500분/월, 높은 동시 처리 |
| 스타트업/퍼블리셔 | Scale | ₩485,100 | 2,000분/월, 대량 처리 최적화 |
| 대규모 서비스 운영 | Business | ₩1,940,400 | 11,000분/월, 최저 단가 ₩176/분 |
| 엔터프라이즈 급 | Enterprise | 협의 | 무제한 협의, 최저 $0.03/1000크레딧 |
| 카테고리 | 기능명 | 설명 | 주요 특징 |
|---|---|---|---|
| TTS (텍스트→음성) | Text to Speech | 텍스트를 자연스러운 음성으로 변환 | MP3/WAV 출력, 배치 처리 |
| Stream TTS | 실시간 스트리밍 음성 생성 | 150ms 이하 지연, 라이브 앱용 | |
| Text to Dialogue | 멀티 캐릭터 대화 생성 | voice_segments 제공, 드라마/게임용 | |
| Timestamps | 워드/문자 단위 타임스탬프 | 자막 싱크, 립싱크 애니메이션 | |
| Text Normalisation | 숫자/기호 읽기 방식 제어 | Enum 기반 정규화 전략 | |
| STT (음성→텍스트) | Scribe v1 | 오디오를 텍스트로 변환 | 99개 언어, 화자 분리, 오디오 태깅 |
| Scribe v2 Realtime | 실시간 음성 인식 | ~150ms 지연, WebSocket 기반 | |
| TTS 모델 | Eleven v3 | 감정 표현 특화 최신 모델 | 70+ 언어, 멀티 스피커, 드라마틱 낭독 |
| Eleven Multilingual v2 | 장문 안정성 모델 | 29개 언어, 최대 10,000자 | |
| Eleven Flash v2.5 | 초저지연 경제형 모델 | ~75ms 지연, 가격 50% 절감, 32개 언어 | |
| Eleven Turbo v2.5 | 품질-속도 밸런스 모델 | 32개 언어, 최대 40,000자 | |
| 음성 관리 | Voice Library | 기성 목소리 라이브러리 | 수천 개 목소리, 메타데이터 검색 |
| Voice Design | 맞춤형 목소리 생성 | 27개 파라미터, 텍스트 프롬프트 | |
| Voice Remix | 기존 목소리 변형 | 피치/속도 미세 조정 | |
| Default Voice | 기본 목소리 설정 | 자주 쓰는 목소리 즐겨찾기 | |
| 음성 클로닝 | Instant Voice Cloning | 빠른 음성 복제 | 몇 분 샘플로 즉시 복제 |
| Professional Voice Cloning | 고품질 음성 복제 | 30분+ 샘플, 감정/호흡까지 재현 | |
| Speaker Samples | 화자별 샘플 관리 | 샘플 등록/조회/분리 | |
| 감정 표현 | Emotion Vectors | 17가지 감정 벡터 | 감정 혼합, 강도 조절 (0~100%) |
| Emotion Transition | 감정 이행 표현 | 문장 중 감정 변화 연출 | |
| Stability Control | 음성 일관성 조절 | 안정적 톤 ↔ 감정적 표현 | |
| Similarity Boost | 원본 유사도 조절 | 클로닝 음성 정확도 제어 | |
| Audio Tags | 텍스트 내 감정 태그 | [슬프게], [밝게] 등 직접 지시 | |
| 오디오 유틸리티 | Voice Changer | 목소리 변환 | 실시간/배치, 음색만 변경 |
| Voice Isolator | 음성 분리 | 배경 소음에서 음성 추출 | |
| Dubbing | 자동 더빙 | 다국어 변환, SRT/WebVTT 자막 | |
| Sound Effects | 효과음 생성 | 텍스트 설명으로 효과음 제작 | |
| 음악 생성 | AI Music Creation | 텍스트로 음악 생성 | 프롬프트 4,100자, 가사 200자/줄 |
| Music Composition Plan | 음악 생성 플랜 | 단계별 제어, 파라미터 최적화 | |
| Stem Separation | 음원 분리 | 보컬/드럼/베이스/기타 분리, ZIP | |
| 발음 제어 | Pronunciation Dictionary | 발음 사전 | 특수 단어 발음 지정, 버전 관리 |
| External Sharing Control | 외부 공유 제한 | 워크스페이스 레벨 보안 설정 | |
| AI 에이전트 | Agents | 음성 에이전트 생성 | LLM 연동, 프롬프트/개성 설정 |
| Telephony | 전화 시스템 연동 | 전화번호, SIP 트렁크, Twilio | |
| Batch Calling | 대량 콜 자동화 | 콜 제출/상태/취소/재시도 | |
| MCP Server Integration | 외부 도구 연결 | 도구 실행, interrupt 제어 | |
| Tool Call Sound | 도구 실행 효과음 | 효과음 타이밍 제어 | |
| Agent Workflows | 대화 흐름 설계 | AND/OR 조건, 동적 변수 | |
| Test Invocations | 에이전트 테스트 | 자동 테스트, 패스/실패 통계 | |
| Conversations | 대화 이력 관리 | 필터링, 검색, 분석 | |
| Feedback | 피드백 수집 | 별점+코멘트, 구조화 데이터 | |
| Realtime Streaming | 실시간 대화 | WebSocket, 부분 응답 스트리밍 | |
| 지원 LLM | OpenAI | GPT-5.1 연동 | gpt-5.1-2025-11-13 |
| Gemini 연동 | 2.5 Flash/Lite, 3 Pro Preview | ||
| Anthropic | Claude 연동 | Sonnet 4.5, Haiku 4.5 | |
| 프로젝트 관리 | Projects | 프로젝트 통합 관리 | 오디오/비디오/이미지 에셋 |
| Chapters | 챕터 구조 | 멀티 보이스, voice_ids 필드 | |
| Snapshots | 버전 관리 | 스냅샷 저장/복원, 오디오 길이 | |
| Podcast Generation | 팟캐스트 생성 | 호스트/게스트 역할, safety 헤더 | |
| Image Assets | 이미지 자산 관리 | ProjectImageResponseModel | |
| SDK/개발도구 | JavaScript SDK | JS/TS 클라이언트 | npm, 타입 정의, WebSocket 핸들러 |
| Python SDK | Python 클라이언트 | pip, async 지원, 로깅 개선 | |
| React Package | React 컴포넌트 | ConvAI 위젯, 재접속 로직 | |
| React Native | 모바일 SDK | iOS/Android 음성 에이전트 | |
| ElevenLabs CLI | 통합 CLI 도구 | 배치 작업, CI/CD 통합 | |
| Agents CLI | 에이전트 전용 CLI | 다중 env, 테스트, pull | |
| REST API | HTTP API | OpenAPI 스펙, JSON 응답 | |
| 인증/보안 | API Keys | API 키 인증 | 대시보드에서 발급 |
| Single-use Tokens | 일회용 토큰 | tts_websocket 타입 | |
| TLS Security | 통신 암호화 | 구식 cipher 비허용 | |
| 빌링/워크스페이스 | Subscription | 구독 관리 | 할인, subtotal, tax 상세 |
| Invoices | 청구서 관리 | discounts 배열 통합 | |
| Workspaces | 팀 워크스페이스 | 역할 기반 권한, 리소스 공유 | |
| Usage Dashboard | 사용량 대시보드 | 실시간 모니터링, 알림 | |
| 다국어 지원 | Multilingual | 다국어 TTS/STT | 32개+ 언어 TTS, 99개 언어 STT |
| Auto Accent Adaptation | 억양 자동 적응 | 언어별 발음/억양 최적화 |
Q: ElevenLabs 무료 플랜 에서는 어떤 기능을 사용할 수 있나요? A: 무료 플랜에서도 기본적인 텍스트 음성 변환 기능을 사용할 수 있습니다. 매월 일정량의 크레딧이 제공되며, 라이브러리의 기성 목소리를 활용해서 음성을 생성할 수 있습니다. 다만 Professional Voice Cloning, 대량 배치 처리, 우선 처리 같은 고급 기능은 유료 플랜에서만 이용 가능합니다. 서비스를 테스트하거나 개인 프로젝트에 소규모로 사용하기에는 무료 플랜으로 충분합니다.
Q: 음성 클로닝에 필요한 샘플 오디오는 얼마나 준비해야 하나요? A: Instant Voice Cloning은 몇 십 초에서 몇 분 정도의 샘플로도 빠르게 복제할 수 있습니다. 하지만 고품질 결과를 원한다면 Professional Voice Cloning을 사용하는 것이 좋으며, 이 경우 30분 이상의 깨끗한 음성 샘플을 권장합니다. 샘플의 품질도 중요한데, 배경 소음이 없고 다양한 톤과 감정이 포함된 녹음일수록 더 자연스러운 복제 결과를 얻을 수 있습니다.
Q: 생성한 음성이나 음악을 상업적으로 사용해도 되나요? A: 유료 플랜 사용자는 생성한 콘텐츠를 상업적 목적으로 사용할 수 있습니다. 유튜브 영상, 광고, 제품 소개 등에 활용 가능합니다. 다만 음성 클로닝의 경우 원본 화자의 동의가 반드시 필요하며, 동의 없이 타인의 목소리를 복제해서 사용하면 법적 문제가 발생할 수 있습니다. 플랜별로 세부 조건이 다를 수 있으니 이용약관을 확인하는 것이 좋습니다.
Q: 한국어 음성 합성 품질은 어떤가요? A: ElevenLabs는 32개 이상의 언어를 지원하며 한국어도 포함됩니다. 한국어 음성 합성 품질은 상당히 자연스러운 편이며, 발음과 억양이 자동으로 적응하는 기능이 있습니다. 외래어나 고유명사의 발음이 어색할 경우 발음 사전 기능을 활용해서 직접 발음 방식을 지정할 수 있습니다. 한국어 전용 목소리도 라이브러리에서 선택할 수 있습니다.
Q: 실시간 스트리밍 TTS의 지연 시간은 어느 정도인가요? A: Eleven Flash v2.5 모델 기준으로 약 75ms의 초저지연을 제공합니다. 일반 스트리밍 TTS도 150ms 이하의 지연으로 실시간 애플리케이션에 충분히 활용할 수 있는 수준입니다. 이 정도 지연은 사람이 체감하기 어려운 수준이라 실시간 대화 앱, 라이브 방송 자막, 음성 비서 등에 적합합니다. 다만 네트워크 상태에 따라 실제 지연은 다소 변동될 수 있습니다.
Q: API 사용량 제한이 있나요? A: 플랜별로 월간 크레딧 한도가 있으며, 크레딧은 생성한 오디오의 문자 수에 따라 차감됩니다. API 호출 횟수 자체에는 별도 제한이 없지만, 동시 요청 수에는 제한이 있을 수 있습니다. 대량 처리가 필요한 경우 기업용 플랜을 통해 맞춤 한도를 협의할 수 있습니다. 대시보드에서 실시간으로 사용량을 모니터링하고 알림을 설정할 수 있습니다.
ElevenLabs는 텍스트 음성 변환이라는 핵심 기능을 중심으로 음성 클로닝, 실시간 음성 인식, 감정 표현, 대화형 AI 에이전트, 음악 생성까지 아우르는 종합 오디오 AI 플랫폼입니다. 단순히 텍스트를 읽어주는 수준을 넘어서 사람처럼 자연스럽게 말하고, 감정을 표현하고, 실시간으로 대화하는 것이 가능해졌습니다.
핵심 요약:
콘텐츠 크리에이터는 나레이션 작업을 자동화하고, 개발자는 음성 기능을 서비스에 통합하며, 기업은 고객 상담을 혁신할 수 있습니다. ElevenLabs 공식 문서와 API 레퍼런스를 참고해서 프로젝트에 적합한 기능을 선택하고 활용해 보시기 바랍니다.

www와 non-www 도메인의 기술적 차이점을 상세히 설명하고, 검색 순위에 미치는 영향과 301 리다이렉트 설정 방법을 다양한 사례와 함께 안내합니다. SITE_CONFIG를 활용한 중앙 집중식 URL 관리까지 실무 가이드를 제공합니다.
가계부, 세무관리, 크리에이터 툴, AI 프롬프트 저장까지 로컬 앱 개발에 SQLite가 최적인 이유를 설명합니다. Flutter, Next.js, Electron 등 다양한 환경에서의 활용법과 실제 유즈 케이스를 상세히 다룹니다.
Google Nano Banana Pro 기반 AI 이미지 생성 실무 활용법 총정리. 마케팅, 영상 기획, 패션, 건축, 게임 등 16개 분야 40가지 프롬프트 예제와 7가지 핵심 작성 원칙 수록.
구글 노트북LM은 AI 기반 문서 분석 도구로, PDF, 유튜브, 웹페이지를 통합 분석하고 오디오 요약까지 제공합니다. 무료 버전부터 Pro 업그레이드까지 모든 기능을 상세히 설명합니다.
Google DeepMind의 Bea Alessio가 공개한 Nano Banana Pro 활용법. 전문가 수준의 이미지 생성을 위한 7가지 핵심 프롬프트 작성 기법과 실전 예시를 상세히 소개합니다.