AI 서비스 크레딧이 비싼 결정적 이유 | 도매 API에서 소매 래퍼까지 원가 구조 해부

Q: AI 래퍼(Wrapper) 서비스란 무엇인가?

OpenAI, Google, Anthropic 같은 회사가 만든 파운데이션 모델의 API를 호출해서 자체 UI와 워크플로우를 씌운 뒤 크레딧이나 구독으로 최종 사용자에게 판매하는 서비스다. V0, Lovable, Cursor, Manus, Higgsfield 등 현재 AI 서비스의 대다수가 이 구조에 해당하며, 2024년 기준 신규 AI 스타트업의 약 78%가 래퍼 형태로 분류됐다.

Q: OpenRouter, fal.ai, Kie.ai 같은 중개 플랫폼의 역할은 무엇인가?

여러 파운데이션 모델을 하나의 통합 API로 묶어 제공하는 도매상 역할이다. OpenRouter는 텍스트/LLM 전문으로 300개 이상 모델을 통합하고, fal.ai는 이미지/영상/멀티모달 전문으로 600개 이상 모델을 제공한다. Kie.ai는 Sora 2, Veo 3 등을 크레딧 기반으로 제공하며 n8n 자동화 연동에 강점이 있다. 직접 모델 제공사 API를 호출하는 것보다 30~50% 저렴한 경우가 많지만, 중개 마진은 존재한다.

Q: 모델을 만든 OpenAI나 Anthropic도 적자라는 게 사실인가?

사실이다. OpenAI의 2025년 추론 비용은 $8.4B으로 매출총이익률이 목표 46%에서 실제 33%로 하회했다. Anthropic도 목표 50%에서 실제 40%로 10%p 빗나갔다. Claude Code $200 구독의 실제 컴퓨팅 원가가 $5,000에 달한다는 Cursor 내부 분석이 2026년 3월 Forbes를 통해 보도됐다. 모델 원산지 회사 자체가 적자 또는 저마진인데 그 API를 사는 래퍼가 싸게 팔 수 있을 리가 없다.

Q: 개발 분야에서 래퍼 대신 오리지널 도구를 쓰면 어떤 차이가 있나?

Claude Code나 ChatGPT Codex는 모델 제공사가 직접 운영하므로 중개 마진이 없고, 제공사가 시장 점유율을 위해 사용자당 수천 달러의 보조금을 태우고 있어 같은 가격에 더 많은 컴퓨팅을 쓸 수 있다. Claude Code는 Cursor Agent 모드 대비 같은 작업에 토큰 소모가 1/5 수준이라는 비교 결과도 있다. 다만 Lovable이나 V0의 배포·프리뷰·협업 기능이 필요한 비개발자에게는 래퍼의 편의성이 가치 있을 수 있다.

Q: GenSpark가 다른 래퍼와 다른 점은 무엇인가?

GenSpark는 AI 채팅과 AI 이미지 생성을 크레딧 소모 없이 무제한 제공한다. 5시간 세션 제한이 있지만 한 달 내내 사용할 수 있다. 대부분의 래퍼가 모든 기능에 크레딧을 부과하는 것과 달리, GenSpark는 채팅과 이미지를 무제한으로 풀고 고급 에이전트와 리서치 기능에만 크레딧을 적용하는 구조다. 무료 플랜에서도 하루 100~200 크레딧이 제공된다.

Q: Manus AI의 크레딧이 특히 빠르게 소진되는 이유는 무엇인가?

Manus는 에이전트 서비스이므로 단일 작업이 아니라 웹 브라우징, 데이터 수집, 분석, 코드 작성, 검증 등의 연쇄 작업을 수행한다. 한 번의 요청에 LLM API를 수십~수백 회 호출할 수 있어서 단일 복잡 작업에 900~1,000개 이상의 크레딧이 소모된다. $19/월 기본 플랜의 1,900 크레딧으로는 복잡한 작업 2~3건이 한계이며, Reddit과 Trustpilot에서 8,200 크레딧이 한 달도 안 돼 소진됐다는 불만이 다수 보고되고 있다.

최초 발행: 2026년 4월 19일 AM 11:46|최종 수정: 2026년 4월 19일 AM 11:46

1. AI 산업의 4단계 비용 구조
2. 크레딧 1달러는 어디로 가는가 — 돈의 흐름 해부
3. 카테고리별 래퍼 서비스 전체 지도
4. 연산 유형별 원가 격차 — 왜 영상이 유독 비싼가
5. 크레딧이 비쌀 수밖에 없는 구조적 원인 8가지
6. 래퍼 대신 오리지널 도구를 쓰는 것이 합리적인 이유
7. 앞으로 가격은 내려가는가
8. 마무리

바이브 코딩

AI 서비스 크레딧이 비싼 결정적 이…

Manus에 작업 하나를 시키면 크레딧 1,000개가 증발한다. Lovable로 웹앱을 만들면 반나절이면 무료 크레딧이 바닥난다. Higgsfield에서 10초 영상을 뽑으면 크레딧이 수백 개씩 사라진다. 편리하지만, 이 비용이 어디서 오는 건지, 왜 이렇게까지 빠르게 소진되는 건지 의문을 품는 사람이 많다.

결론부터 말하면, 이건 특정 업체의 폭리가 아니다. AI 산업 자체가 도매와 소매로 분리된 다층 마진 구조 위에서 돌아가고 있고, 그 밑바닥에는 시간당 수 달러씩 타들어가는 물리적 GPU라는 자원이 깔려 있다. 우리가 쓰는 대부분의 AI 서비스 — V0, Lovable, Manus, GenSpark, Higgsfield, Artlist, Freepik 등 — 는 자체 AI 모델을 만든 회사가 아니다. OpenAI, Google, Anthropic 같은 회사가 만든 모델의 API를 사다가 UI를 씌워 되파는 래퍼(Wrapper) 사업자다. 2024년 기준 신규 AI 스타트업의 약 78%가 이 구조였고, 업계 분석에 따르면 이 중 90%가 지속 불가능한 경제 구조 때문에 실패할 것으로 예측됐다.

이 글에서는 GPU 원가부터 파운데이션 모델 회사의 적자 현실, OpenRouter·fal.ai·Kie.ai 같은 중개 API, 소매 래퍼의 수익 구조까지 4단계 비용 흐름을 실제 수치와 함께 분석한다. 동시에 개발·영상·이미지·검색·음악 등 13개 카테고리의 100여 개 서비스를 정리하고, 래퍼 대신 오리지널 도구를 직접 쓰는 것이 왜 합리적인지까지 짚는다.

1. AI 산업의 4단계 비용 구조

AI 서비스의 비용은 4개 층을 거치며 누적된다. 각 층에서 마진이 쌓이고, 최종 사용자는 그 합산을 크레딧으로 지불한다.

1.1 0층 — GPU 하드웨어

NVIDIA H100 SXM 한 장의 구매가는 $25,000~$40,000이다. H200 8-GPU 서버는 약 $315,000이다.
클라우드 렌탈 기준, H100 1년 계약이 시간당 $2.35~$3.50, 온디맨드(즉시 사용)는 시간당 $5~$12다. AWS p5.48xlarge(H100 8장)는 시간당 $55.04다.
SemiAnalysis H100 렌탈 가격 인덱스에 따르면 1년 계약 가격이 2025년 10월 $1.70에서 2026년 3월 $2.35로 40% 상승했다.
전체 AI GPU 지출의 55~80%가 추론(inference)에 쓰인다. 훈련은 일회성이지만, 추론은 사용자가 있는 한 24시간 365일 멈추지 않는 비용이다.

핵심 포인트: GPU는 AI의 원유다. 시간당 수 달러씩 타들어가는 물리적 하드웨어가 모든 AI 서비스 비용의 출발점이며, 이 비용은 수요 폭증으로 2026년에도 상승 중이다.

1.2 1층 — 파운데이션 모델 회사 (이미 적자)

OpenAI(GPT-5, Sora 2), Google(Gemini, Veo 3.1), Anthropic(Claude), Runway(Gen-4.5), Kuaishou(Kling 3.0), Stability AI(Stable Diffusion) 같은 회사가 모델을 만들고 API를 판매한다.
이들이 파는 API 가격에는 이미 GPU 원가 위에 마진이 포함돼 있다. 그런데 이 마진으로도 적자인 경우가 많다.
OpenAI의 2025년 추론 비용은 $8.4B(약 11조 원)이었고, 매출총이익률은 목표 46%에서 실제 33%로 하회했다. 전년(40%)보다 오히려 악화됐다.
Anthropic도 2025년 매출총이익률 목표 50%에서 실제 40%로 10%p 하회했다. 추론 비용이 예상보다 23% 높게 나왔다.
초기 Sora는 H100 한 장으로 시간당 5초 분량의 영상밖에 생성하지 못했다. 하루 운영 비용이 $15M(약 200억 원)이라는 분석도 있다.
OpenAI는 2026년 추론 비용 $14.1B, 2030년까지 컴퓨팅 누적 지출 $600B을 전망하고 있다.

모델을 만든 원산지 회사 자체가 적자이거나 간신히 수지를 맞추는 상황에서, 그 API를 사서 쓰는 래퍼 업체가 싸게 팔 수 있을 리가 없다.

1.3 2층 — API 중개 플랫폼 (도매상)

여러 모델을 통합 API로 묶어 제공하는 도매상 역할의 플랫폼이다. 래퍼 업체나 개발자가 직접 호출한다.

텍스트/LLM 중개 (AI 게이트웨이)

플랫폼	모델 수	핵심 특징
OpenRouter	300+	GPT, Claude, Gemini, DeepSeek 등 통합, 모델별 투명 가격, 무료 모델 29개
Portkey	다수	엔터프라이즈 제어판, 라우팅/폴백/캐싱, $49/월~
LiteLLM	100+	오픈소스, 자체 서버 호스팅 가능, 무료
Together AI	200+	오픈소스 모델 특화, 가성비
Fireworks AI	다수	고속 추론 특화
Groq	다수	LPU 기반 초고속 추론
Helicone	다수	관측성/로깅 특화
Cloudflare AI Gateway	다수	CDN 통합, 캐싱

이미지/영상/멀티모달 중개

플랫폼	모델 수	핵심 특징
fal.ai	600+	이미지/영상/오디오/3D 통합, 직접 API 대비 30~50% 저렴
Replicate	200+	초당 GPU 과금, 문서화 우수, 커뮤니티 강점
Kie.ai	다수	Sora 2, Veo 3, Nano Banana 등 통합, 크레딧 과금, n8n 자동화 연동
WaveSpeed AI	다수	속도 최적화 특화
EvoLink.AI	다수	Suno 등 음악 모델 포함
Atlas Cloud	다수	대량 생성 시 fal.ai 대비 30~50% 추가 절감

OpenRouter는 텍스트/LLM 전문 도매상이다. 300개 이상의 LLM에 단일 API로 접근할 수 있고, 모델별 가격이 투명하게 공개돼 있다. 무료 모델도 29개나 제공한다. 래퍼 서비스가 내부적으로 OpenRouter를 경유해 여러 LLM을 호출하는 경우가 흔하다.

fal.ai는 이미지/영상/멀티모달 전문 도매상이다. 600개 이상의 생성 모델을 통합 제공하며, 직접 모델 제공사 API를 호출하는 것보다 30~50% 저렴한 경우가 많다.

Kie.ai는 비교적 새로운 플랫폼으로 Sora 2, Veo 3, Seedream 등 영상/이미지 모델을 크레딧 기반으로 제공한다. n8n 같은 자동화 도구와의 연동이 편리해 자동화 파이프라인 구축에 적합하지만, 안정성 면에서 Sora 2 API 에러가 잦다는 사용자 보고도 있다.

이 중개 플랫폼을 거치면 편의성은 높아지지만, 한 겹의 마진이 더 쌓인다.

1.4 3층 — 소매 래퍼 (최종 사용자가 접하는 서비스)

V0, Lovable, Cursor, Manus, GenSpark, Higgsfield, Artlist, Freepik, Perplexity 같은 서비스들이다.
1층이나 2층의 API를 호출하고, 자체 UI/UX·워크플로우를 씌운 뒤 크레딧 또는 월 구독 형태로 판매한다.
사용자가 지불하는 크레딧 가격에는 0층(GPU) → 1층(모델 마진) → 2층(중개 마진) → 3층(래퍼 마진)이 전부 누적돼 있다.

2. 크레딧 1달러는 어디로 가는가 — 돈의 흐름 해부

래퍼 사업자들의 공개 데이터와 업계 분석을 종합한 사용자 크레딧 $1.00의 내부 배분이다.

항목	비중	금액
API/추론 원가	35~60%	$0.35~$0.60
서버, DB, CDN 인프라	5~10%	$0.05~$0.10
엔지니어링 인건비	10~15%	$0.10~$0.15
마케팅, 고객 확보 비용	10~20%	$0.10~$0.20
순이익	5~20%	$0.05~$0.20

전통 SaaS의 매출총이익률은 70~80%다. AI 래퍼는 40~60%, Cursor는 약 35%다. Perplexity는 2024년 매출의 164%를 컴퓨팅 비용으로 지출했다. 매출 $1 벌 때 원가 $1.64 — 완전한 적자 구조였다.

2.1 영상 생성 — 10초 영상 1편의 비용 추적

모델별 10초 영상 API 원가는 15배 차이가 난다.

모델	제공사	API 원가(10초)
Wan 2.6	Alibaba	$0.50
Grok Imagine Video	xAI	$0.50
Sora 2	OpenAI	$1.00
Kling 3.0	Kuaishou	$1.00
Runway Gen-4.5	Runway	$1.50
Veo 3.1 Fast	Google	$1.50
Hailuo Video	MiniMax	$2.35
Sora 2 Pro	OpenAI	$3~$5
Veo 3.1 Standard(4K+오디오)	Google	$7.50

Higgsfield에서 Veo 3.1 Fast로 10초 영상을 만들면 사용자 체감 크레딧 소모는 약 $2.00 상당이다. 이 중 $1.50이 Google API 원가, 나머지 $0.50이 Higgsfield 인프라+마진이다. Google 내부에서는 $1.50 중 약 $1.00이 GPU 원가, $0.50이 Google 마진으로 추정된다.

초기 Sora는 H100 한 장으로 시간당 5초 영상밖에 생성하지 못했다. 시간당 렌탈비 $2.35 기준, 5초 영상의 순수 GPU 원가만 $2.35 이상이었다는 뜻이다.

2.2 코드 생성 — Claude Code의 적나라한 역마진

2026년 3월 Forbes를 통해 보도된 Cursor 내부 분석에 따르면, Anthropic의 월 $200 Claude Code Max 구독이 소모하는 실제 컴퓨팅 비용은 월 최대 $5,000이다. 1년 전에는 $2,000이었는데 사용량 증가와 모델 고도화로 2.5배 늘었다. 사용자당 월 $4,800의 적자를 Anthropic이 보조금으로 태우고 있는 셈이다.

2.3 에이전트 — Manus의 크레딧 블랙홀

Manus AI의 기본 플랜은 월 $19에 1,900 크레딧이다. 문제는 단일 작업 하나에 450~1,000+ 크레딧이 소모될 수 있다는 점이다. Reddit과 Trustpilot 사용자 리뷰를 보면 8,200 크레딧이 한 달도 안 돼 전부 소진됐다는 불만이 다수다. 에이전트는 단일 작업이 아니라 연쇄 작업(웹 브라우징 → 데이터 수집 → 분석 → 코드 작성 → 검증)을 수행하므로 한 번의 요청에 LLM API를 수십~수백 회 호출한다. 크레딧 소모가 다른 카테고리보다 구조적으로 빠를 수밖에 없다.

3. 카테고리별 래퍼 서비스 전체 지도

3.1 AI 영상 생성

서비스	통합 모델	월 가격	구조
Higgsfield	Kling 3.0, Sora 2, Veo 3.1, Wan 등 15+개	$9.99~$150	멀티모델 어그리게이터
Artlist	AI 비디오+이미지+음악	$19.99~$149.99	스톡+AI 번들
Freepik	Pikaso(자체)+외부	$5.75~$24.50	디자인 에셋+AI
Krea AI	다수 모델	$24~	실시간 이미지/비디오
Leonardo AI	Phoenix(자체)+외부	무료~$48	멀티모델
Pika	자체 모델	$8~$58	비디오 특화
Fliki	TTS+비디오	$28~	텍스트→비디오
InVideo	템플릿+AI	$25~	비즈니스 비디오
Pictory	텍스트→비디오	$23~	블로그→비디오
Synthesia	자체 아바타	$22~	AI 아바타
HeyGen	아바타+더빙	$24~	다국어 번역
D-ID	자체 아바타	$5.90~	토킹 아바타

3.2 AI 이미지 및 디자인

이미지 1장의 API 원가는 모델에 따라 40배 차이가 난다.

모델	1024x1024 1장 원가
SD 기반(ModelsLab)	$0.002
Flux Pro(fal.ai)	$0.01~$0.02
Midjourney(환산)	~$0.03
DALL-E 3	$0.04
DALL-E 3 HD	$0.08

소매 래퍼: Canva AI($13/월~), Adobe Firefly(CC 포함), Figma AI($15/월~), Microsoft Designer(무료~), Playground AI(무료~$15), NightCafe(크레딧제), Kittl($10/월~), OpenArt(무료~$36), Reve(무료~)

3.3 AI 코드 및 앱 빌더 — 래퍼 vs 오리지널 도구

이 카테고리는 래퍼와 오리지널 도구의 차이가 가장 선명하게 드러나는 영역이다.

오리지널 도구 (모델 제공사가 직접 운영)

서비스	제공사	월 가격	구조
Claude Code	Anthropic	$20~$200	모델 제공사 직접 서비스, 크레딧 시스템 아닌 사용량 기반
ChatGPT Codex	OpenAI	$20~$200	모델 제공사 직접 서비스, ChatGPT 구독에 포함
GitHub Copilot	Microsoft/OpenAI	$10~$39	모델 제공사 계열 직접 서비스
Gemini Code Assist	Google	무료~$19	모델 제공사 직접 서비스

래퍼 서비스 (외부 API 호출)

서비스	백엔드 모델	월 가격	구조
V0(Vercel)	GPT/Claude	무료~$20	Vercel 배포 최적화 래퍼
Lovable	Claude/GPT	$20~$100	풀스택 웹앱 래퍼
Bolt.new	Claude/GPT	$20~$50	브라우저 내 앱 빌드 래퍼
Replit Agent	자체+외부	$25~	클라우드 IDE 래퍼
Cursor	Claude/GPT	$20~	VS Code 기반 AI IDE 래퍼
Windsurf	자체+외부	$15~	AI IDE 래퍼
Emergent.sh	멀티모델	무료~	풀스택 앱 래퍼
Base44	GPT	$29~	노코드 래퍼

핵심 차이: Claude Code나 ChatGPT Codex는 모델 제공사가 직접 운영하므로 중개 마진이 없다. 같은 $20/월이라도 Anthropic이 직접 제공하는 Claude Code와, Claude API를 사서 쓰는 Cursor/Lovable은 내부 원가 구조가 다르다. Claude Code는 Anthropic이 시장 점유율을 위해 사용자당 월 수천 달러의 적자를 감수하면서 제공하는 서비스이므로, 같은 돈에 더 많은 컴퓨팅을 쓸 수 있다.

Lovable, V0, Bolt.new 같은 래퍼는 Claude나 GPT API를 호출해서 코드를 생성한 뒤, 배포·프리뷰·협업 같은 부가 기능을 얹어 판매한다. 이 부가 기능이 편리하지만, 그 편의성에 대한 마진이 크레딧 가격에 반영된다. 비개발자를 위한 접근성이 핵심 가치인 반면, 코드 품질이나 장애 대응 면에서는 오리지널 도구에 비해 불리하다는 평가도 많다.

3.4 AI 검색 및 리서치

서비스	백엔드	월 가격
Perplexity AI	GPT/Claude/자체 Sonar	무료~$200
GenSpark	멀티모델 Super Agent	무료~$249.99
Skywork AI	자체 Deep Research	무료~
You.com	멀티모델	무료~$15
Phind	자체+GPT	무료~$15
Exa.ai	자체 인덱스	API 과금
Elicit	GPT 기반	무료~$10
Consensus	GPT 기반	무료~$8.99

GenSpark는 이 카테고리에서 독특한 위치를 차지한다. AI 채팅과 AI 이미지 생성이 크레딧 소모 없이 무제한이다(5시간 세션 제한은 있지만 한 달 내내 사용 가능). 대부분의 래퍼가 모든 기능에 크레딧을 부과하는 것과 달리, GenSpark는 채팅과 이미지를 무제한으로 풀고 고급 에이전트·리서치 기능에만 크레딧을 적용하는 구조다. 이것이 다른 SaaS 서비스와 구별되는 차별점이며, 무료 플랜에서도 하루 100~200 크레딧이 제공된다.

Perplexity는 원가 문제를 가장 적나라하게 보여주는 사례다. 2024년 매출 대비 164%를 AWS, Anthropic, OpenAI에 지불했다. AI 검색은 쿼리 하나에 웹 크롤링 + LLM 추론이 동시에 필요해서 원가가 구조적으로 높다.

3.5 AI 에이전트

서비스	백엔드	월 가격
Manus AI	GPT/Claude(Meta 인수)	$19~$199+
OpenAI Operator	GPT 네이티브	ChatGPT Pro 포함
Google Mariner	Gemini 네이티브	실험적
Anthropic Computer Use	Claude 네이티브	API 과금
Lindy.ai	멀티모델	$49~
Taskade	GPT/Claude	$8~
Devin	자체+외부	$500

Manus는 설레발이 심하다. 마케팅에서는 자율 AI 에이전트의 혁신을 강조하지만, 현실은 크레딧 블랙홀이다. Trustpilot 리뷰를 보면 기본적인 작업에도 크레딧이 빠르게 소모된다는 불만, 크레딧이 예고 없이 삭제됐다는 불만, 성능이 들쭉날쭉하다는 불만이 다수다. 단일 복잡 작업에 900~1,000+ 크레딧이 소모되며, $19/월 기본 플랜의 1,900 크레딧으로는 복잡한 작업 2~3건이 한계다.

3.6 AI 챗봇 및 캐릭터

Poe(Quora, 멀티모델 마켓플레이스), Character.AI(자체 모델), Janitor AI(외부 API), Kindroid(GPT/Claude), Replika(자체+GPT), QuillBot(GPT 기반)

3.7 AI 음악

Suno V5.5(무료~$24/월, API $0.035/트랙), Udio(무료~$10/월), ElevenLabs Music($22/월~), Google Lyria 3 Pro, Artlist AI Music

3.8 AI 음성·TTS·보이스 클로닝

ElevenLabs($5~$99/월), Play.ht($14.25/월~), Murf.ai($26/월~), Resemble AI, Speechify($12/월~), Descript($24/월~), WellSaid Labs, Cartesia AI

3.9 AI 더빙·로컬라이제이션

HeyGen Translate(130개국), Rask.ai(130+ 언어), Papercup(방송급+인간 검수), Deepdub, Sync Labs

3.10 AI 프레젠테이션·문서

Gamma, Beautiful.ai, Tome, Deckary, Plus AI(Google Slides 플러그인)

3.11 AI 3D 모델링

Meshy AI, Tripo AI, Rodin, TRELLIS 2(오픈소스), Spline AI, 3D AI Studio

3.12 AI 노트·팟캐스트·지식관리

Google NotebookLM, Jellypod, Wondercraft, Notion AI

3.13 AI 자동화·워크플로우

Zapier AI, Make, n8n(오픈소스), Gumloop, Activepieces

4. 연산 유형별 원가 격차 — 왜 영상이 유독 비싼가

같은 크레딧 체계에서 영상이 유독 비싼 이유를 수치로 비교한다.

작업	단위	API 원가	GPU 점유	텍스트 대비
텍스트(LLM)	1,000토큰	$0.0001~$0.015	밀리초~초	1배(기준)
이미지	1024x1024 1장	$0.002~$0.08	1~10초	20~800배
음악	1트랙(2~3분)	$0.035~$0.50	수초~수십 초	50~500배
영상	10초 클립	$0.50~$7.50	수십 초~수 분	100~1,000배
3D 모델	1개	$0.10~$1.00	수십 초	100~1,000배

영상 디퓨전 모델은 프레임 하나하나를 생성한 뒤 시간적 일관성까지 맞춰야 하므로, 같은 해상도 이미지를 수십~수백 장 연속 생성하는 것과 비슷한 연산이 필요하다. 크레딧 체계 안에서 텍스트와 영상이 공존하면, 래퍼 업체는 영상 쪽 원가를 기준으로 크레딧 단가를 높게 잡을 수밖에 없다.

5. 크레딧이 비쌀 수밖에 없는 구조적 원인 8가지

5.1 GPU 연산 비용 자체가 높다

H100 렌탈이 시간당 $2.35~$12다. 비디오 디퓨전 모델은 10초 영상에 GPU를 수십 초~수 분 점유한다.
전체 AI GPU 지출의 55~80%가 추론이며, 이 비용은 사용자가 있는 한 멈추지 않는다.
OpenAI의 2025년 추론 비용만 $8.4B이고, 2026년에는 $14.1B으로 전망된다.

5.2 마진이 3~4겹 쌓인다

NVIDIA(GPU 제조 마진) → 모델 제공사(API 마진) → 중개 플랫폼(통합 마진) → 소매 래퍼(UI/UX 마진).
각 층에서 15~50% 마진이 붙는다.
중개 플랫폼을 거치는 래퍼라면 GPU 원가 대비 최종 가격이 3~5배가 되는 건 산술적으로 당연하다.

5.3 파워 유저가 단가를 파괴한다

월 $20 구독 기준, 라이트 유저는 $2 소비, 헤비 유저는 $50~$100 소비한다.
Claude Code $200/월 Max 플랜에서 실제 컴퓨팅 $5,000이 발생한다. 25:1 역마진이다.
이것이 크레딧 상한, 속도 제한, 플랜 분리의 근본 원인이다.

5.4 멀티모델 통합의 숨은 비용

Higgsfield가 15개 모델을 제공하려면 각 제공사와 개별 API 계약을 유지해야 한다.
모델마다 API 스펙, 에러 처리, 프롬프트 최적화가 다르다.
새 모델이 나올 때마다 통합 개발→테스트→배포 사이클을 반복해야 한다.

5.5 실패한 생성에도 GPU 비용이 100% 발생한다

결과물이 마음에 안 들어 재생성해도 GPU는 이미 연산을 완료한 뒤다.
영상 생성은 만족스러운 결과까지 평균 3~10회 재생성이 흔하다.
유효 결과물 1개당 실제 GPU 소모는 표면 가격의 3~10배다.

5.6 모델 세대 교체가 빠르고 하위 호환이 없다

Sora 2가 나오면 Sora 1은 소멸, Kling 3.0이 나오면 2.0은 외면받는다.
래퍼 업체는 최신 모델을 빠르게 통합해야 하지만 완전히 새로운 작업이 필요하다.
사용자는 최신 모델을 요구하면서 가격 인상은 거부한다.

5.7 GPU 수급 불균형이 지속된다

H100 1년 렌탈 가격이 반년 만에 40% 상승했다.
차세대 GPU(B200)는 더 비싸다(8-GPU 서버 시간당 $59.44).
수요가 공급을 초과하는 한 추론 원가의 구조적 하락은 제한적이다.

5.8 래퍼의 90%가 지속 불가능하다

업계 분석에 따르면 AI 래퍼 스타트업의 90%가 유닛 이코노믹스 문제로 실패 예측됐다.
2024년 한 해에 966개 AI 스타트업이 문을 닫았다.
모델 제공사가 직접 소비자 서비스를 강화하면(ChatGPT에 Sora 통합 등) 래퍼의 존재 이유 자체가 위협받는다.

6. 래퍼 대신 오리지널 도구를 쓰는 것이 합리적인 이유

이 부분은 특히 개발 카테고리에서 명확하다.

6.1 오리지널 도구의 구조적 이점

Claude Code, ChatGPT Codex, GitHub Copilot은 모델 제공사가 직접 운영한다. 중개 마진이 없다.
Anthropic은 Claude Code에 사용자당 월 수천 달러의 적자를 감수하며 보조금을 태우고 있다. 래퍼가 이 수준의 보조금을 제공하는 것은 불가능하다.
Claude Code는 Cursor Agent 모드 대비 같은 작업에 토큰 소모가 1/5 수준이라는 비교 테스트 결과도 있다. Codex는 더 효율적이다.
월 $20이라는 같은 가격에 Claude Code는 Anthropic의 최신 모델을 제한 없이 쓸 수 있지만, Lovable이나 V0은 같은 모델을 호출하면서 크레딧 한도가 빠르게 소진된다.

6.2 래퍼의 편의성이 가치 있는 경우

코드를 전혀 모르는 비개발자가 웹앱 프로토타입을 빠르게 만들어야 할 때.
여러 모델을 비교해야 하는데 각각 개별 구독하기 번거로울 때(Higgsfield의 멀티모델 영상 등).
배포·프리뷰·협업 기능이 필수적일 때.

그러나 이 편의성의 대가는 크레딧 가격이다. 그리고 어차피 래퍼 서비스 내부에서 세팅하는 것도 결국 프로그램 설정이므로, 본질적으로 오리지널 도구와 크게 다르지 않다. 오히려 래퍼에서 문제가 발생하면 장애 대응이 더 어렵다. 래퍼 측 문제인지, API 제공사 측 문제인지, 사용자 설정 문제인지 원인을 분리하기가 힘들기 때문이다.

6.3 비용 절감 방법 정리

방법	예상 절감	필요 역량
오리지널 도구 직접 사용(Claude Code, Codex 등)	30~50%+	기본적인 개발 환경 이해
중개 API 직접 호출(OpenRouter, fal.ai, Kie.ai)	30~50%	API 호출 기초
오픈소스 모델 직접 호스팅(RunPod, Vast.ai)	50~70%	서버 관리, ML Ops
저가 모델 초안 + 고가 모델 최종 렌더	60~80%(시행착오 비용)	모델별 특성 이해
크레딧당 실질 단가 역산 비교	10~30%	산술 계산

7. 앞으로 가격은 내려가는가

LLM 텍스트 토큰 가격은 3년간 약 90% 하락했다. GPT-4 출시 시점 대비 2026년 DeepSeek 가격은 100배 이상 저렴하다. 같은 추세를 영상/이미지에 적용하면 장기 하락은 맞다.

그러나 영상/이미지는 연산 밀도가 근본적으로 높다. FP8 양자화(처리량 1.3~2배), 연속 배칭(GPU 활용률 15~30%에서 60~80%), 모델 경량화 등이 병행돼야 체감 하락이 온다. 70B 모델 추론 비용을 월 $39,000에서 $16,000으로 59% 절감한 사례가 보고되고 있지만, 이는 자체 인프라 운영 기업의 이야기이고 래퍼 최종 사용자의 크레딧 가격까지 전파되려면 시차가 존재한다.

현재 GPU 수급 불균형이 지속되고(H100 렌탈 반년 만에 40% 상승), 차세대 GPU는 더 비싸고(B200), AI 수요는 계속 폭증하고 있으므로, 당분간 래퍼 서비스의 크레딧 가격은 완만한 하락 또는 횡보가 예상된다.

8. 마무리

위에서 살펴본 AI 서비스 크레딧 비용 구조의 핵심 내용을 정리하면 다음과 같다.

핵심 요약:

AI 산업은 GPU(0층) → 파운데이션 모델(1층) → API 중개(2층, OpenRouter·fal.ai·Kie.ai 등) → 소매 래퍼(3층)의 4단계 마진 누적 구조이며, 모델을 만든 OpenAI조차 매출총이익률 33%로 적자에 가깝다
영상 생성은 텍스트 대비 100~1,000배 비싸다. 초기 Sora는 H100 한 장으로 시간당 5초 영상밖에 못 만들었고, 2026년에도 10초 영상 API 원가가 $0.50~$7.50이다
Anthropic Claude Code $200 구독의 실제 컴퓨팅은 $5,000/월, Manus 단일 작업에 크레딧 1,000개 이상 소모, Perplexity는 매출의 164%를 원가로 지출 — 이것이 AI 산업의 현실이다
개발 분야에서는 Lovable·V0 같은 래퍼보다 Claude Code·Codex 같은 오리지널 도구가 같은 가격에 더 많은 컴퓨팅을 제공한다. 래퍼의 편의성이 필요한 경우가 아니라면 오리지널 도구가 합리적이다
GenSpark는 AI 채팅과 이미지를 크레딧 소모 없이 무제한(세션 시간 제한만 존재) 제공하는 독특한 구조로, 다른 래퍼와 차별점이 있다
AI 래퍼 스타트업의 90%가 지속 불가능한 유닛 이코노믹스로 실패 예측됐고, 2024년 한 해 966개가 문을 닫았다. 크레딧이 비싼 것은 폭리가 아니라 이 산업의 구조적 현실이다

크레딧 가격에 대한 불만은 당연하지만, 그 비용이 어디서 오는지를 이해하면 분노 대신 판단을 할 수 있다. 돈이 많고 시간이 없다면 래퍼를 쓰면 되고, 그렇지 않다면 오리지널 도구나 중개 API를 직접 쓰는 것이 합리적이다. 어렵다고 느껴지는 것은 처음뿐이고, 그 문턱을 넘으면 래퍼에 의존할 이유가 사라진다.