Claude Opus 4.7 | 벤치마크·가격·xhigh 신규 설정까지 핵심 정리

1. Claude Opus 4.7이 주목받는 이유

Anthropic이 2026년 4월 16일 공개한 Claude Opus 4.7은 Opus 4.6의 직계 후속 모델이다. 코딩, 멀티모달 비전, 에이전트 워크플로 세 축에서 눈에 띄는 수치 개선이 이루어졌고, API 가격은 Opus 4.6과 동일한 $5/$25(백만 토큰 기준)을 유지한다. Cursor를 포함한 주요 코딩 IDE에서 출시 당일 바로 지원이 시작됐으며, Cursor는 한시적으로 50% 할인 프로모션을 진행하고 있다.

이 모델이 지금 중요한 이유는 단순 벤치마크 상승이 아니라, 에이전트형 AI가 코드를 직접 작성하고 검증까지 수행하는 단계에 진입했다는 점에 있다. Opus 4.7은 결과를 보고하기 전에 스스로 출력을 검증하는 자기 검증(Self-verification) 행동을 보이며, 이전 모델이 중간에 멈추거나 환각(hallucination)을 일으키던 장시간 자율 작업에서 한층 안정적인 성능을 보여준다.

이 문서에서는 Opus 4.7의 핵심 스펙, 벤치마크 수치, Opus 4.6과의 직접 비교, GPT-5.4·Gemini 3.1 Pro와의 경쟁 구도, 그리고 Cursor를 비롯한 개발 환경에서의 실사용 포인트를 종합적으로 다룬다.

2. 핵심 스펙 한눈에 보기

항목	상세
API 모델명	`claude-opus-4-7`
출시일	2026년 4월 16일
컨텍스트 윈도우	100만 토큰 (GA)
최대 출력 토큰	128,000 토큰
입력 가격	$5 / 100만 토큰
출력 가격	$25 / 100만 토큰
프롬프트 캐싱	최대 90% 비용 절감
배치 처리	50% 비용 절감
US 전용 추론	표준 가격의 1.1배
이미지 해상도	긴 변 기준 최대 2,576px (약 3.75MP)
노력(Effort) 수준	low, high, xhigh(신규), max
기본 노력 수준 (Claude Code)	xhigh
지원 플랫폼	Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry

Opus 4.6과 달라진 부분은 크게 네 가지다. 비전 해상도 3배 이상 확대, xhigh 노력 수준 신설, 업데이트된 토크나이저(동일 입력 대비 1.0~1.35배 토큰 증가 가능), 그리고 사이버 보안 자동 세이프가드 탑재이다.

3. Opus 4.6 대비 무엇이 달라졌나

3.1. 자기 검증과 지시 이행 강화

Opus 4.7은 결과를 보고하기 전에 스스로 논리적 오류를 점검한다. Intuit은 '계획 단계에서 자체적으로 논리적 결함을 포착하고 실행을 가속한다'라고 평가했고, Vercel은 '시스템 코드에 대해 증명을 수행한 뒤 작업에 착수하는 새로운 행동'을 관찰했다.
지시 이행이 더 엄격하고 문자 그대로(literal) 이루어진다. Opus 4.6에서는 모호한 프롬프트도 유연하게 해석했지만, 4.7은 명시된 지시를 정확히 따른다. 이에 따라 기존 프롬프트 라이브러리를 재점검해야 하는 경우가 발생할 수 있다.
Notion은 Opus 4.7이 자사 암묵적 요구 테스트(implicit-need tests)를 통과한 최초의 모델이라고 밝혔고, 도구 호출 오류가 기존 대비 66% 감소했다고 보고했다.

3.2. 3배 확대된 비전 해상도

이전 Opus 모델의 이미지 입력 한계는 긴 변 약 850px 수준이었다. Opus 4.7은 긴 변 2,576px, 약 3.75메가픽셀까지 처리할 수 있다.
XBOW의 비주얼 정밀도 벤치마크에서 Opus 4.6이 54.5%를 기록한 반면 Opus 4.7은 98.5%를 달성했다. 44포인트 상승은 점진적 개선이 아니라 세대 도약에 해당한다.
화학 구조식, 기술 다이어그램, 밀집 차트 등 세밀한 시각 정보를 해석하는 전문 업무에서 비로소 실용 수준에 도달했다는 평가가 나온다. Solve Intelligence는 생명과학 특허 워크플로에서 '복잡한 기술 다이어그램 해석이 크게 향상됐다'고 확인했다.

3.3. xhigh 노력 수준과 토큰 관리

Opus 4.7에서 추가된 xhigh는 high와 max 사이에 위치한 새로운 노력(effort) 단계다. Claude Code에서는 모든 플랜의 기본 노력 수준이 xhigh로 설정됐다.
Hex의 CTO는 'low-effort Opus 4.7이 medium-effort Opus 4.6과 대략 동등하다'라고 비교했다. 같은 비용으로 이전 세대 중간 노력 수준의 품질을 얻을 수 있다는 의미다.
업데이트된 토크나이저로 인해 동일 입력이 1.0~1.35배 더 많은 토큰으로 변환될 수 있다. 토큰 비용에 민감한 워크로드라면 effort 파라미터 조정, task budget 설정(퍼블릭 베타), 간결성 프롬프팅을 활용해 비용을 통제할 수 있다.

4. 벤치마크 심층 비교

4.1. 코딩 벤치마크

벤치마크	Opus 4.7	Opus 4.6	변화
CursorBench	70%	58%	+12p
SWE-bench Pro	64.3%	53.4%	+10.9p
SWE-bench Verified	82.0%	약 75%	+7p 수준
Terminal-Bench 2.0	3개 신규 과제 해결	미해결	이전 모델 전부 실패한 과제 포함
Rakuten-SWE-Bench	3배 생산 과제 해결	기준선	Code Quality·Test Quality 두 자릿수 상승

CursorBench는 실제 에디터 환경에서 AI 코딩 보조 품질을 측정하는 벤치마크다. 58%에서 70%로의 상승은 코드 제안, 완성, 리팩터 품질이 체감 수준에서 달라졌음을 뜻한다.
SWE-bench Pro에서 64.3%는 GPT-5.4의 약 53% 수준을 상회하며, Gemini 3.1 Pro와도 경쟁력을 갖추는 수치다.
Warp는 'Opus 4.6이 풀지 못한 동시성 버그를 Opus 4.7이 해결했다'라고 보고했고, Qodo는 '이전 모델이 포기하거나 해결하지 못한 레이스 컨디션을 포함한 실제 이슈를 정밀하게 잡아냈다'라고 평가했다.

4.2. 비전·추론·지식 벤치마크

벤치마크	Opus 4.7	Opus 4.6	비교 대상
XBOW Visual Acuity	98.5%	54.5%	+44p
arXiv Reasoning (with tools)	91.0%	84.7%	+6.3p
GPQA Diamond	94.2%	약 92%	프론티어 동률 수준 유지
GDPVal-AA (Knowledge Work)	Elo 1753	SoTA	GPT-5.4: 1674, Gemini 3.1 Pro: 1314
BigLaw Bench (Harvey)	90.9%	--	high effort 기준
OfficeQA Pro (Databricks)	오류 21% 감소	기준선	문서 추론
General Finance (AlphaSense)	0.813	0.767	연구 에이전트 모듈

GDPVal-AA는 금융·법률 등 경제적 가치가 높은 지식 업무를 측정하는 서드파티 평가다. Opus 4.7의 Elo 1753은 GPT-5.4(1674)를 79포인트, Gemini 3.1 Pro(1314)를 439포인트 상회한다.
GPQA Diamond(대학원 수준 추론)에서 94.2%를 달성해 프론티어급 모델과 동등한 수준을 유지하면서 내부 일관성은 개선됐다.
Harvey의 BigLaw Bench에서는 '변경 통제 조항과 양도 조항을 정확히 구분하는' 법률 추론 능력이 확인됐다. 이전 프론티어 모델들이 일관되게 실패하던 과제다.

5. GPT-5.4, Gemini 3.1 Pro와의 경쟁 구도

영역	선두 모델	비고
지식 업무 (GDPVal-AA)	Opus 4.7 (1753)	GPT-5.4: 1674, Gemini 3.1 Pro: 1314
에이전트 코딩 (SWE-bench Pro)	Opus 4.7 (64.3%)	GPT-5.4: 약 53%, 의미 있는 격차
에이전트 검색	GPT-5.4 (89.3%)	Opus 4.7: 79.3%, 10p 열세
다국어 Q&A	Gemini 3.1 Pro	Opus 4.7 상대적 약세
터미널 기반 코딩	GPT-5.4 우세	Opus 4.7도 경쟁력 보유
비전 해상도	Opus 4.7 (98.5%)	3배 해상도 업그레이드
사이버 보안 (CyberGym)	Mythos Preview(83.1%) > Opus 4.7(73.1%) > GPT-5.4(66.3%)	Opus 4.7은 공개 모델 중 1위

VentureBeat는 '직접 비교 가능한 벤치마크에서 Opus 4.7이 GPT-5.4를 7~4포인트 차이로 리드한다'라고 정리하면서, 경쟁이 매우 좁은 간격으로 진행되고 있다고 분석했다. Opus 4.7은 모든 분야에서 '클린 스위프'를 달성한 것이 아니라, 장시간 자율 작업의 안정성과 코딩·문서 추론 영역에 특화된 모델로 포지셔닝된다.

핵심 포인트: Opus 4.7은 에이전트 코딩·지식 업무·비전에서 프론티어를 기록하지만, 에이전트 검색·다국어 Q&A에서는 GPT-5.4나 Gemini 3.1 Pro가 앞선다. 모든 용도에 한 모델이 최적인 시대는 아니며, 워크로드별 모델 선택이 필요하다.

6. Cursor에서의 활용과 프로모션

Cursor는 Opus 4.7 출시와 동시에 지원을 시작했으며, 한시적 50% 할인을 제공하고 있다. Cursor의 자체 벤치마크인 CursorBench에서 Opus 4.7이 70%를 달성해 Opus 4.6의 58%를 12포인트 앞섰다는 점이 프로모션의 근거다.

Cursor에서 Opus 4.7을 사용하려면 모델 선택 드롭다운에서 claude-opus-4-7-thinking-high를 선택하면 된다. 이 슬러그는 xhigh 노력 수준이 적용된 기본 설정을 가리킨다.

코딩 IDE에서 Opus 4.7을 사용할 때 유의할 점은 지시 이행의 엄격화다. 기존 프롬프트가 모호하게 작성되어 있었다면 예상과 다른 결과를 받을 수 있으므로, 명시적이고 구체적인 지시로 프롬프트를 재작성하는 것이 권장된다.

7. 함께 출시된 신규 기능

7.1. Claude Code 업데이트

/ultrareview 슬래시 커맨드가 추가됐다. 일반 코드 리뷰가 문법 오류를 찾는 데 초점을 맞추는 것과 달리, /ultrareview는 시니어 인간 리뷰어를 시뮬레이션해 설계 결함과 논리 갭까지 플래그한다. Pro와 Max 사용자에게 3회 무료 울트라리뷰가 제공된다.
Auto mode가 Max 사용자에게 확대 적용됐다. Auto mode에서는 Claude가 사용자 승인 없이 자율적으로 결정을 내리며, 더 적은 중단으로 장시간 작업을 수행할 수 있다.
Claude Code의 기본 노력 수준이 모든 플랜에서 xhigh로 상향 조정됐다.

7.2. API 및 플랫폼 업데이트

Task budgets(퍼블릭 베타)가 도입됐다. 자율 에이전트의 토큰 소비에 상한선을 설정할 수 있어, 장시간 디버깅 세션에서 예상치 못한 비용 발생을 방지한다.
고해상도 이미지 지원은 API 파라미터 변경 없이 모델 레벨에서 자동 적용된다. 2,576px 한계는 Opus 4.7의 모든 요청에 기본 적용되며, 세부 사항이 필요 없는 이미지는 전송 전 다운샘플링으로 토큰을 절약할 수 있다.
Opus 4.7은 claude.ai, Messages API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 출시 당일부터 사용 가능하다.

8. Opus 4.6에서 4.7로 마이그레이션 시 점검 사항

점검 항목	상세
프롬프트 재검토	모호한 지시를 명시적으로 수정 필요
토큰 비용 측정	토크나이저 변경으로 동일 입력 1.0~1.35배 토큰 증가 가능
노력 수준 조정	기본값이 xhigh로 변경됨, 비용 민감 시 high로 하향 가능
비전 입력 토큰	고해상도 이미지가 자동 적용되어 토큰 소비 증가, 불필요 시 다운샘플링
task budget 설정	장시간 에이전트 세션에서 토큰 상한 설정 권장
사이버 보안 세이프가드	보안 연구 목적이라면 Cyber Verification Program 신청 필요

Anthropic은 자사 내부 코딩 평가에서 '모든 노력 수준에 걸쳐 토큰 사용 대비 성능이 개선됐다'라고 밝혔지만, 실제 트래픽에서 차이를 측정해볼 것을 권장한다. 공식 마이그레이션 가이드는 Anthropic 플랫폼 문서에서 확인할 수 있다.

핵심 포인트: 마이그레이션에서 가장 중요한 두 가지는 프롬프트 엄격화 대응과 토큰 비용 사전 측정이다. 기존 프롬프트가 느슨하게 작성되어 있고 마진이 얇은 레거시 애플리케이션이라면 단계적 전환이 바람직하다.

9. 안전성과 사이버 보안 정책

Opus 4.7은 Opus 4.6과 유사한 안전 프로파일을 유지하면서, 정직성(honesty)과 악의적 프롬프트 인젝션 방어에서 소폭 개선됐다. 반면 규제 물질 관련 해해 경감 조언을 지나치게 상세하게 제공하는 경향은 약간 약화된 부분으로 지적됐다.

Anthropic의 Project Glasswing과 연계해, Opus 4.7에는 금지되거나 고위험 사이버 보안 사용을 감지하고 차단하는 자동 세이프가드가 탑재됐다. Anthropic의 가장 강력한 모델인 Mythos Preview는 여전히 제한된 기업 파트너에게만 공개되며, Opus 4.7은 이러한 세이프가드를 실전 배포하는 테스트베드 역할을 한다.

CyberGym 벤치마크에서 Opus 4.7은 73.1%를 기록했다. Mythos Preview(83.1%)에는 미치지 못하지만 GPT-5.4(66.3%)를 상회하며, 공개 모델 중에서는 가장 높은 사이버 보안 역량을 보여준다.

합법적인 보안 전문가(취약점 연구, 침투 테스트, 레드팀)는 Anthropic의 Cyber Verification Program에 지원해 Opus 4.7의 사이버 역량에 접근할 수 있다.

10. 기업 고객 평가와 실전 활용 사례

초기 사용 기업들의 피드백을 종합하면, Opus 4.7에 대한 인식이 '기술에 감명받는 단계'에서 '결과물에 의존하는 단계'로 전환되고 있다.

Cognition(Devin)은 Opus 4.7이 '수 시간 동안 일관되게 작업하며, 이전 모델이 멈추던 어려운 문제를 돌파한다'라고 평가했다. Rakuten은 SWE-bench에서 Opus 4.6 대비 3배 더 많은 프로덕션 과제를 해결했다고 보고했다. CodeRabbit은 리콜이 10% 이상 향상됐으며, GPT-5.4 xhigh보다 속도도 약간 빠르다고 밝혔다.

Bolt는 '장시간 앱 빌딩 작업에서 최대 10% 향상됐으며, 매우 에이전트적인 모델에서 통상 예상되는 퇴보가 없다'라고 전했다. Ramp는 '에이전트 팀 워크플로에서 역할 충실도, 지시 이행, 복잡한 추론이 강화됐고, Opus 4.6 대비 단계별 가이드가 훨씬 덜 필요하다'라고 평가했다.

대시보드·데이터 인터페이스 구축 분야에서는 '모델의 디자인 감각이 놀라울 정도이며, 실제로 배포할 만한 선택을 한다'라는 평가까지 나왔다.

11. 마무리

위에서 살펴본 Claude Opus 4.7의 핵심 내용을 정리하면 다음과 같습니다.

핵심 요약:

Opus 4.7은 CursorBench 70%, SWE-bench Pro 64.3%, XBOW 비전 98.5% 등 코딩·비전·에이전트 영역에서 Opus 4.6 대비 의미 있는 수치 상승을 달성했다
이미지 해상도가 3배 이상 확대되어(2,576px, 3.75MP) 전문 비전 워크플로에서 실용 수준에 도달했다
새 xhigh 노력 수준이 추가됐고 Claude Code 기본값으로 설정되어, high와 max 사이에서 비용 대비 성능 균형을 잡을 수 있다
API 가격은 $5/$25(백만 토큰)로 Opus 4.6과 동일하나, 토크나이저 변경으로 입력 토큰이 최대 1.35배 늘어날 수 있어 사전 비용 측정이 필요하다
지시 이행이 더 엄격해져 기존 프롬프트 재검토가 필수이며, 단계적 마이그레이션이 권장된다
GPT-5.4·Gemini 3.1 Pro와의 경쟁에서 에이전트 코딩·지식 업무에서는 선두이나, 에이전트 검색·다국어 Q&A에서는 열세를 보인다

Opus 4.7 도입 여부는 워크로드 특성에 따라 결정해야 한다. 장시간 자율 코딩, 복잡한 문서 추론, 고해상도 이미지 처리가 핵심이라면 즉시 전환할 가치가 있다. 프롬프트가 느슨하게 설계돼 있고 토큰 마진이 얇은 레거시 환경이라면, 노력 수준을 high로 설정하고 프롬프트를 재작성한 뒤 단계적으로 전환하는 것이 안전한 선택이다.

자주 묻는 질문

Claude Opus 4.7의 API 가격은 얼마인가?
Opus 4.7의 API 가격은 입력 $5, 출력 $25(백만 토큰 기준)로 Opus 4.6과 동일하다. 프롬프트 캐싱으로 최대 90%, 배치 처리로 50%까지 비용을 절감할 수 있다. 다만 업데이트된 토크나이저로 인해 동일 입력이 1.0~1.35배 더 많은 토큰으로 변환될 수 있어, 실질 비용은 소폭 상승할 수 있다.
xhigh 노력 수준이란 무엇이며 기존 설정과 어떻게 다른가?
xhigh(extra high)는 Opus 4.7에서 새로 추가된 노력 단계로, high와 max 사이에 위치한다. high보다 깊은 추론을 수행하지만 max처럼 최대 토큰을 소비하지는 않아, 성능과 비용 사이의 균형점 역할을 한다. Claude Code에서는 모든 플랜의 기본 노력 수준이 xhigh로 설정됐다.
Opus 4.6에서 Opus 4.7로 마이그레이션할 때 주의할 점은?
가장 중요한 두 가지는 프롬프트 재검토와 토큰 비용 사전 측정이다. Opus 4.7은 지시를 더 엄격하게 문자 그대로 따르므로, 모호하게 작성된 기존 프롬프트가 예상과 다른 결과를 낼 수 있다. 또한 토크나이저 변경으로 입력 토큰이 최대 1.35배 증가할 수 있어, 실 트래픽에서의 비용 차이를 미리 측정하는 것이 권장된다.
Cursor에서 Opus 4.7을 사용하는 방법은?
Cursor 모델 선택 드롭다운에서 Opus 4.7을 직접 선택할 수 있으며, 기본 슬러그는 claude-opus-4-7-thinking-high이다. 출시 기념으로 한시적 50% 할인 프로모션이 진행 중이다. CursorBench에서 70%를 기록해 Opus 4.6(58%) 대비 12포인트 향상된 코딩 보조 품질을 제공한다.
GPT-5.4와 비교했을 때 Opus 4.7의 강점과 약점은?
Opus 4.7은 에이전트 코딩(SWE-bench Pro 64.3%), 지식 업무(GDPVal-AA Elo 1753), 비전 해상도(98.5%)에서 GPT-5.4를 앞선다. 반면 GPT-5.4는 에이전트 검색(89.3% vs 79.3%), 터미널 기반 코딩, 다국어 Q&A에서 우위를 보인다. 전반적으로 7~4포인트의 좁은 격차가 유지되며, 특정 워크로드에 따라 최적 모델이 달라진다.
Opus 4.7의 비전 해상도 개선은 구체적으로 어떤 의미인가?
이전 Opus 모델은 긴 변 약 850px까지 이미지를 처리했으나, Opus 4.7은 긴 변 2,576px(약 3.75메가픽셀)까지 지원한다. 3배 이상의 해상도 확대로 코드 스크린샷, 기술 다이어그램, 화학 구조식, 밀집 데이터 차트 등을 정확하게 해석할 수 있다. 고해상도 이미지는 자동으로 더 많은 토큰을 소비하므로, 세밀한 디테일이 불필요한 경우에는 전송 전 다운샘플링이 권장된다.