본 사이트는 파트너스 활동으로 수수료를 받으며, 서버 운영과 무료 앱 개발에 사용됩니다.

본 사이트는 파트너스 활동으로 수수료를 받으며,서버 운영과 무료 앱 개발에 사용됩니다.

큐레이터 단비's 웹앱 아이디어 창고

홈 무료 앱 큐레이터 단비 프롬프트 칼럼 PPT 위키 AI 이미지 AI 툴 프로그램 쇼핑 핫딜 부업 백과 RSS 개발 용어 사전

큐레이터 단비's 웹앱 아이디어 창고

🧰 웹앱 · 📺 단비 · 📰 이슈트래커 · 📄 기타 페이지를 한 곳에서. 모든 도구를 쉽고 빠르게 사용하세요.

사이트 방문

전체-오늘-고유 전체-고유 오늘-

방문 통계 / 인기 앱 순위 보러 가기→

제품

모든 도구
카테고리
인기 도구
새로운 도구
사이트맵

지원

통계
업데이트
도움말
문의하기
버그 신고
FAQ

법적 고지

개인정보처리방침
이용약관
쿠키 정책

웹앱 아이디어 창고 - 모든 도구를 한 곳에서 © 2025 큐레이터 단비. All right reserved.

Built with ❤️ using Next.js & Vercel

SWE 벤치 (SWE-bench) | 바이브 코딩 용어 사전

용어 사전/SWE 벤치

중급개념

SWE 벤치

SWE-bench

키워드로 바로 검색

|

클릭하면 각 플랫폼에서 바로 검색됩니다.

한글「SWE 벤치」구글네이버유튜브

영어「SWE-bench」구글

설명

AI 코딩 에이전트의 실제 소프트웨어 엔지니어링 능력을 측정하는 벤치마크로, Princeton NLP 그룹이 2023년 10월에 발표했다. 단순한 코드 생성 능력이 아니라, 실제 오픈소스 GitHub 리포지토리에서 보고된 실제 이슈(버그 리포트, 기능 요청)를 해결하는 능력을 평가한다는 점에서 기존 벤치마크(HumanEval, MBPP 등)와 차별화된다. 테스트 과정: 에이전트에게 GitHub 이슈 설명과 관련 코드베이스가 주어지면, 에이전트가 코드를 수정하고 이 수정이 기존 테스트를 통과하는지 확인한다. 이는 실제 소프트웨어 개발 환경과 가장 유사한 평가 방식이다. 2026년 3월 기준 주요 성적: Claude Code 80.8%, Codex CLI 약 70%대(변형에 따라 상이). SWE-bench는 AI 코딩 도구 성능 비교의 사실상 표준(de facto standard)이 되었으며, 새로운 도구나 모델이 출시될 때 SWE-bench 성적이 가장 먼저 언급된다. SWE-bench Verified(검증된 하위 집합), SWE-bench Lite(경량 버전), Terminal Bench(터미널 에이전트 특화) 등의 변형도 존재한다.

공식·참고 링크

https://www.swebench.com

추가 정보

등장 시기: 2023-10
관련 인물·조직: Princeton NLP
조회: 52

태그

SWE-bench벤치마크성능측정

관련 용어

클로드 코드Claude Code
에이전틱 엔지니어링Agentic Engineering

목록으로 돌아가기