ChatGPT, Claude, Gemini 같은 클라우드 AI 서비스는 편리하지만, 프롬프트와 데이터가 외부 서버로 전송된다는 점에서 프라이버시 우려가 항상 따라다닌다. 매달 구독료를 내야 하고, 서비스 장애가 나면 업무가 멈춘다. 이런 한계를 해결하려는 움직임 속에서 Ollama가 등장했다.
Ollama는 오픈소스 대규모 언어 모델(LLM)을 내 컴퓨터에서 직접 실행할 수 있게 해주는 경량 프레임워크다. Docker가 컨테이너를 한 줄 명령으로 실행하듯, Ollama는 ollama run llama3 같은 명령 하나로 수십 GB 규모의 LLM을 내려받고 즉시 대화할 수 있게 만들어 준다. 2023년 등장 이후 GitHub 스타 166,000개를 넘기며 로컬 AI 분야에서 사실상 표준 도구로 자리 잡았다.
이 문서에서는 Ollama의 탄생 배경과 개발 주체, 인기의 이유, 서비스 형태와 요금제, 지원 모델, 설치 및 사용법, 그리고 방대한 생태계 통합까지 Ollama에 관한 핵심 정보를 하나로 정리한다.
1. Ollama의 탄생과 개발 주체
1.1 창립자와 회사
-
Ollama는 Jeffrey Morgan과 Michael Chiang이 공동 창립한 스타트업이다. 두 사람은 캐나다 워털루 대학교(University of Waterloo) 출신으로, Jeffrey Morgan은 이전에 Docker, Inc.에서 근무한 경력이 있으며 현재 Ollama의 CEO를 맡고 있다. Michael Chiang은 Docker 기반 GUI 도구인 Kitematic의 공동 창립자 출신이다.
-
회사는 미국 캘리포니아주 팔로알토(Palo Alto)에 본사를 두고 있으며, 소규모 팀(10명 내외)으로 운영된다. Meta(Facebook) 소속이라는 오해가 있지만, Ollama 측은 공식적으로 "우리는 Meta와 무관한 독립 스타트업"이라고 밝혔다.
-
Ollama는 Y Combinator의 W21(2021년 겨울) 배치에 참여했으며, Y Combinator, Angel Collective Opportunity Fund, Essence Venture Capital, Rogue Capital, Sunflower Capital 등으로부터 투자를 받았다. 초기 프리시드 단계에서 약 12만 5천 달러를 유치한 것으로 알려져 있다.
1.2 출시와 성장 타임라인
-
2023년 초: Ollama 프로젝트가 공개되고 GitHub 저장소가 생성되었다. 처음에는 macOS 전용으로 출발했다.
-
2023년 10월: Docker 공식 이미지가 공개되어 Linux 환경에서 GPU 가속과 함께 컨테이너로 실행할 수 있게 되었다.
-
2024년 2월: OpenAI Chat Completions API와 호환되는 엔드포인트가 내장되어, 기존 OpenAI 연동 앱을 Ollama로 쉽게 전환할 수 있게 되었다.
-
2025년 9월: 클라우드 모델 프리뷰가 시작되어, 로컬 장비의 제약 없이 대형 모델을 원격 GPU에서 실행할 수 있는 서비스가 추가되었다.
-
2026년 2~3월: 버전 0.18.2까지 업데이트되며
ollama launch명령으로 Claude Code, Codex, OpenClaw 등 코딩 에이전트를 원클릭 실행하는 기능이 추가되었다. NVIDIA B300 등 최신 데이터센터 하드웨어와의 파트너십도 확대되었다.
2. Ollama가 유명해진 이유
2.1 프라이버시와 데이터 주권
-
Ollama를 사용하면 프롬프트와 응답이 내 컴퓨터 안에서만 처리된다. 외부 서버로 데이터가 전송되지 않으므로, 금융·의료·법률 등 민감한 데이터를 다루는 업종에서 특히 주목받는다.
-
GDPR, 개인정보보호법 등 규제 요건을 충족해야 하는 기업 환경에서 로컬 LLM은 클라우드 AI 대비 컴플라이언스 부담을 크게 줄여 준다.
2.2 비용 절감
-
클라우드 AI 서비스의 월 구독료(ChatGPT Plus 20달러, Claude Pro 20달러 등)나 API 토큰 비용 없이, 하드웨어 전기료만으로 무제한 사용이 가능하다.
-
한 번 모델을 내려받으면 인터넷 연결 없이도 동작하므로, 오프라인 환경이나 네트워크 비용이 높은 곳에서도 활용할 수 있다.
2.3 압도적인 편의성
-
설치부터 실행까지 원라인 명령으로 끝난다. macOS와 Windows는 설치 프로그램을 제공하고, Linux는
curl -fsSL https://ollama.com/install.sh | sh한 줄이면 된다. -
모델 다운로드와 실행도
ollama run qwen3처럼 단순하다. 복잡한 의존성 관리, 환경 변수 설정, Python 가상환경 구성이 필요 없다. -
OpenAI 호환 API를 내장하고 있어, 기존에 OpenAI SDK로 작성된 코드를 엔드포인트 URL만 바꿔서 Ollama에 연결할 수 있다.
2.4 방대한 모델 생태계
-
Ollama 모델 라이브러리에는 160개 이상의 모델이 등록되어 있다. Llama 4, Qwen 3.5, DeepSeek-R1, Gemma, Mistral, Phi, GLM, GPT-OSS 등 주요 오픈소스 모델을 즉시 사용할 수 있다.
-
GGUF 포맷의 커스텀 모델도 Modelfile을 통해 직접 불러올 수 있어, Hugging Face 등에서 받은 모델도 Ollama 위에서 구동할 수 있다.
2.5 커뮤니티와 생태계
-
GitHub 스타 166,000개 이상, 포크 15,000개 이상으로 오픈소스 프로젝트 전체에서 상위 35위 안에 드는 인기 프로젝트다.
-
Ollama 공식 홈페이지에 따르면 40,000개 이상의 커뮤니티 통합이 존재한다. Open WebUI, LangChain, LlamaIndex, n8n, Dify 등 주요 AI 프레임워크와 자동화 도구가 Ollama를 네이티브로 지원한다.
3. 서비스 형태와 요금제
Ollama는 크게 로컬 실행과 클라우드 실행 두 가지 방식을 제공하며, 둘을 병행할 수도 있다.
3.1 로컬 실행 (Local)
-
Ollama의 핵심 사용 방식이다. 내 컴퓨터에 Ollama를 설치하고 모델을 다운로드하면, 내부 GPU(또는 CPU)를 사용해 모델을 추론한다.
-
완전 무료이며 사용량 제한이 없다. MIT 라이선스로 소스 코드가 공개되어 있어 상업적 목적으로도 자유롭게 활용 가능하다.
-
Docker 컨테이너로도 배포할 수 있어, 팀 서버나 사내 인프라에 올려 여러 사용자가 공유하는 구성도 가능하다.
3.2 클라우드 실행 (Ollama Cloud)
-
2025년 9월부터 프리뷰로 시작된 서비스로, Ollama가 NVIDIA 클라우드 프로바이더(NCP)와 협력해 데이터센터급 GPU에서 대형 모델을 실행해 준다.
-
로컬 CLI와 API를 그대로 사용하면서, 모델 이름 뒤에
:cloud를 붙이면(예:ollama run qwen3-coder:480b-cloud) 클라우드에서 추론이 이뤄진다. -
프롬프트와 응답 데이터는 로깅하지 않고 학습에도 사용하지 않으며, 데이터 보존 정책이 제로(Zero Retention)로 설정되어 있다고 공식 FAQ에 명시되어 있다.
-
모델은 주로 미국에서 호스팅되며, 글로벌 수요에 따라 유럽과 싱가포르로도 라우팅될 수 있다.
3.3 요금제 비교
Ollama의 요금제는 Free, Pro, Max 세 가지로 나뉜다.
| 항목 | Free | Pro | Max |
|---|---|---|---|
| 월 요금 | 0달러 | 20달러 | 100달러 |
| 로컬 실행 | 무제한 | 무제한 | 무제한 |
| 클라우드 사용량 | 가벼운 사용 | Free 대비 50배 | Pro 대비 5배 |
| 동시 클라우드 모델 | 1개 | 3개 | 10개 |
| 비공개 모델 업로드 | 불가 | 가능 | 가능 |
| 주요 대상 | 평가·소규모 코딩 | 일상 업무·코딩 자동화 | 대규모 에이전트·장시간 세션 |
핵심 포인트: 로컬 실행은 어떤 요금제에서든 무제한이다. 요금제의 차이는 오직 클라우드 GPU 사용량과 동시 실행 모델 수에 있다. 사용량은 GPU 시간 기반으로 측정되며, 토큰이나 요청 수 기반이 아니다.
세션 한도는 5시간마다, 주간 한도는 7일마다 초기화된다. 요금제 한도의 90%에 도달하면 이메일 알림이 발송되며, 추후 토큰당 추가 과금 옵션도 도입 예정이다.
4. 설치와 기본 사용법
4.1 운영체제별 설치
| 운영체제 | 설치 방법 |
|---|---|
| macOS | 공식 사이트에서 dmg 파일 다운로드 후 설치 |
| Windows | PowerShell에서 `irm https://ollama.com/install.ps1 |
| Linux | 터미널에서 `curl -fsSL https://ollama.com/install.sh |
| Docker | docker run -d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama |
설치 용량은 기본 바이너리에 약 4GB 이상이 필요하며, 모델별로 추가 디스크 공간이 필요하다. 7B 파라미터 모델은 약 4~5GB, 70B 모델은 40GB 이상이 될 수 있다.
4.2 권장 하드웨어
-
RAM: 최소 8GB, 권장 16GB 이상. 모델 크기에 따라 더 많은 메모리가 필요하다.
-
GPU: 필수는 아니지만 강력히 권장된다. NVIDIA GPU(Compute Capability 5.0 이상), AMD GPU(ROCm v7 지원), Apple Silicon(M1 이상)을 지원한다. GPU가 없으면 CPU로도 동작하지만 속도가 현저히 느려진다.
-
VRAM 기준: 2B 이하 모델은 2~4GB, 2~10B 모델은 6~16GB, 70B 모델은 40GB 이상의 VRAM이 필요하다.
4.3 기본 명령어
-
모델 다운로드 및 실행:
ollama run qwen3— 모델이 없으면 자동으로 내려받고 대화를 시작한다. -
모델만 미리 다운로드:
ollama pull llama3— 실행 없이 모델 파일만 받아 둔다. -
설치된 모델 목록 확인:
ollama list— 로컬에 저장된 모델과 크기를 보여 준다. -
모델 삭제:
ollama rm llama3— 지정한 모델 파일을 삭제한다. -
코딩 에이전트 실행:
ollama launch claude— Claude Code를 Ollama 모델과 연결해 한 번에 실행한다.
5. 주요 지원 모델과 선택 기준
Ollama 라이브러리에서 선택 가능한 대표적인 모델 패밀리는 다음과 같다.
| 모델 | 개발사 | 파라미터 범위 | 주요 특징 |
|---|---|---|---|
| Llama 4 | Meta | Scout 17B 등 | 범용 대화·추론, MoE 아키텍처 |
| Qwen 3.5 | Alibaba | 0.8B~27B | 다국어 강점, 비전·도구 호출 지원 |
| DeepSeek-R1 | DeepSeek | 671B(MoE) | 추론 특화, MIT 라이선스 |
| Gemma | 2B~27B | 경량·효율 중심, 임베딩 활용 가능 | |
| Mistral / Mixtral | Mistral AI | 7B~8x22B | 코딩·범용, MoE 구조 |
| Phi | Microsoft | 2B~14B | 소형 모델 대비 높은 성능 |
| GLM-4.7 | Zhipu AI | 다양 | 코딩 에이전트용으로 Ollama가 추천 |
| GPT-OSS | OpenAI | 20B~120B | OpenAI 최초 오픈소스 사고 모델 |
| Qwen3-Coder | Alibaba | 480B(cloud) | 코딩 전문, 클라우드 전용 대형 버전 제공 |
핵심 포인트: 모델 선택 시 가장 중요한 변수는 가용 VRAM이다. 내 GPU의 VRAM에 맞는 모델을 골라야 실용적인 속도가 나온다. VRAM이 부족하면
:cloud접미사를 붙여 클라우드로 추론을 넘길 수 있다.
6. 생태계와 통합
Ollama의 강점 중 하나는 다른 도구·프레임워크와의 폭넓은 연동이다.
6.1 코딩 에이전트
-
Claude Code: Anthropic의 CLI 코딩 에이전트를
ollama launch claude명령으로 즉시 연결해 사용할 수 있다. 환경 변수나 설정 파일 없이 모델 선택 화면이 나타나며, 로컬 또는 클라우드 모델을 지정하면 바로 코딩 작업을 시작한다. -
Codex: OpenAI의 CLI 코딩 도구도
ollama launch codex로 동일하게 지원된다. -
OpenClaw: Ollama와 함께 공개된 개인 AI 어시스턴트로, WhatsApp, Telegram, Slack, Discord, iMessage 등 메시징 앱과 로컬 AI 코딩 에이전트를 연결해 준다.
ollama launch openclaw명령으로 실행한다. -
OpenCode, Droid: 추가적인 코딩 에이전트도 launch 명령으로 원클릭 설정이 가능하다.
6.2 문서·RAG·자동화
-
LangChain / LlamaIndex: Python과 JavaScript 양쪽 모두에서 Ollama를 LLM 백엔드로 연결하는 공식 통합이 제공된다. RAG(검색 증강 생성) 파이프라인 구축 시 로컬 모델을 임베딩과 추론에 함께 사용할 수 있다.
-
n8n / Dify: 워크플로우 자동화 도구에서 Ollama를 AI 노드로 연결하면, API 비용 없이 자동화 파이프라인에 LLM을 통합할 수 있다.
-
AnythingLLM: 로컬 문서를 업로드하고 Ollama 모델로 질의응답을 수행하는 올인원 RAG 도구다.
6.3 채팅 인터페이스
-
Open WebUI: ChatGPT와 유사한 웹 UI를 제공하며, Ollama를 백엔드로 연결하면 브라우저에서 로컬 모델과 대화할 수 있다. GitHub 스타 115,000개 이상의 인기 프로젝트로, Docker 한 줄이면 설치된다.
-
Msty, Onyx: 데스크톱 앱 형태의 채팅 인터페이스도 Ollama를 기본 지원한다.
6.4 API 호환성
-
Ollama는 기본적으로 localhost:11434 포트에서 REST API를 제공한다. 자체 API 외에 OpenAI Chat Completions API, OpenAI Responses API와 호환되는 엔드포인트도 내장하고 있다.
-
덕분에 OpenAI SDK를 사용하는 기존 애플리케이션에서 base URL만
http://localhost:11434/v1로 변경하면 Ollama 모델로 전환할 수 있다.
7. 경쟁 도구와 비교
Ollama 외에도 로컬 LLM 실행 도구는 여러 가지가 있다.
| 비교 항목 | Ollama | LM Studio | GPT4All |
|---|---|---|---|
| 인터페이스 | CLI·API 중심 | GUI 중심 | GUI 중심 |
| 라이선스 | MIT (오픈소스) | 프리웨어(비공개) | MIT (오픈소스) |
| 모델 포맷 | GGUF + 자체 번들 | GGUF 직접 로드 | GGUF |
| OpenAI API 호환 | 내장 | 내장 | 제한적 |
| 클라우드 서비스 | 있음 (Cloud) | 없음 | 없음 |
| Docker 지원 | 공식 이미지 | 없음 | 없음 |
| 코딩 에이전트 통합 | launch 명령 내장 | 수동 설정 | 없음 |
| 적합 사용자 | 개발자·서버 운영 | 비개발자·GUI 선호 | 입문자·간단 대화 |
핵심 포인트: Ollama는 CLI와 API를 통한 자동화·통합에 강하고, LM Studio는 GUI와 모델 탐색에 강하다. 코딩 에이전트 연동이나 Docker 기반 서버 운영이 목적이라면 Ollama가 적합하고, 모델을 시각적으로 탐색하며 대화하려면 LM Studio가 편리하다.
8. 커스텀 모델과 Modelfile
Ollama에서는 Modelfile을 작성해 기존 모델을 커스터마이징할 수 있다. Docker의 Dockerfile과 유사한 개념이다.
8.1 Modelfile 주요 지시어
-
FROM: 기반이 되는 모델을 지정한다. 예:
FROM llama3 -
SYSTEM: 시스템 프롬프트를 설정해 모델의 역할과 성격을 정의한다.
-
PARAMETER: temperature, top_p, context length 등 추론 파라미터를 조정한다.
-
TEMPLATE: 입출력 포맷을 커스터마이징한다.
작성한 Modelfile을 ollama create my-model -f ./Modelfile 명령으로 빌드하면, ollama run my-model로 실행할 수 있는 커스텀 모델이 생성된다. 이를 통해 특정 업무(고객 응대, 코드 리뷰, 번역 등)에 맞춘 전용 모델을 손쉽게 만들 수 있다.
9. 마무리
위에서 살펴본 Ollama의 핵심 내용을 정리하면 다음과 같습니다.
핵심 요약:
- Ollama는 Jeffrey Morgan과 Michael Chiang이 2023년 팔로알토에서 창립한 오픈소스(MIT 라이선스) 로컬 LLM 실행 프레임워크다.
- 프라이버시 보장, 비용 절감, 원라인 설치의 편의성, 160개 이상 모델 지원이 인기의 핵심 요인이다.
- 로컬 실행은 모든 요금제에서 무제한 무료이며, 클라우드 서비스는 Free(0달러)·Pro(20달러/월)·Max(100달러/월) 세 단계로 나뉜다.
- OpenAI 호환 API가 내장되어 있어 기존 앱과의 전환이 간단하며, 40,000개 이상의 커뮤니티 통합이 존재한다.
ollama launch claude같은 명령으로 코딩 에이전트를 원클릭 연결해, 로컬 또는 클라우드 모델로 코딩 자동화를 즉시 시작할 수 있다.- Modelfile을 통해 시스템 프롬프트·파라미터를 커스터마이징한 전용 모델을 만들고 공유할 수 있다.
내 데이터를 외부에 보내지 않고 AI를 활용하고 싶다면 Ollama 로컬 실행부터 시작하고, 로컬 GPU로 부족한 대형 모델이 필요하다면 클라우드 요금제를 검토하는 것이 가장 현실적인 접근이다. CLI 기반이 낯설다면 Open WebUI를 함께 설치해 브라우저에서 ChatGPT와 유사한 환경을 구성할 수 있다.