부록 G. 온디바이스·로컬 LLM 실전 가이드
클라우드 LLM이 쓰기 어려운 상황(금융·의료 규제, 기밀 정보, 대량 저비용 처리)에서 로컬에서 LLM을 돌리는 법. 2026-04-17 기준으로 Ollama 공식 라이브러리·Hugging Face 동향을 반영한 최신판입니다.
- Llama 4 공개(MoE 16×17B / 128×17B, 멀티모달 네이티브)
- DeepSeek-R1 추론 모델 — Claude/o3급 수학·코딩 성능을 오픈으로
- Qwen 3 0.6B~235B, 도구·추론·멀티모달 통합
- OpenAI GPT-OSS 20B / 120B — 마침내 오픈 릴리스(에이전트·추론 최적화)
- Gemma 4 엣지 E2B/E4B(오디오까지 멀티모달) · 26B MoE(활성 4B) · 31B 밀집형, 256K 컨텍스트
- Mistral Large 3 멀티모달 MoE, 128k 컨텍스트
G.1 언제 로컬 LLM을 쓰나
| 시나리오 | 이유 |
|---|---|
| 기밀 문서 요약 | 외부 전송 금지 — 국외 이전 동의 회피(부록 B.2) |
| 대량 분류·태깅 | 건당 0.001¢ 이하 가능 — 클라우드 대비 50~100배 저렴 |
| 오프라인/엣지 | 공장·매장·선박 — 인터넷 부재 |
| 반복 자동화 | 토큰 단가 없음 — 하드웨어 감가만 고려 |
| 데모·개발 | API 키 없이 팀 전체가 무료 시험 |
| 추론형 과제 | DeepSeek-R1·GPT-OSS 120B로 o3급 품질을 로컬에서 |
안 맞는 경우
- 최고 수준 에이전트(장시간 자율 작업) — Claude Opus 4.7이 여전히 선도
- 아주 적은 호출량 — 하드웨어 고정비가 큼
- 1M 이상 컨텍스트 — 대부분의 오픈 모델은 128k~256k
- 실시간 최신 정보 — 클라우드 모델 + 웹검색 조합이 유리
G.2 2026-04 주목 오픈 모델
| 모델 | 파라미터 | 컨텍스트 | 강점 | 라이선스 |
|---|---|---|---|---|
| Llama 4 (Meta) | MoE 16×17B / 128×17B | 1M(Scout) | 네이티브 멀티모달, 초장문 | Llama Community (월 7억 MAU↓ 무료) |
| Qwen 3 (Alibaba) | 0.6B ~ 235B (MoE) | 128k | 도구·추론·멀티모달 통합, 한·중·일 | Apache 2.0 |
| DeepSeek-R1 | 1.5B ~ 671B (MoE) | 128k | 수학·코딩 추론, o3/Claude급 | MIT, 증류 모델 포함 |
| DeepSeek V3 | 671B (MoE, 활성 37B) | 128k | 범용 강자, 비용 대비 최강 | MIT |
| GPT-OSS (OpenAI) | 20B · 120B | 128k | 에이전트·추론 최적화, Apache-2 급 허용 | Apache 2.0 |
| Gemma 4 (Google) | E2B(2.3B) · E4B(4.5B) · 26B MoE(활성 4B) · 31B | 128K(엣지) / 256K(상위) | 네이티브 시스템 프롬프트·사고 모드, 엣지는 오디오까지 멀티모달, 단일 GPU 운용 | Gemma License |
| Gemma 3 (Google, 참고) | 270M · 1B · 4B · 12B · 27B | 128k | 이전 세대, 여전히 경량 강세 | Gemma License |
| Mistral Large 3 | MoE (공개 규모 미상) | 128k | 멀티모달, 유럽 데이터 주권 | MRL (비상업 무료) + 상업 유상 |
| Qwen 2.5-Coder | 0.5B ~ 32B | 128k | 코드 생성·수정 특화 | Apache 2.0 |
| Phi-4 (Microsoft) | 14B | 16k | 경량·데이터 효율, 추론 강화 | MIT |
| EXAONE 4 (LG AI) | 2.4B · 7.8B · 32B | 128k | 한국어 벤치 최상위, 국산 | EXAONE AI Model License(연구·비상업) |
| HyperCLOVA X Seed (Naver) | 1.5B · 3B | 8k | 한국어 경량, 모바일/엣지 | HyperCLOVA X License |
※ 한국어 특화/국산은 Hugging Face에서 직접 GGUF를 받아 Ollama Modelfile로 등록하거나 LM Studio로 로드. Apache 2.0/MIT 모델은 상업 사용 자유로움 — 라이선스 확인 필수.
G.3 2026-04 시점의 "체급 vs 체감 품질"
| 목표 성능 | 로컬 대안 (Q4 양자화 기준) | 대응 클라우드 |
|---|---|---|
| GPT-4o / Sonnet 4.6 급 일반 대화 | Llama 4 128×17B · Qwen 3 235B · DeepSeek V3 | Sonnet 4.6 |
| o3 / Extended Thinking 급 추론 | DeepSeek-R1 671B · GPT-OSS 120B | Opus 4.7 Thinking |
| Haiku 4.5 / GPT-4o mini 급 저비용 | Qwen 3 8~14B · Gemma 4 E4B/26B · Llama 3.2 3B | Haiku 4.5 |
| 멀티모달(비전·오디오) | Llama 4 · Qwen 3-VL · Gemma 4 E4B·31B | GPT-4o · Gemini 3 Pro |
| 코딩 보조 | Qwen 2.5-Coder 32B · DeepSeek V3 · GPT-OSS 120B | Claude Code(Sonnet/Opus) |
| 한국어 자연도 | EXAONE 4 32B · Qwen 3 72B · HyperCLOVA X Seed | Sonnet 4.6(한국어 우수) |
G.4 하드웨어 가이드 (2026-04 갱신)
| 용도 | 추천 모델 크기 | 권장 하드웨어 | 비고 |
|---|---|---|---|
| 개인 개발자 | ~14B (Q4) | RTX 4070 Ti Super 16GB · RTX 5070 12GB · M3 Pro 18GB | 80~150만 원대 |
| 파워 유저 | 32B~70B (Q4) | RTX 4090 24GB · RTX 5090 32GB · M4 Max 64~128GB | GPU 단일로 70B 가능 |
| 팀 공용 서버 | 70B~120B | RTX 4090/5090 ×2 · A6000 48GB · M3 Ultra 192GB | 동시 사용자 5~20 |
| 엔터프라이즈 | 235B MoE · 405B · 671B | H100/H200 80GB ×4~8 · B200 | MoE는 활성 파라미터만 VRAM 필요 |
| 엣지 / AI PC | 1B~4B (Q4) | Snapdragon X Elite · Copilot+ PC · M2/M3 MacBook | NPU로 전력 효율↑ |
| 모바일 | 0.6B~1B (Q4) | Apple Neural Engine · 스냅드래곤 NPU | MLC-LLM·llama.cpp 사용 |
양자화 포맷: GGUF(범용·CPU+GPU), MLX(Apple Silicon 네이티브), AWQ/GPTQ/EXL2(GPU 최적). 품질 손실: Q8<Q6<Q5<Q4<Q3 (Q4가 사실상 표준).
G.5 실행 도구 선택 (2026-04)
- Ollama —
ollama run qwen3한 줄. OpenAI 호환 API 내장, 구조화 출력·도구 호출 지원. 가장 빠른 시작. - LM Studio — GUI. GGUF + MLX 듀얼 런타임, RAG 기본 내장, MCP 서버 지원.
- llama.cpp — 저레벨 엔진. 임베디드·커스텀 빌드. 대부분 상위 도구의 코어.
- vLLM — 프로덕션 서버. v0.7+ 에서 구조화 출력(JSON/Grammar)·도구 호출·스페큘러티브 디코딩 강화. OpenAI 호환.
- SGLang — vLLM 대안. 에이전트·멀티턴·병렬 프로그램형 LLM에 강점.
- Text Generation Inference (TGI) — Hugging Face 서버. 엔터프라이즈 SLA가 필요할 때.
- MLX / MLX-LM — Apple Silicon 네이티브. M3 Ultra에서 235B MoE를 메모리 내에 올려 실행 가능.
- MLC-LLM — 모바일·웹·WebGPU까지 배포. 사내 앱 탑재에 유용.
- Jan / GPT4All / Open WebUI — Ollama 위의 데스크톱/웹 프론트엔드. 팀 협업·대화 이력 관리.
G.6 5분 퀵스타트 (Ollama · 2026-04 기준)
# 설치 (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Windows는 ollama.com/download
# 최신 주력 모델 당기기
ollama pull qwen3:14b # 범용 추천
ollama pull deepseek-r1:14b # 추론 강화
ollama pull llama4:scout # 멀티모달 + 장문
ollama pull gpt-oss:20b # OpenAI 오픈판
# 실행
ollama run qwen3:14b "한국어로 자기소개해줘"
# OpenAI 호환 API가 자동 기동 (localhost:11434/v1)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3:14b",
"messages": [{"role":"user","content":"한국 PM 업계 동향 3가지"}],
"response_format": {"type": "json_object"}
}'
Python/TypeScript SDK는 base_url=http://localhost:11434/v1만 바꾸면 OpenAI 코드를 그대로 사용. 2026-04 기준 Ollama는 구조화 출력 + 도구 호출을 공식 지원합니다.
G.7 Claude Code·Cursor에 로컬 LLM 연결
최신 Claude Code/Cursor는 OpenAI 호환 엔드포인트를 지원합니다.
// ~/.cursor/config.json 예
{
"openai": {
"baseURL": "http://localhost:11434/v1",
"apiKey": "ollama",
"model": "qwen3:32b"
}
}
2026-04 팁: 에이전트형 도구 호출은 최소 Qwen 3 32B 또는 GPT-OSS 120B 이상 권장. 14B 이하는 Tool calling 정합성이 낮아 Plan-Execute-Verify 루프(부록 D)에서 실패율이 올라갑니다.
G.8 한국어 품질 팁
- 한국어 강세 모델: EXAONE 4 32B, Qwen 3 72B, HyperCLOVA X Seed 3B, Llama-3.1-Korean-Bllossom-70B
- 공개 벤치: Open Ko-LLM Leaderboard (Upstage), Ko-Arena(커뮤니티)
- 영문 모델을 강제로 한국어로 쓰면 어색한 표현 증가 — 시스템 프롬프트에 "자연스러운 한국어 표현 우선, 어색하면 재작성" 명시
- 파인튜닝: QLoRA로 노트북·단일 GPU에서 가능. 사내 문서 1,000~5,000건으로 도메인 특화 3~8시간
- 임베딩은 BGE-M3, Upstage Solar Embedding, Nomic-Embed가 한국어 RAG에 강함
G.9 보안·운영 체크리스트
| 항목 | 확인 |
|---|---|
| 네트워크 | Ollama 기본 포트 11434가 외부에 노출되지 않도록(OLLAMA_HOST=127.0.0.1 또는 사내망 바인딩) |
| 모델 출처 | Hugging Face 검증된 계정만. 불명 GGUF는 악성 코드(템플릿 인젝션·Pickle) 가능성 |
| 라이선스 | Llama 4: 월 7억 MAU 미만 무료 / Qwen 3·DeepSeek·GPT-OSS: Apache/MIT / Mistral Large 3: 상업 유상 / EXAONE·HyperCLOVA: 비상업 연구용 — 상업 사용 전 반드시 확인 |
| 로그 | 프롬프트에 개인정보·비밀 포함 시 로그에도 남음 → 정기 삭제·암호화 |
| 갱신 | 모델은 월 단위로 진화. 분기 1회 벤치 재평가 + CHANGELOG 관리 |
| 공급망 | Ollama 레지스트리 외에 ollama pull hf.co/{user}/{repo}:{quant}로 Hugging Face 직통 가능 → 서명·해시 확인 |
G.10 하이브리드 아키텍처 추천
[민감/대량/저난도] → 로컬 Qwen 3 14B (Ollama) 또는 Gemma 4 E4B/26B
[일반 추론] → 로컬 DeepSeek-R1 70B 또는 GPT-OSS 120B
[고난도 에이전트] → Claude Opus 4.7 (클라우드)
[라우터 (LLM)] → Haiku 4.5로 질문 난이도·민감도 분류 후 선택
[가드레일] → PII 검출 시 무조건 로컬로 강제 / 규제 업무는 로컬 한정
이 구조만으로 비용 40~70% 절감하면서 고난도 품질 유지가 가능합니다. 2026-04 기준 많은 국내 금융·의료·공공 파일럿이 이 모델을 따르고 있습니다(부록 I 사례 참고).
G.11 미니 실습 — 사내 문서 요약 봇 (Ollama + Python)
from openai import OpenAI # Ollama는 OpenAI SDK 그대로 지원
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
SYSTEM = """너는 사내 문서를 요약하는 어시스턴트다.
- 외부에 문서를 노출하지 않는다(모두 로컬 처리).
- 인물명·계정·계약 금액은 원문 그대로 유지한다.
- 요약은 3 bullet 이내, 각 80자."""
def summarize(doc: str) -> str:
resp = client.chat.completions.create(
model="qwen3:14b",
messages=[
{"role": "system", "content": SYSTEM},
{"role": "user", "content": doc},
],
temperature=0.2,
)
return resp.choices[0].message.content
if __name__ == "__main__":
with open("internal_memo.md", encoding="utf-8") as f:
print(summarize(f.read()))
이 코드는 외부로 어떤 바이트도 나가지 않습니다. 사내 감사·개인정보보호 검토를 통과하기 쉬운 구조입니다.
G.12 참고
- Ollama 라이브러리 — ollama.com/library
- LM Studio — lmstudio.ai
- Hugging Face — huggingface.co
- vLLM — docs.vllm.ai
- Open Ko-LLM Leaderboard — huggingface.co/spaces/upstage/open-ko-llm-leaderboard
- 관련: 부록 B. 한국 규제 · 부록 I. 국내 사례 · 10.1 No-Code AI