부록 I. 한국 기업 AI 도입 사례집 (10건)
공개된 정보와 업계 관례를 토대로 재구성한 국내 AI 도입 사례 10건입니다. 실제 기업명은 공개 여부에 따라 익명/가명 처리하였으며, 숫자는 보도자료·발표·업계 평균을 기반으로 한 현실적 추정치입니다(엄밀 벤치마크 대용 아님).
① 시중은행 A — 상담원 후처리 자동화
배경: 콜센터 상담 후 상담 기록·분류·후속 티켓 생성에 상담원당 일 1.5시간 소모. 규제상 외부 LLM 사용 제약.
구조: 사내 VPC에 Llama 4 70B 파인튜닝 모델 + 사내 지식 RAG. 상담 음성 → STT → 요약·분류·감정 라벨 → CRM 자동 입력.
교훈: 초기 12주는 사람 검수 병행으로 라벨 품질 확보. "한 번에 완전 자동" 시도는 오분류 컴플레인 폭증으로 실패한 선행 PoC 있음.
② 커머스 B — 상품 상세 자동 생성
배경: 신규 상품 5,000건/월의 상세 페이지 작성이 병목. 외주 단가 상승.
구조: 상품 이미지·원산 메타데이터 → GPT-4o 이미지 인식 → 카피 템플릿 → 사내 검토자가 승인. 카테고리별 톤앤매너 프롬프트 18종.
교훈: 프롬프트를 공용 카탈로그로 관리(부록 C 방식) → 카피라이터가 직접 편집. 시즌마다 A/B 테스트(부록 E)로 재검증.
③ 제조 C — 장비 매뉴얼 Q&A 봇
배경: 반도체 장비 매뉴얼 1만 페이지. 신입 엔지니어가 찾는 데 평균 22분.
구조: 장비별 매뉴얼 RAG + 과거 트러블 티켓 1.2만 건 → Claude Sonnet 4.6 질의 응답. 답변에 페이지·섹션 번호 반드시 인용.
교훈: 인용 없는 답변은 반드시 "답변 불가"로 돌려보내도록 Grounding 프롬프트 강화. 환각 1건 발생 시 장비 1시간 오동작이 가능해 극보수적 운영.
④ 공공기관 D — 민원 요약·분류
배경: 민원 월 8만 건. 담당 공무원 수동 분류·이관에 약 900인시.
구조: 망분리 환경, HyperCLOVA X Seed 경량화 모델 온프레미스. 자동 분류 + 부서 이관 제안 → 사람 최종 승인.
교훈: "자동 회신"은 시민 신뢰 리스크로 배제, 분류/이관만 자동화. 개인정보(주민번호·주소) 마스킹 파이프라인이 가장 큰 작업.
⑤ SaaS 스타트업 E — 엔지니어링 생산성
배경: 개발자 22명 팀. 기능 출시 리드타임 단축 필요.
구조: 전원 Claude Code 도입. 공통 CLAUDE.md + 사내 MCP(JIRA/GitHub/사내 API) + 테스트 우선 규칙. 주요 PR은 AI 1차 리뷰 + 사람 승인.
교훈: 공통 규칙(CLAUDE.md)과 테스트 자산이 핵심. 신입도 동일 생산성 도달이 6주 → 2주로 단축. 다만 인당 $320은 대기업 관점 비쌈.
⑥ 교육기업 F — 맞춤 학습 경로
배경: 중고등 수학 학습지 이용자 18만. 진도/취약 단원 분석은 강사가 수기.
구조: 문항별 정오답·소요시간 → Qwen 3 14B 로컬 + 룰 기반 하이브리드 → 주간 맞춤 커리큘럼 생성. 학부모 고지 문구 포함.
교훈: 교육부 가이드라인(부록 B.4) 준수 — AI 평가·채점은 강사 최종 확인. 워터마킹·AI 생성 고지 UI 필수.
⑦ 법무법인 G — 계약서 초도 검토
배경: 표준 계약 연 4,200건 초도 검토. 주니어 변호사 업무 편중.
구조: Claude Opus 4.7 1M 컨텍스트(부록 F) + 사내 템플릿 100건 Few-shot → 계약서 전체를 한 번에 분석 → 조항별 리스크 등급·비교 표. 모든 의견에 근거 조항 번호 인용.
교훈: 최종 의견은 반드시 변호사 서명. AI는 "사전 리서치 조수"로 포지셔닝. 윤리 규정 문서화로 내부 거부감 완화.
⑧ 미디어 H — 기사 교열·팩트체크 보조
배경: 하루 약 600기사 출고. 오탈자·수치 오류가 SNS에 빠르게 회자.
구조: 편집 CMS에 Claude Sonnet 4.6 훅 → 교열 제안 + 인용 수치 웹 검증(MCP). 편집자는 ⏎로 채택/기각.
교훈: 편집 주권은 사람. AI 제안은 흑백 토글이 아닌 "설명 포함 옵션". 편집자 수용률을 모니터해 프롬프트 개선.
⑨ 헬스케어 I — 진료 기록 요약 (제한적)
배경: 외래 진료 기록 요약이 의료진 야근 원인. 진단·처방 자동화는 규제상 금지.
구조: 요약 전용 파인튜닝 모델(온프레미스). 진단/처방 단어는 원문 유지, 환자 상태·경과만 자연어 요약. 의사 최종 확정 전 반드시 서명.
교훈: 의료기기법상 진단 보조는 인허가 대상(부록 B.4). 요약·정리만 선제적으로 도입. 민감정보 수준이 높아 로컬 LLM(부록 G) 사실상 필수.
⑩ 실패 사례 J — 전사 챗봇 롤아웃 실패
배경: "사내 모든 질문을 받는 통합 챗봇"을 6개월 만에 전사 배포.
구조: 부서별 문서 200만 건을 RAG로 한 번에 흡수. 평가셋·A/B·피드백 루프 부재.
결과:
교훈:
- 범용 챗봇 대신 부서별 좁은 봇으로 쪼갰어야 함
- 평가셋·LLM-as-Judge(부록 E) 없는 배포는 실패로 향함
- 권한 관리 부재로 민감 문서가 타 부서에 노출된 사고가 결정타
- "AI 도입은 CEO 지시 한 줄"로 가능하지 않음 — 거버넌스 필수(9.3)
공통 패턴 — 성공 vs 실패
| 요인 | 성공한 사례 | 실패한 사례 |
|---|---|---|
| 범위 | 좁은 과제에서 검증 후 확장 | 한 번에 전사 배포 |
| 평가 | 평가셋 + A/B + 사람 검수 | 눈으로 몇 개 돌려봄 |
| 데이터 | PII 마스킹 + 권한 분리 | "RAG에 전부 넣기" |
| 거버넌스 | 영향평가·DPA·로그 | 문서화 없음 |
| 사용자 | 사람이 최종 결정 | 완전 자동 시도 |
| 비용 | 캐싱·배치·로컬 하이브리드 | 클라우드 풀스케일 |
참고
- 7.5 국내 AI 도입 현황 — 본문 참고
- 부록 B. 한국 규제 — 산업별 규제
- 부록 E. AI 평가 — 배포 전 검증
- 공공 데이터: data.go.kr, NIA·KISA 연간 보고서