로컬 LLM 실무 활용: VSCode 코딩 어시스턴트부터 로컬 RAG까지

"채팅창에 질문하고 답변받는 수준에 만족했다면, 로컬 LLM의 진정한 가치 중 절반만 쓴 것이다."

이 글은 2026년 6월 기준으로 작성됐다. 기술의 특성상 도구의 업데이트에 따라 인터페이스나 JSON 설정 포맷이 달라질 수 있으니, 최종 설정 단계에서는 각 오픈소스 프로젝트의 최신 릴리즈 노트를 참고하길 바란다.

이전 글인 Ollama와 Open WebUI로 로컬 LLM 구축하기 2편을 통해 내 컴퓨터에 자체 인공지능 서버를 구축하는 데 성공했다. 이번 3편(마지막)에서는 이 로컬 서버를 IDE(통합 개발 환경)에 연결해 나만의 오프라인 GitHub Copilot을 만드는 방법과, 회사 내 기밀 문서를 안전하게 주입해 답변을 얻는 RAG(검색 증강 생성) 실전 활용법을 알아본다.

VSCode와 Ollama 연동하여 오프라인 GitHub Copilot 만들기

매월 결제해야 하는 GitHub Copilot 비용이 부담스럽거나 사내 소스 코드 보안 규정으로 인해 외부 클라우드 AI 연결이 전면 차단된 개발자라면, VSCode에 오픈소스 확장 프로그램인 Continue와 로컬 Ollama를 결합하여 완벽한 오프라인 코딩 어시스턴트를 만들 수 있다.

Continue는 다양한 LLM 백엔드를 에디터와 이어주는 최고의 오픈소스 확장 도구로, 코드 자동 완성(Autocomplete)과 사이드바 채팅(Edit/Chat) 기능을 완벽히 지원한다.

Continue 확장 프로그램을 활용한 로컬 코딩 비서 세팅

플러그인 설치: VSCode 마켓플레이스에서 Continue를 검색하여 설치한다.
설정 파일 수정: 설치가 완료되면 VSCode 하단 혹은 단축키를 통해 Continue 설정 파일인 config.json을 연다. (보통 ~/.continue/config.json 경로에 위치한다.)
로컬 Ollama 연결 설정: config.json을 아래 예시처럼 수정하여 로컬 Ollama 모델을 등록해 준다.

{
  "models": [
    {
      "title": "Llama 3.1 8B (Chat)",
      "provider": "ollama",
      "model": "llama3.1"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen2.5-Coder 1.5B (Autocomplete)",
    "provider": "ollama",
    "model": "qwen2.5-coder:1.5b"
  },
  "customCommands": [
    {
      "name": "test",
      "prompt": "{{{ input }}}\n\n위 코드에 대한 단위 테스트 코드를 작성해 줘.",
      "description": "단위 테스트 코드 작성"
    }
  ]
}

실무자 팁 (모델 분리): 코딩 어시스턴트를 구축할 때는 대화를 나누는 '채팅용 모델'과 코드 타이핑 중간에 코드를 자동 완성해 주는 '자동 완성(Autocomplete)용 모델'을 분리해야 한다. 자동 완성 모델은 끊김 없이 엄청나게 빨라야 하므로 크기가 작은 qwen2.5-coder:1.5b 또는 deepseek-coder:1.3b 같은 경량 특화 모델을 지정하여 메모리 점유율을 줄이고 타자 입력 속도에 맞춰 코드가 자동 제안되도록 세팅해야 쾌적하게 쓸 수 있다.

외부 유출 없는 로컬 RAG 기반 문서 검토 자동화

로컬 LLM의 또 다른 종착지는 바로 로컬 RAG(Retrieval-Augmented Generation)다.

아무리 좋은 모델이라도 회사 고유의 업무 매뉴얼이나 어제 갱신된 내부 API 규격을 스스로 알 수는 없다. 그렇다고 이 민감한 정보들을 외부 API 학습용 데이터로 넘길 수도 없는 법이다. 이 문제를 해결하기 위해, 로컬 망 내에서 내부 문서(.pdf, .txt, .docx 등)를 쪼개어 데이터베이스화하고 질문이 들어올 때 필요한 구절만 로컬 LLM에 주입해 답변을 받아내는 구조가 바로 로컬 RAG다.

사내 PDF 및 매뉴얼을 로컬 LLM에 학습시키기

앞선 2편에서 구축한 Open WebUI를 활용하면 별도의 복잡한 파이썬 코딩 없이 GUI 클릭 몇 번으로 로컬 RAG 시스템을 구동할 수 있다.

문서 업로드: Open WebUI 좌측 하단의 Workspace > Documents 탭으로 이동한다.
지식 베이스(Knowledge Base) 생성: 준비한 사내 규정 PDF, 개발 설계 문서, 프로젝트 매뉴얼 등을 드래그 앤 드롭으로 업로드한다. Open WebUI 내부적으로 문서를 적절한 크기(Chunk)로 쪼개어 로컬 벡터 스토어에 인덱싱을 진행한다.
문서 기반 대화 실행: 대화창을 새로 열고 프롬프트 입력창에 @를 입력하면 내가 업로드한 문서나 폴더를 태깅할 수 있다. 예를 들어 @사내_보안_규정.pdf 출장비 청구 기준은 어떻게 돼?라고 물어보면, 로컬 AI가 외부망 연결 없이도 해당 문서의 정확한 위치를 참고하여 답변을 재구성해 낸다.

이 모든 과정에서 단 1바이트의 사내 정보도 외부 클라우드로 업로드되지 않기 때문에 완벽한 사내 보안 규정 준수(Compliance)가 성립된다.

로컬 LLM 도입을 망설이는 이들을 위한 최종 제언

로컬 LLM은 기술적 자유도와 극강의 보안성을 보장하지만, 무작정 '클라우드 AI를 전부 대체하겠다'는 관점으로 접근하면 실패하기 십상이다.

현명한 전략은 하이브리드(Hybrid) 운영이다. - 로컬 LLM: 민감한 개인정보/사내 소스 코드 검토, 대량의 정형 텍스트 단순 반복 요약 (무료 가동) - 클라우드 API: 복잡한 신사업 아이디어 도출, 고급 수학/비즈니스 논리 추론, 다국어 마케팅 카피라이팅 (비용 지불)

두 영역의 바운더리를 명확히 나누고 인프라를 설계할 때, 조직의 업무 생산성은 보안 위협 없이 최대치로 올라갈 수 있다.

자주 묻는 질문 (FAQ)

Q. Continue 자동 완성 기능이 너무 느리게 뜹니다. A. 자동 완성용 모델(tabAutocompleteModel)이 CPU에서 돌고 있거나 크기가 너무 큰 모델(예: 8B 이상)로 지정되었을 가능성이 높다. 사양이 낮은 컴퓨터라면 반드시 1.5B 이하 체급의 전용 Coder 모델을 사용하고, Ollama가 하드웨어 GPU 가속을 제대로 사용하고 있는지 확인해야 한다.

Q. 사내 공유를 위해 1대의 고성능 서버에 로컬 LLM을 얹고 팀원들이 웹으로 동시 접속해도 괜찮을까요? A. 좋은 시도다. 다만 동시 접속자 수가 늘어나면 GPU의 VRAM 사용량이 급증하여 대기 시간(Queue)이 길어진다. 동시 추론 부하가 큰 대규모 환경이라면 vLLM이나 TGI(Text Generation Inference) 같은 다중 접속 가속화 프레임워크를 Ollama 대신 백엔드로 도입하는 것을 검토해야 한다.

📝 정리

이번 글에서 다룬 핵심 내용을 정리하며 시리즈를 마친다.

[x] VSCode Continue 확장을 로컬 Ollama와 연결하면 보안 걱정 없는 코딩 파트너를 가질 수 있다.
[x] Open WebUI의 Documents 임베딩 기능을 활용하면 초보자도 마우스 클릭만으로 나만의 안전한 로컬 RAG 지식창고를 구축할 수 있다.
[x] 보안 중심의 로컬 작업과 고난도의 클라우드 작업을 연계하는 하이브리드 전략이 미래 AI 활용의 표준이다.

3편에 걸친 로컬 LLM 구축 및 활용 방안 시리즈는 여기까지다. 이제 직접 로컬 컴퓨터에 인프라를 구축하여 안전하고 무제한으로 사용 가능한 나만의 인공지능을 만끽해 보길 바란다.

VSCode와 Ollama 연동하여 오프라인 GitHub Copilot 만들기

Continue 확장 프로그램을 활용한 로컬 코딩 비서 세팅

외부 유출 없는 로컬 RAG 기반 문서 검토 자동화

사내 PDF 및 매뉴얼을 로컬 LLM에 학습시키기

로컬 LLM 도입을 망설이는 이들을 위한 최종 제언

자주 묻는 질문 (FAQ)

📝 정리

관련 글

Vector Store & RAG — AI에 회사 지식을 가르치자

내 컴퓨터를 AI 서버로: Ollama와 Open WebUI로 로컬 LLM 구축하기

왜 다들 로컬 LLM을 외칠까? 도입 전 알아야 할 장단점과 필수 고려사항