내 컴퓨터를 AI 서버로: Ollama와 Open WebUI로 로컬 LLM 구축하기

내 컴퓨터를 AI 서버로: Ollama와 Open WebUI로 로컬 LLM 구축하기

"터미널 검은 화면에서 대답하는 AI는 재미없다. 이제 우리 집 컴퓨터에 완전한 형태의 ChatGPT를 올려보자."

이 글은 2026년 6월 기준으로 작성됐다. 사용하는 프로그램의 버전이나 Docker 환경에 따라 설정 커맨드가 일부 다를 수 있으니 실행 전 공식 문서 가이드라인을 함께 체크하길 권한다.

이전 글인 로컬 LLM 도입 전 알아야 할 장단점과 필수 고려사항 1편에서 내 시스템 사양에 알맞은 모델 체급을 확인했다면, 이제는 직접 구축해 볼 차례다. 이번 글에서는 로컬 LLM 엔진인 Ollama와 미려한 웹 UI 인터페이스를 제공하는 Open WebUI를 결합하여 완벽한 오프라인 AI 서비스를 구축하는 실전 단계를 다룬다.


Ollama로 로컬 LLM 엔진 구동하기

로컬 환경에 LLM 엔진을 올리는 가장 단순하고 세련된 솔루션은 바로 Ollama다.

Ollama는 Go 언어로 작성된 가벼운 오픈소스 프레임워크로, 복잡한 CUDA 라이브러리 설정이나 가상 환경 구축 없이 명령어 한 줄로 AI 모델을 내려받고 API 서버로 띄워주는 역할을 한다. macOS, Windows, Linux를 모두 공식 지원한다.

Mac 및 Windows 설치와 실행 방법

설치 과정은 일반 응용프로그램을 까는 것만큼 직관적이다.

  1. 다운로드: Ollama 공식 다운로드 페이지에 접속하여 자신의 OS에 맞는 설치 파일을 내려받는다.
  2. 설치: 내려받은 인스톨러를 실행하고 지시에 따라 설치를 완료한다.
  3. 데몬 구동: 설치 후 백그라운드에서 Ollama 엔진이 실행되고 있는지 확인한다. (Mac의 경우 상단 메뉴 바, Windows의 경우 시스템 트레이에 Ollama 아이콘이 표시된다.)

이제 터미널(macOS)이나 PowerShell(Windows)을 열고 아래 명령어를 입력하여 현재 가장 인기 있는 대표적인 로컬 LLM인 Llama 3.1 8B 모델을 구동해 보자.

ollama run llama3.1

이 커맨드를 치면 Ollama가 백그라운드에서 모델 파일(약 4.7GB)을 자동으로 다운로드한 뒤 터미널 내에서 즉시 대화할 수 있는 인터랙티브 프롬프트를 띄운다. 대화를 종료하려면 /bye를 입력하면 된다.

추가로 구동할 수 있는 대표적인 모델 명령어는 다음과 같다. - Google Gemma 2 (9B): ollama run gemma2 - Microsoft Phi 3 Mini (3.8B): ollama run phi3


Open WebUI로 ChatGPT 인터페이스 얹기

터미널에서 AI와 대화하는 것은 개발자에게는 친숙하지만 일반 사용이나 마크다운 문서 작성, 이전 대화 기록 관리 측면에서는 꽤나 불편하다. 이를 해결해 주는 것이 Open WebUI다.

Open WebUI는 ChatGPT나 Claude와 거의 동일한 레이아웃을 로컬에 띄워주는 웹 프론트엔드 프로젝트다. Ollama API 주소(기본값: http://localhost:11434)를 자동으로 감지하여, 내가 로컬에 내려받은 모든 AI 모델들을 편리하게 마우스 클릭만으로 선택해 대화할 수 있게 돕는다.

Docker를 활용한 원클릭 Open WebUI 설치

Open WebUI는 파이썬 종속성이 많기 때문에 개별 패키지 빌드보다는 Docker를 이용해 컨테이너 형태로 실행하는 것이 가장 오류가 적고 간편하다. Docker Desktop이 설치되어 있지 않다면 먼저 공식 홈페이지에서 설치해야 한다.

터미널을 열고 다음의 단일 도커 명령어를 실행한다.

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

이 명령어의 주요 옵션 설명은 아래와 같다. - -d: 컨테이너를 백그라운드 모드(Detached)로 실행한다. - -p 3000:8080: 로컬 PC의 3000번 포트를 컨테이너 내부 8080 포트와 연결한다. - --add-host=host.docker.internal:host-gateway: 도커 컨테이너 내부에서 로컬 호스트 PC에 떠 있는 Ollama API 서비스에 정상적으로 접근할 수 있도록 네트워크 게이트웨이를 뚫어주는 핵심 옵션이다. - -v open-webui:/app/backend/data: 내 대화 이력과 세팅 정보가 도커가 꺼져도 지워지지 않도록 로컬 볼륨에 영구 저장한다.

컨테이너가 정상적으로 실행되면 브라우저를 열고 http://localhost:3000에 접속한다. 최초 접속 시 계정 생성(Sign Up) 창이 뜨는데, 이는 오프라인 로컬 서버 내부 데이터베이스에만 기록되는 계정이므로 보안 걱정 없이 원하는 이메일과 비밀번호로 가입하면 된다. 로그인하고 나면 상단 모델 선택창에서 내가 ollama run으로 다운로드해 둔 모델 목록이 자동으로 활성화되는 것을 볼 수 있다.


로컬 LLM 성능 및 VRAM 최적화 설정 팁

로컬 환경에서 LLM을 돌리다 보면 긴 답변이 출력될 때 말더듬이나 버벅임(지연 현상)이 생길 수 있다. 리소스 한계를 극복하기 위해 Open WebUI 설정과 Ollama에서 조율할 수 있는 최적화 팁을 소개한다.

  1. 컨텍스트 창 크기(Context Length) 제한하기: 로컬 모델은 기본적으로 8k 또는 16k 이상의 컨텍스트를 지원하지만, 대화가 길어질수록 VRAM을 기하급수적으로 많이 먹는다. Open WebUI의 Settings > System 영역에서 컨텍스트 토큰 크기를 2048 또는 4096 정도로 한정 지어 주면 대화가 길어져도 안정적인 TPS(초당 토큰 속도)를 유지할 수 있다.
  2. 시스템 메모리(RAM) 여유 공간 확보: 특히 Apple Silicon Mac을 사용할 경우 통합 메모리를 나누어 쓰기 때문에 포토샵이나 Chrome 탭 수십 개를 띄워놓은 상태라면 LLM이 GPU 가속 영역에서 밀려나 CPU로 구동되면서 극도로 속도가 저하될 수 있다. 로컬 AI 사용 시에는 무거운 백그라운드 앱을 정리하는 습관이 필요하다.
  3. 온도(Temperature) 설정 조율: 코딩이나 정밀 요약 시에는 Temperature 값을 0.2 내외로 낮추어 사실 위주의 일관된 답변을 유도하고, 일반 소설 창작이나 브레인스토밍 단계에서는 0.7 이상으로 높여 창의성을 활성화하는 것이 하드웨어 효율성과 답변 만족도를 동시에 높이는 길이다.

자주 묻는 질문 (FAQ)

Q. Docker 없이 Open WebUI를 구동할 수 있나요? A. 가능하다. Python 환경이 설치되어 있다면 pip install open-webui를 통해 직접 라이브러리를 설치하고 open-webui serve 명령어로 실행할 수 있으나, 라이브러리 간 버전 충돌(특히 PyTorch 등) 문제가 잦으므로 가급적 Docker 사용을 적극 권장한다.

Q. 외부 다른 컴퓨터나 모바일에서도 내 로컬 AI 서버에 접속하게 만들 수 있나요? A. 그렇다. Docker 구동 시 포트를 바인딩했기 때문에 동일 와이파이(LAN) 대역 내에 있다면 내 컴퓨터의 사내 IP 주소(예: http://192.168.0.10:3000)를 통해 스마트폰이나 다른 노트북 브라우저로도 똑같이 인공지능을 이용할 수 있다. 외부망 연결이 필요하다면 ngrok이나 Tailscale 같은 터널링 서비스를 활용하면 안전하다.


📝 정리

이번 글에서 다룬 핵심 내용을 정리해보자.

  • [x] Ollama는 로컬 환경에서 가장 쉽고 편리하게 모델을 관리 및 서빙해 주는 핵심 엔진이다.
  • [x] Docker 환경을 활용해 Open WebUI를 구동하면 ChatGPT 부럽지 않은 오프라인 인공지능 인터페이스를 확보할 수 있다.
  • [x] 쾌적한 추론 속도를 얻기 위해 컨텍스트 길이를 최적화하고 시스템 리소스를 선제적으로 확보해야 한다.

다음 편에서는 이렇게 구축한 로컬 LLM을 실무에서 200% 활용하는 코딩 어시스턴트(VSCode Continue) 연동과 로컬 문서를 안전하게 연동하는 RAG 기법에 대해 상세히 다룬다. 진정한 생산성 혁신은 다음 단계에서 시작된다.