junbit.dev
AI 모델을 활용한 개발 실험과 프로젝트 빌드로그
-
로컬 LLM 최신 양자화 공부 기록 - JANG, JANGTQ, Attention, Expert, Mamba 정리
MiniMax M2.7과 GLM-5.1 허깅페이스 모델 카드를 기준으로 JANG, JANGTQ, mixed-precision 양자화, attention과 expert 역할, Mamba가 어디에 속하는 개념인지 정리했다.
-
Gemma 4 양자화 정리 - bf16, IQ, K, IT, MXFP4가 뭐가 다른가
허깅페이스와 GGUF/MLX 모델 파일명에 붙는 bf16, 4bit, IQ, K, IT, MXFP4 의미를 정리하고, Mac Mini 24GB에서 Gemma 4를 고를 때의 현실적인 기준을 정리했다.
-
Qwen3.5 9B로 주도주 자동 분석 시스템 만들기 - 오픈소스 공개
Qwen3.5 9B 로컬 LLM으로 한국 주식시장 KOSPI/KOSDAQ 주도주를 매일 자동 분석하고 이메일 리포트로 발송하는 Python 프로젝트 오픈소스.
-
MLX KV Cache와 컨텍스트 길이 가이드 - Qwen3.5 Mac Mini 실전 경험
Mac Mini M4 24GB에서 MLX + Qwen3.5 9B/27B를 멀티턴으로 운영하며 배운 KV cache, context 길이, prefill 속도, 메모리 한계 실전 정리.
-
Nemotron 3 Super 120B 실전 코딩 리뷰 - 키움증권 API 전환 사례
엔비디아 Nemotron 3 Super 120B를 OpenCode에서 무료로 활용해 자동매매 프로그램의 키움증권 API를 전환한 실전 코딩 성능 리뷰.
-
로컬 LLM 한국 커뮤니티 - 카카오 오픈채팅방 안내
Ollama, MLX, llama.cpp 등 로컬 LLM을 직접 돌리는 한국 사용자를 위한 카카오 오픈채팅 커뮤니티. 모델 추천, 최적화 팁, 삽질 공유.
-
local-deep-researcher 설치 가이드 - Qwen3.5 9B 로컬 리서치 에이전트
Mac Mini M4에서 Ollama + Qwen3.5 9B로 local-deep-researcher를 설치하고, 2분 만에 출처 포함 리서치 리포트를 자동 생성하는 방법.
-
Mac Mini M4 + MLX + Qwen으로 API 비용 0원 AI 비서 만들기
Mac Mini M4 24GB에서 MLX + Qwen 로컬 LLM으로 이메일, 캘린더, Google Drive까지 관리하는 AI 비서 에이전트를 API 비용 0원으로 만든 전체 과정.
-
MLX vs Ollama 속도 비교 - Qwen3.5 Mac Mini M4에서 59.5 tok/s 달성
Mac Mini M4 24GB에서 MLX + Qwen3.5-35B-A3B 3bit로 Ollama 대비 7배 빠른 59.5 tok/s 달성. 멀티모달 비전 지원 로컬 AI 에이전트 구축 벤치마크.
-
Qwen3.5 Function Calling 구현 가이드 - Ollama 로컬 에이전트 만들기
Ollama + OpenAI 호환 API로 Qwen3.5의 Function Calling을 Python으로 직접 구현하는 방법. Codex CLI의 tool_calls 한계를 넘는 로컬 에이전트 구축.