
Mac에 최적화된 LLM 추론(Inference)프로그램 oMLX 입니다.
메뉴 바에서 직접 관리하는 연속 배칭(Continuous batching) 및 계층형 KV 캐싱이 가능합니다.
스마트 캐싱을 지원하는 macOS 네이티브 MLX 서버. Claude Code, OpenClaw 및 Cursor가 90초가 아닌 5초 만에 응답합니다.
에이전트의 실제 작동 방식에 맞춘 설계 코딩 에이전트는 세션당 수십 번씩 KV 캐시(KV cache)를 무효화합니다.
oMLX는 모든 캐시 블록을 SSD에 보존(persist)합니다. 따라서 에이전트가 이전 접두사(prefix)로 되돌아갈 때, 처음부터 다시 연산할 필요 없이 수 밀리초(ms) 만에 디스크에서 캐시를 즉시 복구합니다.
실제 수치, 실제 하드웨어 모든 벤치마크는 M3 Ultra 512GB 환경에서 측정되었습니다. 4개의 인기 모델을 대상으로 단일 요청(Single request) 및 연속 배칭(Continuous batching)을 테스트한 결과입니다.
- 모델 관리: 자주 쓰는 모델을 메모리에 고정(pin)하고, 필요 시 더 무거운 모델로 자동 전환 가능
- 컨텍스트 제어: 컨텍스트 길이 제한을 사용자가 직접 설정 가능
- UI: 메뉴 바에서 모델/캐시/컨텍스트 등을 통합 관리
- KV 캐시 영속성: 대화 도중 컨텍스트가 바뀌어도 KV 캐시를 핫(in-memory) 계층과 콜드(SSD) 계층에 걸쳐 유지
- 캐시 재사용: 과거 컨텍스트가 캐시로 보존되어 여러 요청(멀티턴) 간에 재사용됨
- 실용적 목적: 이를 통해 Claude Code 같은 도구로 실제 코딩 작업 시 로컬 LLM을 실용적 속도/효율로 사용 가능
0.4.4 하이라이트 - https://github.com/jundot/omlx/releases/tag/v0.4.4
업스트림 mlx-vlm PR을 통한 MiniMax M3 초기 지원: oMLX가 아직 병합(merge)되지 않은
Blaizzy/mlx-vlm#1374의 MiniMax M3 관련 작업을 추적(트래킹)하기 시작했습니다. 해당 기능은 원래@ivanfioravanti가 기여한 것으로, 공식 업스트림에 반영되기 전에 oMLX에서 MiniMax M3 및 MiniMax M3 VL 모델을 먼저 테스트해 볼 수 있습니다. 여기에는 네이티브 텍스트 VLM 어댑테이션, MiniMax 위치(position) 처리, 스파스 어텐션(sparse-attention) 좌측 패딩(left-padding) 수정, 툴 호출 마커(tool-call marker) 처리, 그리고 관련 접두사(prefix)/캐시 지원이 포함됩니다.DiffusionGemma 추가 및 투기적 디코딩(Speculative Decoding) 지원 확장: 이제 oMLX는
mlx-vlm경로를 통해 DiffusionGemma 모델을 구동할 수 있으며, VLM MTP(Multi-Token Prediction) 환경에서 외부 Qwen MTP 드래프터(drafter)를 활용할 수 있습니다.macOS 27 호환성 강화: 새로운
HOST_VM_INFO64레이아웃을 지원하기 위해 macOS 메모리 통계 호환 레이어를 도입했습니다. 이를 통해 최신 macOS 릴리스에서도 메모리 가드(Memory Guard) 판단 및 관리자 메모리 원격 측정(telemetry) 데이터의 안정성을 유지합니다. (#1749, #1835)DeepSeek V4 oQ 양자화(Quantization) 및 MTP 지원 추가: 분수(fractional) oQ 레벨 지원, 사전 양자화된 DeepSeek V4 oQ 텐서 지원, 그리고 더욱 안전한 DeepSeek V4 MTP 로딩 및 롤백(rollback) 동작이 포함됩니다.
에이전트 캐시 재사용 및 캐시 정확도 향상: 페이징된 SSD 캐시(Paged SSD cache), 접두사 캐시 복구(prefix-cache restore), 로테이팅 패밀리 캐시(rotating-family cache) 처리, 그리고 MiniMax M3 부분 캐시 재개(partial-cache resume) 기능이 개선되어 반복적인 에이전트 스타일 워크로드에서 더욱 안전하게 작동합니다. (제작:
@cfbraun#1815 및@hojin12312#1807)네이티브 MTP 배칭(Batching) 안정성 강화: 네이티브 MTP 디코딩이 이제 배치 행(batch rows)을 정렬하고 안전하지 않은 늦은 진입 행(late-join rows)을 지연 처리하여, 서로 일치하지 않는 캐시 위치 간의 투기적 배칭(speculative batching)을 방지합니다. (제작:
@efortin#1824 및@richgoodson#1845)메모리 가드(Memory Guard) 및 핫 캐시(Hot-cache) 동작 보강: 사전 검사 계정 관리(preflight accounting), 바인딩 한도(binding-ceiling) 진단 기능, 그리고 핫 캐시 압박 처리가 개선되었습니다. (제작:
@cfbraun#1452 및@isaac-cf-wong#1863)Gemma 4, Harmony, Codex 앱 및 Hermes 통합 동작 개선: 툴 호출 파싱(Tool-call parsing)이 더욱 고도화되었으며, 손상된 Harmony 채널이 보존됩니다. 또한 Codex 앱 데스크톱 실행이 가능해졌으며, Hermes 모델은 이제 올바른 hermes 채팅 흐름을 통해 구동됩니다. (제작:
@richgoodson#1854,@jimicze#1852, 및@fparrav#1878)
OS: macOS 26 +
다운로드 : oMLX-0.4.4-macos26-27.dmg
--------------------------------------------------------------------------------------광고(Advertising)--------------------------------------------------------------------------------------------------------