MLXでローカルLLM

MLX は Apple Silicon 専用のライブラリです。MLX LM は MLS で LLM をするパッケージです。Vision Language Model 用の MLX-VLM というパッケージもあります。

MLX LM で Gemma 3 27B 8bit を使う例:

from mlx_lm import load, generate
from mlx_lm.sample_utils import make_sampler

model, tokenizer = load("mlx-community/gemma-3-27b-it-8bit")
sampler = make_sampler(temp=0) # set temperature etc.

prompt = '''
プロンプト
'''

response = generate(model, tokenizer, prompt=prompt.strip(),
                    max_tokens=1024, verbose=True, sampler=sampler)

速いのですが、ときどき <pad><pad><pad>... みたいな無意味なものを延々と出力するバグがあるようです。