MLX は Apple Silicon 専用のライブラリです。MLX LM は MLS で LLM をするパッケージです。Vision Language Model 用の MLX-VLM というパッケージもあります。
MLX LM で Gemma 3 27B 8bit を使う例:
from mlx_lm import load, generate from mlx_lm.sample_utils import make_sampler model, tokenizer = load("mlx-community/gemma-3-27b-it-8bit") sampler = make_sampler(temp=0) # set temperature etc. prompt = ''' プロンプト ''' response = generate(model, tokenizer, prompt=prompt.strip(), max_tokens=1024, verbose=True, sampler=sampler)
速いのですが、ときどき <pad><pad><pad>...
みたいな無意味なものを延々と出力するバグがあるようです。