gemma-4-26b-a4b-cosine-slerp

google/gemma-4-26B-A4B (base) と google/gemma-4-26B-A4B-it (IT) を、層ごとのコサイングラデーションSLERPで統合したモデルです。

Base vs IT の違い分析

マージ前に両モデルの重みを比較した結果:

パーツ Cosine類似度 差の大きさ
Attention (layer 0) 0.78 大きく異なる
Attention (layer 15) 0.76 大きく異なる
Attention (layer 29) 0.66 最も異なる
Dense MLP (layer 0) 0.79-0.87 かなり異なる
LayerNorm 0.9999 ほぼ同じ
Router proj 0.9999 ほぼ同じ
Router scale 1.0 (identical) 完全一致
Expert weights ~1.0 ほぼ同じ
Embeddings ~1.0 ほぼ同じ

重要な発見

ITの fine-tuning は Attention と Dense MLP だけ を大きく変更しており、Expert 重みはほぼ変えていない。後半層ほど Attention の乖離が大きい(layer 29: cos=0.66)。つまり IT fine-tuning は主に出力に近い層の Attention パターンを調整して指示追従能力を獲得している。

Merge Strategy: Cosine Gradient SLERP

この分析を踏まえ、浅い層ほど base 寄り(探索的)、深い層ほど IT 寄り(指示追従)のコサイングラデーションを適用。

SLERP t のスケジュール

Attention と Dense MLP にコサインカーブでなめらかに t を変化させます:

t(layer) = 0.5 + 0.5 × (1 - cos(π × layer / 29)) / 2
Layer SLERP t 意味
0 0.500 base 50% / IT 50% (広い視野)
5 0.536
10 0.633
15 0.764 中間
20 0.890
25 0.977
29 1.000 IT 100% (出力直前は完全IT)

Expert, Router, LayerNorm, Embeddings, Vision encoder は IT モデルをそのまま使用(差がほぼないため)。

マージ構造図

Layer 0-4   (sliding attn) : Attn=SLERP(~0.5)  MLP=SLERP(~0.5)  Expert=IT  Router=IT
Layer 5     (full attn)    : Attn=SLERP(0.54)   MLP=SLERP(0.54)   Expert=IT  Router=IT
Layer 6-10  (sliding attn) : Attn=SLERP(~0.6)   MLP=SLERP(~0.6)   Expert=IT  Router=IT
Layer 11    (full attn)    : Attn=SLERP(0.67)   MLP=SLERP(0.67)   Expert=IT  Router=IT
  ...グラデーションがなめらかに上昇...
Layer 24-28 (sliding attn) : Attn=SLERP(~0.98)  MLP=SLERP(~0.98)  Expert=IT  Router=IT
Layer 29    (full attn)    : Attn=IT(1.0)        MLP=IT(1.0)        Expert=IT  Router=IT

設計意図

  • 浅い層 (t≈0.5): base モデルの広い注意パターンを混ぜて、より多様な情報を拾う
  • 深い層 (t→1.0): IT モデルの指示追従・出力整形能力を完全に保持
  • コサインカーブ: 線形より滑らかな遷移で、層間の表現空間の急激な変化を防ぐ

Model Details

google/gemma-4-26B-A4B-it 本モデル
アーキテクチャ Gemma-4 MoE Gemma-4 MoE
総パラメータ ~26B ~26B
アクティブパラメータ ~4B ~4B
エキスパート数 128 128
top-k 8 8
Hidden size 2816 2816
レイヤー数 30 30
Attention 25 sliding + 5 full 同一構造
Vision encoder あり あり
マルチモーダル 対応 対応

Usage

vLLM

vllm serve aixsatoshi/gemma-4-26b-a4b-cosine-slerp \
  --tensor-parallel-size 4 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.95 \
  --trust-remote-code

Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "aixsatoshi/gemma-4-26b-a4b-cosine-slerp"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="bfloat16",
    device_map="auto",
)

messages = [{"role": "user", "content": "日本の首都はどこですか?"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
inputs = inputs.to(model.device)

outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

Hardware Requirements

  • GPU推論 (vLLM, TP=4): ~60GB VRAM (例: 4x RTX A6000 48GB)
  • GPU推論 (vLLM, TP=2): ~60GB VRAM (例: 2x A100 80GB)

License

Gemma License

Downloads last month
35
Safetensors
Model size
26B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for aixsatoshi/gemma-4-26b-a4b-cosine-slerp

Merge model
this model
Quantizations
2 models