Gemma 3 270M Kana→Kanji Candidates (DPO)

SFTモデルを起点に、DPO(Direct Preference Optimization)で 出力の好み(形式安定・重複抑制)を強化した派生モデルです。

Base model:

  • google/gemma-3-270m-it

Initialization:

  • SFT model

Training:

  • DPO

Prompt(固定):

キーボードの予測変換として以下のかなをn個の単語に予測変換してください。必ず単語のみを予測してlist形式で返してください。

出力形式
[候補1, 候補2, 候補3...候補10]

ーーーー以下が予測変換対象ーーーー
<かな>

推奨推論設定:

  • do_sample: false
  • temperature: 0
  • stop string: ]

Preference 学習の概要:

  • chosen: 元データ(辞書候補列)
  • rejected: SFTモデルが生成した候補列
  • chosen が rejected より好まれるように最適化

注意事項:

  • DPOは相対比較のため、rejected に含まれない誤りへ逃げる場合があります
  • IME用途では、辞書候補の再ランキング方式がより安定します

License / Credits:

  • Gemma の利用条件に従ってください
  • データセットのクレジットおよび免責に従ってください
Downloads last month
6
Safetensors
Model size
0.3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support