Gemma 3 270M Kana→Kanji Candidates (DPO)
SFTモデルを起点に、DPO(Direct Preference Optimization)で 出力の好み(形式安定・重複抑制)を強化した派生モデルです。
Base model:
- google/gemma-3-270m-it
Initialization:
- SFT model
Training:
- DPO
Prompt(固定):
キーボードの予測変換として以下のかなをn個の単語に予測変換してください。必ず単語のみを予測してlist形式で返してください。
出力形式
[候補1, 候補2, 候補3...候補10]
ーーーー以下が予測変換対象ーーーー
<かな>
推奨推論設定:
- do_sample: false
- temperature: 0
- stop string: ]
Preference 学習の概要:
- chosen: 元データ(辞書候補列)
- rejected: SFTモデルが生成した候補列
- chosen が rejected より好まれるように最適化
注意事項:
- DPOは相対比較のため、rejected に含まれない誤りへ逃げる場合があります
- IME用途では、辞書候補の再ランキング方式がより安定します
License / Credits:
- Gemma の利用条件に従ってください
- データセットのクレジットおよび免責に従ってください
- Downloads last month
- 6
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support