Gemma 3 270M Kana→Kanji Candidates (GRPO)
SFT / DPO モデルを起点に、 GRPO(RL系手法)で形式・重複・語彙制約を報酬関数として 最適化することを試みた実験的モデルです。
Base model:
- google/gemma-3-270m-it
Initialization:
- SFT or DPO
Training:
- GRPO (experimental)
Prompt(固定):
キーボードの予測変換として以下のかなをn個の単語に予測変換してください。必ず単語のみを予測してlist形式で返してください。
出力形式
[候補1, 候補2, 候補3...候補10]
ーーーー以下が予測変換対象ーーーー
<かな>
推奨推論設定:
- do_sample: false
- temperature: 0
- stop string: ]
- 出力後に最初の [ ... ] を抽出して使用
学習の概要:
- kana-kanji-pairs を gold 候補として利用
- 報酬関数で以下を評価:
- フォーマットの正しさ
- gold 候補集合への一致度
- 重複の少なさ
注意事項:
- RL系最適化は小型モデルや厳密フォーマット生成と相性問題があります
- 実運用では SFT/DPO または辞書候補再ランキング方式を推奨します
License / Credits:
- Gemma の利用条件に従ってください
- データセットのクレジットおよび免責に従ってください
- Downloads last month
- 5
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support