Gemma 3 270M Kana→Kanji Candidates (GRPO)

SFT / DPO モデルを起点に、 GRPO(RL系手法)で形式・重複・語彙制約を報酬関数として 最適化することを試みた実験的モデルです。

Base model:

  • google/gemma-3-270m-it

Initialization:

  • SFT or DPO

Training:

  • GRPO (experimental)

Prompt(固定):

キーボードの予測変換として以下のかなをn個の単語に予測変換してください。必ず単語のみを予測してlist形式で返してください。

出力形式
[候補1, 候補2, 候補3...候補10]

ーーーー以下が予測変換対象ーーーー
<かな>

推奨推論設定:

  • do_sample: false
  • temperature: 0
  • stop string: ]
  • 出力後に最初の [ ... ] を抽出して使用

学習の概要:

  • kana-kanji-pairs を gold 候補として利用
  • 報酬関数で以下を評価:
    • フォーマットの正しさ
    • gold 候補集合への一致度
    • 重複の少なさ

注意事項:

  • RL系最適化は小型モデルや厳密フォーマット生成と相性問題があります
  • 実運用では SFT/DPO または辞書候補再ランキング方式を推奨します

License / Credits:

  • Gemma の利用条件に従ってください
  • データセットのクレジットおよび免責に従ってください
Downloads last month
5
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support