Gemma 3 270M Kana→Kanji Candidates (GRPO)

SFT / DPO モデルを起点に、 GRPO（RL系手法）で形式・重複・語彙制約を報酬関数として最適化することを試みた実験的モデルです。

Base model:

Initialization:

Training:

Prompt（固定）:

キーボードの予測変換として以下のかなをn個の単語に予測変換してください。必ず単語のみを予測してlist形式で返してください。

出力形式
[候補1, 候補2, 候補3...候補10]

ーーーー以下が予測変換対象ーーーー
<かな>

推奨推論設定:

学習の概要:

注意事項:

License / Credits:

Safetensors

Model size

0.3B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support