Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
お問い合わせフォーム
利用規約
プライバシーポリシー
1
RAGにGRPOを組み合わせて応答精度を改善する
強化学習「GRPO」をCartPoleタスクで実装しながら解説
DeepSeekでも使われるGRPOをtrlで試す
1
1
DeepSeek(2. 2024年ごろ:DeepSeek-MoE、DeepSeek Math、DeepSeek-Coder V2、DeepSeek-V2/2.5/3)
初心者
AI
歴史
deepseek
DQN、PPO、GRPOの比較
DQN
PPO
GRPO
設計意図を壊さないAIへ──CADスケッチ制約生成の最新研究を徹底解説
強化学習
CAD
LLM
[論文解読] モデルの自己改善による性能向上 LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
強化学習
PPO
Ladder
LLM
GRPO
拡散モデルにGRPOを使ってファインチューニングしてみた
Python
機械学習
diffusionmodel
拡散モデル
deepseek
[拡散モデル入門] ゼロから理解する拡散モデルの最新理論(図解付き)
Python
機械学習
diffusionmodel
拡散モデル
Unsloth: 大規模言語モデルのファインチューニングを2倍速く、メモリ使用量を70%削減する方法
LLM
Unsloth
DeepSeekR1
GRPO
拡散モデル入門④、条件付きU-Net(MNIST実装付き)
Python
機械学習
Unet
diffusionmodel
拡散モデル
DeepSeek を AWS で動かす!(イベント参加レポート)
AWS
startups
DeepSeekR1
DeepSeek R1モデルで数学問題をGRPO (Group Relative Policy Optimization) トレーニング
DeepSeekR1
GRPO
強化学習手法:GRPO(Group Relative Policy Optimization)
強化学習
GRPO
強化学習手法の歴史:TRPO〜PPO
強化学習
PPO
TRPO
PPO(強化学習)による水位制御 その1
強化学習
制御
MLP
PPO
話題のDeepSeekで使われている強化学習GRPOを調べてみた
機械学習
強化学習
deepseek
[翻訳] DeepSeek-R1: 強化学習を通じたLLMの論理的思考能力の動機付け
LLM
deepseek
DeepSeekV3
DeepSeekR1
Open-R1:DeepSeek-R1 をオープンに再現する挑戦
ChatGPT
LLM
reasoning
o3
DeepSeekR1
拡散モデル入門③、EDMをMNISTで実装してみた(Tensorflow)
Python
機械学習
diffusionmodel
拡散モデル
拡散モデル入門②、SDE/ODEに基づくスコアベースの生成モデル(Tensorflow実装付き)
Python
機械学習
diffusionmodel
拡散モデル
小型モデルも低コストで高性能に!話題の「DeepSeek」の推論力を支える技術とは?
Python
機械学習
AI
LLM
DeepSeekR1
DeepSeek-R1:強化学習が拓く次世代推論モデルの世界
強化学習
Distillation
ChatGPT
LLM
DeepSeekR1
噂のDeepseekを使ってみた
DeepSeekR1
DeepSeek論文を読む
生成AI
LLM
deepseek
拡散モデル入門①、DDPMの理論とMNISTの実装付き(Tensorflow)
Python
機械学習
diffusionmodel
拡散モデル
Qwen2.5 テクニカルレポート
LLM
Qwen
ずっと気になっていたDeepSeekMathについてまとめてみた
強化学習
AI
LLM
DeepSeekMath
LLMのまとめ
LLM
自作中のシンプルな分散強化学習フレームワークの紹介
Python
機械学習
強化学習
SImpleDistributedRL
Python GitHubトレンドデイリーランキング!!【自動更新】
Python
GitHub
ランキング
ExcelでIPアドレスの割り当てを調べる
Excel
IPアドレス
1