Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

1

RAGにGRPOを組み合わせて応答精度を改善する

強化学習「GRPO」をCartPoleタスクで実装しながら解説

DeepSeekでも使われるGRPOをtrlで試す

1

1

DeepSeek（2. 2024年ごろ：DeepSeek-MoE、DeepSeek Math、DeepSeek-Coder V2、DeepSeek-V2/2.5/3）

DQN、PPO、GRPOの比較

設計意図を壊さないAIへ──CADスケッチ制約生成の最新研究を徹底解説

[論文解読] モデルの自己改善による性能向上 LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

拡散モデルにGRPOを使ってファインチューニングしてみた

拡散モデル

[拡散モデル入門] ゼロから理解する拡散モデルの最新理論（図解付き）

拡散モデル

Unsloth: 大規模言語モデルのファインチューニングを2倍速く、メモリ使用量を70%削減する方法

拡散モデル入門④、条件付きU-Net（MNIST実装付き）

拡散モデル

DeepSeek を AWS で動かす！（イベント参加レポート）

DeepSeek R1モデルで数学問題をGRPO (Group Relative Policy Optimization) トレーニング

強化学習手法：GRPO(Group Relative Policy Optimization)

強化学習手法の歴史：TRPO〜PPO

PPO(強化学習)による水位制御その１

話題のDeepSeekで使われている強化学習GRPOを調べてみた

[翻訳] DeepSeek-R1: 強化学習を通じたLLMの論理的思考能力の動機付け

Open-R1：DeepSeek-R1 をオープンに再現する挑戦

拡散モデル入門③、EDMをMNISTで実装してみた（Tensorflow）

拡散モデル

拡散モデル入門②、SDE/ODEに基づくスコアベースの生成モデル（Tensorflow実装付き）

拡散モデル

小型モデルも低コストで高性能に！話題の「DeepSeek」の推論力を支える技術とは？

DeepSeek-R1：強化学習が拓く次世代推論モデルの世界

噂のDeepseekを使ってみた

DeepSeek論文を読む

拡散モデル入門①、DDPMの理論とMNISTの実装付き（Tensorflow）

拡散モデル

Qwen2.5 テクニカルレポート

ずっと気になっていたDeepSeekMathについてまとめてみた

LLMのまとめ

自作中のシンプルな分散強化学習フレームワークの紹介

SImpleDistributedRL

Python GitHubトレンドデイリーランキング!!【自動更新】

ランキング

ExcelでIPアドレスの割り当てを調べる

1