Zennta

  • ログイン会員登録
  • 検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

  • お問い合わせフォーム利用規約プライバシーポリシー
    • 1
    RAGにGRPOを組み合わせて応答精度を改善する
    強化学習「GRPO」をCartPoleタスクで実装しながら解説
    DeepSeekでも使われるGRPOをtrlで試す
    • 1
    • 1
    DeepSeek(2. 2024年ごろ:DeepSeek-MoE、DeepSeek Math、DeepSeek-Coder V2、DeepSeek-V2/2.5/3)
    初心者
    AI
    歴史
    deepseek
    DQN、PPO、GRPOの比較
    DQN
    PPO
    GRPO
    設計意図を壊さないAIへ──CADスケッチ制約生成の最新研究を徹底解説
    強化学習
    CAD
    LLM
    [論文解読] モデルの自己改善による性能向上 LADDER: Self-Improving LLMs Through Recursive Problem Decomposition
    強化学習
    PPO
    Ladder
    LLM
    GRPO
    拡散モデルにGRPOを使ってファインチューニングしてみた
    Python
    機械学習
    diffusionmodel
    拡散モデル
    deepseek
    [拡散モデル入門] ゼロから理解する拡散モデルの最新理論(図解付き)
    Python
    機械学習
    diffusionmodel
    拡散モデル
    Unsloth: 大規模言語モデルのファインチューニングを2倍速く、メモリ使用量を70%削減する方法
    LLM
    Unsloth
    DeepSeekR1
    GRPO
    拡散モデル入門④、条件付きU-Net(MNIST実装付き)
    Python
    機械学習
    Unet
    diffusionmodel
    拡散モデル
    DeepSeek を AWS で動かす!(イベント参加レポート)
    AWS
    startups
    DeepSeekR1
    DeepSeek R1モデルで数学問題をGRPO (Group Relative Policy Optimization) トレーニング
    DeepSeekR1
    GRPO
    強化学習手法:GRPO(Group Relative Policy Optimization)
    強化学習
    GRPO
    強化学習手法の歴史:TRPO〜PPO
    強化学習
    PPO
    TRPO
    PPO(強化学習)による水位制御 その1
    強化学習
    制御
    MLP
    PPO
    話題のDeepSeekで使われている強化学習GRPOを調べてみた
    機械学習
    強化学習
    deepseek
    [翻訳] DeepSeek-R1: 強化学習を通じたLLMの論理的思考能力の動機付け
    LLM
    deepseek
    DeepSeekV3
    DeepSeekR1
    Open-R1:DeepSeek-R1 をオープンに再現する挑戦
    ChatGPT
    LLM
    reasoning
    o3
    DeepSeekR1
    拡散モデル入門③、EDMをMNISTで実装してみた(Tensorflow)
    Python
    機械学習
    diffusionmodel
    拡散モデル
    拡散モデル入門②、SDE/ODEに基づくスコアベースの生成モデル(Tensorflow実装付き)
    Python
    機械学習
    diffusionmodel
    拡散モデル
    小型モデルも低コストで高性能に!話題の「DeepSeek」の推論力を支える技術とは?
    Python
    機械学習
    AI
    LLM
    DeepSeekR1
    DeepSeek-R1:強化学習が拓く次世代推論モデルの世界
    強化学習
    Distillation
    ChatGPT
    LLM
    DeepSeekR1
    噂のDeepseekを使ってみた
    DeepSeekR1
    DeepSeek論文を読む
    生成AI
    LLM
    deepseek
    拡散モデル入門①、DDPMの理論とMNISTの実装付き(Tensorflow)
    Python
    機械学習
    diffusionmodel
    拡散モデル
    Qwen2.5 テクニカルレポート
    LLM
    Qwen
    ずっと気になっていたDeepSeekMathについてまとめてみた
    強化学習
    AI
    LLM
    DeepSeekMath
    LLMのまとめ
    LLM
    自作中のシンプルな分散強化学習フレームワークの紹介
    Python
    機械学習
    強化学習
    SImpleDistributedRL
    Python GitHubトレンドデイリーランキング!!【自動更新】
    Python
    GitHub
    ランキング
    ExcelでIPアドレスの割り当てを調べる
    Excel
    IPアドレス
    • 1