Zennta

  • ログイン会員登録
  • 検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

  • お問い合わせフォーム利用規約プライバシーポリシー
    記事がありません
    • 1
    DeepSeek MoE (Mixture of Experts) の解説
    Llama 4は深く探る:DeepSeekMoEからの影響と革新の考察
    Tanuki で MoE の挙動を調査
    Qwen2.5-0.5B-InstructをUpcyclingしてMoEモデルを作る
    ReMoE : Fully Differentiable Mixture-of-Experts with ReLU Routing
    日本語MoEモデルの開発と「実りある失敗」
    Tanuki-8x8BにおけるMoE upcycling検討及び事前学習について
    MoEモデルのアクティブパラメータ数の厳密な計算方法について
    MoEを用いた電卓モデル作成:課題と改善策
    松尾研LLM開発プロジェクト進捗状況|MoE特化チーム
    Swallow-MX: Mixtral日本語継続事前学習MoEモデル
    MoE-LLaVAをローカル環境で動かす
    MixtralSparseMoeBlockを読む
    NLLB-200 3.3B で日本語翻訳するメモ(moe-54b もあるよ)
    • 1