Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

記事がありません

1

DeepSeek MoE (Mixture of Experts) の解説

Llama 4は深く探る：DeepSeekMoEからの影響と革新の考察

Tanuki で MoE の挙動を調査

Qwen2.5-0.5B-InstructをUpcyclingしてMoEモデルを作る

ReMoE : Fully Differentiable Mixture-of-Experts with ReLU Routing

日本語MoEモデルの開発と「実りある失敗」

Tanuki-8x8BにおけるMoE upcycling検討及び事前学習について

MoEモデルのアクティブパラメータ数の厳密な計算方法について

MoEを用いた電卓モデル作成：課題と改善策

松尾研LLM開発プロジェクト進捗状況｜MoE特化チーム

Swallow-MX: Mixtral日本語継続事前学習MoEモデル

MoE-LLaVAをローカル環境で動かす

MixtralSparseMoeBlockを読む

NLLB-200 3.3B で日本語翻訳するメモ(moe-54b もあるよ)

1