Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
お問い合わせフォーム
利用規約
プライバシーポリシー
記事がありません
1
DeepSeek MoE (Mixture of Experts) の解説
Llama 4は深く探る:DeepSeekMoEからの影響と革新の考察
Tanuki で MoE の挙動を調査
Qwen2.5-0.5B-InstructをUpcyclingしてMoEモデルを作る
ReMoE : Fully Differentiable Mixture-of-Experts with ReLU Routing
日本語MoEモデルの開発と「実りある失敗」
Tanuki-8x8BにおけるMoE upcycling検討及び事前学習について
MoEモデルのアクティブパラメータ数の厳密な計算方法について
MoEを用いた電卓モデル作成:課題と改善策
松尾研LLM開発プロジェクト進捗状況|MoE特化チーム
Swallow-MX: Mixtral日本語継続事前学習MoEモデル
MoE-LLaVAをローカル環境で動かす
MixtralSparseMoeBlockを読む
NLLB-200 3.3B で日本語翻訳するメモ(moe-54b もあるよ)
1