Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

1

LLaVA-NeXTで作業動画から画像入りの手順書を作成してみる

Chat VectorでLLaVAを日本語対応させる

【ollama / LLaVA】Jetson AGXでLLaVAを動かし、画像を解説してもらう

マルチモーダルLLMのllavaを使った簡単アプリ作成

MoE-LLaVAをローカル環境で動かす

LLaVA-JPをColaboratoryでお試し。

LlamaIndex + Weaviate + Llavaを使って、不毛なことをする。

マルチモーダルモデルのLLaVAをApple Silicon (M1, M2, M3) Mac で動かす方法4つ

【LLM】LLaVA1.5について

1

1
2
3
4
5

基盤エージェントの最新動向と課題

AIエージェント

DeepSeek（2. 2024年ごろ：DeepSeek-MoE、DeepSeek Math、DeepSeek-Coder V2、DeepSeek-V2/2.5/3）

GitHubに公開されたOpenEMMAのソースコードを、生成AI(ChatGPT)に聞いて理解してみた

Qwen 2.5 VLでAIの未来を解き放つ：ビジョンとランゲージが交わる場所

ArtificialIntelligence

AIはどう“考える”のか？動画から思考プロセスを評価する『VCR-Bench』徹底解説

ベンチマーク

Mistral AI（2. 2024年ごろ：le Chat, Mixtral 8x22B、Codestral、Mathtral、Mistral NeMo、Pixtral）

Foundation Agents の進化と課題：脳型AIエージェントの最前線 🧠🤖

AIエージェント

CLIPを意味で操作する：Monosemantic Sparse AutoencoderによるVLMの解釈と制御

マルチモーダル

VisionLanguageModel

【2025年1月公開 Arxiv論文ランキング】2501.xxxxx

ランキング

Fwd2Bot徹底解説：LVLM視覚トークン圧縮の新潮流とその理論的背景

マルチモーダルAI

視覚言語モデル

Florence-2の画像キャプションとOCRの日本語化

ファインチューニング

【Vision Language Model】LLaVAの論文を読んでみた

マルチモーダル／ビジョン系モデルのローカル環境の構築方法

プラットフォーム

ファインチューニング

ローカルLLM

AIで画像を動かして動画にする

A Survey on LLM-as-a-Judge

M4 Mac miniでのComfyUIとHunyuan Videoによる動画生成AI

マルチモーダルモデル（LLaVA）に触れてみる

論文メモ：A Survey on LLM-as-a-Judge

WorldSense: 現実世界のオムニモーダル理解を測る新ベンチマークの登場

ベンチマーク

マルチモーダルAI

Ola: 段階的モダリティ学習で進化するオムニモーダル LLM

マルチモーダルAI

論文読解『VideoRAG: Retrieval-Augmented Generation over Video Corpus』

自然言語処理

HunyuanVideoのDualStreamBlockについて

StableDiffusion

無料で学ぶ！生成AIとバズった技術まとめ（LLM、LangChain、Dify、SAM2、Stable Diffusion、RVCなど）

StableDiffusion

hunyuanvideoのVAE tiledについて

【2024年11月公開 Arxiv論文ランキング】2411.xxxxx

ランキング

教育関係者のための Local LLM 入門その 1

論文読み : Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

複数視覚エンコーダの統合でビデオ理解を革新：MERVの詳細解説

Ollama × LangChain × Streamlit で構築する、ローカルで動かすRAGを使ったチャットボット

M4 Mac mini でStable Diffusionによる画像生成AIを利用する方法

#StableDiffusion

1
2
3
4
5