Zennta

  • ログイン会員登録
  • 検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

  • お問い合わせフォーム利用規約プライバシーポリシー
    • 1
    LLaVA-NeXTで作業動画から画像入りの手順書を作成してみる
    Chat VectorでLLaVAを日本語対応させる
    【ollama / LLaVA】Jetson AGXでLLaVAを動かし、画像を解説してもらう
    マルチモーダルLLMのllavaを使った簡単アプリ作成
    MoE-LLaVAをローカル環境で動かす
    LLaVA-JPをColaboratoryでお試し。
    LlamaIndex + Weaviate + Llavaを使って、不毛なことをする。
    マルチモーダルモデルのLLaVAをApple Silicon (M1, M2, M3) Mac で 動かす方法4つ
    【LLM】LLaVA1.5について
    • 1
    • 1
    • 2
    • 3
    • 4
    • 5
    基盤エージェントの最新動向と課題
    AI
    Agent
    AIエージェント
    DeepSeek(2. 2024年ごろ:DeepSeek-MoE、DeepSeek Math、DeepSeek-Coder V2、DeepSeek-V2/2.5/3)
    初心者
    AI
    歴史
    deepseek
    GitHubに公開されたOpenEMMAのソースコードを、生成AI(ChatGPT)に聞いて理解してみた
    自動運転
    生成AI
    ChatGPT
    vlm
    EMMA
    Qwen 2.5 VLでAIの未来を解き放つ:ビジョンとランゲージが交わる場所
    AI
    ArtificialIntelligence
    GenerativeAI
    GenAI
    AiModel
    AIはどう“考える”のか?動画から思考プロセスを評価する『VCR-Bench』徹底解説
    ベンチマーク
    LLM
    動画理解
    ChainOfThought
    Mistral AI(2. 2024年ごろ:le Chat, Mixtral 8x22B、Codestral、Mathtral、Mistral NeMo、Pixtral)
    初心者
    AI
    歴史
    Mistral
    Foundation Agents の進化と課題:脳型AIエージェントの最前線 🧠🤖
    Google
    DeepMind
    生成AI
    LLM
    AIエージェント
    CLIPを意味で操作する:Monosemantic Sparse AutoencoderによるVLMの解釈と制御
    マルチモーダル
    LLM
    VisionLanguageModel
    【2025年1月公開 Arxiv論文ランキング】2501.xxxxx
    ランキング
    arXiv
    AI論文解説
    Fwd2Bot徹底解説:LVLM視覚トークン圧縮の新潮流とその理論的背景
    LLM
    マルチモーダルAI
    視覚言語モデル
    Florence-2の画像キャプションとOCRの日本語化
    ファインチューニング
    vlm
    Florence-2
    【Vision Language Model】LLaVAの論文を読んでみた
    AI
    LLM
    vlm
    マルチモーダル/ビジョン系モデルのローカル環境の構築方法
    プラットフォーム
    ファインチューニング
    vlm
    ローカルLLM
    AIで画像を動かして動画にする
    AI
    生成AI
    HunyuanVideo
    I2V
    image2video
    A Survey on LLM-as-a-Judge
    論文読み
    LLM
    M4 Mac miniでのComfyUIとHunyuan Videoによる動画生成AI
    Mac
    comfyui
    動画生成AI
    HunyuanVideo
    マルチモーダルモデル(LLaVA)に触れてみる
    DeepLearning
    MultiModal
    LLaVA
    論文メモ:A Survey on LLM-as-a-Judge
    論文読み
    LLM
    WorldSense: 現実世界のオムニモーダル理解を測る新ベンチマークの登場
    ベンチマーク
    LLM
    マルチモーダルAI
    Ola: 段階的モダリティ学習で進化するオムニモーダル LLM
    機械学習
    LLM
    マルチモーダルAI
    論文読解『VideoRAG: Retrieval-Augmented Generation over Video Corpus』
    自然言語処理
    論文読み
    rag
    HunyuanVideoのDualStreamBlockについて
    ポエム
    StableDiffusion
    vlm
    HunyuanVideo
    無料で学ぶ!生成AIとバズった技術まとめ(LLM、LangChain、Dify、SAM2、Stable Diffusion、RVCなど)
    rag
    StableDiffusion
    生成AI
    LangChain
    LLM
    hunyuanvideoのVAE tiledについて
    VAE
    動画生成AI
    HunyuanVideo
    【2024年11月公開 Arxiv論文ランキング】2411.xxxxx
    ランキング
    arXiv
    AI論文解説
    教育関係者のための Local LLM 入門 その 1
    education
    ollama
    LocalLLM
    Phi-4
    論文読み : Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
    画像認識
    vlm
    複数視覚エンコーダの統合でビデオ理解を革新:MERVの詳細解説
    機械学習
    LLM
    VideoLLM
    Ollama × LangChain × Streamlit で構築する、ローカルで動かすRAGを使ったチャットボット
    rag
    Streamlit
    LangChain
    ollama
    M4 Mac mini でStable Diffusionによる画像生成AIを利用する方法
    Mac
    #StableDiffusion
    • 1
    • 2
    • 3
    • 4
    • 5