Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

1

Gemini Multimodal Live API, Daily.co, Pipecatを使ったAI音声会話アプリ作成方法

Next'25 速報 - Unify your data with BigQuery multimodal tables

GeminiのMultimodal Live APIをコピペだけで試してみた！

Phi-4 multimodal を VRAM12GB に載せる

Phi-4-miniとPhi-4-multimodalが登場!

Multimodal Live API で、AIネイティブ次世代のリアルタイム会話型の学習サービスをつくってみた！

Gemini 2.0 と Multimodal Live API で実現するヒアリング Voice エージェント

文献調査: 「NVLM: Open Frontier-Class Multimodal LLMs」

Node.js から Gemini API in Vertex AI の Multimodal Live API にアクセスする

噂の Gemini Multimodal Live API を使ったサンプルアプリとは

【Python】Gemini 2.0 Multimodal Live API カメラ会話アプリ実装

Gemini 2.0 Multimodal Live API でリアルタイムマルチモーダルアプリケーションを構築しよう！

Gemini 2.0 Multimodal Live API 超解説

Multimodal RAG を実装してみる

MultiVector Retriever とMultimodal RAG について

【論文読み】MMMU: A Massive Multi-discipline MultimodalUnderstanding

Firebase Extensions で Gemini の Multimodal 機能を簡単に実装する方法

Vertex AI Gemini ProとLangChainで実現するMultimodal RAG

【論文紹介】MPMQA: Multimodal Question Answering on Product Manuals

中学生でもわかる Multimodal Embeddings

Multimodal-GPTを触ってみた

1

前へ

More pages

2
3
4
次へ

Amazon Bedrock と Amazon SageMaker AIの使い分け：戦略的選択のための徹底ガイド

Bedrock Knowledge BaseのFoundation Model Parsingを使ってマルチモーダルRAGを構築する

マルチモーダル

10分でできる！VLLMを使ったgoogle/gemma-3-27b-itのローカル環境構築

[翻訳] Zero-Shot Learning Through Cross-Modal Transfer

🤖📝 AIプロンプトエンジニアリングとNext.jsの融合 - Claude 3.7を活用した動的コンテンツ生成フレームワークの実装と収益化

プロンプトエンジニアリング

10分でできる！VLLMを使ったmicrosoft/Phi-4-multimodal-instructのローカル環境構築

Phi-4-multimodal-instruct

LibreChatでAzure AI Foundryでデプロイしたモデルを使う

【マルチモーダル】Phi-4-multimodalで音声ファイルからテキスト生成させる

GoogleColaboratory

生成AI用語集

InformaticaのiPaaSであるCAIのレシピを眺めてみた

ロボット基盤モデルの主要アプローチ5種の比較

基盤モデル

R2-T2: マルチモーダルMixture-of-Expertsの推論時ルーティング最適化

マルチモーダルAI

Microsoftの小型軽量生成AI、Phi-4-miniをローカルで試して色々聞いてみた

ローカルLLM

Qiitaのトレンド記事を要約してまとめたもの(サボり)

NeurlPS2024 論文可視化マップと注目論文

マルチモーダルモデル（LLaVA）に触れてみる

HQFTの液滴現象と、超弦理論におけるカラビ・ヤウ多様体との類推（Deep Search）

【BigQuery】画像から類似画像を検索！マルチモーダルエンベディングの簡単解説

ベクトル検索

【SIGNATE】（金融庁共催）第３回金融データ活用チャレンジ:LLMモデルの比較

【SIGNATE】（金融庁共催）第３回金融データ活用チャレンジ: Hybirid RAG system

RAG精度向上

【SIGNATE】第３回金融データ活用チャレンジ (DataRobot)

【完全ガイド】Ovis2-16B/34BマルチモーダルAIを動かす方法

DeepSeek R-1：次世代の大規模言語モデルを探る

Mixture of Gaussians-VAE (MoG-VAE)

Amazon BedrockでCohere Embed 3 Multilingualを活用する方法

WorldSense: 現実世界のオムニモーダル理解を測る新ベンチマークの登場

ベンチマーク

マルチモーダルAI

【徹底解説】Google Gemini 2.0 技術・応用・競合比較

2025年 GitHub最新トレンド🚀おすすめOSSプロジェクト5選！エンジニア必見👨‍💻

エンジニア向け

開発効率化

大学教職員のための生成AIプロンプト作成ガイド(前編)

プロンプトエンジニアリング

論文読解『VideoRAG: Retrieval-Augmented Generation over Video Corpus』

自然言語処理

前へ

More pages

2
3
4
次へ