Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
お問い合わせフォーム
利用規約
プライバシーポリシー
1
Gemini Multimodal Live API, Daily.co, Pipecatを使ったAI音声会話アプリ作成方法
Next'25 速報 - Unify your data with BigQuery multimodal tables
GeminiのMultimodal Live APIをコピペだけで試してみた!
Phi-4 multimodal を VRAM12GB に載せる
Phi-4-miniとPhi-4-multimodalが登場!
Multimodal Live API で、AIネイティブ次世代のリアルタイム会話型の学習サービスをつくってみた!
Gemini 2.0 と Multimodal Live API で実現するヒアリング Voice エージェント
文献調査: 「NVLM: Open Frontier-Class Multimodal LLMs」
Node.js から Gemini API in Vertex AI の Multimodal Live API にアクセスする
噂の Gemini Multimodal Live API を使ったサンプルアプリとは
【Python】Gemini 2.0 Multimodal Live API カメラ会話アプリ実装
Gemini 2.0 Multimodal Live API でリアルタイムマルチモーダルアプリケーションを構築しよう!
Gemini 2.0 Multimodal Live API 超解説
Multimodal RAG を実装してみる
MultiVector Retriever とMultimodal RAG について
【論文読み】MMMU: A Massive Multi-discipline MultimodalUnderstanding
Firebase Extensions で Gemini の Multimodal 機能を簡単に実装する方法
Vertex AI Gemini ProとLangChainで実現するMultimodal RAG
【論文紹介】MPMQA: Multimodal Question Answering on Product Manuals
中学生でもわかる Multimodal Embeddings
Multimodal-GPTを触ってみた
1
前へ
More pages
2
3
4
More pages
次へ
Amazon Bedrock と Amazon SageMaker AIの使い分け:戦略的選択のための徹底ガイド
AWS
Amazon
AI
SageMaker
bedrock
Bedrock Knowledge BaseのFoundation Model Parsingを使ってマルチモーダルRAGを構築する
AWS
マルチモーダル
bedrock
10分でできる!VLLMを使ったgoogle/gemma-3-27b-itのローカル環境構築
Google
vLLM
gemma-3
[翻訳] Zero-Shot Learning Through Cross-Modal Transfer
MultiModal
embedding
生成AI
🤖📝 AIプロンプトエンジニアリングとNext.jsの融合 - Claude 3.7を活用した動的コンテンツ生成フレームワークの実装と収益化
AI
Next.js
収益化
プロンプトエンジニアリング
claude3.7
10分でできる!VLLMを使ったmicrosoft/Phi-4-multimodal-instructのローカル環境構築
vLLM
Phi-4-multimodal-instruct
LibreChatでAzure AI Foundryでデプロイしたモデルを使う
OpenAI
librechat
AzureAIFoundry
Phi-4
【マルチモーダル】Phi-4-multimodalで音声ファイルからテキスト生成させる
AI
SpeechToText
MultiModal
GoogleColaboratory
Phi-4
生成AI用語集
用語
AI
単語帳
生成AI
LLM
InformaticaのiPaaSであるCAIのレシピを眺めてみた
API
iPaaS
cai
Informatica
IDMC
ロボット基盤モデルの主要アプローチ5種の比較
機械学習
ロボット
基盤モデル
LLM
R2-T2: マルチモーダルMixture-of-Expertsの推論時ルーティング最適化
最適化
LLM
マルチモーダルAI
Microsoftの小型軽量生成AI、Phi-4-miniをローカルで試して色々聞いてみた
Python
生成AI
SLM
ローカルLLM
Phi-4
Qiitaのトレンド記事を要約してまとめたもの(サボり)
Qiita
AI
トレンド
要約
NeurlPS2024 論文可視化マップと注目論文
機械学習
DeepLearning
論文
NeurIPS2024
マルチモーダルモデル(LLaVA)に触れてみる
DeepLearning
MultiModal
LLaVA
HQFTの液滴現象と、超弦理論におけるカラビ・ヤウ多様体との類推(Deep Search)
量子力学
超弦理論
DeepSearch
統一理論
HQFT
【BigQuery】画像から類似画像を検索!マルチモーダルエンベディングの簡単解説
Python
BigQuery
GoogleCloud
ベクトル検索
【SIGNATE】(金融庁共催)第3回金融データ活用チャレンジ:LLMモデルの比較
rag
SIGNATE
生成AI
LLM
FDUA
【SIGNATE】(金融庁共催)第3回金融データ活用チャレンジ: Hybirid RAG system
rag
SIGNATE
生成AI
FDUA
RAG精度向上
【SIGNATE】第3回金融データ活用チャレンジ (DataRobot)
rag
SIGNATE
DataRobot
生成AI
FDUA
【完全ガイド】Ovis2-16B/34BマルチモーダルAIを動かす方法
Ovis2
Ovis2-16B
Ovis2-34B
Ovis2-1B
Ovis2-8B
DeepSeek R-1:次世代の大規模言語モデルを探る
Python
AI
deepseek
r1
Mixture of Gaussians-VAE (MoG-VAE)
VAE
PointCloud
PointNet
MoG-VAE
Amazon BedrockでCohere Embed 3 Multilingualを活用する方法
AWS
bedrock
WorldSense: 現実世界のオムニモーダル理解を測る新ベンチマークの登場
ベンチマーク
LLM
マルチモーダルAI
【徹底解説】Google Gemini 2.0 技術・応用・競合比較
Google
Gemini
ChatGPT
LLM
2025年 GitHub最新トレンド🚀おすすめOSSプロジェクト5選!エンジニア必見👨💻
GitHub
AI
OSS
エンジニア向け
開発効率化
大学教職員のための生成AIプロンプト作成ガイド(前編)
生成AI
プロンプトエンジニアリング
論文読解『VideoRAG: Retrieval-Augmented Generation over Video Corpus』
自然言語処理
論文読み
rag
前へ
More pages
2
3
4
More pages
次へ