Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
1
Google Cloud Speech-to-Text APIを使った話者分離(Speaker Diarization)の実装
Unity + gRPCでCloud Speech-to-Textを利用する
Speech-to-Text(Reazonspeech/Amzon Transcribe/Whisper ) を試してみた!
Semantic Kernel で Text-To-Speech と Speech-To-Text を試す
Unity Sentisを使ったローカルで高速なspeech-to-text
自分でコードを書かずにChatGPTに指示だけしてGoogle speech-to-text APIを使って発表の音声をテキストにしてみた
GCP様のspeech-to-textで音声をテキスト化してみる
Cloud Speech-to-TextAPIで自動文字起こし
1
お問い合わせフォーム
利用規約
プライバシーポリシー
前へ
1
2
3
More pages
次へ
WordCloudを使って単語の頻度解析入門
Python
自然言語処理
分析
解析
wordcloud
【React Native(Expo)】expo-speechを使ってのテキスト音声読み上げ
reactnative
react-native
expo
expo-speech
英語論文草稿公開!上場企業のデータサイエンスマネージャーが挑む政治学研究
R
機械学習
Stan
データサイエンス
ベイズ推定
飲食店情報検索システム 設計書(学習用)
設計
#スクレイピング
Dify-1.1.3からClaude 3.7 SonnetでSVG図解をする
SVG
Dify
OpenRouter
claude3.7sonnet
電子網礼儀作法(netiquette)
DoCAP
電子網
礼儀作法
[備忘録] Pythonで作る音声入力対応Webページ - FastAPIを使った実装
Python
学習メモ
WebSpeechAPI
音声入力
FastAPI
OpenAI 最新 TTS/STT Models 使い方&Pythonコードサンプル
Python
TTS
OpenAI
ChatGPT
LLM
Speech Frameworkについて
Swift
SwiftUI
OpenAI Agents SDK の Quickstart を日本語プロンプトで深堀りしてみた
Python
OpenAI
生成AI
AIAgent
OpenAIAgentsSDK
GraphAI ~Google STT~
GraphAI
AIエージェント
キャラごとに違う声でしゃべるWebアプリを作ってみた【Python × gTTS × Streamlit】
Python
Streamlit
gTTS
macOSでMatplotlibのエンコーディングエラーを解決する方法
MacOSX
matplotlib
Google Cloudアップデート (3/13-3/19/2025)
GoogleCloud
OpenAI API経由で音声モデルを試す
OpenAI
Databricks
GenUのバックエンド (CDK) 詳細解説 ⑥RagKnowledgeBaseStack スタックの解説
AWS
CDK
GenU
Claude 3.7 Sonnet でビジュアル表現を工夫した HTML の出力:グラフィックレコーディング風プロンプトと呼ばれていたものを試す
生成AI
Anthropic
Claude
claude3.7sonnet
グラフィックレコーディング風
SPIRE: テキストLLMを音声対応に進化させる新技術
機械学習
音声認識
マルチモーダルAI
音声認識モデルのデプロイはリアルタイム処理なのか?*
音声認識
whisper
中野哲平
Autonomous Database:ボイスメモをアップロードするとその内容が自動的に自然言語によるAIベクトル検索の対象になる仕組みの構築
oci
oraclecloud
SpeechToText
rag
autonomous_database
Development Story of the Android App Created with No-Code for My Graduation Project
Python
#nocode,
#DataAnalysis,
#MITAppInventor,
#UserExperience,
Google Cloudアップデート (3/6-3/12/2025)
GoogleCloud
10分でできる!VLLMを使ったmicrosoft/Phi-4-multimodal-instructのローカル環境構築
vLLM
Phi-4-multimodal-instruct
ESPnet2(JSUT)を実行してみる
Python3
TextToSpeech
colaboratory
【マルチモーダル】Phi-4-multimodalで音声ファイルからテキスト生成させる
AI
SpeechToText
MultiModal
GoogleColaboratory
Phi-4
LLMVoX: LLMを拡張する軽量ストリーミングTTSの革新
音声合成
TTS
ストリーミング
LLM
生成AI用語集
用語
AI
単語帳
生成AI
LLM
Intelligent Speech Interactionを使う
音声合成
TTS
aliyun
AlibabaCloud
Alibabaクラウド
AnkiConnect Python 実践レシピ フラッシュカード学習を効率化する自動化スクリプト集
Python
自動化
フラッシュカード
学習効率
AnkiConnect
Google Cloud Text-to-SpeechをPythonで試す
Python
API
TTS
GoogleCloud
前へ
1
2
3
More pages
次へ