Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
お問い合わせフォーム
利用規約
プライバシーポリシー
1
次へ
Jetson Orin Nanoで音声認識:ROS2とWhisper.cppのセットアップ
医療AIを安全に導入!Azure OpenAIで始めるカルテ作成と音声認識のやさしい設定ガイド
完全ローカル運用で安心!WhisperとLM Studioを使った音声認識&AI活用入門
【Swift】iOSの音声認識でリアルタイム音声文字起こしを行う方法
Cloudflare Workers AI 使ってみた「音声認識編」
iPhone 上で動作する音声認識モデルの最適化手法
音声認識実践ガイド: WhisperからリアルタイムDictationまで
ストリーミング音声認識API/SDKの最新比較(2025年時点)
リアルタイム音声認識をwhisperのturboモデル+faster_whisperで動かす
#UEで音声認識を使ったゲームを作ってみた
音声認識でドローンを動かす
Anime Whisper: 演技セリフに特化した音声認識モデル(第1回)
音声認識ライブラリ VOSK を試してみた
【AWS】Amazon Transcribe + Terraformで作る音声認識システム
Web Speech APIを利用した音声認識Webアプリの作成
【完全無料の音声認識ソフトで文字起こし】Juliusのインストール方法と使用方法
ReazonSpeech NeMo ASRでバッチ推論で音声認識
音声認識バッチ処理システムの作成_ローカル実装
Whisper! 声を聞いて、文字を書くよ!音声認識界に衝撃を与えた!
ReazonSpeechとWhisperで音声認識_Google Colaboratory上での実装
Whisper Medusaを試してみた:高速で正確な音声認識モデル
口癖チェッカーを作ろう!Next.jsで簡単に音声認識アプリを開発
[音声認識]whisperモデルで文字起こし
生成AIをGoogle Colaboratoryで簡単に 【Part5 音声認識AI faster-whisper編】
生成AIをGoogle Colaboratoryで簡単に 【Part4 音声認識AI Whisper API編】
ここ数年の音声認識誤り訂正論文10本(1本+9本)まとめ
Faster WhisperとDistil Whisperの音声認識gRPCサーバ
音声認識モデルの精度を検証
音声認識技術を全く知らないWebエンジニアが、E2E解説文論を頑張って読み解く(後半:E2Eをつかってみる)
【kaggle】 ベンガル語音声認識コンペの振り返り
OpenAI APIによる音声認識の精度改善:文字起こしポストプロセッシングの実践
音声認識技術を全く知らないWebエンジニアが、E2E解説文論を頑張って読み解く(前半:E2Eの概要)
Whisper による音声認識の最先端〜8年越しのASR
【音声認識モデル】Azure OpenAI Whisper/Azure Speech to Textの違い
[iOS 17] 音声認識におけるカスタム言語モデルのサポート
Next.js+WebSpeechAPIで超簡単音声認識をしてみよう
音声認識のみで操作できるTODOアプリを作った話
AI音声認識機能のQAにおける苦労と工夫したこと
2023年時点の音声認識技術を使って、競馬中継の実況音声を文字起こし
WebSpeechAPIを利用してWebブラウザで音声認識を行う
【Unity × ChatGPT API × WhisperAPI】音声認識AIアシスタントを実装する
ChatGPT と DeepL と whisper.cpp を使ってリアルタイム音声認識(中断中)
DockerでWhisper(音声認識&文字起こし)を動かす
音声認識可能な対話型AIを作成してみた(VOSK, GiNZA, python,チャットボット)
SpeechRecognitionを使ったマイク音声認識
音声認識AIのWhisperをUnreal Engineでリアルタイムに動かすためにやったこと
最新の音声認識モデル『Whisper』を使ってみたよ
【Whisper】GPUが無くてもオフラインで簡単音声認識
1
次へ
1
2
3
More pages
次へ
G検定 学習内容まとめ
G検定
LangChain: Chatbot を超えるAmbient Agent とは?
chatbot
生成AI
LangChain
LangGraph
AIエージェント
具身知能の進化を支える学習データとは?その作成方法・注意点・入手先について詳しく解説
機械学習
人工知能
ロボット
3Dモデル
ロボットアーム
Google: Agents Companion Architecture / マルチエージェントアーキテクチャ
Google
Kaggle
GoogleCloud
生成AI
AIエージェント
そろそろWindows10終了なのでXPが終了した2010年代前半のあるあるを思い出す(?)
ポエム
ふりかえり
【Rust】Burnのソースコードから学ぶマルチヘッドアテンション
Rust
DeepLearning
Burn
はじめての Model Context Protocol (MCP)【第17回】MCPはこれからどう進化する? 技術のトレンドと未来予想
初心者
AI
MCP
LLM
ModelContextProtocol
ChatGPTで英語スピーチ原稿を作り、Amazon Pollyで音声化する
英語
AmazonPolly
ChatGPT
猿でもわかるAIの倫理・リスクシリーズ 🐵⚠️AIによる選挙操作リスク
機械学習
AI
バイナリテック
「Difyで作る生成AIアプリ完全入門」を読んで、議事録をまとめてくれるアプリを試す
議事録
AmazonPolly
生成AI
Dify
CTRL配列:右手15キーレイアウト - v.1.0
ショートカット
キーボードレイアウト
自作キーボード
QMK
キー配列
猿でもわかるAIの倫理・リスクシリーズ 🐵⚠️仮想現実とAI:リアルの境界は消えるか?
機械学習
AI
バイナリテック
マルチモーダルAIの進展と作業効率化事例:5日間の作業を半日に短縮した実例
マルチモーダルAI
生成AIによるCopilot関連Blog要約 2025年4月30日週
Microsoft
copilot
なんでもCopilot
なんコパ
裏なんコパ
個人開発で月20万円を目指すための考え方
iOS
初心者
ポートフォリオ
個人開発
新人プログラマ応援
202505_2025年度版IT技術トレンド大全-個人開発者からエンタープライズまで実務者向けに網羅
Security
Cloud
SaaS
idaas
生成AI
現在の生成AIで使用されているAttention技術について
Attention
Transformer
猿でもわかるAIの倫理・リスクシリーズ 🐵⚠️AI監視社会は到来するか?
機械学習
AI
バイナリテック
PyTorchで微分可能なMFCCの実装
音声認識
PyTorch
MFCC
OpenAI: Zendesk 公開事例 - 次世代カスタマーサービスに向けたOpenAIを活用した自律型AIエージェントの構築
ケーススタディ
事例
OpenAI
生成AI
AIエージェント
進化する文字起こし技術 - 従来型からNPUを使用したAI活用まで
AI
文字起こし
NPU
FastRTCを日本語対応に!リアルタイム音声処理拡張パッケージ fastrtc-jp を作りました
音声合成
WebRTC
音声認識
VOICEVOX
Style-Bert-VITS2
OpenAI - o3: AIの地理認識能力 (GeoSuessr) から見える未来
OpenAI
生成AI
LLM
AIエージェント
o3
AIの時代における人間認証技術の進化: サム・アルトマンによるスタートアップWorld の取り組みと今後の展望
認証
OpenAI
agi
生成AI
AIエージェント
Meta: マーク・ザッカーバーグが考えるメタのAPI計画
meta
agi
生成AI
LLaMA
AIエージェント
Google Cloud 2025年サービス一覧
サービス
GoogleCloud
MMT/TLVのしくみ①
mpeg
OpenAI: LINEヤフー活用事例 - 大規模AI実装の戦略とポイント
事例
OpenAI
エンタープライズアーキテクチャ
rag
生成AI
OpenAI: A practical guide to building agents - AIエージェント構築実践ガイド
OpenAI
生成AI
AIエージェント
TinyViewPlusで計測したラップタイムをFPVTracksideで使いたい
RotorHazard
TinyViewPlus
FPVTrackside
1
2
3
More pages
次へ