Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

1
次へ

Jetson Orin Nanoで音声認識：ROS2とWhisper.cppのセットアップ

医療AIを安全に導入！Azure OpenAIで始めるカルテ作成と音声認識のやさしい設定ガイド

完全ローカル運用で安心！WhisperとLM Studioを使った音声認識＆AI活用入門

【Swift】iOSの音声認識でリアルタイム音声文字起こしを行う方法

Cloudflare Workers AI 使ってみた「音声認識編」

iPhone 上で動作する音声認識モデルの最適化手法

音声認識実践ガイド: WhisperからリアルタイムDictationまで

ストリーミング音声認識API/SDKの最新比較（2025年時点）

リアルタイム音声認識をwhisperのturboモデル+faster_whisperで動かす

#UEで音声認識を使ったゲームを作ってみた

音声認識でドローンを動かす

Anime Whisper: 演技セリフに特化した音声認識モデル（第1回）

音声認識ライブラリ VOSK を試してみた

【AWS】Amazon Transcribe + Terraformで作る音声認識システム

Web Speech APIを利用した音声認識Webアプリの作成

【完全無料の音声認識ソフトで文字起こし】Juliusのインストール方法と使用方法

ReazonSpeech NeMo ASRでバッチ推論で音声認識

音声認識バッチ処理システムの作成_ローカル実装

Whisper! 声を聞いて、文字を書くよ！音声認識界に衝撃を与えた！

ReazonSpeechとWhisperで音声認識_Google Colaboratory上での実装

Whisper Medusaを試してみた：高速で正確な音声認識モデル

口癖チェッカーを作ろう！Next.jsで簡単に音声認識アプリを開発

[音声認識]whisperモデルで文字起こし

生成AIをGoogle Colaboratoryで簡単に【Part5 音声認識AI faster-whisper編】

生成AIをGoogle Colaboratoryで簡単に【Part4 音声認識AI Whisper API編】

ここ数年の音声認識誤り訂正論文10本（1本+9本）まとめ

Faster WhisperとDistil Whisperの音声認識gRPCサーバ

音声認識モデルの精度を検証

音声認識技術を全く知らないWebエンジニアが、E2E解説文論を頑張って読み解く（後半：E2Eをつかってみる）

【kaggle】ベンガル語音声認識コンペの振り返り

OpenAI APIによる音声認識の精度改善：文字起こしポストプロセッシングの実践

音声認識技術を全く知らないWebエンジニアが、E2E解説文論を頑張って読み解く（前半：E2Eの概要）

Whisper による音声認識の最先端〜8年越しのASR

【音声認識モデル】Azure OpenAI Whisper/Azure Speech to Textの違い

[iOS 17] 音声認識におけるカスタム言語モデルのサポート

Next.js+WebSpeechAPIで超簡単音声認識をしてみよう

音声認識のみで操作できるTODOアプリを作った話

AI音声認識機能のQAにおける苦労と工夫したこと

2023年時点の音声認識技術を使って、競馬中継の実況音声を文字起こし

WebSpeechAPIを利用してWebブラウザで音声認識を行う

【Unity × ChatGPT API × WhisperAPI】音声認識AIアシスタントを実装する

ChatGPT と DeepL と whisper.cpp を使ってリアルタイム音声認識（中断中）

DockerでWhisper(音声認識&文字起こし)を動かす

音声認識可能な対話型AIを作成してみた(VOSK, GiNZA, python,チャットボット)

SpeechRecognitionを使ったマイク音声認識

音声認識AIのWhisperをUnreal Engineでリアルタイムに動かすためにやったこと

最新の音声認識モデル『Whisper』を使ってみたよ

【Whisper】GPUが無くてもオフラインで簡単音声認識

1
次へ

1
2
3
次へ

G検定学習内容まとめ

LangChain: Chatbot を超えるAmbient Agent とは？

AIエージェント

具身知能の進化を支える学習データとは？その作成方法・注意点・入手先について詳しく解説

ロボットアーム

Google: Agents Companion Architecture / マルチエージェントアーキテクチャ

AIエージェント

そろそろWindows10終了なのでXPが終了した2010年代前半のあるあるを思い出す(?)

ふりかえり

【Rust】Burnのソースコードから学ぶマルチヘッドアテンション

はじめての Model Context Protocol (MCP)【第17回】MCPはこれからどう進化する？技術のトレンドと未来予想

ModelContextProtocol

ChatGPTで英語スピーチ原稿を作り、Amazon Pollyで音声化する

猿でもわかるAIの倫理・リスクシリーズ 🐵⚠️AIによる選挙操作リスク

バイナリテック

「Difyで作る生成AIアプリ完全入門」を読んで、議事録をまとめてくれるアプリを試す

CTRL配列：右手15キーレイアウト - v.1.0

ショートカット

キーボードレイアウト

自作キーボード

猿でもわかるAIの倫理・リスクシリーズ 🐵⚠️仮想現実とAI：リアルの境界は消えるか？

バイナリテック

マルチモーダルAIの進展と作業効率化事例：5日間の作業を半日に短縮した実例

マルチモーダルAI

生成AIによるCopilot関連Blog要約 2025年4月30日週

なんでもCopilot

裏なんコパ

個人開発で月20万円を目指すための考え方

ポートフォリオ

新人プログラマ応援

202505_2025年度版IT技術トレンド大全-個人開発者からエンタープライズまで実務者向けに網羅

現在の生成AIで使用されているAttention技術について

猿でもわかるAIの倫理・リスクシリーズ 🐵⚠️AI監視社会は到来するか？

バイナリテック

PyTorchで微分可能なMFCCの実装

OpenAI: Zendesk 公開事例 - 次世代カスタマーサービスに向けたOpenAIを活用した自律型AIエージェントの構築

ケーススタディ

AIエージェント

進化する文字起こし技術 - 従来型からNPUを使用したAI活用まで

文字起こし

FastRTCを日本語対応に！リアルタイム音声処理拡張パッケージ fastrtc-jp を作りました

Style-Bert-VITS2

OpenAI - o3: AIの地理認識能力 (GeoSuessr) から見える未来

AIエージェント

AIの時代における人間認証技術の進化: サム・アルトマンによるスタートアップWorld の取り組みと今後の展望

AIエージェント

Meta: マーク・ザッカーバーグが考えるメタのAPI計画

AIエージェント

Google Cloud 2025年サービス一覧

MMT/TLVのしくみ①

OpenAI: LINEヤフー活用事例 - 大規模AI実装の戦略とポイント

エンタープライズアーキテクチャ

OpenAI: A practical guide to building agents - AIエージェント構築実践ガイド

AIエージェント

TinyViewPlusで計測したラップタイムをFPVTracksideで使いたい

1
2
3
次へ