Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
お問い合わせフォーム
利用規約
プライバシーポリシー
記事がありません
1
【Dify】Langfuse 導入の意義を考える(2025年5月版)
LLMを組み込むAPIの評価設計と実践:信頼性と価値を両立させるアプローチ
マルチターン対話エージェントの評価手法
【エンジニアの成長を支える!納得感のある評価システム】
[関数型プログラミング]評価とファーストクラスとは?
エンジニアの能力・給与・尊厳
【評価制度】1年で2等級上げたエンジニアの話
評価のギャップから紐解く、「評価軸」と「ソフトスキル」の重要性
LLMの要約結果を評価する
機械翻訳された日本語Preferenceデータの有効性の検証にトライしてみる
AppStoreConnectアプリで評価が付いたら即時通知する設定
オープンLLMのLLM as a JudgeにおけるJudgeモデルとしての性能を検証してみる
LLMの日本語ロールプレイ能力を計測するベンチマーク「Japanese-RP-Bench」の概要と評価結果などのまとめ
ナレッジからQAデータセットをノーコードで作り、RAGの性能を評価した
自律的なキャリア形成を促す:スキル目標管理でエンジニアリングチームを強化
[Rails]星5段階評価実装で躓いた所・メモ 忌まわしきrender様
pytestでLLMプロダクトをLLMで評価するLLM-as-a-Judgeをやってみた
LLMプロダクト開発における独自評価基準とデータセットの作り方の考察
LLMアプリケーションの評価の運用についてまとめてみた
KenLMのPerplexityで日本語Instructionデータセットの品質を評価できないか試す
ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編
RAGを使ったチャットボットの成功を見極める評価手法を解説
生成AIの評価について(文章生成)
評価用のvCenter Server Applianceデプロイ手順(vSphere vCenter 8.0)
評価用のESXiインストール手順(vSphere ESXi 8 [Nested on VMware workstation Player])
VMware Workstation Player 爆速インストール(VMware Workstation 17 Player版)
【汎用ソフトスキル】エンジニアのための評価ハック
エムアイ・ラボのカルチャーを4つにまとめてみた
低すぎる自己評価は実際の評価も下げてしまうという話
式と評価について(Haskell)
エンジニア属人性の4分類
1