Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

記事がありません

1

【Dify】Langfuse 導入の意義を考える(2025年5月版)

LLMを組み込むAPIの評価設計と実践：信頼性と価値を両立させるアプローチ

マルチターン対話エージェントの評価手法

【エンジニアの成長を支える！納得感のある評価システム】

[関数型プログラミング]評価とファーストクラスとは？

エンジニアの能力・給与・尊厳

【評価制度】1年で2等級上げたエンジニアの話

評価のギャップから紐解く、「評価軸」と「ソフトスキル」の重要性

LLMの要約結果を評価する

機械翻訳された日本語Preferenceデータの有効性の検証にトライしてみる

AppStoreConnectアプリで評価が付いたら即時通知する設定

オープンLLMのLLM as a JudgeにおけるJudgeモデルとしての性能を検証してみる

LLMの日本語ロールプレイ能力を計測するベンチマーク「Japanese-RP-Bench」の概要と評価結果などのまとめ

ナレッジからQAデータセットをノーコードで作り、RAGの性能を評価した

自律的なキャリア形成を促す：スキル目標管理でエンジニアリングチームを強化

[Rails]星５段階評価実装で躓いた所・メモ　忌まわしきrender様

pytestでLLMプロダクトをLLMで評価するLLM-as-a-Judgeをやってみた

LLMプロダクト開発における独自評価基準とデータセットの作り方の考察

LLMアプリケーションの評価の運用についてまとめてみた

KenLMのPerplexityで日本語Instructionデータセットの品質を評価できないか試す

ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編

RAGを使ったチャットボットの成功を見極める評価手法を解説

生成AIの評価について(文章生成)

評価用のvCenter Server Applianceデプロイ手順（vSphere vCenter 8.0）

評価用のESXiインストール手順（vSphere ESXi 8 [Nested on VMware workstation Player]）

VMware Workstation Player 爆速インストール（VMware Workstation 17 Player版）

【汎用ソフトスキル】エンジニアのための評価ハック

エムアイ・ラボのカルチャーを4つにまとめてみた

低すぎる自己評価は実際の評価も下げてしまうという話

式と評価について(Haskell)

エンジニア属人性の4分類

1