プレビュー環境のため、すべての決済はテストモードで実行されます。
AllAI
AllAI
オールAI

AI TALENT

AI求人・案件

AI人材の求人・副業案件・採用ストーリーが集まるタレントマーケット。AIの推薦には必ず理由と根拠を添えて表示します。

エンジニアリングLLM開発文化

議事録AIの精度改善チームが「評価ドリブン開発」に行き着くまで

アスターワークス株式会社2026-06-20 公開8分で読めます

「精度が上がった気がする」をやめる。AsterFlowの要約品質を支える評価パイプラインが生まれるまでの試行錯誤を、現場のエンジニアが振り返ります。

「良くなった気がする」からの卒業

LLMの出力品質は、触った人の主観で語られがちです。私たちも最初は「今回のプロンプトのほうが良さそう」という会話を繰り返していました。転機になったのは、大型顧客からの「先月より要約が粗くなった」という指摘。体感ではなくデータで品質を語る必要に迫られました。

評価データセットを業務からつくる

まず取り組んだのは、実際の会議データ(同意取得済み)から評価用データセットを作ることでした。理想の要約を人手で作り、観点別のルーブリックを定義する。この地道な作業に1ヶ月をかけたことが、その後のすべての改善速度を変えました。

リリース判断が変わった

いまではプロンプトやモデルの変更はすべて評価パイプラインを通り、スコアの差分がPRに自動コメントされます。「良くなった気がする」ではなく「要約網羅性が+4.2pt、冗長性が-1.1pt」で会話できるようになりました。

一緒に働く仲間を探しています

評価ドリブンな開発文化は、まだ完成形ではありません。検索やアクション抽出など、評価設計そのものから考えたい領域が山ほどあります。この面白さを一緒に味わえる方をお待ちしています。

TEAM

このストーリーに登場するメンバー

桐生 直樹

機械学習エンジニア

評価設計はプロダクトの意思決定そのもの。地味ですが一番面白い仕事です。

志田 彩香

プロダクトマネージャー

顧客の「なんか違う」を数字に翻訳するのがチームの合言葉です。

今井 遼

SRE

評価パイプラインの実行基盤を支えています。CIにLLM評価が乗る時代です。