議事録AIの精度改善チームが「評価ドリブン開発」に行き着くまで
「精度が上がった気がする」をやめる。AsterFlowの要約品質を支える評価パイプラインが生まれるまでの試行錯誤を、現場のエンジニアが振り返ります。
「良くなった気がする」からの卒業
LLMの出力品質は、触った人の主観で語られがちです。私たちも最初は「今回のプロンプトのほうが良さそう」という会話を繰り返していました。転機になったのは、大型顧客からの「先月より要約が粗くなった」という指摘。体感ではなくデータで品質を語る必要に迫られました。
評価データセットを業務からつくる
まず取り組んだのは、実際の会議データ(同意取得済み)から評価用データセットを作ることでした。理想の要約を人手で作り、観点別のルーブリックを定義する。この地道な作業に1ヶ月をかけたことが、その後のすべての改善速度を変えました。
リリース判断が変わった
いまではプロンプトやモデルの変更はすべて評価パイプラインを通り、スコアの差分がPRに自動コメントされます。「良くなった気がする」ではなく「要約網羅性が+4.2pt、冗長性が-1.1pt」で会話できるようになりました。
一緒に働く仲間を探しています
評価ドリブンな開発文化は、まだ完成形ではありません。検索やアクション抽出など、評価設計そのものから考えたい領域が山ほどあります。この面白さを一緒に味わえる方をお待ちしています。
TEAM
このストーリーに登場するメンバー
桐生 直樹
機械学習エンジニア
評価設計はプロダクトの意思決定そのもの。地味ですが一番面白い仕事です。
志田 彩香
プロダクトマネージャー
顧客の「なんか違う」を数字に翻訳するのがチームの合言葉です。
今井 遼
SRE
評価パイプラインの実行基盤を支えています。CIにLLM評価が乗る時代です。