採用ストーリー詳細

エンジニアリングLLM開発文化

議事録AIの精度改善チームが「評価ドリブン開発」に行き着くまで

アスターワークス株式会社2026-06-20 公開約8分で読めます

「精度が上がった気がする」をやめる。AsterFlowの要約品質を支える評価パイプラインが生まれるまでの試行錯誤を、現場のエンジニアが振り返ります。

LLMの出力品質は、触った人の主観で語られがちです。私たちも最初は「今回のプロンプトのほうが良さそう」という会話を繰り返していました。転機になったのは、大型顧客からの「先月より要約が粗くなった」という指摘。体感ではなくデータで品質を語る必要に迫られました。

まず取り組んだのは、実際の会議データ(同意取得済み)から評価用データセットを作ることでした。理想の要約を人手で作り、観点別のルーブリックを定義する。この地道な作業に1ヶ月をかけたことが、その後のすべての改善速度を変えました。

いまではプロンプトやモデルの変更はすべて評価パイプラインを通り、スコアの差分がPRに自動コメントされます。「良くなった気がする」ではなく「要約網羅性が+4.2pt、冗長性が-1.1pt」で会話できるようになりました。

評価ドリブンな開発文化は、まだ完成形ではありません。検索やアクション抽出など、評価設計そのものから考えたい領域が山ほどあります。この面白さを一緒に味わえる方をお待ちしています。

TEAM

桐

桐生直樹

機械学習エンジニア

評価設計はプロダクトの意思決定そのもの。地味ですが一番面白い仕事です。

志

志田彩香

プロダクトマネージャー

顧客の「なんか違う」を数字に翻訳するのがチームの合言葉です。

今

今井遼

SRE

評価パイプラインの実行基盤を支えています。CIにLLM評価が乗る時代です。