性能超OpenAI、Gemini！月之暗面發布首個自主強化學習Agent

根據媒體報道，Moonshot AI 正式推出其首款Agent產品－Kimi-Researcher（深度研究），並已啟動小範圍灰度測試。

本產品基於端對端自主強化學習（end-to-end agentic RL）技術打造，在HLE測試中表現優異，性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research，並與Gemini-Pro的Deep Research Agent持平。

Kimi-Researcher 是一款高度自主的智慧研究助手，能夠獨立規劃任務流程並交付完整結果。與其他Agent不同，它採用零結構設計，無需複雜提示字或預設流程，完全依賴自主決策能力在動態環境中運作。

例如，它能自行判斷資訊衝突時的權衡策略、任務節點的切換時機，以及中間資訊的取捨標準，其核心驅動力始終是任務的實際解決效果。

作為深度研究模型，Kimi-Researcher 整合了多源數據，並支持每個引用的直接追溯，確保研究嚴謹性，有效減少幻覺問題。月之暗面表示，未來將逐步開源Kimi-Researcher 的基礎預訓練模型及強化學習最佳化版本，以推動Agent強化學習領域的探索與發展。