配资门户网官网 全网最懂图文调研的智能体模型震撼上线, 看完我直接卸了浏览器
配资门户网官网
机器之心报道
疯狂的七月已经落下了帷幕,如果用一个词来形容国产大模型,「开源」无疑是当之无愧的高频词汇。
各大厂商你方唱罢我登场,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等众多玩家们先后开源了数十款大模型。根据HuggingFace发布的中国AI社区七月开放成果,短短一个月开源模型总数达到了惊人的33款。
进入到八月,国产大模型「上新」的势头丝毫不减,重量级成果发布的热度继续升温。其中,上个月接连开源第二代奖励模型Skywork-Reward-V2、多模态理解模型Skywork-R1V3以及多模态统一预训练模型SkyworkUniPic的昆仑万维,又官宣了一波技术大放送!
从本周一开始,昆仑万维正式启动SkyworkAI技术发布周!连续五天,每天都有新模型亮相,从视频生成模型SkyReels-A3、世界模型Matrix-Game2.0、生图一体化模型SkyworkUniPic2.0到深度研究Agent模型等,多模态AI的核心赛道几乎全囊括了,干货满满。
8月14日,在技术发布周的第四天,昆仑万维重磅发布了最新Agent成果,为其在智能体领域的探索与布局开启更多可能。不久之前,昆仑万维才带来了全球首款Office智能体——天工超级智能体(SkyworkSuperAgents),登顶多个榜单,在文档、PPT、Excel、网页、播客等多任务执行中秀了把一站式生成能力。
此次,昆仑万维将天工超级智能体的核心引擎SkyworkDeepResearchAgent升级到了V2版本。新版本不仅将深度调研体验推升至新高度,还在多模态信息检索与生成、浏览器智能体任务中利用独立的Agent模块,促成性能、稳定性与智能化水平的均衡跃升。
性能究竟有多强,先上跑分成绩。首先在权威搜索评测榜单BrowseComp中,SkyworkDeepResearch在常规推理模式下正确率已达到27.8%,超越了GLM-4.5、StepFunDeepResearch、Claude-4-Opus等国内外大多数主流同类产品;而在启用自主研发的「并行思考」模式后,准确率更是跃升至38.7%,一举刷新行业SOTA记录,将Grok-4在内所有竞品甩在身后。
此外,在全球最具挑战性、覆盖最广的智能体基准测试集GAIA中,SkyworkDeepResearchAgent同样刷新SOTA成绩,超越所有竞品,复杂任务中的硬核表现不言而喻,也为其技术含金量做出有力背书。
赶快来天工超级智能体(SkyworkSuperAgents)体验!
这位Agent新面孔在实操上能不能达到预期呢?一手实测给了我们很大惊喜。
Agent深度研究的全感知时代
始于多模态信息检索
去年12月,谷歌推出了GeminiDeepResearch功能,标志着全球首个AI研究助手的诞生。该功能可以自动浏览网页、整合关键信息,并生成结构化的研究报告。这意味着,传统研究员吭哧吭哧干几天的活儿,它仅需要几分钟就能完成。该功能一经发布就迅速引发业界关注,OpenAI、xAI、PerplexityAI等其他大模型厂商也紧随其后,纷纷推出自家的DeepResearch。
尽管这些DeepResearch功能在提取和整理文字信息时有着较高的效率,但它们过于依赖纯文本的检索和分析,往往忽视图片、图表等视觉内容。而如今互联网上超过一半的关键信息都以图文混排的形式呈现,比如财报中的曲线、科研论文里的实验图、社交媒体上的对比照、业务方案中的流程图等,如果这些图片信息被忽视,研究报告的完整性和准确性将大大降低。
为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能够识别并处理图片、图表等信息,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更加全面、准确的报告。
比如,我们输入提示词:请配合丰富的图表,详细揭示2025年特斯拉在中国的销售情况,并分析销量变化的核心原因。
领到任务后,它首先跳出一个表单让我们勾选任务需求,包括写作语言、写作篇幅、分析维度、图表类型偏好、核心原因分析角度等。如此一来,我们就能够根据自己的具体需求,定制报告的内容、深度和呈现方式。
确认完需求,它会生成一个待办清单,继而调用各种工具搜索浏览网页、整合信息,尤其是涉及图片部分,它会自动调用MCP工具进行图片分析以及图表制作。
在浏览了180个网页、使用54个信源后,最终输出一份详细的特斯拉中国销量分析报告。
报告中包含丰富的图表展示,比如特斯拉中国月度销量趋势折线图、主要城市销量柱状图、中国新能源汽车市场份额饼图等。更重要的是,它把图片中表达的信息融入到报告文字当中,提供更全面的文字解读。
为了防止胡说八道,每个重要数据都标注了来源,鼠标一点即可跳转
它还会根据文字内容,在合适的位置插入对应图片,并自动生成简洁图注。对于图表较多的报告,它甚至会专门拿出一节来对图表进行辅助说明。
这番实测意味着谷歌GeminiDeepResearch搞定不了的图文盲区,被昆仑万维的Agent轻松拿捏。让AI真正具备专业研究人员的感知与表达能力,离不开多模态爬取、长距离多模态信息收集、异步并行Multi-Agent多模态理解架构和多模态结果呈现四大核心技术突破:
目前,该功能已在skywork.ai官网上线,人人都可体验。
突破传统浏览器Agent瓶颈
深入挖掘社交平台内容
接下来,我们再看看SkyworkDeepResearchAgentV2的另一大功能模块——多模态深度浏览器智能体(SkyworkBrowserAgent)
在实际应用中,传统浏览器智能体存在诸多瓶颈问题,比如执行效率差、成功率低,特别是在处理文字密集内容时表现迟缓;由于平台壁垒(如登录和验证问题)还可能导致任务中断;以及在复杂边缘场景中适应能力较弱,常常出现卡顿、死循环等失效情况。
昆仑万维此次推出的SkyworkBrowserAgent巧妙化解了这些痛点。借助深度多模态内容理解能力,不仅能够高效分析社交媒体上的文本信息,还能精准筛选与提取图片、视频以及评论区的情感与观点,提供更加全面的信息洞察。在网页浏览的全过程中,它都能做到有条不紊、规划周密,而这一切都依托于自研模型非凡的推理能力。
此外还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观且易懂的可视化报告。同时支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对部分社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止整套工作流阻塞,从而大大提升浏览器智能体的执行效率。
举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映4天就斩获近2亿元票房。不过,对于这部打磨13年的影片,网友给出了两极分化的评价。
我们让SkyworkBrowserAgent基于用户反馈,生成一个关于电影《戏台》上映后网友评价的分析报告网页。
此处的工作流程与前文所述相似:勾选补充信息、生成待办清单,然后调用MCP工具执行任务。比如旁边会弹出一个Skywork虚拟机来显示浏览器agent的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」进行搜索,进入电影链接详情页后收集更完整的信息和用户评论。
搜完信息,它就开始搭建网页,开发HTML页面框架,并按照各分析维度划分内容区块;设计CSS样式,确保页面美观易读;使用JavaScript实现数据可视化和交互功能,同时下载并配置相关图片资源。如果觉得生成网页不符合预期,我们还可以和浏览器Agent进行多轮交互,根据当前生成好的网页进行二次编辑,SkyworkBrowserAgent强大的指令跟随能力可以完美支持这一操作。
可以看到,最后生成的网页不仅结构清晰,设计精美,且内容涵盖了电影的基本信息、票房表现、豆瓣和猫眼的评分对比等关键数据。网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表,极大提升了信息的可读性和直观性。我们还可以通过简单的点击与交互,深入了解影片的各项数据和网友评论,进一步剖析影片的正负面评价及争议点。
为测试稳定性,我们还进行了一个有趣的实验——浏览周杰伦的Instagram,并打造一款粉丝应援网站。结果显示,制作的网页不仅功能完整,还具备独特的视觉风格,效果出色。
如此高效稳定网页浏览能力的实现,要归功于以下多项自研的关键技术方案:
SkyworkBrowserAgent,通过模拟人类浏览与交互方式,革新传统的数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的VLA(视觉-语言-动作)任务中展现巨大的潜力。
不过,这一功能尚处于内测和邀测阶段,预计将于下周向全部用户开放。
全栈式演进
构建从数据、算法到多智能体系统的智能基座
从一系列实测看下来,昆仑万维此次的Agent产品在自主性、交互性、任务完成度等方面已经今时不同往日,称得上是一个「独立思考、深度执行的智能工作伙伴」。特别是在信息检索、整理、总结以及复杂任务的执行中表现出了惊人的效率与准确性,背后依托的是SkyworkDeepResearchAgentV2引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统
作为AI三大核心要素之一,在数据层面下功夫任何时候都是必要的。为了增强Agent模型对复杂及深度信息搜索场景的理解,昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。
首要一点是制定数据质量标准。昆仑万维在初期设计阶段明确了高质量搜索问题以及答案的五大核心标准,包括多样性、正确性、唯一性、可验证性和挑战性,确保每一个生成的查询都能覆盖广泛的主题和难度层次,同时答案也要准确、唯一可靠并可验证。然后进入到数据准备阶段,通过多渠道收集互联网数据,构建初步的种子池,并利用自动化筛选系统评估、挑选出最具潜力的信息,为后续问题构造提供优质素材。
接下来处理复杂且具有挑战性的问题,一方面利用深度信息收集技术系统性地从多个信息源中提取线索,将具体信息抽象为高难度的搜索查询;另一方面采用迭代式增强策略,将简单搜索转化为多步推理的复杂问题。过程中引入了层次化推理链和信息混淆技术,以进一步提升问题复杂度和模型推理能力。
一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为接下来大规模、端到端的强化学习提供了数据基础。
想要提升Agent模型的学习效率和推理能力,需要克服传统RLHF奖励模型主观性强和易受攻击的难题,为此昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架上,采用了GRPO算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新的数据,使模型始终处于有效「学习区」内。
为了进一步提升验证精度和奖励的有效性,昆仑万维创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为Agent模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出最终答案则进一步分析问题构造阶段保存的线索以进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。
性能得到保障的同时,效率也必须提升,这时昆仑万维自研的并行推理框架发挥了用武之地。此前谷歌DeepMind在其最新Gemini2.5DeepThink推理模型中通过生成多个Agent来并行处理任务,并摘得IMO2025竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。
一是并行思考模式,在每一步生成多个候选推理路径并从中筛选最优候选路径以备后续使用,避免因推理链断裂、前后逻辑冲突导致的卡壳等失效行为。同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率;二是在多步推理规划中引入生成式评估方案,对多个候选推理路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低这一过程所带来的计算负担和时间开销;三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。
并行思考模式下,SkyworkDeepResearch的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。
在数据、算法、算力优化之外,SkyworkDeepResearchAgentv2能力的跃升与多智能体演进系统的持续进化息息相关。随着Agent应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,不过随着此类工具数量和复杂度的增加,需要更高效的自动化管理工具。针对此,MCP工具自动创建技术应用而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。
在这一MCPManagerAgent的基础上,一个将模型能力与工具能力结合起来的协同多智能体框架形成,不仅能高效组织多个Agent协作,还通过动态创建MCP工具来强化任务应对能力和环境适应能力。下图整体架构中一一显示出了规划Agent、深度调研Agent、浏览器使用Agent、数据分析Agent和MCPManagerAgent。
这一套系统性的升级,无疑让SkyworkDeepResearchAgentV2具备了强通用性、强适应性和强自主性,从而构筑起Agent模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。
2025年已经过半,我们明显感受到的一点是:伴随ScalingLaws逐渐放缓的影响,国内外AI玩家们追求单一最强通用大模型的热度有所降温,就连OpenAI迄今最强的旗舰模型GPT-5都被吐槽缺乏突破性体验。相反,成果开源与应用落地成为了业界普遍关注的焦点。
可以说,AI行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将AI能力转化为可规模化部署的商业生产力,谁就更能在新一轮AI竞赛中抢占战略高地。
昆仑万维为期一周的模型发布,既是其AI技术成果的集中亮相,也是其在多模态AI领域加速落地、引领行业趋势的重要信号。
无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是Agent驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局又一次展现在大众面前。这也彰显出这家AI公司坚定践行其「AllinAGI与AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球AI竞争格局中稳固并扩大自身领先优势。
其中,作为当前加速大模型落地的核心途径,Agent的重要性已经在业界达成共识。我们可以期待,此次的深度研究Agent势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,也有望为整个AI行业带来更高效、更智能的解决方案。
文中视频链接:https://mp.weixin.qq.com/s/mfokWcYudJPWhY69h_kBkA配资门户网官网
高忆配资提示:文章来自网络,不代表本站观点。
- 上一篇:配资门户网官网 郭涛一家四口参观牛津大学,妻子穿瑜伽裤腿好粗,儿女都是大高个_李燃_石头_网友
- 下一篇:没有了