首页-所有书签-聊天助手-正文

LongCat

龙霄

4个月前

467

373

5.92K

551

理由: 美团推出的自研大模型AI对话平台

语言: 中文 Chinese

分类: 聊天助手(65)

标签: LongCat(1), 聊天助手(67)

LongCat是什么

LongCat 是美团推出的自研大模型AI对话平台，具有强大的自然语言处理能力。最新版本 LongCat-Flash-Chat 正式开源，采用创新的混合专家模型（Mixture-of-Experts, MoE）架构，总参数量达5600亿，每个token仅激活186亿至313亿参数，平均激活约270亿参数，实现了算力的高效利用。LongCat-Flash-Chat模型在多个基准测试中表现出色，尤其在智能体任务中优势明显。例如，在τ²-Bench中超越其他模型，在VitaBench中以24.30的得分位列第一。LongCat-Flash-Chat在编程、指令遵循等方面也表现出色，如在TerminalBench中得分为39.51，位列第二；在IFEval中以89.65的得分位列第一。

LongCat最新推出原生「深度研究」智能体是面向本地生活场景的AI研究助手，采用”搜索-分析-渲染”多智能体协作架构，支持400轮交互和256K超长上下文，能自动生成包含价格对比、路线规划、可视化图表的专业攻略报告。「深度研究」智能体依托美团真实POI数据和Rubrics评价体系训练，注重信息准确性和可追溯性，可为用户提供餐厅推荐、旅行规划、酒店预订等一站式生活决策服务。

LongCat的主要功能

自然语言对话：能进行流畅自然的对话交流，准确理解用户意图并提供精准详细的解答，涵盖生活、学习、工作等多个领域的问题。
联网搜索与实时信息整合：支持联网搜索功能，能实时获取互联网上的最新信息，整合到回答中，为用户提供最新的数据和资讯。
多领域知识应用：具备科学、技术、文化、历史、艺术等多领域的知识，可为用户提供广泛的信息支持，解答各类专业问题。
文本生成与创作：支持文章写作、故事创作、文案撰写等多种文本类型的生成任务，根据用户需求生成高质量、逻辑清晰的文本内容。
代码生成与解析：可以生成多种编程语言的代码片段，对代码进行解析，帮助用户理解代码逻辑和功能，适用于编程学习和开发辅助。
智能体任务优化：在智能体任务中表现出色，具备强大的工具使用和复杂场景处理能力，适用于需要智能决策和自动化操作的应用场景。
深度研究智能体：支持一键生成包含搜索、分析、可视化的专业本地生活攻略报告，覆盖吃喝玩乐住行的智能决策助手。

如何使用LongCat

访问官网体验：可直接访问LongCat官网 https://longcat.chat/ ，与 LongCat-Flash-Chat 开启对话，进行自然语言交流、获取信息解答等操作。
使用开源模型：前往Hugging Face或Github获取开源模型，根据自身需求进行本地部署、二次开发或研究使用。
单机部署体验：使用 SGLang 进行单机部署，运行特定命令（如示例命令）启动服务，即可在本地环境中使用 LongCat-Flash-Chat 模型。

LongCat的官网地址

官网地址：https://longcat.chat/
Hugging Face 模型库：https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
Github 仓库：https://github.com/meituan-longcat/LongCat-Flash-Chat

LongCat模型效果如何

支持的模型：LongCat对话平台目前主要支持 LongCat-Flash-Chat 模型。
模型评测效果：
- 在通用领域知识方面，LongCat-Flash 在 ArenaHard-V2 基准测试中取得 86.50 的优异成绩，位列第二；在 MMLU 得分为 89.71，CEval 得分为 90.44，展现出强劲且全面的性能。
- 在智能体（Agentic）工具使用方面，LongCat-Flash 在 τ²-Bench 中表现超越其他模型；在 VitaBench 中以 24.30 的得分位列第一，彰显出在复杂场景中的强大处理能力。
- 在编程方面，LongCat-Flash 在 TerminalBench 中得分为 39.51，位列第二；在 SWE-Bench-Verified 中得分为 60.4，展现出扎实的编程能力。
- 在指令遵循方面，LongCat-Flash 在 IFEval 中以 89.65 的得分位列第一；在 COLLIE 和 Meeseeks-zh 中也获得最佳成绩，分别为 57.10 和 43.03，凸显其在中英文指令集上的出色驾驭能力。

模型技术亮点：
- 创新性混合专家模型架构：采用 Mixture-of-Experts (MoE) 架构，总参数量达 5600 亿，但每个 token 依据上下文需求仅激活 186 亿至 313 亿参数，平均激活约 270 亿参数，实现了算力按需分配和高效利用。
- 零计算专家机制：引入“零计算专家（Zero-Computation Experts）”机制，通过 PID 控制器实时微调专家偏置，将单 token 平均激活量稳定在约 270 亿，有效控制总算力消耗。
- 跨层通道优化：在层间铺设跨层通道，使 MoE 的通信和计算能很大程度上并行，极大提高了训练和推理效率。
- 高效训练与推理：通过定制化的底层优化，LongCat-Flash 在 30 天内完成高效训练，并在 H800 上实现单用户 100+ tokens/s 的推理速度。
- 智能体能力优化：自建 Agentic 评测集指导数据策略，并在训练全流程进行优化，包括使用多智能体方法生成多样化高质量的轨迹数据等，显著提升了智能体能力。