坚持全栈自主可控,科大讯飞要打响讯飞星火大模型的 5 场「必赢之战」
中文数学能力国内第一,科大讯飞发布首个基于全国产算力的深度推理大模型 X1
唯一全国产算力平台训练,多项指标国内第一
1 月 15 日,科大讯飞发布了当前全国产算力平台上唯一的深度推理大模型 —— 讯飞星火 X1。该模型中文数学能力国内第一,并率先应用于教育、医疗等刚需场景。
同时,讯飞星火 4.0 Turbo 底座能力再次迎来全新升级,图文、数学和长文本能力显著提升,并首发混域知识搜索技术,进一步解决行业、企业痛点。
此外,作为国内智能翻译领域的佼佼者,科大讯飞还推出了业界首个具备端到端语音到语音同传能力的大模型 —— 星火语音同传大模型,最快语音同传时延小于 5 秒。
01 讯飞星火 X1 中文数学能力国内第一,率先落地真实场景
一直以来,讯飞星火坚持走全国产化路线。尽管在全国产算力平台上训练深度推理模型遭遇了诸多挑战,但科大讯飞携手华为,成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,最终成功训练出我国首个基于全国产算力训练的具备深度思考和推理能力的大模型 —— 讯飞星火 X1。
发布会上,科大讯飞研究院的研究员们依次展示了讯飞星火 X1 解答高考题、AIME 竞赛题以及高中奥赛题的表现。讯飞星火 X1 不仅准确给出了这些题目的答案,还对解题思路和步骤进行了详细拆解。与通用大模型相比,其解题过程更接近人类的「慢思考」方式。
过程中,讯飞星火 X1 充分展现深度推理模型的三大典型特征:化繁为简,将复杂问题分步拆解简化;进行自我探索和反思验证;基于答案正确与否的优质反馈信息进行强化训练。
值得一提的是,讯飞星火 X1 在近期参加的小初高(含竞赛)、大学(含竞赛)、AIME、MATH 500 等多项「考试」中成绩十分亮眼,用更少的算力,实现了业界一流的效果,多项指标国内第一。
「大模型发展,应用才是硬道理」是科大讯飞一直秉持的观点。
目前,讯飞星火 X1 率先在教育等真实场景中实现了应用落地。去年 1024,科大讯飞联合中国教育科学研究院发布了基于「问题链」的高中数学智能教师助手。同时也正面向全国百个试点区域、联合千名优秀教研员和老师打造上万个优秀案例。目前,星火 X1 已经部署上述试点区域,并广获好评,体验过的老师们纷纷表示,X1 在一题多解、教学知识关联、拓展学生高阶思维等方面表现出色。讯飞星火 X1 也将成为学生和家长的帮手,随着相关技术的深度融入,科大讯飞 AI 学习机学习推荐和诊断将变得更加精准,解题思路和知识链条将更加清晰,后续也将持续升级。
医疗领域,讯飞星火 X1 的模型策略已取得初步验证成效,可使得专科辅助诊断和复杂病历内涵质控的准确率均达 90%。发布会上,科大讯飞还宣布将在今年上半年正式发布基于讯飞星火 X1 的医疗大模型升级版,确保其深层次诊断推理效果和质控能力业界领先。
02 讯飞星火 4.0 Turbo 底座能力再升级,成为更懂行业的大模型
此次发布会,讯飞星火 4.0 Turbo 底座能力实现了全新升级,七大核心能力全面提升,全面对标 OpenAI 最新版的 GPT-4o。此次升级最重要的特点,是针对行业、企业的痛点问题,在数学能力、行业知识、图文识别、长文本能力等能力上实现提升。
数学能力一直是讯飞星火的强项,此次基于讯飞星火 X1 的高质量合成数据,讯飞星火 4.0 Turbo 的数学能力变得更强,可以在数学教学、金融分析和科研推演等工作中更好的帮助用户。
图文识别能力直接关乎着企业能否高效的采编和利用行业、私域数据,是大模型「学习」的基础。在各行各业的实际工作中,经常面临图文识别的「疑难杂症」:如医疗的体检报告、法院的文书、学术论文、企业合同等,还有复杂长表格、杂乱板式、手写公式、印章手写合同、倾斜少线等情况,讯飞星火 4.0 Turbo 图文识别能力升级,使得通用文档版面分析、文字识别的准确率相对提升了 40%,复杂表格结构、潦草手写文字等方面的准确率相对提升了 60%,可以解决上述难题、大幅提升高价值数据的获取能力。对比测试表明,讯飞星火 4.0 Turbo 的图文识别能力显著领先国内外顶尖竞品。
此次升级还针对性地提升了文档要素检测能力,在知识切分和构建的粒度上更加精细、准确,能有效防止大模型幻觉,同时发布了扫描文档解析的极速版本,文档理解速度提升了 10 倍以上。对于一份 500 页的项目文件,从扫描、识别到解析的全过程,仅需 2 分钟即可全部完成。
大模型的长文本能力一直是用户关注的重点,特别是在企业知识问答这类严谨的应用场景中,用户对大模型幻觉的容忍度几乎为零。因此,讯飞星火推出了基于智能体的全新长文本框架,并行业首发了句子级溯源功能。这一新框架优化了超长注意力机制,同时利用大规模网页和书籍数据进行知识关联式合成,使得知识回复的错误率降低了 40%,句子级溯源效果更是超越了 GPT-4o,显著缓解了问答搜索服务中因大模型幻觉而需要反复溯源确认的应用落地难题。
考虑到不少用户在写报告、做调研这类工作时,往往需要花费大量时间搜集信息、整理资料,基于图文、长文本能力的提升和行业应用能力的积累,讯飞星火行业首发了混域知识搜索技术。该技术能够实现对个人知识、企业知识、业务系统数据、精品行业数据以及互联网信息的综合搜索,用户只需一次提问,即可获得综合搜索后的结果,大大提升信息搜索效率。
根据第三方数据,2024 年,讯飞星火在大模型中标数量和中标金额上取得「双第一」,尤其是在能源、金融、汽车、运营商等行业,与客户共同打磨了近百个智能体应用。
基于「技术 + 应用」的不断正向循环,讯飞星火 4.0 Turbo 的行业能力全面提升,金融、油气、能源、电力、钢铁、 航司等领域综合能力的绝对提升全部超过 10%,可以说是「最懂行业的大模型」。
03 首发星火语音同传大模型,助力全系产品翻译能力提升
作为国内智能翻译领域的领军者,科大讯飞不仅拥有在业内率先通过全国翻译专业资格考试的机器翻译系统,且在最近连续 3 届 IWSLT 国际口语机器翻译比赛都获得了冠军。发布会上,科大讯飞带来了在智能翻译领域又一突破:针对日常对话、商务交流、行业翻译等国际交流场景中的高难度同传翻译需求,发布了国内首个具备端到端语音同传能力的大模型 —— 星火语音同传大模型。
众所周知,语音同传的技术难度较高,「现在大模型能力的发展,结合讯飞在智能语音技术上的独特算法积累,可以做端到端的语音同传。」据了解,该模型通过模仿人类同传译员的思维链路进行训练,具备实时意群理解和切分、上下文语境精准选词以及碎片化信息重组的能力,这一特性使得星火语音同传大模型在处理复杂句式和语境时表现出色,能够迅速准确地传达原意。
技术测试结果显示,即便将讯飞的语音同传技术和国外最优竞品的交传技术对比,讯飞语音同传在内容完整度、信息准确度以及语言质量上都处于领先水平,同时星火语音同传大模型还可以最快实现仅 5 秒的同传时延,达到人类专家译员的水平。
集成了最新的同传技术的产品用起来怎么样?讯飞翻译机的产品经理也进行了演示。无论是海外旅游场景中的景点介绍,还是国际展会上的专业产品介绍,翻译机能在短时间内完成高质量的英到中和中到英的双向同传任务。
除了端到端的语音同传能力,星火语音同传大模型还促进了语音到文字翻译效果的提升,使得科大讯飞全系产品的翻译能力都得到显著提升,在日常对话、单人演讲、影视节目,包括场景更复杂、翻译难度更高的多人会议等场景以及医疗等专业领域,为各种国际交流场景提供高质量翻译服务。
发布会最后,科大讯飞透露,针对语音到语音的同传场景,讯飞翻译机将会配置耳机、音箱、麦克风,在 2025 年推出商务套装,满足用户在不同的商务洽谈场景的使用需求。