▲在夸克App调用夸克AI健康助手
首次体验后,用户便可将夸克健康助手添加到App首页,以便随时调用。▲将夸克AI健康助手添加到夸克App首页
据夸克相关负责人称,夸克自研大模型已经凭分的高分通过了临床执业医师资格考试,同时在健康内容上的幻觉率已经降低至5%以内,达到远优于同行的水平。自年初ChatGPT爆火以来,微软、谷歌等科技巨头纷纷推了出AI版搜索引擎,但面对专业知识要求更高的健康信息服务领域,各路玩家或保持观望或小范围试水。作为年就明确了智能搜索引擎定位的新锐选手,夸克率先在健康领域迈出了革新搜索的第一步。夸克自研大模型在搜索的实际落地效果如何?背后有什么样的技术挑战和行业真相?通过深扒夸克健康大模型应用,本文对此进行了深入探讨。01.实测AI健康助手:简单对话,多维诊断打开夸克App,虽然首页没有发生明显变化,但搜索结果呈现已经被夸克大模型悄然改变。如下图所示,当智东西输入“咳嗽检查”这一问题,搜索结果中出现了AIGC内容和夸克健康助手的入口。用户可以先简单的了解病症信息,然后在根据自己的身体情况进行选择和对话。点击进入夸克健康助手,页面变成一个对话框形式。当智东西换一个问题:“经常口腔溃疡是什么原因”,夸克健康助手从非病理因素和病理因素给出了问题的答复。或许是考虑到回答较含糊,夸克健康助手进一步给出了一个卡片选项,使我可以补充症状,从而获取更精准的答案。在我提供了补充症状之后,夸克健康助手果然给出了更聚焦的治疗建议,并给出主要原因分析、科室就医建议、如何进一步确诊等一系列问题的答案。当智东西问到“家里老人刚做完宫颈手术,有什么吃食建议?”时,夸克健康助手给出了针对性的饮食建议。当涉及偏门的问题,比如“有人说鱼是发物,也是可以吃的吗?”,夸克健康助手也能根据跨中西医的知识,给出明确的分析判断:“可以适量食用”。夸克健康助手的一大特点是病情病例描述具体,而不是泛泛而谈,因此具有更强的参考性。比如当智东西问到“我胳膊肘处有小块红色点群状胎记,不太光滑,有一些充血,可能是什么疾病?”,夸克健康助手立马给出了血管瘤、鲜红斑痣、草莓状毛细血管瘤等几种可能。通过“质软可被压缩、“菜花状”等描述,加上超链接中的图片,血管瘤的可能性看起来更大。通过夸克健康助手,我进一步了解到这是一种大概率不会给身体带来危险的良性肿瘤。实际上,这是我家人的真实病例,夸克给医院检查所得的结果一致。再来看看智能筛查功能,比如智东西在搜索引擎中输入“55岁男士经常胳膊麻是怎么回事”,智能筛查卡片弹出并给出了持续时长、发病部位、行为诱因等多个选项。当选择持续数月、单侧选项之后,夸克则提示我这可能与颈椎病、脑出血、脑血管病有关。点击可能的病状,如点击脑出血板块进入解答链接,只见有首都医科大学的主任医师来为我解答背后的原因。实际上,这一病例的患者确实在出现手麻症状之后的几个月后突然脑出血,可见这个智能筛查的功能还是比较具有参考性的。经过试用智东西发现,夸克健康助手在健康问题咨询上基本上没出现答非所问、胡编乱造、上下文不流畅的情形,甚至还比较准确地给出了初诊结果。虽然这种建议不能替代医疗诊断,但有助于帮患者在就医前进行初步自查。必须承认,夸克健康助手在一些问题回答上偏保守,比如在多则建议后都指出“以上建议仅供参考”,但它作为一款辅助性的健康助手,已经比传统搜索引擎好用了不少。02.大模型进入专业领域安全准确是第一道关口体验完产品应用,我们将目光转向产业和技术。从通用搜索到健康等专业搜索领域,大模型正在彻底改变搜索引擎的玩法,背后的关键因素是知识准确度的提升。回顾年初ChatGPT爆火全球以来,先是微软率先将ChatGPT接入了Bing搜索,而后谷歌以及国内的百度、夸克等纷纷将搜索引擎接入大模型,短视频平台抖音近期也传出正在内测AI视频搜索……互联网大厂纷纷抢滩AI搜索赛道。背后,大模型正在打破传统搜索引擎的技术瓶颈:传统搜索引擎依赖关键词匹配,难以理解上下文;仅调取网上已有内容,内容相关度和质量不足;难以区分真假信息,误导用户等。大模型对搜索的变革在行业已有共识,基于理解、知识、创作、对话、推理等多重能力,将带来更准确、更全面、更交互的信息服务体验。但与此同时,大模型在知识准确度上表现不足,阻碍其进入更专业的信息服务领域。以健康领域为例,这是很多人使用搜索引擎的典型场景,却是大模型久攻不下的一座城池。究其背后原因,还是“幻觉”问题。由于医生无法给患者详细解释每一个医疗健康知识,患者很多知识需求是通过网络获取的。但由于大模型存在幻觉,会捏造信息,很可能给出错误的疾病判断、用药建议,使得患者贻误病情,后果不堪设想。安全准确是健康信息服务的第一道关口,夸克专门对此进行了攻关。夸克相关负责人称,夸克做了很多健康行业数据建设和知识建设,从而使其知识错误率能降到了5%以下,这才具备了产品推向广大C端市场的底气。解决大模型应用的问题,首先要先解决知识正确性的问题。为此,夸克建设了大量的医典百科、医典问答的C端用户数据,整理了大量的指南、标准、书籍等一系列数据,并建设了完整的医疗知识图谱,由此大大降低了大模型的幻觉。值得一提的是,为了确保内容的专业性、正确性和科学性,夸克还成立了健康专家团。一方面其与多位权威医学专家、60多家医院和40多家医学机构合作,共建大模型内容生态;另一方面,夸克招募了健康大模型精调师,结合用户需求和热门病症,提供最新健康知识。由此形成的千亿参数级别的夸克自研大模型,助其跨越安全准确第一道关口,进入专业搜索领域。03.千亿级参数大模型四个大招变革搜索根据知名行研机构IDC今年8月发布的报告,在大模型的推动下,年全球人工智能IT总投资预计增至亿美元,约合3.1万亿元人民币。在这一新蓝海前景下,互联网巨头、科技行业龙头和AI创企几路玩家掀起了声势浩大的「百模大战」。而随着「百模大战」的焦点演变为大模型产业化落地,夸克这样交叉领域玩家快速走到了聚光灯下。夸克于11月22日正式公布了全栈自研、千亿级参数的夸克大模型。同时,夸克大模型已登顶C-Eval和CMMLU两大权威榜单,多项性能优于GPT-4,亦在法律、医疗、问答等领域的性能评测中夺冠。要达成这样的成绩,并非没有挑战。据夸克相关负责人称,对于前文提到的幻觉问题,夸克在千亿级的网页里选择了几亿级的高质量网页。这一筛选过程极其复杂,获取海量中文数据和知识难度大,网页里垃圾数据极多,对非搜索引擎厂家来说成本代价会非常高,但夸克却设法高效解决了这些问题。同时,国内外的大模型玩家都遇到的另一大挑战是人类知识对齐和SFT(监督微调)精标数据对齐问题。由于有用SFT样本数据很稀缺,夸克专门建立了专业团队,囊括了医生等行业的资深从业人员,通过跨领域作战攻克难关。最终,基于搜索业务基础与智能技术积累,夸克大模型试图从以下四大方面建立护城河:1、最全面的通用知识数据和行业知识数据,以及知识理解和评估体系;2、基于搜索技术体系的积累,打造了千亿级参数平台的模型训练能力;3、拥有长期智能化产品经验的智能技术产运团队,覆盖搜索、智能化及行业等多维领域。4、拥有全行业的知识增强技术体系及能力,助大模型减少幻觉,增强可用性。当下大模型的爆发,源头要追溯到年谷歌提出的Transformer模型。当时刚诞生一年的夸克也