从大模型横空出世以来,人工智能作为互联网行业乃至全世界最吸引人的技术,不断被应用在各种场景里,引发变革的狂潮。
在Chatbot、文本生成、插画绘图等应用场景里,大模型已经取得了不错的成绩;然而在金融、教育、医疗等更垂直的应用领域,大模型却还远在落地前夜。
大模型最好的应用场景是什么?这个问题暂时无法给出全部答案。但有一个回答是肯定的——AI搜索引擎。
从传统搜索的大海捞针到AI搜索的精确寻找,AI搜索正成为大模型技术落地最明确、用户痛点最清晰的应用场景之一。
就在3月5日,根据华尔街日报最新报道,海外AI搜索初创企业Perplexity即将敲定一笔新的融资交易,公司估值有望达到近10亿美元——较之两个月前B轮融资时的5.2亿美元估值飙升了整整一倍。
而除了Perplexity之外,海外AI搜索初创企业如Glean、Andi等近期动作频频,国内玩家如昆仑万维、百度、阿里、360等也都陆续推出了AI搜索产品。其中,昆仑万维更是早在2023年8月就推出了国内首款AI搜索产品“天工AI搜索”,成为国内AI搜索鼻祖。
作为互联网最基础的服务之一,搜索技术已经经过很长时间迭代完善,目前整体上搜索引擎工作过程主要分为:爬取(Crawl)、解析(Analyze)、索引(Index)、检索(Search)和排序(Rank)几个阶段。
前三个步骤发生在用户使用引擎之前,搜索引擎要收集互联网上的数据,并过滤掉无效和有害的部分,然后给这些页面打好标签以便快速检索。当用户进行搜索时,搜索引擎需要理解用户的查询内容,并且将相关的页面按照相关度、时间等不同顺序排列好并展示给用户。
在互联网信息稀缺的90年代,搜索引擎解决的是从0到1、从“找不到信息”到“能找到信息”的问题。彼时搜索引擎的链接罗列方式足够满足用户寻找信息的需求。
然而,在经过多年的发展后,互联网上的数据已经膨胀到了一个难以想象的量级。据IDC预测,2025年全世界数据总量将达到175ZB,其中中国的数据约48ZB。如果没有搜索引擎,在这么大体量的数据中寻找某个问题的答案,实际上与大海捞针并没有什么区别。搜索引擎就是用户“过滤”大海的工具。
此时再使用传统搜索引擎,得到的将不会是十条、二十条链接的罗列,而是如恒河沙数般数不清的天文数字信息,其中夹杂着大量无用信息、虚假信息、广告信息,泥沙俱下,让用户难以适从。用户需要花费越来越多的时间与精力,在海量信息中搜寻真正有用的内容。
在知乎上,有214万人浏览了问题“如何高效地使用搜索引擎?”,不少回答者给出的核心技巧是“不要直接问搜索引擎问题,它只是一个搜索工具”。但其实很多时候,用户只是有一个简单的问题,期待的也只是一个简单的回答。
以昆仑万维的“天工AI搜索”为例。对于用户来说,使用天工AI搜索最直观的感受是可以用更模糊、更自然的语言提出自己的问题了,而搜索引擎给出的答案却会更加准确和全面。
同时,针对大模型经常出现的“一本正经胡说八道”“信息真伪难辨”等问题,AI搜索这一应用场景也能够极好地将其规避。由于AI搜索能通过链接溯源,让AI每一个结论都下得“有理有据”“令人信服”。
AI搜索引擎的诞生无疑颠覆了曾经的搜索范式,让搜索引擎真正能将问题和答案直接关联起来,显然比“搜索工具”更有价值。
而且,对于开发者来说,AI搜索引擎不仅仅让搜索方式和搜索结果更智能,也几乎渗透了搜索引擎工作的整个流程。
AI可以帮助开发者更有效率地完成其中大量的工作:比如更迅速地清理无效和有害的数据,更好地理解用户的意图,以及更准确地进行信息排序,让开发人员投入更少的重复工作、获得更快的开发速度、得到更好的搜索效果。
随着AI搜索引擎产品的逐步推广以及用户对其在各个应用场景的热切期望,未来五年的市场发展势头将以令人瞩目的速度持续攀升,据头豹预计,到2027年,国内AI搜索引擎市场规模将达到329.35亿元人民币。这意味着市场规模的复合年增长率(CAGR)将达到约32.93%。
挑战者们抛弃了早在上个世纪就被雅虎定义的搜索引擎范式,将人工智能作为用户体验和开发的核心重点,试图为市场划分新的格局。
与此同时,传统巨头们也不会落后,市场上一时出现了百舸争流的竞争局面。微软、谷歌和挑战者Perplexity、Glean、Lepton Search等数十个项目在海外市场展开对局,百度、阿里、昆仑万维、360等企业则在国内市场开启角逐。
国内最早发布AI搜索的是昆仑万维。2023年8月23日,昆仑万维推出了国内第一款融入大语言模型的搜索引擎——天工AI搜索,宣布传统搜索已到了奇点时刻,陈旧的体验需要被颠覆、被改变,打响了国内AI搜索引擎大战的第一枪。
早在2020年,昆仑万维在关注到GPT-3带来的颠覆式进展时,就已投入AIGC与大模型赛道的布局。2023年4月,昆仑万维正式发布了自研双千亿天工大语言模型“天工1.0”;2023年8月,昆仑万维发布国内首款AI搜索产品“天工AI搜索”,基于天工1.0大模型打造;2024年2月,“天工”大模型升级至2.0版本。
昆仑万维创始人周亚辉曾告诉媒体,在“天工”发布之前,昆仑万维就为此准备了很久。他表示:“AGI和AIGC肯定是昆仑万维未来十年的方向。昆仑整体布局AGI和AIGC是三年前,2020年就开始了。那个时候其实我们就明白,最好的战略,一定是面向未来十年去做产品。所以那个时候我们想了一下,未来十年跟昆仑万维相关的东西,什么是特别让我们激动人心、特别想去做的,我们当时就觉得是GPT和AIGC,所以我们就去布局这些领域了。”
就在2023年8月昆仑万维“天工AI搜索”发布后,百度搜索、阿里旗下夸克搜索、360AI搜索也纷纷加入战局。
长期以来,搜索引擎行业能够保持相对稳定的市场格局,其核心原因是作为互联网门户,其本质上是一个赢者通吃市场,略微比竞争对手更好的产品就会得到不成比例放大的市场份额,而市场份额本身就会让赢家能够一直保持这种优势。
在搜索引擎领域,这种优势能够更直观地体现出来,比如在搜索的检索和排序上,占有市场主导地位的企业可以投入更多的资源在“人工相关性”中,利用大量人力资源去充分理解用户搜索指令跟目标内容之间相匹配的特征、频次、距离、长短等等,几乎每个抽象算子都需要有专人去做人工分析,实时调校算法参数。
面对海量的互联网信息,这种做法难度大、成本高、耗时长、效率低,但长期积累的数据却是传统搜索引擎厂商保持领先的关键之一。
以国内最早推出的AI搜索引擎的昆仑万维为例,其在“天工AI搜索”的检索和排序环节中,大量引入了大模型能力,模仿人类的识别判断能力,判断搜索指令(Query)和被搜索文档(Doc)是否具有相关性,并将这些匹配好的相关性样本当作“教科书案例”让搜索引擎学习,进而提升搜索引擎的召回、排序性能,并且实现模型侧的端对端迭代。
除了效率更高、耗时更短外,更重要的是,由于人类存在个体差异、认知差异、判断差异,即便是同一个人在不同时刻的评估结果都会有所不同。相较于人工评估,大模型能够提供更加稳定的输出结果。
换句话说,大模型技术让传统搜索引擎长久积累的技术和数据壁垒大大降低甚至消弭了,大模型技术成为了新的竞争点。谁能在大模型技术上获得优势,谁就能在搜索引擎市场的下一个阶段占据先机。
在推出AI搜索引擎后,各大厂商依然在持续加大在大模型领域的投入,并以此不断迭代搜索引擎产品,将大模型视为核心竞争力。
国内AI搜索鼻祖“天工AI搜索”在2023年8月推出后依然在不断迭代,其底层“天工”大模型在2024年2月推出了2.0版本,采用业内顶尖的MoE专家混合模型架构,应对复杂任务能力更强、模型响应速度更快、训练及推理效率更高、可扩展性更强。集成了天工AI搜索、对话、绘图、数据分析、热梗百科等功能的“天工AI智能助手”APP也成为了国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。
从技术上来看,天工2.0 MoE大模型的升级直接提升了天工AI搜索的能力。MoE大模型的技术原理是将复杂的大模型任务拆解为多个更小、更细分的子任务,每个子任务都由垂直领域的专家模型处理,从而使得昆仑万维「天工2.0」不仅大幅提高了模型训练与推理的性能和效率,更能实现多个垂直领域的知识融合,使模型能够更好地理解和处理不同应用场景下的复杂问题,为用户提供更准确、更全面的回答方案。
与以往任何一场颠覆性的技术革新相比,大模型的浪潮来得更为迅猛和狂热,应用场景丰富到几乎各行各业都在尝试使用大模型为业务赋能。
就像搜索引擎一样,无法保持“赢者通吃”的市场自然会迎来更多的大模型挑战者。企业要在这场技术浪潮中继续保持领先或实现弯道超车,就必须用更长远的眼光去看待市场。
就如同昆仑万维创始人周亚辉所说的:“如果我们不是做得很早,没有坚持做下来,现在肯定没有我们任何位置,因为相比其他做大模型的公司来说,我们是唯一一家属于中小企业,其他都是市值千亿以上的公司。这主要还是我们企业价值观所决定的,我们的整个战略规划都是强调面对未来十年。我们只考虑未来十年甚至十年以上的战略。”返回搜狐,查看更多