夕小瑶科技说 2024年12月22日
哈佛华人创办的 AI 搜索引擎,提出了 AI 搜索赛道的 Scaling Law
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Exa是一款有潜质的搜索引擎,它面向AI和普通人。能快速找到合适人选等信息,采用语义搜索将互联网内容向量化,虽有优势但也存在不足,如搜索慢、耗费算力等。

💻Exa是面向AI和普通人的搜索引擎,很有潜质。

🔍它采用语义搜索,将互联网内容向量化。

📊Exa能更好找到用户关心的长尾信息,按需求展示。

🚧但编码页面缓慢昂贵,搜索速度较慢。

原创 DIVA 2024-12-22 16:59 四川

“当人类使用 AI 作为入口,搜索引擎的消费者将只剩下 AI”

不像西部世界的 AI 那么智能,现在的 AI 经常没办法满足我的小众需求。

我开始以为是模型能力的问题,但是试用了各家的 AI 发现它们都因为使用的搜索引擎 API 无法搜出相关内容而无法解答。

想不到制约大模型发展的是居然是现有的搜索引擎!

现在的搜索引擎面向的主要人群都是人,那么有没有一个面向 AI 的搜索引擎?

于是上 X 一搜,还真的发现了一家叫 Exa 的公司做了类似的事情!居然还获得了 Nvidia 和 YC 投资!!

比较有意思的是,这个搜索引擎的 CEO 还自称 Exa 是史上最慢的搜索引擎。

经过一轮官网挖掘,我发现这玩意很有潜质,而且不单能作为搜索 API 给 AI 用,也很适合普通人。

HR 的全网捞人神器

以前给公司招聘的时候,经常找不到合适的人选:每天限制打招呼的个数,发短信还要开会员按条收费!

我试了下用 Exa 搜索人,以下是我给出的文字要求:

Exa 在一杯 ☕️ 的时间里找到了上面的结果。

而且,竟然直接用表格的方式给我呈现了出来——

你还可以点击具体的 URL 找到对应的人的领英档案,感觉满意的时候还可以下载整个数据集。

作为对比,以下是 Google 和 OpenAI 在面对同样请求时的结果:

好用了不只一点,默默为逝去的那些数据整理的夜晚表示不值 ?

于是我开始好奇到底咋做到的呢?

将整个互联网内容向量化

我搜了下 Exa 的技术博客,发现它用到了现在很流行的语义搜索,也就是 RAG(Retrieval-Augmented Generation)。

但是区别在于,别人用语义搜索搜索的是自己公司或者垂直领域的数据,但是 Exa 更进一步:

Exa 试图抓取整个互联网的内容并将其编码为 AI 友好的形式。

为什么要这样做?答案是:巧妇难为无米之炊。

通过研究Exa最近还提出了 AI 搜索界的 Scaling Law——

下面的图表展示了在搜索过程中,随着计算量的增加,匹配结果数量的变化情况。

从图中的数据点可以看出,随着搜索时计算量的增加,匹配结果的数量也在增加。

结果的增加可以让 Exa 更好地找到用户真正关心的长尾信息!

下面是一个通用的搜索流程:

    选中你想要的数据类型:公司、人、文章,或者自定义你想要的类型

    输入搜索的文字要求

    喝一杯咖啡 ☕️(CEO:能不能给我一首歌的时间?)

    等待搜索引擎匹配相关 Embedding 并返回结构化的数据表

可以看到在这个例子里,Exa 找到了 1057 个结果,并且返回了 108 个和搜索要求相关的结果,你甚至不需要写哪怕一行 Python 代码。

烧钱造护城河

有人肯定会有疑问,既然语义搜索那么好,为什么 Google 不直接将其全量应用到自身产品上?

答案是因为语义搜索贵,而且搜索起来慢

首先,编码页面而非索引关键词的过程缓慢且昂贵。虽然 Exa 已经编码了数十亿个网页,但与谷歌索引的约一万亿个网页相比,这只是一小部分。

此外,Websets 的搜索速度较慢,有时需要几分钟才能返回结果。

然而,Exa 的联合创始人兼首席执行官威尔·布里克(Will Bryk)却认为这是值得的,让我们来看看他是怎么说的:

我相信随着技术的不断发展和完善,语义搜索将对未来的信息检索领域产生深远影响。

连 Nvidia 和 YC 都看中了这个领域的潜力,这才有了标题说到的投资史上最慢搜索产品的故事。

当然我更担心的问题是,单个搜索这么耗费算力,这个引擎免费开放看来是遥遥无期 ?

那么重点来了?那搜索的时候到底应该怎么选搜索引擎?

灵活选用搜索引擎

即使 Exa 带来了全新的搜索体验,但它也并不是一个银弹(万能膏药)。

基于 Embedding 的搜索(如 Exa)在具体匹配时候会稍逊一筹,我的理解是 Embedding 是表示现实世界中的人、地点和事物等实体的好方法,但如果试图用 Embedding 表示整个句子或页面文本,会丢失很多信息。

例如,将《战争与和平》表示为单个 Embedding,会失去故事中发生的几乎所有具体事件,只留下其体裁和时期的大致感觉。

关于选用合适的搜索引擎类型,我自己的体验是:

    当你不确定你在找什么的时候:可以用 Exa,例如对于查询“一篇关于金融领域大语言模型的有趣博客文章”,Exa 的表现优于其他搜索引擎。

    2. 当你很确定具体的搜索关键字:使用传统的搜索引擎,可以快速匹配。如果你想要带总结的答案,可以使用以下的搜索:

最后

虽然 Exa Websets 正式版本还没有上线,但我已经抢先加入了试用队列。

期待用 Exa 找出房子大,消费低,旅游方便,适合地理套利,网好,最重要是适合中国胃的 N 个旅居城市!

感兴趣的小伙伴也可以在这里加入试用队列:

https://exa.ai/websets

懒得加入的也可以留言自己想搜索的东西,等我拿到资格后给大家出一期 ?



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Exa 语义搜索 搜索引擎 信息检索
相关文章