有些讹传在里面了,我来澄清一下:
首先,num=100 是 Google 网页搜索 URL 的一个参数,用于控制单页返回结果数量,于9月中旬已全面失效。Google 本身不提供公开的网页搜索API。GCP平台上的 Custom Search API 是谷歌官方的另一个服务,其返回内容和排序与 https://t.co/D0jftDokmh 主站搜索并不一致。
第二,主流 Chatbot/Agent(包括 ChatGPT、Claude 等)获取实时信息,使用的是 Bing、Brave 等提供的第一方搜索API。
第三,市面上所谓的“Google Search API”,本质是 SERP (搜索引擎结果页) 服务,通过模拟浏览器抓取实现。这些第三方API主要被一些小型Agent或SEO工具使用。
第四,Reddit 股价下跌,直接原因是用户活跃度数据不佳与 ChatGPT 对其内容引用比例下跌。前者影响广告收入预期,后者则打击了其作为AI训练数据源的核心价值。num 参数失效并不能直接导致后者,但它通过重创第三方数据抓取生态,间接动摇了市场对Reddit“长尾”数据价值的信心。
第五,这个事件还可以和 Grokipedia 联系在一起。它彻底暴露了当前AI生态依赖第三方数据源(如Reddit)和分发渠道(如Google/Bing)的脆弱性。马斯克的解法是垂直整合:用自有数据源(X)训练自有模型(Grok),来打造自有知识库(Grokipedia),试图从根本上掌握数据和信息定义权,不再受制于人。
我们或许真的需要重新思考,什么是搜索引擎?以及,我们是否还需要一个 one-for-all 的搜索引擎?