第818章 搜索习惯 京宝梵
第818章 搜索习惯
go搜索提供的这个官方标记,直接切中了商务人士和普通网民对信息真实性的需求。
只要是存在于网际网路上的公开网页,似乎没有go搜索查不到的内容。
加州伯克利分校的计算机实验室里,埃里克正在研究go搜索的排序逻辑。
他在搜索框里输入了几个c语言相关的生僻词汇,看着返回的结果列表。
他们的爬虫程序抓取范围非常广。
埃里克对身后的室友陈述着观察结果。
只要是公开发布在网际网路上的网页,几乎都能被收录。
而且排序机制很清晰。
室友凑近屏幕看了一会儿。
目前的检索匹配机制还无法应对比较复杂的自然语言长句。
室友指出其中的技术局限。
如果你输入一个完整的长疑问句,系统只会把句子拆解成独立的词汇,然后去匹配包含这些单词的网页,结果会有一定的偏差。
但这已经足够了。
埃里克切换了几个不同的搜索词。
对于现阶段的网民来说,精确的单词相关匹配才是最常用的需求。
只要关键词输入准确,相关程度最高的网页就会排在最前面。
几乎没有疏漏。
更重要的是他们对大企业和重要网站的处理方式。
埃里克输入了微软的英文名称。
排在第一的是微软的官方网站,带有显眼的官方标记和所属公司全名。
排在后面的才是各种技术论坛里讨论微软系统漏洞的新闻和帖子。
这避免了近似信息的干扰。
埃里克指着那个官方标记。
技术上实现这种权重倾斜不难,难的是如何确认这个网站背后的实体身份。
红木城,矽谷在线总部。
弗兰克坐在会议室的主位上。
长桌两侧坐着搜索业务部的负责人和审核团队的主管。
投影幕布上显示着搜索请求量的增长曲线。
伴随门户网站日均一亿次以上的点击量,搜索框的使用频次正在呈指数级上升。
搜索业务负责人做着常规汇报。
用户已经习惯了在找不到特定信息时,直接使用我们的搜索功能。
这是目前市面上响应速度最快、收录最全的搜寻引擎。
弗兰克看着数据报表,微微点头。
审核团队的主管随后发言,语气中带着明显的疲惫。
马歇尔先生,人工审核部门的压力已经达到了极限。
主管翻开手里的记录册。
为了确保搜索结果中官方标记的准确性,我们的审核员每天需要处理上千份企业和机构的资质证明。
他们要核对工商注册信息,打电话确认官方域名的归属权,甚至要甄别那些试图通过提供虚假材料来获取官方标记的山寨网站。
在算法还无法完全自主辨别网页真实权威性的时代,矽谷在线采用了人工介入的方式。
这部分工作消耗了大量的人力成本。
主管提出实际困难。
章节内容不完整,请退出阅读模式查看完整内容!