索引缓存算法缩短网络搜索时间
2012年04月23日 来源: 科技日报
由南开大学博士生童健聪发明的索引缓存算法,目前已经在百度系统使用, 让亿万网民开始享受到了更快捷的搜索服务。近日,百度公司与南开大学举办了“索引缓存算法”成果交付仪式,标志着这一校企合作产出的重大技术成果正式投入百度系统使用并开始申请专利。
据介绍,搜索引擎每天至少要承担数十亿次的搜索任务,然而随着热搜词的增多,缓存的处理空间却很有限,这就导致一些高频搜索的内容被推挤到硬盘,增长了响应时间,影响了用户体验,长此以往甚至有可能导致用户流失。有调查显示,如果搜索引擎提交搜索结果的时间放缓0.4秒,一天的搜索量就会减少800万次。如何给用户提供最快的响应、最准确的查询结果,童健聪发明的索引缓存算法恰好解决了这一问题。
童健聪告诉记者,“索引缓存算法”可以在同等(机器、网络)资源下,使用户的等待时间变短,改善用户的搜索体验。他用了一个形象的比喻向记者解释说:“如果所有的被搜索对象是一个图书馆,那么我所做的就是在常看书目的区域分出了一个必看常用书目的区域,这样一来,即使是常看书目越来越多,也不用担心最爱不释手的几本书被推挤到书库,而其他的常看书目还是按照浏览的频率而自动排列。”
此项成果是童健聪在导师王刚、刘晓光的指导下,经过7个多月的时间完成的。这期间他试验了8种方案,并在数据集上运行后做了改进,向百度提交了一份关于索引缓存算法的详细报告。而后又与百度科技人员一起在真实系统上试验、磨合,最终成功在百度搜索上线应用。(记者冯国梧通讯员张轶帆)