设为首页收藏本站language 语言切换
查看: 1235|回复: 0
收起左侧

搜索引擎技术核心揭密(下)

[复制链接]
发表于 2010-2-24 13:36:05 | 显示全部楼层 |阅读模式
<br>                    对Google的分析 <BR><BR>  为了便于理解,现在假设我们所真正需要的东西是:搜索结果的标题。网址和简介等,这是一个简洁而典型的需求。这样,我们所要做的便是:去除Google搜索结果的台头和脚注,包括一个Google的标志、再次搜索的输入框和搜索结果说明等,并且在剩余的搜索结果各项条目中剥离原来的HTML格式标记,替换成我们想要的格式。 <BR><BR>  要做到这一点,我们必须仔细地分析Google搜索结果的HTML源码,找到其中的规律。不难发现,在Google的搜索结果的正文总是包含在源码的第一个&lt;p&gt;标记和倒数第二个&lt;p&gt;标记之间,并且倒数第二个&lt;p&gt;标记后紧跟table字符,而且这个组合“&lt;p&gt;&lt;table”在源码中也仅有一次,利用这个特点,我们可以这样去除Google的台头和脚注。 <BR><BR>  以下所有程序均依次接续在上文程序的“进一步处理”处。 <BR><BR>  result_string = strstr( result_string, "&lt;p&gt;"); //取 result_string从第一个&lt;p&gt;开始后的字符串,以去除Google台头 <BR>  position= strpos( result_string,"&lt;p&gt;table符号的位置 <BR>  result_string= substr( result_string,0, position);//截取第一个&lt;p&gt;table符号之前的字符串,以去除脚注 <BR><BR>应用与实现 <BR><BR>  OK,现在我们已经得到有用的HTML源码主干了,剩下的问题是如何自主地显示这些内容。我们再分析一下这些搜索结果条目,发现每个条目之间也是很有规律的用 <BR><BR>分隔,也就是各成一个段落,按这个特点我们用explode()函数把每个条目切开: <BR><BR>  语法:explode(string separator, string string);  <BR><BR>  返回一个数组,按separator切开后的各个小字串被保存在数组中。 <BR><BR>  于是: <BR>  result_array=explode("&lt;p&gt;", result_string); //用字串"&lt;p&gt;"把结果切开 <BR><BR>  我们就得到一个数组 result_array,其中每个元素都是一个搜索结果条目。我们所要做的仅仅是研究每个条目及其HTML显示格式代码,然后按要求替换就行了。下面用循环来处理 result_array中的每个条目。 <BR>  for( i=0; i    { <BR>   ... //处理每个条目 <BR>   }  <BR><BR>  对于每个条目,我们也很容易找到一些特点:每个条目都由标题、摘要、简介、类别、网址等组成,每个部分都换行,即包含&lt;br&gt;标记,于是再次分割:(以下处理程序放在上文的循环中) <BR>  every_item=explode("&lt;br&gt;", result_array[ i]); <BR><BR>  这样我们得到一个数组 every_item,其中 every_item[0]就是标题, every_item[1]和 every_item[2]两行为摘要, every_item[3]和 every_item[4]等等的头部如果包含“&lt;font size=-1 color=#6f6f6f&gt;简介:&lt;/font&gt;”、“&lt;font size=-1 color=#6f6f6f&gt;类别:&lt;/font&gt;”字符,则是简介或类别(因为有的结果条目没有该项),如果头部包含“&lt;font color=green&gt;”则肯定就是网址啦,这种对比判断我们常使用正则表达式(略),如果要替换也很方便,比如包含标题的$every_item[0],其本身是有链接的,我们希望修改这个链接属性,让它在新窗口打开链接: <BR>  echo eregi_replace('   { <BR>  ... //处理每个条目中除去第一项(第一项为标题,已经显示)的每一项 <BR>  ... //更多格式修改 <BR>  }  <BR><BR>  这样就修改了链接属性,其余很多显示格式的修改、剥离、替换都能用正则替换eregi_replace()来完成。 <BR><BR>  至此我们已经得到了每个搜索条目的每一项,并能任意修改每项的格式,甚至可以给他套上漂亮的表格。然而一个好的程序应该能适应各种运行环境的,这里也不例外,我们其实还只是讨论了搜索结果的HTML剥离的一种框架方法,真正要做得完美,还要考虑很多内容,比如要显示一共搜索出多少结果,分成多少页等等,甚至还可以刨除与Google相关的那些“类别”、“简介”等代码,让客户根本看不到原始网站。不过这些内容和要求我们都能通过分析HTML进行剥离得到。现在大家完全能自己动手,做个极富个性化的搜索引擎啦。                   <br><br>
您需要登录后才可以回帖 登录 | 论坛注册

本版积分规则

QQ|Archiver|手机版|小黑屋|sitemap|鸿鹄论坛 ( 京ICP备14027439号 )  

GMT+8, 2025-4-9 00:39 , Processed in 0.056936 second(s), 24 queries , Redis On.  

  Powered by Discuz!

  © 2001-2025 HH010.COM

快速回复 返回顶部 返回列表