日期:2011-12-08 13:02:00 来源:本站整理
完善抓取谷歌链接的php代码[网站编程]
本文“完善抓取谷歌链接的php代码[网站编程]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
01 <?php 02 03 header("Content-Type: text/html;charset=utf-8"); 04 05 set_time_limit(0); 06 07 08 function geturl($keywords, $page){ 09 10 $page = ($page - 1) * 10; 11 12 $content = file_get_contents("http://www.谷歌.com/search?sclient=psy-ab&hl=en&start=$page&source=hp&q=$keywords&pbx=1&oq=$keywords&aq=f&aqi=g4"); 13 //<h3 class="r"><a href="http://en.wikipedia.org/wiki/MagiCans" onmousedown="return hlprwt(this, 'http://en.wikipedia.org/wiki/MagiCans')"> 14 //$preg = '/<h3\s*class="r">.*<\/h3>/im'; 15 16 $preg = '/<h3\s*class="r"\s*>.*/im'; 17 18 preg_match_all($preg, $content, $m); 19 20 preg_match_all('/<a(.*?)>(.*?)/', $m[0][0], $ms); 21 22 23 $list = array(); 24 25 foreach ($ms[1] as $link){ 26 27 preg_match('/http:\/\/[a-zA-Z0-9._-]*/', $link, $matches); 28 29 if (!empty($matches[0])){ 30 $list[] = $matches[0]; 31 } 32 } 33 34 $list = array_unique($list); 35 36 return $list; 37 } 38 39 $keywords = "Ugg+Delaine+Boots"; 40 $page = 10; 41 42 for ($i=1;$i<=$page;$i++){ 43 44 echo '这是第',$i,'页'; 45 46 $url = geturl($keywords, $i); 47 48 foreach ($url as $u){ 49 echo "$u "; 50 } 51 } |
当某页后果数目小于设定后果数目时刻(意味着搜索到末尾了),就终止业务.
01 <?php 02 header("Content-Type: text/html;charset=utf-8"); 03 set_time_limit(0); 04 function geturl($keywords, $page, $num) 05 { 06 $page = ($page - 1) * 10; 07 $content = file_get_contents("http://www.谷歌.com/search?sclient=psy-ab&hl=en&start=$page&source=hp&q=$keywords&pbx=1&oq=$keywords&num=$num&aq=f&aqi=g4"); 08 $preg = '/<h3\s*class="r"\s*>.*/im'; 09 preg_match_all($preg, $content, $m); 10 preg_match_all('/<a(.*?)>(.*?)/', $m[0][0], $ms); 11 12 $list = array(); 13 foreach ($ms[1] as $link) 14 { 15 preg_match('/http:\/\/[a-zA-Z0-9._-]*/', $link, $matches); 16 if (!empty($matches[0])) 17 { 18 $list[] = $matches[0]; 19 } 20 } 21 $list = array_unique($list); 22 return $list; 23 } 24 25 $keywords = 'site:kugou.com+inurl:upload'; 26 $page = 10; 27 $num = 20; 28 for ($i=1;$i<=$page;$i++) 29 { 30 $url = geturl($keywords, $i, $num); 31 print_r('Page: '.$i.' Results Count: '.count($url).''); 32 foreach ($url as $u) 33 { 34 print_r($u.''); 35 } 36 if (count($url)<$num) 37 { 38 break; 39 } 40 } 41 ?> |
以上是“完善抓取谷歌链接的php代码[网站编程]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:
本文地址: | 与您的QQ/BBS好友分享! |
评论内容只代表网友观点,与本站立场无关!
评论摘要(共 0 条,得分 0 分,平均 0 分)
查看完整评论