使用php制作动态的sitemap

站点地图这个东西,目的是为了对搜索引擎友好。搜索引擎每天来爬你的网站,如果能给它提供一份实时更新的站点地图,自然会让搜索引擎在爬取网站的时候更加有效率。

这里用php实现了一个自动化的站点地图生成器,可以在爬虫访问站点地图的时候动态的创建页面,来提供一份实时更新的sitemap.xml。
具体的实现,首先你需要让apache服务器支持将xml文件作为php来解析,这样sitemap.xml中的php语句得以执行。
可在站点根目录下的.htaccess文件的<IfModule mod_rewrite.c>和</IfModule>之间加入这一句:

1
AddType application/x-httpd-php .xml

至于php部分,其实就是先获取网站首页所有的url,再将url写入页面,同时将创建的日期设为今天。这样爬虫就会认为站点是实时更新的,从而提高搜索排名。
然后就是sitemap.xml的源代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
<?php
error_reporting(0);//禁止报错
header("Content-type:text/xml"); //输出xml作为文档的头部
echo '<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.chorder.net">';

function _getUrlContent($url) {
$handle = fopen($url, "r");
if ($handle) {
$content = stream_get_contents($handle, 1024 * 1024);
return $content;
} else {
return false;
}
}

function _filterUrl($web_content) {
$reg_tag_a = '/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/';
$result = preg_match_all($reg_tag_a, $web_content, $match_result);
if ($result) {
return $match_result[1];
}
}

function _reviseUrl($base_url, $url_list) {
$url_info = parse_url($base_url);
$base_url = $url_info["scheme"] . '://';
if ($url_info["user"] && $url_info["pass"]) {
$base_url .= $url_info["user"] . ":" . $url_info["pass"] . "@";
}
$base_url .= $url_info["host"];
if ($url_info["port"]) {
$base_url .= ":" . $url_info["port"];
}
$base_url .= $url_info["path"];
if (is_array($url_list)) {
foreach ($url_list as $url_item) {
if (preg_match('/^http/', $url_item)) {
$result[] = $url_item;
} else {
$real_url = $base_url . '/' . $url_item;
$result[] = $real_url;
}
}
return $result;
} else {
return;
}
}

function crawler($url) {
$content = _getUrlContent($url);
if ($content) {
$url_list = _reviseUrl($url, _filterUrl($content));
if ($url_list) {
return $url_list;
} else {
return ;
}
} else {
return ;
}
}

function main() {
$current_url = "https://chorder.net";
$result_url_arr = crawler($current_url);
if ($result_url_arr) {
foreach ($result_url_arr as $url) {
echo '
<url>
<loc>'.$url.'</loc>
<lastmod>'.date("Y/m/d").'</lastmod>
<changefreq>always</changefreq>
<priority>1.0</priority>
</url>
';
}
}
echo '</urlset>';
}
main();
?>

效果可以见 https://chorder.net/sitemap.xml

Linux内核学习笔记 纯Javascript实现图片点击弹出
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×