大纲
站内搜索数据提交流程
-
什么是XML数据文件?
-
什么是sitemap索引文件?
-
文件大小的限制?
-
如何设置更新周期?
-
数据提交后,多久能被百度抓取?
-
提交的数据都会被收录吗?
站内搜索数据格式说明
-
数据文件基本结构
-
固定标签部分
-
扩展标签部分
-
数据格式类型
-
通用-百度站内搜索数据提交模板_0
-
小说
-
影视
站内搜索数据提交流程
站内搜索数据提交包含以下4个步骤:
常见问题:
1什么是XML数据文件?
单个XML数据格式样例如下:
|
XML文件需以utf-8编码 |
|
必填,标识整个链接集合的开始和结束 |
|
必填,每条数据都用一对标签标识 |
<loc>http://example.com/…/page1.html</loc> |
必填,页面地址,长度不得超过256字节 |
|
标识该页面的最后更新时间 |
|
标识此页面的更新频率 |
|
标识此页面相对于其他页面的优先权比值,介于0.0-1.0之间 |
|
必填,标识扩展标签的开始和结束 |
|
必填,紧邻,扩展标签都包含在 |
|
必填,标签闭合 |
|
必填,标签闭合 |
|
必填,标签闭合 |
|
必填,标签闭合 |
上述XML数据文件向百度提交了一个url:http://example.com/…/page1.html。
若有多条url,则按照上述格式重复
2什么是sitemap索引文件?
如需提交大量XML数据文件,可以将其列在sitemap索引文件中,然后提交该索引文件,而无需分别提交每个数据文件。索引文件包含的各个字段标签如下:
|
XML文件需以utf-8编码 |
|
必填,标识sitemap索引文件 |
|
必填,每个数据文件都用一对标签标识 |
<loc>http://example.com/…/aaa.xml</loc> |
必填,标识数据文件的位置 |
|
标识数据文件的最近一次修改时间 |
|
必填,标签闭合 |
|
必填,标签闭合 |
若有多个XML数据文件,则按照上述格式重复
3文件大小的限制?
每个XML数据文件包含的网址不得超过5万个,且单个文件大小不得超过10MB。每个sitemap索引文件包含的XML数据文件不得超过5万个,但是单个索引文件应该小于10MB。这些限制条件有助于避免网络服务器因传输非常大的文件而遇到麻烦。
4如何设置更新周期?
百度spider会参考设置周期抓取数据,因此请根据数据文件内容的更新情况(比如增加新url)来设置。
请注意若文件内url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范畴内。
5数据提交后,多久能被百度抓取?
数据提交后,一般在1小时内百度会开始处理,处理完成的时间视文件大小而定。
当前默认的抓取速度是10url/s,考虑网速等因素造成的折损,每个站点的天级抓取量可达50万。
6提交的数据都会被收录吗?
站内搜索将收录您提交的全部数据;但对于百度网页搜索来说,是否收录与页面质量相关。
站内搜索数据格式说明
数据文件基本结构
站内搜索的XML数据文件由两部分组成:固定标签部分和扩展标签部分。
固定标签部分
包含、、、、、、、共8个标签。虽然未必都要填写,但是它们是所有数据格式的通用字段。
标签名称 |
属性类型 |
属性描述 |
优先级 |
标签限制 |
urlset |
/ |
标记整个文档的开始和结束 |
必选 |
/ |
url |
/ |
标记每条信息的开始和结束 |
必选 |
1个urlset可以包含很多url |
loc |
url |
该条数据的存放地址 |
必选 |
以“http://”开头 最大长度256个字符 |
lastmod |
日期 |
该条数据的最新一次更新时间 |
可选 |
格式为YYYY-MM-DD |
changefreq |
字符串 |
该条数据的更新频率 |
可选 |
有效值为:always、hourly、daily、weekly、monthly、yearly、never |
priority |
小数 |
指定此链接相对于其他链接的优先权比值 |
可选 |
数值范围:0.0~1.0 |
data |
/ |
标记扩展数据的开始和结束 |
必选 |
/ |
display |
/ |
标记扩展数据中用作展现的字段的开始和结束 |
必选 |
/ |
注意事项:
-
XML数据文件必须使用UTF-8编码。
-
所有标签必须按照格式中指定的顺序列出,非必选标签可以不写,但是不能乱序。
-
标签大小写敏感,请务必细心区分。
-
url中不能含有中文字符。
-
lastmod必须严格遵守日期格式,2013-08-01是正确的,2013-8-1则是错误的。
扩展标签部分
不同数据格式类型包含的扩展标签也不同,主要用于标识网页的正文内容和周边属性。通过扩展标签提交的数据将被用于摘要的特型展现、结果的筛选和排序选项设置,甚至直接影响结果的权重。
数据格式类型
站内搜索将根据站点类型分别制定相应的数据格式,以及给出相应的摘要样式模板。
站内搜索的数据格式包含以下类型,后续还会根据需要再添加:
-
通用-百度站内搜索数据提交模板_0
-
影视
-
小说
-
音乐(建设中)
-
商品(建设中)
-
招聘(建设中)
-
旅游(建设中)
-
图书资料(建设中)
-
问答(建设中)
温馨提示: |
---|
由于历史原因,“通用”类别的数据结构和后续的其他各个类别(如“影视-电影”)表示嵌套数据的方式不太一样。前者将子标签包含在父标签里,后者子标签独立存在但嵌套在父标签中。例如同样表示演员姓名, |
“通用”类别的表示方法为:<actorname=”黄晓明”url=”http://example.com/path”/> |
其他类别的表示方法为:<actor><name>黄晓明</name><url>http://example.com/path</url></actor> |
通用类型-百度站内搜索数据提交模板_0
图1通用类型的摘要示意图(不代表最终效果)
具体格式说明:
注:“可筛选”“可排序”指的是相应字段在搜索结果页可展现为筛选选项或排序选项;因为所有字段都可用于展现,所以未单独标注。具体应用方式可参考《站内搜索外观和功能设置》。
中文标签 |
英文标签 |
子标签 |
属性类型 |
属性描述&举例 |
优先级 |
个数限制 |
可筛选 |
可排序 |
标题 |
title |
/ |
字符串 |
建议填写,搜索系统优先选用该title |
可选 |
1 |
|
|
内容 |
content |
/ |
字符串 |
如能提交全文,则不需要spider再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差 |
可选 |
1 |
|
|
标签 |
tag |
/ |
字符串 |
可以是内容主题、领域、分类等的简短说明文字;最多可定义20个 |
可选 |
20 |
是 |
|
发布时间 |
pubTime |
/ |
日期 |
格式为YYYY-MM-DDThh:mm:ss 只有提交该字段,“外观设置”中按时间排序或筛选的功能选项才能正常生效 注意:YYYY-MM-DD和hh:mm:ss中间必须包含“T” |
可选 |
1 |
|
是 |
面包屑 |
breadCrumb |
— |
/ |
用于标记当前网页在站点中所处的层级位置,最多可定义4层,且标签先后顺序必须对应层级顺序,写在最前为最高层级 假设一篇文章位于新浪网“体育>NBA>洛杉矶湖人”路径下,那么可以为这个页面设置3个breadCrumb标签 |
可选 |
4 |
|
|
层级名称 |
title |
字符串 |
常常体现为频道名或版块名 前面例子中3个breadCrumb标签的title分别为“体育”“NBA”“洛杉矶湖人” |
可选 |
1 |
是 |
|
|
层级首页地址 |
url |
url |
前面例子中title为“NBA”时url为http://sports.sina.com.cn/nba/ |
可选 |
1 |
是 |
|
|
缩略图 |
thumbnail |
— |
/ |
支持格式gif、jpg、jpeg、png,主要用于搜索结果的摘要展现 每个网页最多可以提交10个缩略图,目前站内搜索仅选用其中的第一个用于摘要展现 |
可选 |
10 |
|
|
缩略图地址 |
loc |
url |
可选 |
1 |
|
|
||
图片 |
image |
— |
/ |
支持格式gif、jpg、jpeg、png 每个网页最多可以提交100张图片,目前当thumbnail不存在时,默认选择image的第一张图片用于摘要展现 |
可选 |
100 |
|
|
图片存放地址 |
loc |
url |
可选 |
1 |
|
|
||
图片标题 |
title |
字符串 |
如果没有标题,也可用于填写该图片的标签等 |
可选 |
1 |
|
|
|
视频 |
video |
— |
/ |
每个网页最多可提交100个视频数据。(近期即将支持)当thumbnail和image不存在时,默认选择video的第一个缩略图用于摘要展现 |
可选 |
100 |
|
|
视频地址 |
loc |
url |
包含2种情形:指向实际视频媒体文件,或者指向特定视频的播放器 前者例如: http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A -5CDB-D8E5-BEB7-C15C62B686F2.flv 后者例如: http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html |
可选 |
1 |
|
|
|
视频标题 |
title |
字符串 |
例如上述地址的视频标题为“考研访谈:名师陈文灯教授数学复习指导答疑” |
可选 |
1 |
|
|
|
视频缩略图地址 |
thumbnail_loc |
url |
例如上述视频的缩略图地址为 http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB |
可选 |
1 |
|
|
|
视频时长 |
duration |
整数 |
单位:秒 |
可选 |
1 |
|
|
|
作者 |
author |
— |
/ |
常见于web2.0页面,例如论坛帖子作者、博客作者 |
可选 |
1 |
|
|
作者昵称 |
nickname |
字符串 |
可选 |
1 |
|
|
||
作者个人首页地址 |
url |
url |
该url指向的页面通常提供作者的个人信息介绍 |
可选 |
1 |
|
|
|
作者头像地址 |
thumbnail |
url |
可选 |
1 |
|
|
||
回复数 |
replyCount |
/ |
整数 |
通常表示论坛贴子回帖数,或博客评论数 |
可选 |
1 |
是 |
是 |
属性 |
property |
/ |
字符串 |
主要用于帖子,例如精华、热门、置顶、最新等属性,每个网页最多可以提交3个内容属性 |
可选 |
3 |
是 |
|
价格 |
price |
— |
/ |
可选 |
1 |
|
|
|
现价 |
new |
小数 |
商品价格或打折优惠后的现价 |
可选 |
1 |
是 |
是 |
|
原价 |
old |
小数 |
打折优惠前的价格,如果有的话 |
可选 |
1 |
是 |
是 |
|
折扣 |
discount |
— |
/ |
折扣优惠信息 |
可选 |
1 |
|
|
折扣值 |
value |
小数 |
折扣值 |
可选 |
1 |
是 |
是 |
|
折扣描述 |
description |
字符串 |
折扣优惠介绍 |
可选 |
1 |
|
|
|
评价 |
review |
— |
/ |
评价信息 常用于商品、活动、影视著作等对象 |
可选 |
1 |
|
|
评分值 |
rating |
小数 |
可选 |
1 |
是 |
是 |
||
评分基数 |
rating_base |
小数 |
评分的基数值或“满分”值 各网站采用的评分制不尽相同,例如最典型的5分制(0分-5分),还有10分制(0分-10分),或者用百分比来表示,满分为100%(0%-100%) 站长可根据实际情况来填写,或者保持不填;只填写rating_base而不填rating是没有意义的 |
可选 |
1 |
|
|
|
评分人数 |
count |
整数 |
评分人数 |
可选 |
1 |
是 |
是 |
|
位置 |
location |
— |
/ |
常用于标识机构、商品或者活动 |
可选 |
1 |
|
|
地址 |
address |
字符串 |
可选 |
1 |
|
|
||
电话 |
tel |
字符串 |
可选 |
1 |
|
|
||
地域 |
area |
字符串 |
地域范围 例如“北京市”“海淀区”“王府井” 主要用于地域筛选 |
可选 |
1 |
是 |
|
|
坐标 |
coordinate |
字符串 |
坐标 采用WGS84标准。格式为:纬度,经度。北纬+,南纬-,东经+,西经-。小数点后最多保留6位。例如“+40.783333,-73.966667”是纽约中央公园的坐标 |
可选 |
1 |
|
|
|
时间 |
time |
— |
/ |
通常用于标识活动;区别于网页内容发布时间 |
可选 |
1 |
|
|
开始时间 |
startDate |
日期 |
开始时间 格式为YYYY-MM-DDThh:mm:ss |
可选 |
1 |
|
是 |
|
结束时间 |
endDate |
日期 |
结束时间 格式为YYYY-MM-DDThh:mm:ss |
可选 |
1 |
|
是 |
数据标记示例:
<loc>http://ky.kaoyan.com/04/467393/</loc>
【写给即将上战场的你们】努力为王,心态为皇
略
考研复习经验
考研加油站“url=”http://ky.kaoyan.com/”/>
考研政治“url=”http://www.kaoyan.com/s/zhengzhi”/>
<thumbnailloc=”http://docs.kaoyan.com/jpg/12/1204dde3cd949ccc.jpg”/>
<imageloc=”http://docs.kaoyan.com/jpg/12/12048543278e760d.jpg”title=”七个最常用的泰勒展开式“/>
<videoloc=”http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html”title=”考研访谈:名师陈文灯教授数学复习指导答疑“thumbnail_loc=”http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB”duration=”217509″/>
视频非实际页面内数据,为示意而构造–>
…
小说类型:
具体格式说明:
中文属性标签 | 英文属性标签 | 属性类型 | 需求对应 | 优先级 | 重复次数 | 举例 |
作品名字 | name | Text | 作品的名字 | 必选字段 | 1 | 半梦半醒 |
作者 | author | Person | 作品的作者 | 必选字段 | 1 | 作者字段,包含3部分,具体见下方。 |
作品配图 | image | URL | 展现的时候会用到 | 强烈建议 | 不限 | |
作品简介 | description | Text | 一般的文本 | 强烈建议 | 1 | 小说故事发生于2005年,跨度六年,讲述了主人公朱亚楠一次去北京参加颁奖大会,结识一号女主角王文静。两人开始朦朦胧胧的爱恋。由于不在同一城市生活,两人只能艰难的异地恋。种种阴差阳错导致他们分分离离,其间又交叉了二号女主角苏扬和三号女主角刘琳。朱亚楠游离在三个美貌女孩之间,最终他会选择和谁终生厮守?他们的爱情又会有什么样的波折?敬请期待! |
分类 | genre | Text | 作品的分类,方便书籍间的类聚 | 必选字段 | 1 | 言情 |
完成字数 | wordCount | Number | 作品的总完成字数 | 强烈建议 | 1 | 19221 |
阅读链接 | url | URL | 作品的阅读链接 | 必选字段 | 1 | http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html |
更新状态 | updateStatus | Text | 完结还是更新中 | 必选字段 | 1 | 已完结 |
阅读费用 | trialStatus | Text | 免费或者是前多少章免费,或收费 | 必选字段 | 1 | 免费 |
周点击 | weeklyClick | Number | 最近一周的点击数量 | 强烈建议 | 1 | 50000 |
月点击 | monthlyClick | Number | 最近一个月的点击数量 | 强烈建议 | 1 | 150000 |
总点击 | totalClick | Number | 作品的总点击数量 | 必选字段 | 1 | 3197509 |
最新章节 | newestChapter | Chapter | 作品的最新章节 | 必选字段 | 1 | |
章节 | chapter | Chapter | 作品的章节 | 必选字段 | 不限 | |
更新时间 | dateModified | Date | 作品的更新时间 | 必选字段 | 1 | 2012/10/5 |
作者-author | ||||||
作者名称 | name | Text | 作者的名称,可能是姓名、笔名或ID | 必选字段 | 1 | zhujiaguo1986 |
作者简介 | description | Text | 作者的简介 | 强烈建议 | 1 | 朱家果,男,80后知名作家、诗人。 |
网页链接 | url | URL | 作者的网页链接,可能是博客或者个人主页 | 可选字段 | 1 | http://blog.sina.com.cn/zhujiaguo2007 |
最新章节-newestChapter | ||||||
所属小说名称 | articleSection | Text | 章节所属的小说名称 | 必选字段 | 1 | 半梦半醒 |
最新章节标题 | headline | Text | 最新章节的标题 | 必选字段 | 1 | 未名湖畔 |
最新章节链接 | url | URL | 最新章节页面的URL链接 | 必选字段 | 1 | http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html |
更新时间 | dateModified | Date | 最新章节的更新时间 | 必选字段 | 1 | 2012/10/5 |
章节-chapter | ||||||
所属小说名称 | articleSection | Text | 章节所属的小说名称 | 必选字段 | 1 | 半梦半醒 |
章节标题 | headline | Text | 章节的标题 | 必选字段 | 1 | 欢畅一日 |
章节内容 | acticleBody | Text | 给用户展现最新内容 | 强烈建议 | 1 | 刚出朝阳宾馆,王文静就嚷嚷着要去对面的桌球馆里打桌球。王文静挽着朱亚楠的手进了桌球馆,在窗口处领了桌号,要了球杆。许妮一声不响地跟在后面,一脸失落落的样子。服务生刚把桌上的球仔摆好,王文静便乐此不彼地打开了。 |
章节链接 | url | URL | 章节的URL链接 | 必选字段 | 1 | http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html |
更新时间 | dateModified | Date | 章节的更新时间 | 强烈建议 | 1 |
电影类型:
图2影视–电影类的摘要示意图(不代表最终效果)
具体格式说明:
-
“属性类型”说明
1.含有子标签的属性类型:Person、AggregateRating、VideoObject、InTheaters。子标签内容详见下方各个分支说明。
2.时间相关的属性类型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYY;Duration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“3年6个月4天12小时30分5秒”。时间格式说明详见:ISO8601。
3.Number支持各种数字类型,例如整数和小数。
-
“出现次数”说明
1.不限次数的情况下,用多组同名标签来表达多个值,例如:爱情青春。
No. |
中文标签 |
英文标签 |
属性类型 |
属性描述 |
优先级 |
出现次数 |
举例 |
可展现 |
可筛选 |
可排序 |
1 |
名称 |
name |
Text |
电影名称 |
必选 |
1 |
中国合伙人 |
是 |
|
|
2 |
别名 |
alias |
Text |
电影别名 |
可选 |
不限 |
中国先生 |
是 |
|
|
3 |
海报 |
image |
URL |
电影海报的链接 |
强烈建议 |
不限 |
http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg |
是 |
|
|
4 |
描述 |
description |
Text |
作品的简介 |
必选 |
1 |
从1980年代到21世纪,30年的大变革背景下,三个好友为了改变自身命运,创办英语培训学校,最终实现“中国式梦想”。 |
是 |
|
|
5 |
类型 |
genre |
Text |
通常指作品本身的分类属性 |
必选 |
不限 |
喜剧 |
是 |
是 |
|
6 |
演员 |
actor |
Person |
演员或动画片中的配音演员 |
必选 |
不限 |
|
是 |
|
|
7 |
导演 |
director |
Person |
电影导演,包括执行导演等 |
必选 |
不限 |
|
是 |
|
|
8 |
编剧 |
author |
Person |
电影等的编剧 |
可选 |
不限 |
|
是 |
|
|
9 |
内容语言 |
inLanguage |
Text |
电影对白主题语言 |
必选 |
1 |
中文 |
是 |
|
|
10 |
地区 |
contentLocation |
Text |
影片的制作地区 |
必选 |
不限 |
中国 |
是 |
是 |
|
11 |
上映信息 |
premiere |
PremiereInfo |
电影上映的有关信息 |
必选 |
不限 |
|
是 |
是 |
是 |
12 |
摘要 |
abstract |
Text |
显示在网页中的摘要数据 |
强烈建议 |
1 |
略 |
|
|
|
13 |
综合评价 |
aggregateRating |
AggregateRating |
用户综合评价 |
必选 |
1 |
|
是 |
|
是 |
14 |
预告片 |
trailer |
VideoObject |
预告片信息 |
强烈建议 |
不限 |
|
|
|
|
15 |
评论数量 |
commentNum |
Number |
用户评论、意见的数量,表达自己的观点,不一定和作品相关 |
强烈建议 |
1 |
|
是 |
||
16 |
获奖信息 |
awards |
Text |
电影的获奖信息 |
强烈建议 |
不限 |
金马奖 |
是 |
|
|
演员-actor |
|
|
|
|||||||
1 |
演员姓名 |
name |
Text |
演员的姓名 |
必选 |
1 |
邓超 |
是 |
|
|
2 |
页面链接 |
url |
URL |
演员页面的URL链接 |
强烈建议 |
1 |
<url>http://people.mtime.com/1256584/</url> |
|
|
|
3 |
角色名称 |
role |
Text |
角色的姓 |