站内搜索数据提交流程和格式说明

大纲


站内搜索数据提交流程

    • 什么是XML数据文件?

    • 什么是sitemap索引文件?

    • 文件大小的限制?

    • 如何设置更新周期?

    • 数据提交后,多久能被抓取?

    • 提交的数据都会被收录吗?

站内搜索数据格式说明

  • 数据文件基本结构

    • 固定标签部分

    • 扩展标签部分

  • 数据格式类型

    • 通用-百度站内搜索数据提交模板_0

    • 小说

    • 影视

站内搜索数据提交流程


站内搜索数据提交包含以下4个步骤:

站内搜索数据提交流程和格式说明

常见问题:

1什么是XML数据文件?

单个XML数据格式样例如下:

XML文件需以utf-8编码

必填,标识整个链接集合的开始和结束

必填,每条数据都用一对标签标识

<loc>http://example.com/…/page1.html</loc>

必填,页面地址,长度不得超过256字节

2013-08-12

标识该页面的最后更新时间

daily

标识此页面的更新频率

0.8

标识此页面相对于其他页面的优先权比值,介于0.0-1.0之间

必填,标识扩展标签的开始和结束

必填,紧邻,扩展标签都包含在

必填,标签闭合

必填,标签闭合

必填,标签闭合

必填,标签闭合

上述XML数据文件向百度提交了一个urlhttp://example.com/…/page1.html

若有多条url,则按照上述格式重复之间的片断,列明所有url地址,打包到一个XML文件进行提交。

2什么是sitemap索引文件?

如需提交大量XML数据文件,可以将其列在sitemap索引文件中,然后提交该索引文件,而无需分别提交每个数据文件。索引文件包含的各个字段标签如下:

XML文件需以utf-8编码

必填,标识sitemap索引文件

必填,每个数据文件都用一对标签标识

<loc>http://example.com/…/aaa.xml</loc>

必填,标识数据文件的位置

2013-08-20

标识数据文件的最近一次修改时间

必填,标签闭合

必填,标签闭合

若有多个XML数据文件,则按照上述格式重复之间的片断,列明所有XML数据文件地址,打包到一个sitemap索引文件进行提交。

3文件大小的限制?

每个XML数据文件包含的网址不得超过5万个,且单个文件大小不得超过10MB。每个sitemap索引文件包含的XML数据文件不得超过5万个,但是单个索引文件应该小于10MB。这些限制条件有助于避免因传输非常大的文件而遇到麻烦。

4如何设置更新周期?

百度spider会参考设置周期抓取数据,因此请根据数据文件内容的更新情况(比如增加新url)来设置。

请注意若文件内url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范畴内。

5数据提交后,多久能被百度抓取?

数据提交后,一般在1小时内百度会开始处理,处理完成的时间视文件大小而定。

当前默认的抓取速度是10url/s,考虑网速等因素造成的折损,每个站点的天级抓取量可达50万。

6提交的数据都会被收录吗?

站内搜索将收录您提交的全部数据;但对于百度网页搜索来说,是否收录与页面质量相关。

站内搜索数据格式说明


数据文件基本结构

站内搜索的XML数据文件由两部分组成:固定标签部分和扩展标签部分。

固定标签部分

包含8个标签。虽然未必都要填写,但是它们是所有数据格式的通用字段。

标签名称

属性类型

属性描述

优先级

标签限制

urlset

/

标记整个文档的开始和结束

必选

/

url

/

标记每条信息的开始和结束

必选

1urlset可以包含很多url

loc

url

该条数据的存放地址

必选

“http://”开头

最大长度256个字符

lastmod

日期

该条数据的最新一次更新时间

可选

格式为YYYY-MM-DD

changefreq

字符串

该条数据的更新频率

可选

有效值为:alwayshourlydailyweeklymonthlyyearlynever

priority

小数

指定此链接相对于其他链接的优先权比值

可选

数值范围:0.0~1.0

data

/

标记扩展数据的开始和结束

必选

/

display

/

标记扩展数据中用作展现的字段的开始和结束

必选

/

注意事项:

  • XML数据文件必须使用UTF-8编码。

  • 所有标签必须按照格式中指定的顺序列出,非必选标签可以不写,但是不能乱序。

  • 标签大小写敏感,请务必细心区分。

  • url中不能含有中文字符。

  • lastmod必须严格遵守日期格式,2013-08-01是正确的,2013-8-1则是错误的。

扩展标签部分

不同数据格式类型包含的扩展标签也不同,主要用于标识网页的正文内容和周边属性。通过扩展标签提交的数据将被用于摘要的特型展现、结果的筛选和排序选项设置,甚至直接影响结果的权重。

数据格式类型

站内搜索将根据站点类型分别制定相应的数据格式,以及给出相应的摘要样式模板。

站内搜索的数据格式包含以下类型,后续还会根据需要再添加:

  • 通用-百度站内搜索数据提交模板_0

  • 影视

  • 小说

  • 音乐(建设中)

  • 商品(建设中)

  • 招聘(建设中)

  • 旅游(建设中)

  • 图书资料(建设中)

  • 问答(建设中)

温馨提示:
由于历史原因,“通用”类别的数据结构和后续的其他各个类别(如“影视-电影”)表示嵌套数据的方式不太一样。前者将子标签包含在父标签里,后者子标签独立存在但嵌套在父标签中。例如同样表示演员姓名,
“通用”类别的表示方法为:<actorname=”黄晓明”url=”http://example.com/path”/>
其他类别的表示方法为:<actor><name>黄晓明</name><url>http://example.com/path</url></actor>

通用类型-百度站内搜索数据提交模板_0

站内搜索数据提交流程和格式说明

1通用类型的摘要示意图(不代表最终效果)

具体格式说明:

注:“可筛选”“可排序”指的是相应字段在搜索结果页可展现为筛选选项或排序选项;因为所有字段都可用于展现,所以未单独标注。具体应用方式可参考《站内搜索外观和功能设置》

中文标签

英文标签

子标签

属性类型

属性描述&举例

优先级

个数限制

可筛选

可排序

标题

title

/

字符串

建议填写,搜索系统优先选用该title

可选

1

内容

content

/

字符串

如能提交全文,则不需要spider再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差

可选

1

标签

tag

/

字符串

可以是内容主题、领域、分类等的简短说明文字;最多可定义20个

可选

20

发布时间

pubTime

/

日期

格式为YYYY-MM-DDThh:mm:ss

只有提交该字段,“外观设置”中按时间排序或筛选的功能选项才能正常生效

注意:YYYY-MM-DD和hh:mm:ss中间必须包含“T”

可选

1

面包屑

breadCrumb

/

用于标记当前网页在站点中所处的层级位置,最多可定义4层,且标签先后顺序必须对应层级顺序,写在最前为最高层级

假设一篇文章位于新浪网“体育>NBA>洛杉矶湖人”路径下,那么可以为这个页面设置3个breadCrumb标签

可选

4

层级名称

title

字符串

常常体现为频道名或版块名

前面例子中3个breadCrumb标签的title分别为“体育”“NBA”“洛杉矶湖人”

可选

1

层级首页地址

url

url

前面例子中title为“NBA”时url为http://sports.sina.com.cn/nba/

可选

1

缩略图

thumbnail

/

支持格式gif、jpg、jpeg、png,主要用于搜索结果的摘要展现

每个网页最多可以提交10个缩略图,目前站内搜索仅选用其中的第一个用于摘要展现

可选

10

缩略图地址

loc

url

可选

1

图片

image

/

支持格式gif、jpg、jpeg、png

每个网页最多可以提交100张图片,目前当thumbnail不存在时,默认选择image的第一张图片用于摘要展现

可选

100

图片存放地址

loc

url

可选

1

图片标题

title

字符串

如果没有标题,也可用于填写该图片的标签等

可选

1

视频

video

/

每个网页最多可提交100个视频数据。(近期即将支持)当thumbnail和image不存在时,默认选择video的第一个缩略图用于摘要展现

可选

100

视频地址

loc

url

包含2种情形:指向实际视频媒体文件,或者指向特定视频的播放器

前者例如:

http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A

-5CDB-D8E5-BEB7-C15C62B686F2.flv

后者例如:

http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html

可选

1

视频标题

title

字符串

例如上述地址的视频标题为“考研访谈:名师陈文灯教授数学复习指导答疑”

可选

1

视频缩略图地址

thumbnail_loc

url

例如上述视频的缩略图地址为

http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB

可选

1

视频时长

duration

整数

单位:秒

可选

1

作者

author

/

常见于web2.0页面,例如论坛帖子作者、博客作者

可选

1

作者昵称

nickname

字符串

可选

1

作者个人首页地址

url

url

该url指向的页面通常提供作者的个人信息介绍

可选

1

作者头像地址

thumbnail

url

可选

1

回复数

replyCount

/

整数

通常表示论坛贴子回帖数,或博客评论数

可选

1

属性

property

/

字符串

主要用于帖子,例如精华、热门、置顶、最新等属性,每个网页最多可以提交3个内容属性

可选

3

价格

price

/

可选

1

现价

new

小数

商品价格或打折优惠后的现价

可选

1

原价

old

小数

打折优惠前的价格,如果有的话

可选

1

折扣

discount

/

折扣优惠信息

可选

1

折扣值

value

小数

折扣值

可选

1

折扣描述

description

字符串

折扣优惠介绍

可选

1

评价

review

/

评价信息

常用于商品、活动、影视著作等对象

可选

1

评分值

rating

小数

可选

1

评分基数

rating_base

小数

评分的基数值或“满分”值

各网站采用的评分制不尽相同,例如最典型的5分制(0分-5分),还有10分制(0分-10分),或者用百分比来表示,满分为100%(0%-100%)

站长可根据实际情况来填写,或者保持不填;只填写rating_base而不填rating是没有意义的

可选

1

评分人数

count

整数

评分人数

可选

1

位置

location

/

常用于标识机构、商品或者活动

可选

1

地址

address

字符串

可选

1

电话

tel

字符串

可选

1

地域

area

字符串

地域范围

例如“北京市”“海淀区”“王府井”

主要用于地域筛选

可选

1

坐标

coordinate

字符串

坐标

采用WGS84标准。格式为:纬度,经度。北纬+,南纬-,东经+,西经-。小数点后最多保留6位。例如“+40.783333,-73.966667”是纽约中央公园的坐标

可选

1

时间

time

/

通常用于标识活动;区别于网页内容发布时间

可选

1

开始时间

startDate

日期

开始时间

格式为YYYY-MM-DDThh:mm:ss

可选

1

结束时间

endDate

日期

结束时间

格式为YYYY-MM-DDThh:mm:ss

可选

1

数据标记示例:

<loc>http://ky.kaoyan.com/04/467393/</loc>

2013-04-10

always

0.5

【写给即将上战场的你们】努力为王,心态为皇

考研复习经验

2012-12-04T11:20:13

考研加油站“url=”http://ky.kaoyan.com/”/>

考研政治“url=”http://www.kaoyan.com/s/zhengzhi”/>

<thumbnailloc=”http://docs.kaoyan.com/jpg/12/1204dde3cd949ccc.jpg”/>

<imageloc=”http://docs.kaoyan.com/jpg/12/12048543278e760d.jpg”title=”七个最常用的泰勒展开式“/>

<videoloc=”http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html”title=”考研访谈:名师陈文灯教授数学复习指导答疑“thumbnail_loc=”http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB”duration=”217509″/>

视频非实际页面内数据,为示意而构造–>



小说类型:

站内搜索数据提交流程和格式说明

具体格式说明:

中文属性标签 英文属性标签 属性类型 需求对应 优先级 重复次数 举例
作品名字 name Text 作品的名字 必选字段 1 半梦半醒
作者 author Person 作品的作者 必选字段 1 作者字段,包含3部分,具体见下方。
作品配图 image URL 展现的时候会用到 强烈建议 不限  
作品简介 description Text 一般的文本 强烈建议 1 小说故事发生于2005年,跨度六年,讲述了主人公朱亚楠一次去北京参加颁奖大会,结识一号女主角王文静。两人开始朦朦胧胧的爱恋。由于不在同一城市生活,两人只能艰难的异地恋。种种阴差阳错导致他们分分离离,其间又交叉了二号女主角苏扬和三号女主角刘琳。朱亚楠游离在三个美貌女孩之间,最终他会选择和谁终生厮守?他们的爱情又会有什么样的波折?敬请期待!
分类 genre Text 作品的分类,方便书籍间的类聚 必选字段 1 言情
完成字数 wordCount Number 作品的总完成字数 强烈建议 1 19221
阅读链接 url URL 作品的阅读链接 必选字段 1 http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html
更新状态 updateStatus Text 完结还是更新中 必选字段 1 已完结
阅读费用 trialStatus Text 免费或者是前多少章免费,或收费 必选字段 1 免费
周点击 weeklyClick Number 最近一周的点击数量 强烈建议 1 50000
月点击 monthlyClick Number 最近一个月的点击数量 强烈建议 1 150000
总点击 totalClick Number 作品的总点击数量 必选字段 1 3197509
最新章节 newestChapter Chapter 作品的最新章节 必选字段 1  
章节 chapter Chapter 作品的章节 必选字段 不限  
更新时间 dateModified Date 作品的更新时间 必选字段 1 2012/10/5
作者-author
作者名称 name Text 作者的名称,可能是姓名、笔名或ID 必选字段 1 zhujiaguo1986
作者简介 description Text 作者的简介 强烈建议 1 朱家果,男,80后知名作家、诗人。
网页链接 url URL 作者的网页链接,可能是博客或者个人主页 可选字段 1 http://blog.sina.com.cn/zhujiaguo2007
最新章节-newestChapter
所属小说名称 articleSection Text 章节所属的小说名称 必选字段 1 半梦半醒
最新章节标题 headline Text 最新章节的标题 必选字段 1 未名湖畔
最新章节链接 url URL 最新章节页面的URL链接 必选字段 1 http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html
更新时间 dateModified Date 最新章节的更新时间 必选字段 1 2012/10/5
章节-chapter
所属小说名称 articleSection Text 章节所属的小说名称 必选字段 1 半梦半醒
章节标题 headline Text 章节的标题 必选字段 1 欢畅一日
章节内容 acticleBody Text 给用户展现最新内容 强烈建议 1 刚出朝阳宾馆,王文静就嚷嚷着要去对面的桌球馆里打桌球。王文静挽着朱亚楠的手进了桌球馆,在窗口处领了桌号,要了球杆。许妮一声不响地跟在后面,一脸失落落的样子。服务生刚把桌上的球仔摆好,王文静便乐此不彼地打开了。
章节链接 url URL 章节的URL链接 必选字段 1 http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html
更新时间 dateModified Date 章节的更新时间 强烈建议 1  



电影类型

站内搜索数据提交流程和格式说明


2影视电影类的摘要示意图(不代表最终效果)

具体格式说明:

  • “属性类型”说明

    1.含有子标签的属性类型:PersonAggregateRatingVideoObjectInTheaters。子标签内容详见下方各个分支说明。

    2.时间相关的属性类型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYYDuration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“36个月412小时305秒”时间格式说明详见:ISO8601

    3.Number支持各种数字类型,例如整数和小数。

  • “出现次数”说明

    1.不限次数的情况下,用多组同名标签来表达多个值,例如:爱情青春

No.

中文标签

英文标签

属性类型

属性描述

优先级

出现次数

举例

可展现

可筛选

可排序

1

名称

name

Text

电影名称

必选

1

中国合伙人

 

 

2

别名

alias

Text

电影别名

可选

不限

中国先生

 

 

3

海报

image

URL

电影海报的链接

强烈建议

不限

http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg

 

 

4

描述

description

Text

作品的简介

必选

1

1980年代到21世纪,30年的大变革背景下,三个好友为了改变自身命运,创办英语培训学校,最终实现“中国式梦想”。

 

 

5

类型

genre

Text

通常指作品本身的分类属性

必选

不限

喜剧

 

6

演员

actor

Person

演员或动画片中的配音演员

必选

不限


邓超
<url>http://people.mtime.com/1256584/</url>

 

 

7

导演

director

Person

电影导演,包括执行导演等

必选

不限


陈可辛
<url>http://people.mtime.com/892817/</url>

 

 

8

编剧

author

Person

电影等的编剧

可选

不限


周智勇

 

 

9

内容语言

inLanguage

Text

电影对白主题语言

必选

1

中文

 

 

10

地区

contentLocation

Text

影片的制作地区

必选

不限

中国

 

11

上映信息

premiere

PremiereInfo

电影上映的有关信息

必选

不限

2013-05-17

中国

PT112M


12

摘要

abstract

Text

显示在网页中的摘要数据

强烈建议

1

 

 

 

13

综合评价

aggregateRating

AggregateRating

用户综合评价

必选

1


8
10

 

14

预告片

trailer

VideoObject

预告片信息

强烈建议

不限


钢铁侠3中国版剧场预告片
<url>http://movie.mtime.com/91881/trailer/43508.html</url>

 

 

 

15

评论数量

commentNum

Number

用户评论、意见的数量,表达自己的观点,不一定和作品相关

强烈建议

1

23

16

获奖信息

awards

Text

电影的获奖信息

强烈建议

不限

金马奖

 

 

演员-actor

 

 

 

1

演员姓名

name

Text

演员的姓名

必选

1

邓超

 

 

2

页面链接

url

URL

演员页面的URL链接

强烈建议

1

<url>http://people.mtime.com/1256584/</url>

 

 

 

3

角色名称

role

Text

角色的姓

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
站长

应用内搜索工具帮助

2024-1-22 21:49:46

站长

MADCon搜索(厦门)分享会&百度之夜精彩抢先看

2024-1-22 21:49:48

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索