百度是否对网页内容的大小和特征有要求?
浏览:284 时间:2022-4-20

问:我们有一个包含3,000多行中文+英文的网页。快照显示不完整。它由网站管理员平台模拟。 (注意:此学生是指爬行诊断工具),文本也不完整,网站也会受到影响。不是太大了?迪恩将这个一般问题打破成一个小问题并向工程师证实。

第一个问题:百度是否限制了网络内容的大小?

答:内容文本没有限制,但源代码有一定的防御能力。如果它太长,它将采用前一部分,因此源代码尽可能简洁

第二个问题:如果快照显示网页不完整,是否意味着百度蜘蛛没有完全包含该网页?

答:不,快照的成功涉及很多链接。显示不完整的原因有很多。你不能简单地认为它不包括在内。

第三个问题:使用平台抓取工具无法完全显示,你能不能认为它不包括在内?

答:不,该工具仅显示前200K。在设计工具时,我们对网页进行了研究。一般来说,第一个100K就足够了。

第四个问题:百度是否要求页面上没有特殊字符?

答:没有这样的限制。