爬虫蜘蛛User Agent

爬虫蜘蛛UA,常见的搜索引擎蜘蛛和网络爬虫的User Agent标识大全




搜索引擎蜘蛛和网络爬虫的UA标识大全

User Agent:是代表访客身份的字符串标识符,简称:UA,中文译名:用户代理。

网络爬虫蜘蛛User Agent大全,收集整理了当今互联网上常见的搜索引擎蜘蛛UA标识和非恶意的或有恶意意图的网络爬虫UA标识。一般情况下,参考这些User Agent标识符,可以判断访客身份,然后可以根据实际需求屏蔽无用的、甚至是有害的爬虫蜘蛛。这样能保证SEO优化不受影响的同时,还能确保服务器的性能、安全等不受干扰。

通过UserAgent就能准确判断访客身份吗?

不一定准确,User Agent是可以被伪造的。但是,对于正常的网络爬虫、蜘蛛,它们一般都会使用自己特有的UA标识,不会刻意去伪造另一个,搜索引擎蜘蛛和网络爬虫的User Agent标识信息一般只可能被别有用心的黑客、攻击者用来做伪装,所以User-Agent不应作为唯一的判定依据。

如何屏蔽网络爬虫、网络蜘蛛?

我们一般都应该将那些有“流氓”行为的采集爬虫或蜘蛛拒之门外,屏蔽拦截网络爬虫的方法很多,建议使用以下两种方法:

1、使用使用robots.txt文件阻止不友好的网络爬虫

robots.txt是爬虫协议文件,可以“拒绝”或“允许”网络爬虫进来,但前提是爬虫必须遵守robots协议。事实上不是所有爬虫的遵守协议的,表面上都声称自己的爬虫遵守协议,实则有可能并非如此。所以这个方法,只适合应对遵守约定的“真君子”。

2、根据User Agent来阻止不友好的网络爬虫

可以在Linux或者Apache下配置拦截规则,例如阻拦User Agent为空的以及DotBot、Spawning-AI:

#根据user-Agent反爬虫
if ($http_user_agent ~* "^$|Spawning-AI|DotBot") {
    rewrite "^/(.*)$" /error/403.php last;
}
                    

也可以使用动态语言脚本实现反爬虫的功能,例如使用PHP:

$UA = $_SERVER['HTTP_USER_AGENT'];
if(preg_match('[MJ12bot|Scrapy]i', $UA)){
    die('403');
}
                    
常见爬虫蜘蛛User Agent
UA关键词 User Agent 相关说明
Googlebot Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/122.0.6261.94MobileSafari/537.36(compatible;Googlebot/2.1) Googlebot,搜索引擎蜘蛛的UA标识,属于全球知名的Google公司。
Baiduspider Mozilla/5.0(compatible;Baiduspider/2.0) 百度搜索引擎蜘蛛在爬行页面抓取内容的时候,会使用这个代理标识。
bingbot Mozilla/5.0AppleWebKit/537.36(KHTML,likeGecko;compatible;bingbot/2.0)Chrome/116.0.1938.76Safari/537.36 这是Bing搜素引擎的User Agent标识,必应搜索在国内的知名度逐年迅速增加,现在用户量也仅次于百度。
Sogouwebspider Sogouwebspider/4.0 这是搜狗搜索引擎蜘蛛使用的代理标识。在爬行的时候,似乎常现Bug,经常抽风。
YisouSpider Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.81YisouSpider/5.0Safari/537.36 神马搜索引擎蜘蛛,这个搜索引擎在国内也有10%左右的市场占有率。一般情况不建议屏蔽。
PetalBot Mozilla/5.0(Linux;Android7.0;)AppleWebKit/537.36(KHTML,likeGecko)MobileSafari/537.36(compatible;PetalBot) 搜索引擎蜘蛛,由华为公司自主研发。现在只为海外用户提供服务,虽然暂时未在国内上线,但是会抓取国内的网站内容,迟早也会在国内开放给网民使用。
360Spider Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/…… (KHTML, like Gecko) Chrome/…… Safari/……; 360Spider 360搜索引擎蜘蛛的签名UA信息。
Amazonbot Mozilla/5.0(Macintosh;IntelMacOSX10_10_1)AppleWebKit/600.2.5(KHTML,likeGecko)Version/8.0.2Safari/600.2.5(Amazonbot/0.1) 亚马逊公司的网络爬虫,如果你网站只做国内推广不做外贸贸易,这个爬虫对你网站来说也没什么用处。
claudebot claudebot 尚且不能确定是谁的网络爬虫,但通过其lookup反查,发现绑定的是亚马逊公司的域名!它不遵循robots.txt协议,扫描频率很高,多半是不怀好意的。
Yandex Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0) 搜索引擎的蜘蛛。Yandex是俄罗斯的知名搜索引擎。
DotBot Mozilla/5.0(compatible;DotBot/1.2;help@moz.com) 是一个网络爬虫,人称“垃圾爬虫”。因为它不会为你带来流量,更不会为你创造价值,它只会疯狂抓取网站数据用作分析外链等用途,耗费你的服务器资源。
MJ12bot Mozilla/5.0(compatible;MJ12bot/v1.4.8) 这是来自英国的Majestic网络营销公司的爬虫所使用的用户代理标识,它主要任务是收集互联网数据服务于它的客户。而且这个爬虫不怎么更新,隔三岔五访问早就不存在的链接,抓取频率也高,不但不会给你网站带来好处,还会影响你站点性能。
BLEXBot Mozilla/5.0(compatible;BLEXBot/1.0) webmeup的网络爬虫,还是比较守规矩,不会狂抓数据,所以也只会偶尔发现它的身影。虽然它获取数据,只为它自己产品服务的,没发现对站长有什么好处,但是也不见得会带来什么负面影响。
ImagesiftBot Mozilla/5.0(compatible;ImagesiftBot) 网络图片爬虫,是图片反查引擎的蜘蛛。如果你不希望自己的图片被其收录,可以考虑屏蔽这个蜘蛛。
AhrefsBot Mozilla/5.0(compatible;AhrefsBot/7.0) 这是Ahrefs公司的网络爬虫程序使用的用户代理User Agent标识。该公司获取网页数据用于搜索引擎SEO优化分析。如果你不使用该公司的服务,屏蔽这个爬虫蜘蛛也无影响。
DataForSeoBot Mozilla/5.0(compatible; DataForSeoBot/1.0) 这是SEO优化公司的爬虫,如果它爬行你网站,只为获取数据给它客户做SEO分析,对你网站来说没有价值。
python python/1.0 …… python爬虫,通常都是有不良企图的用户用来扫描、采集你网站数据的。
Scrapy Scrapy/1.0 …… Scrapy是爬虫框架应用程序,包含这类关键词的User Agent访客,基本都是基本动机不纯。
msray-plus msray-plus/ …… 一款采集工具的默认UA包含msray-plus字符串。这是一款“小偷软件”。
Go-http-client …… go-http-client/1.1 …… HTTP客户端,一般用来做接口调试。如果不是你自己在做测试,说明有人在给你“帮忙”。
WellKnownBot …… WellKnownBot …… 看它自我介绍,说是公益、无害的,但它可能会高频率地访问.well-known目录。小编觉得,它对我们站长来说是有害无利。
Spawning-AI …… Spawning-AI …… 还不清楚具体是做什么的,看名字,应该是人工智能公司的爬虫。