爬虫蜘蛛User Agent

爬虫蜘蛛UA，常见的搜索引擎蜘蛛和网络爬虫的User Agent标识大全

快捷查找

输入要查找的关键词

搜索引擎蜘蛛和网络爬虫的UA标识大全

User Agent：是代表访客身份的字符串标识符，简称：UA，中文译名：用户代理。

网络爬虫蜘蛛User Agent大全，收集整理了当今互联网上常见的搜索引擎蜘蛛UA标识和非恶意的或有恶意意图的网络爬虫UA标识。一般情况下，参考这些User Agent标识符，可以判断访客身份，然后可以根据实际需求屏蔽无用的、甚至是有害的爬虫蜘蛛。这样能保证SEO优化不受影响的同时，还能确保服务器的性能、安全等不受干扰。

通过UserAgent就能准确判断访客身份吗？

不一定准确，User Agent是可以被伪造的。但是，对于正常的网络爬虫、蜘蛛，它们一般都会使用自己特有的UA标识，不会刻意去伪造另一个，搜索引擎蜘蛛和网络爬虫的User Agent标识信息一般只可能被别有用心的黑客、攻击者用来做伪装，所以User-Agent不应作为唯一的判定依据。

如何屏蔽网络爬虫、网络蜘蛛？

我们一般都应该将那些有“流氓”行为的采集爬虫或蜘蛛拒之门外，屏蔽拦截网络爬虫的方法很多，建议使用以下两种方法：

1、使用使用robots.txt文件阻止不友好的网络爬虫

robots.txt是爬虫协议文件，可以“拒绝”或“允许”网络爬虫进来，但前提是爬虫必须遵守robots协议。事实上不是所有爬虫的遵守协议的，表面上都声称自己的爬虫遵守协议，实则有可能并非如此。所以这个方法，只适合应对遵守约定的“真君子”。

2、根据User Agent来阻止不友好的网络爬虫

可以在Linux或者Apache下配置拦截规则，例如阻拦User Agent为空的以及DotBot、Spawning-AI：

#根据user-Agent反爬虫
if ($http_user_agent ~* "^$|Spawning-AI|DotBot") {
    rewrite "^/(.*)$" /error/403.php last;
}

也可以使用动态语言脚本实现反爬虫的功能，例如使用PHP：

$UA = $_SERVER['HTTP_USER_AGENT'];
if(preg_match('[MJ12bot|Scrapy]i', $UA)){
    die('403');
}

常见爬虫蜘蛛User Agent
UA关键词	User Agent	相关说明
Googlebot	Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/122.0.6261.94MobileSafari/537.36(compatible;Googlebot/2.1)	Googlebot，搜索引擎蜘蛛的UA标识，属于全球知名的Google公司。
Baiduspider	Mozilla/5.0(compatible;Baiduspider/2.0)	百度搜索引擎蜘蛛在爬行页面抓取内容的时候，会使用这个代理标识。
bingbot	Mozilla/5.0AppleWebKit/537.36(KHTML,likeGecko;compatible;bingbot/2.0)Chrome/116.0.1938.76Safari/537.36	这是Bing搜素引擎的User Agent标识，必应搜索在国内的知名度逐年迅速增加，现在用户量也仅次于百度。
Sogouwebspider	Sogouwebspider/4.0	这是搜狗搜索引擎蜘蛛使用的代理标识。在爬行的时候，似乎常现Bug，经常抽风。
YisouSpider	Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.81YisouSpider/5.0Safari/537.36	神马搜索引擎蜘蛛，这个搜索引擎在国内也有10%左右的市场占有率。一般情况不建议屏蔽。
PetalBot	Mozilla/5.0(Linux;Android7.0;)AppleWebKit/537.36(KHTML,likeGecko)MobileSafari/537.36(compatible;PetalBot)	搜索引擎蜘蛛，由华为公司自主研发。现在只为海外用户提供服务，虽然暂时未在国内上线，但是会抓取国内的网站内容，迟早也会在国内开放给网民使用。
360Spider	Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/…… (KHTML, like Gecko) Chrome/…… Safari/……; 360Spider	360搜索引擎蜘蛛的签名UA信息。
Amazonbot	Mozilla/5.0(Macintosh;IntelMacOSX10_10_1)AppleWebKit/600.2.5(KHTML,likeGecko)Version/8.0.2Safari/600.2.5(Amazonbot/0.1)	亚马逊公司的网络爬虫，如果你网站只做国内推广不做外贸贸易，这个爬虫对你网站来说也没什么用处。
claudebot	claudebot	尚且不能确定是谁的网络爬虫，但通过其lookup反查，发现绑定的是亚马逊公司的域名！它不遵循robots.txt协议，扫描频率很高，多半是不怀好意的。
Yandex	Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0)	搜索引擎的蜘蛛。Yandex是俄罗斯的知名搜索引擎。
DotBot	Mozilla/5.0(compatible;DotBot/1.2;help@moz.com)	是一个网络爬虫，人称“垃圾爬虫”。因为它不会为你带来流量，更不会为你创造价值，它只会疯狂抓取网站数据用作分析外链等用途，耗费你的服务器资源。
MJ12bot	Mozilla/5.0(compatible;MJ12bot/v1.4.8)	这是来自英国的Majestic网络营销公司的爬虫所使用的用户代理标识，它主要任务是收集互联网数据服务于它的客户。而且这个爬虫不怎么更新，隔三岔五访问早就不存在的链接，抓取频率也高，不但不会给你网站带来好处，还会影响你站点性能。
BLEXBot	Mozilla/5.0(compatible;BLEXBot/1.0)	webmeup的网络爬虫，还是比较守规矩，不会狂抓数据，所以也只会偶尔发现它的身影。虽然它获取数据，只为它自己产品服务的，没发现对站长有什么好处，但是也不见得会带来什么负面影响。
ImagesiftBot	Mozilla/5.0(compatible;ImagesiftBot)	网络图片爬虫，是图片反查引擎的蜘蛛。如果你不希望自己的图片被其收录，可以考虑屏蔽这个蜘蛛。
AhrefsBot	Mozilla/5.0(compatible;AhrefsBot/7.0)	这是Ahrefs公司的网络爬虫程序使用的用户代理User Agent标识。该公司获取网页数据用于搜索引擎SEO优化分析。如果你不使用该公司的服务，屏蔽这个爬虫蜘蛛也无影响。
DataForSeoBot	Mozilla/5.0(compatible; DataForSeoBot/1.0)	这是SEO优化公司的爬虫，如果它爬行你网站，只为获取数据给它客户做SEO分析，对你网站来说没有价值。
python	python/1.0 ……	python爬虫，通常都是有不良企图的用户用来扫描、采集你网站数据的。
Scrapy	Scrapy/1.0 ……	Scrapy是爬虫框架应用程序，包含这类关键词的User Agent访客，基本都是基本动机不纯。
msray-plus	msray-plus/ ……	一款采集工具的默认UA包含msray-plus字符串。这是一款“小偷软件”。
Go-http-client	…… go-http-client/1.1 ……	HTTP客户端，一般用来做接口调试。如果不是你自己在做测试，说明有人在给你“帮忙”。
WellKnownBot	…… WellKnownBot ……	看它自我介绍，说是公益、无害的，但它可能会高频率地访问.well-known目录。小编觉得，它对我们站长来说是有害无利。
Spawning-AI	…… Spawning-AI ……	还不清楚具体是做什么的，看名字，应该是人工智能公司的爬虫。