做个小网站每天总会被各种各样的扫描,很多是无用无益的请求,今天就来盘点一些对网站无益的请求头,我将持续在公布。
1、axios
axios/0.21.4 【一个基于promise的网络请求库 https://github.com/axios/axios】
2、HTTrack
Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98) 【Web侦察工具(网站克隆)】
3、BLEXBot
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/) 【属于一家美国的反向链接查询网站(WebMeUp)的蜘蛛程序】
4、DataForSeoBot
Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot) 【国外的seo运营公司的蜘蛛】
5、DotBot
Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com) 【国外Moz旗下链接分析网站opensiteexplorer】
6、AhrefsBot
Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/) 【AhrefsBot是一个营销网站的爬取蜘蛛,负责分析你网站的链接信息】
7、SemrushBot
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html) 【SemrushBot是SEMrush的服务器搜索蜘蛛,不过对中文网站没有什么用,SEMrush 是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。】
8、python-requests
python-requests/2.26.0 【网络爬虫 一个开源项目 https://github.com/topics/python-requests】
9 、YandexBot
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 【俄罗斯的一家搜索引擎,我们一般把YandexBot 爬虫蜘蛛叫做俄罗斯蜘蛛,如果你建设的是中文站,基本上这个蜘蛛是可以屏蔽的!】
10、MJ12bot
Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/) 【一个来自英国网络营销公司的搜索引擎蜘蛛,这个搜索引擎名称叫做:Majestic。这家公司的搜索引擎主要是用来绘制互联网地图的,然后用这个互联网地图数据来为企业提供互联网营销数据服务。目前,这家公司提供了13种语言的网站服务。】
11、Barkrowler
Mozilla/5.0 (compatible; Barkrowler/0.9; +https://babbar.tech/crawler) 【Barkrowler是eXenSa(eXenSa网站介绍)的BUbiNG爬虫的实验性版本,Exensa是一家非常小的法国公司,专门从事大规模的文本数据分析。我们致力于社交网络,法律文档,电子商务。 】
12、MegaIndex
Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler)【提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。】
13、ZoominfoBot
ZoominfoBot (zoominfobot at zoominfo dot com) 【一个基于北美的data网站,用于搜索出现在网页上的北美公司的邮箱,所以它是一个data采集爬虫。】
14、CensysInspect
Mozilla/5.0 (compatible; CensysInspect/1.1; +https://about.censys.io/) 【censys是一个扫描全球公共IP及端口的安全工具,用来识别并统计常见漏洞。】
15、zgrab
Mozilla/5.0 zgrab/0.x 【zgrab扫描器,用于快速获取应用返回包,zmap旗下产品】
16、Scrapy
Scrapy/1.7.3 (+https://scrapy.org) 【Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架】
17、SeekportBot
Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)Seekport是一个互联网搜索引擎。该搜索引擎最初成立于2003年,自2014年12月起由来自德国波恩的平台情报提供商SISTRIX运营。搜索引擎是谷歌的一个公共、免费和独立的替代品。Seekport不存储用户数据,也不配置用户。Seekport也在没有广告的情况下运营,并且在显示搜索结果方面没有利益冲突。
18、Apache-HttpClient
Apache-HttpClient/5.1.3 (Java/1.8.0_342)
HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient。
19、AwarioBot
Mozilla/5.0 (compatible; AwarioBot/1.0; +https://awario.com/bots.html) AwarioSmartBot和AwarioRssBot是Awario发送的合法网络爬虫,用于发现和收集新的和更新的网络数据(这些数据被世界各地的互联网营销人员进一步使用)。
20、GPTBot
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) GPTBot是OpenAI推出的一款网络爬虫机器人,于2023年8月7日发布。 OpenAI官方宣称,该 GPTBot 工具能够在注重版权的基础上,使用透明的方式收集网页信息,来训练 OpenAI 旗下的各 AI 模型。
结束语
本文有任何错误,或有任何疑问,欢迎留言说明。
网友最新评论