爬虫概念基础

爬虫概念基础

初次接触爬虫:

爬虫概念:

  • 通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程
    • 浏览器是一种原始的爬虫工具

关于网络爬虫分类:

  • 通用爬虫
    • 固定的获取一整张页面的数据,如title和url这样的通用数据,但是通常情况下,roots.txt都会对通用爬虫进行限制
    • 通用爬虫获取到的数据并不精确
    • 常用于浏览器的搜索引擎
  • 聚焦爬虫
    • 聚焦爬虫只获取特定页面的特定数据,其他数据弃之不用,与通用爬虫相反,聚焦爬虫获取的并不一定是通用的属性,更多的是某些页面特有的一些数据,如 小说网站的小说内容,就需要将无用的内容剔除,并进行排版之后存储到对应的txt文件中,这也是一些盗版网站提供的小说下载的方式
    • 建立在通用爬虫之上
  • 增量式爬虫
    • 用来监视网站数据更新的情况,以便获得网页中最新更新的数据

爬虫的风险

  • 爬虫干扰了被访问网站的正常运营;
  • 爬虫抓取了受法律保护的特定类型的数据或信息

规避风险的方法

  • 严格遵守网站设置的robots协议
  • 在规避反爬虫措施时,需要优化自己的代码,避免干扰被访问网站的正常运行
  • 在使用或传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者涉及他人商业机密的,应即时停止并删除

网络协议

1. OSI七层模型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
- 应用层
- 应用层协议
- HTTP
- 超文本传输协议
- Hyper Text Transfer Protocol
- HTTPS
- Hyper Text Transfer Protocol over Secure Socket Layer
- 在Http的及穿上添加了SSL安全套接层,简称HTTPS
- HTTP与HTTPS协议区别
- Https协议需要到ca申请证书,收费
- http是超文本传输协议,是明文传输,https是具有安全性的ssl加密传输协议
- http和https使用的是完全不同的连接方式,用的端口也不一样,前者80,后者443
- htto链接时无状态的,https协议是由SLL+HTTP协议共同构建的加密传输协议,比http协议安全
- FTP
- 表示层
- 会话层
- 传输层
- 传输层协议
- TCP:是一种面向连接的可靠的,基于字节流的传输层通信协议
- 有序性:数据包标号,判断数据包的正确次序
- 正确性:使用checksum函数检查数据包是否虽坏,发送接收时都会计算校验
- 可靠性:发送端有超时重发,并由确认机制识别错误和数据的丢失
- 可控性:滑动窗口协议与拥塞控制算法控制数据包的发送速度
- UDP:用户数据报协议,面向无连接的传输层协议,传输不可靠
- 无连接:数据可能丢失或损坏
- 报文小:传输速度快
- 吞吐量大的网络传输,可以在一定程度上承受数据丢失
- 网络层
- 网络层协议IP
- 数据链路层
- 数据链路层协议ARP
- 物理层
- 物理层协议––—-以太网协议

2. 五层模型

1
2
3
4
5
6
7
8
9
- 应用层
- 应用层
-
- 表示层
- 会话层
- 传输层
- 网络层
- 数据链路层
- 物理层

3. 四层模型

服务器常见端口

  1. mysql : 关系型数据库,端口:3306
  2. MongoDB : 非关系型数据库,端口:27017
  3. Redis : 非关系型数据库,端口:6379
  4. ssh : Secure Shell的缩写,用于远程登录会话,端口:22
  5. ftp : File Transfer Protocol的缩写,即文件传输协议,端口:21
作者

Kawakami Ari

发布于

2022-11-30

更新于

2022-11-29

许可协议