网络基础概念
- IP地址:为了能够方便的识别网络上的每个设备,网络中的每个设备都会有一个唯一的数字标识,这个就是IP地址;根据现有IPv4协议(32位)规定每个IP地址由4个0-255之间的数字组成,例如10.0.120.34
域名:IP地址不方便记忆,一个IP地址可以对应多个域名,一个域名只能对应一个IP地址,在网络中传输的数据,全部是以IP地址作为地址标识,所以在实际传输数据以前需要将域名转换为IP地址,实现这种功能的服务器称之为DNS服务器,也就是通俗的说法叫做域名解析。例如当用户在浏览器输入域名时,浏览器首先请求DNS服务器,将域名转换为IP地址,然后将转换后的IP地址反馈给浏览器,然后再进行实际的数据传输
端口:一个计算机可以同时运行多个网络程序,给每个程序分配唯一的端口,通过IP地址+端口号传输数据,不会互相之间产生干扰;端口的号码必须位于0-65535之间(2个字节,16位),每个端口唯一的对应一个网络程序,一个网络程序可以使用多个端口;
统一资源定位符:URL URI URL 四部分组成 协议+域名+端口+资源 - TCP/UDP协议
TCP:打电话 三次握手 面向连接 安全可靠 效率相对地下
UDP:短信 四次握手 非面向连接 效率高 - 通信协议分层 OSI模型 TCP/IP模型
IP协议。。。
网络爬虫原理
数据封装–拆分
InetAddress & InetSocketAddress
封装IP地址与DNS
InetSocketAddress 封装IP地址+端口
1
2
URL
TCP Socket
ServerSOcket Socket
UDP Socket
DatagramSocket DaragramPacket 底层还是IO