博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
crawler_http关闭连接
阅读量:5167 次
发布时间:2019-06-13

本文共 1319 字,大约阅读时间需要 4 分钟。

1:ps aux|grep Spider4Test.jar

查看端口 

2: lsof  -p [端口号]

在爬虫运行期间如果看到 大量的 TIME_WAIT  WAIT_CLOSE 说明请求关闭阻塞【采用httpclient默认方法 ,其实没有关闭掉,需要跑等3分钟 才会关闭】 大量并发时   会有阻塞

3: 解决方法

最简单方法【方法四: 

代码实现很简单,所有代码就和最上面的事例代码一样。只需要在HttpMethod method = new GetMethod("http://www.apache.org");加上一行HTTP头的设置即可 

    1. method.setRequestHeader("Connection", "close"); 

其它方法:参考

http://www.cnblogs.com/wasp520/archive/2012/07/06/2580101.html

 

 

备注:

TCP状态转移要点

TCP协议规定,对于已经建立的连接,网络双方要进行四次握手才能成功断开连接,如果缺少了其中某个步骤,将会使连接处于假死状态,连接本身占用的资源不 会被释放。网络服务器程序要同时管理大量连接,所以很有必要保证无用连接完全断开,否则大量僵死的连接会浪费许多服务器资源。在众多TCP状态中,最值得 注意的状态有两个:CLOSE_WAIT和TIME_WAIT。  
1、LISTENING状态
FTP服务启动后首先处于侦听(LISTENING)状态。

2、ESTABLISHED状态
ESTABLISHED的意思是
建立连接。表示两台机器正在通信
3、CLOSE_WAIT
    对方主动关闭连接或者网络异常导致连接中断,这时我方的状态会变成CLOSE_WAIT 此时我方要调用close()来使得连接正确关闭
4、TIME_WAIT
    
我方主动调用close()断开连接,收到对方确认后状态变为TIME_WAIT。TCP协议规定TIME_WAIT状态会一直持续2MSL(即两倍的分 段最大生存期),以此来确保旧的连接状态不会对新连接产生影响。处于TIME_WAIT状态的连接占用的资源不会被内核释放,所以作为服务器,在可能的情 况下,尽量不要主动断开连接,以减少TIME_WAIT状态造成的资源浪费。
    目前有一种避免TIME_WAIT资源浪费的方法,就是关闭socket的LINGER选项。但这种做法是TCP协议不推荐使用的,在某些情况下这个操作可能会带来错误。
5、SYN_SENT状态

   SYN_SENT状态表示请求连接,当你要访问其它的计算机的服务时首先要发个同步信号给该端口,此时状态为SYN_SENT,如果连接成功了就变为 ESTABLISHED,此时SYN_SENT状态非常短暂。但如果发现SYN_SENT非常多且在向不同的机器发出,那你的机器可能中了冲击波或震荡波 之类的病毒了。这类病毒为了感染别的计算机,它就要扫描别的计算机,在扫描的过程中对每个要扫描的计算机都要发出了同步请求,这也是出现许多 SYN_SENT的原因。

转载于:https://www.cnblogs.com/cphmvp/p/4650920.html

你可能感兴趣的文章
3.3-3.4.5 变量和数据类型
查看>>
Unity5.6之前版本VRTK插件基础交互
查看>>
深度学习之前馈神经网络(前向传播和误差反向传播)
查看>>
IEnumerable<T>和IQueryable<T>区别
查看>>
【luogu P3381 最小费用最大流】 模板
查看>>
(转)MFC界面风格
查看>>
迁移ORACLE数据库文件到ASM
查看>>
Centos7 tmux1.6 安装
查看>>
二叉树(三)
查看>>
linux加密文件系统 fsck 无法修复一例
查看>>
【linux配置】VMware安装Redhat6.5
查看>>
C++语法查询在线手册
查看>>
盒子垂直方向外边距合并和盒子塌陷
查看>>
应届生就职前要读的几本书
查看>>
计算机经典书籍之程序设计语言
查看>>
jQuery应用实例2:简单动画
查看>>
<Learning How to Learn>Week One: Focused versus Diffuse Thinking
查看>>
基于霍尔元件的电机转速测量
查看>>
File文件类型和RandomAccessFile类型
查看>>
Mongodb源码分析--Replication之OpLog
查看>>