分类: java

4 篇文章

基于java的NIO的luminati.io代理方案客户端填坑记录
由于厂里爬虫业务需要,我一直想复制国外的初创公司luminati.io的代理方案,魔改一下可以应用到厂里的一些业务上。这玩意儿也没啥大不了的,本质上是就是个服务器端转发了1次+客户端反向连接转发1次的代理隧道之类的东东,我断断续续研究了几个月以后终于打通了。和一般的http代理服务器原理一样,服务器端和客户端本质上都是异步并发的tcp操作,它们用一…
redis使用心得+高并发httpclient的理解
最近有一些关于redis和httpclient的心得,这里及时整理一下算是加深对这一块的理解吧。 redis作为单线程内存存储方案用处非常多,其中一个很重要的原因就是它的5种很方便的数据结构决定了它不仅仅是类似memcache一个缓存,它可以在业务中用很多巧妙的用处。redis的心得如下: 1、老实说和维护mysql一样,个人真的很难维护好redi…
xgboost安装在visual studio的c++环境下或者eclipse的java环境下
最近搞毕设要找个机器学习的库来用跑多分类问题,之前师兄推荐xgboost这个库,于是我这几天一直在尝试这个库。然后发现一个比较蛋疼的问题是xgboost比较缺乏在windows下C++环境开发的文档,本来很简单的一个第三方库导致我花了很长的时间去摸索。现在我把具体步骤写出来,节约大家时间。 第1步、首先去:https://github.com/dm…
关于php的Goutte爬虫框架和selenium2的php-webdriver的理解
最近几个月有用爬虫去爬一些内容的需求,所以调查了许多爬虫框架然后实现了一些爬虫内容,这里做个笔记。 首先是语言和框架的选择,最开始尝试了java的jsoup拿来做DOM以及htmlunit拿来执行js之类的,试了一下发现htmlunit对js的支持不完整。举个例子,普通的discuz的bbs的登录界面有部分js处理,这里htmlunit就无法正确处…