分类: php

18 篇文章

最好的语言PHP + 最好的前端测试框架Selenium = 最好的爬虫(上)
为什么是PHP 其实就目前业界来说,python下的爬虫轮子是最多的,我厂大多数同学都用python搞爬虫。我由于原来搞web后端用PHP比较多,对PHP下的生态和第三方库啥的如数家珍,厂里对使用的语言也不做强制要求,所以我就用最拿手的PHP开搞了。有同学可能会觉得PHP下爬虫轮子似乎不多,甚至有部分做惯了PHP后台的同学在需要完成爬虫任务时也拿起…
谈谈我对php优点和缺点的认识
目前这小半年都在用php做一些爬虫类的活儿,回想起来php强大的web内容处理让我工作的很高效,可以在目前业界没有通用方案可以参考的前提下很快摸索出合适的方案。我也对php的一些优缺点有了进一步的看法,这些观点我可能在别的社区阐述过,这里就稍微整理一下加深我对php的理解。 缺点: 1、php 最大的缺点就是没有连接池,因为不是常驻内存。虽然可以选…
redis使用心得+高并发httpclient的理解
最近有一些关于redis和httpclient的心得,这里及时整理一下算是加深对这一块的理解吧。 redis作为单线程内存存储方案用处非常多,其中一个很重要的原因就是它的5种很方便的数据结构决定了它不仅仅是类似memcache一个缓存,它可以在业务中用很多巧妙的用处。redis的心得如下: 1、老实说和维护mysql一样,个人真的很难维护好redi…
用git做php代码的版本控制总结
以前我一直搞不懂git,自从我用了sourcetree以后我马上就学会了。 我认为git工作流最重要的一步就是安装一个好用的GUI(自少对我来说如此),而不是从打开命令行敲git命令。我这么说一定有人马上出来反驳我说git命令更快捷,而且能加深对git底层原理的理解等等,现在网络任何比较热门的git教程基本都是从原理到命令行一步一步教你敲出来的。我…
秋招找工作告一段落,以及谈谈yii2和laravel这2个框架
开门见山的说BAT的offer一个没拿到,然后二线互联网里签了蘑菇街,去做支付业务,今年互联网就业年景也不太好。自己的积累准备和面经啥的我也懒得说了,唯一的感受就是找准方向和勇敢的去做很重要,不要被成见和常识所禁锢,开拓眼界,这一点北邮真是完爆我电。然后找完工作感觉心烦真的不想去工作啊,学校里宅着多舒服啊(笑)。 最近几个月前有个idea打算自己实…
域名备案弄好于是把博客迁到阿里云上了,以及谈谈php学习
用Digital Ocean的vps放blog已经1年了,每个月10刀速度还慢的出奇,最近找工作被某个面试官吐槽打不开,于是怒了干脆把qsalg.com的域名备案(前后花了20天还算快),然后把博客迁移到阿里云上来了。现在试了一下,速度明显快了很多了。 还有另外一个Linode的vps也是10刀一个月,速度倒是很快,但是国内访问性不太好(有时候无法…
关于php的Goutte爬虫框架和selenium2的php-webdriver的理解
最近几个月有用爬虫去爬一些内容的需求,所以调查了许多爬虫框架然后实现了一些爬虫内容,这里做个笔记。 首先是语言和框架的选择,最开始尝试了java的jsoup拿来做DOM以及htmlunit拿来执行js之类的,试了一下发现htmlunit对js的支持不完整。举个例子,普通的discuz的bbs的登录界面有部分js处理,这里htmlunit就无法正确处…
一次对新浪微博验证码识别的尝试
花了半天的时间来搞了一下新浪微博的登录界面验证码,效果很差估计只有5%的识别率吧,被新浪微博的验证码击沉了,训练API演示放在了:http://myqsmy.com/weibo.php,有兴趣请看看。 update:后来优化了一下,识别率提高到了17.3%左右。 现在还是记录一下这次失败的验证码识别尝试吧,首先用了一个叫Goutte的php爬虫框架…