关于php的Goutte爬虫框架和selenium2的php-webdriver的理解
最近几个月有用爬虫去爬一些内容的需求,所以调查了许多爬虫框架然后实现了一些爬虫内容,这里做个笔记。 首先是语言和框架的选择,最开始尝试了java的jsoup拿来做DOM以及htmlunit拿来执行js之类的,试了一下发现htmlunit对js的支持不完整。举个例子,普通的discuz的bbs的登录界面有部分js处理,这里htmlunit就无法正确处…
一次对新浪微博验证码识别的尝试
花了半天的时间来搞了一下新浪微博的登录界面验证码,效果很差估计只有5%的识别率吧,被新浪微博的验证码击沉了,训练API演示放在了:http://myqsmy.com/weibo.php,有兴趣请看看。 update:后来优化了一下,识别率提高到了17.3%左右。 现在还是记录一下这次失败的验证码识别尝试吧,首先用了一个叫Goutte的php爬虫框架…
把Bilibili的验证码识别算法用php-cpp写了个php扩展以及做了个API接口
花了点时间写了个php页面来调用这个接口,里面主要逻辑是去爬bilibili的图片一张,然后拿去识别一下,现阶段识别率还没有去优化所以基本还没法看,以后有空也许可以去改进一下,有兴趣的请看看:http://myqsmy.com/bili.php 首先我的开发环境是虚拟机的ubuntu12.04,首先需要升级g++到4.8.x,在ubuntu下可以:…
bilibili的验证码识别的改进分割方法
针对之前的bilibili的验证码破解,遇到2个字符粘连的情况没法处理,有建议说用个聚类来分应该ok,我也想了一些分割的办法,今天来试一试看看。 现在打算尝试2个方案: 1、我自己的想法,粘连的2个字符的分割线从1/3到2/3遍历(分割线可能在1/3到2/3处的任何地方),分割线把连在一起的2个字符分开,然后把分开的2个字符拿去喂分类器得到2个置信…
尝试了一下bilibili的验证码破解
最近几天没事就打算尝试破解bilibili的验证码试试,当然了没事也是只是心情问题,事情永远都是干不完了啊(笑)。 几行python的事情: [code] import os import urllib save_path = 'img/' url="http://www.bilibili.com/captcha" ct=761…
今天上线了新的图片站:清水漫延
清水漫延是我最近弄的一个图片展示站点,基本上是面向二次元人群的,而且是兴趣向的。这个名字和域名也是为了纪念大学一段珍贵的记忆吧,因为最近这群人最后的几个人都要毕业了,然后uestc就剩下我一个人了。原来本来还打算拿来记录更具体黑历史啥的,后来慢慢觉得还是把这段记忆埋藏在心底吧(其实是找理由坑了,笑)。 之前一直想弄一个图片站的想法,5月份开始在阿里…
我对互联网几个方向的看法以及idea
最近过年回家没事就刷刷36kr,刷完国内资讯刷国内公司,刷完专栏刷国外公司,最后连最无聊内容最多的国外资讯也刷完了。总的来说很多文章挺有趣的,然后读得过程中对自己以前觉得比较靠谱的idea进行了扬弃,升华出了3、4个自己觉得可以一试的东东。然而脑子里一个idea和对业界的认识是分不开的,我个人还是觉得把我对应每个idea的业界认识写下来分析才能说明…
谈谈如何获通过QQ查对方ip地址
注意:因为找我资讯查ip地址的人太多了,所以花了点时间做了个查ip地址的平台:http://ip.qsalg.com/,请去这个平台自己查。(此平台已关闭) 之前看到知乎上有人问怎么在有另外一个人的qq号码的情况下,获取对方的ip地址。其实不只是ip,gps位置信息有时候也是可以查到的,ip只能确定城市,gps位置信息误差几m到几百m了好么=。= …
Linode下从0开始调教centos6.6
最近手痒弄了台1G内存的Linode来玩玩,我最近正好在补linux有关的知识,也打算写点自己的东西放上面。本来打算买国内阿里云的,可是阿里云实在是太贵了,而且感觉备案还忒麻烦。 Linode是东京机房的,用chinaz的ping工具发现国内各地的响应时间在50~100ms,完爆Digital Ocean的200~300ms,就是容易被墙,我开通的…