问答: - 问答 - 第一PHP社区 php1.cn

问

发布于 1970-01-01 08:00

21 个回答

可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM,phpQuery,Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_contents/curl/preg从头写吧,可能也不知道PHP有多线程pthreads或者不知道curl_multi并行发起请求吧.

例1:simple_html_dom.php采集PHP官网首页新闻发布时间/标题/内容<?phprequiredirname(__FILE__).'/simple_html_dom.php';$html=file_get_html('http://cn2.php.net');$news=array();foreach($html->find('article.newsentry')as$article){$item['time']=trim($article->find('time',0)->plaintext);$item['title']=trim($article->find('h2.newstitle',0)->plaintext);$item['content']=trim($article->find('div.newscontent',0)->plaintext);$news[]=$item;}var_export($news);例2:curl_multi并行发起多个请求接口1:php-S127.0.0.1:8080-t/home/eechen/www接口2:php-S127.0.0.2:8080-t/home/eechen/www/home/eechen/www/index.php:header('Content-Type:application/json;charset=utf-8');echojson_encode(array('SERVER_NAME'=>$_SERVER['SERVER_NAME']));//串行访问需要sum(2,1)秒,并行访问需要max(2,1)秒.($_SERVER['SERVER_NAME']=='127.0.0.1')?sleep(2):sleep(1);<?php$url[]='http://127.0.0.1:8080';$url[]='http://127.0.0.2:8080';$mh=curl_multi_init();foreach($urlas$k=>$v){$ch[$k]=curl_init($v);curl_setopt($ch[$k],CURLOPT_HEADER,0);//不输出头curl_setopt($ch[$k],CURLOPT_RETURNTRANSFER,1);//exec返回结果而不是输出,用于赋值curl_multi_add_handle($mh,$ch[$k]);//决定exec输出顺序}$running=null;$starttime=microtime(true);do{//执行批处理句柄curl_multi_exec($mh,$running);//CURLOPT_RETURNTRANSFER如果为0,这里会直接输出获取到的内容.如果为1,后面可以用curl_multi_getcontent获取内容.curl_multi_select($mh);//阻塞直到cURL批处理连接中有活动连接,不加这个会导致CPU负载超过90%.}while($running>0);echomicrotime(true)-$starttime."\n";//耗时约2秒foreach($chas$v){$json[]=curl_multi_getcontent($v);curl_multi_remove_handle($mh,$v);}curl_multi_close($mh);var_export($json);例3:PHP使用多线程异步获取资源<?phpclassRequestextendsThread{public$url;public$data;publicfunction__construct($url){$this->url=$url;}publicfunctionrun(){//线程处理一个耗时5秒的任务for($i=0;$i<5;$i++){echo'线程:'.date('H:i:s')."\n";sleep(1);}$response=file_get_contents($this->url);if($response){$this->data=array($response);}echo"线程:任务完成\n";}}$request=newRequest('hello.html');//运行线程:start()方法会触发run()运行if($request->start()){//主进程处理一个耗时10秒的任务,此时线程已经工作for($i=0;$i<10;$i++){echo'进程:'.date('H:i:s')."\n";sleep(1);}//同步线程并输出线程返回的数据$request->join();echo'线程返回数据:'.$request->data[0];}/*如果顺序执行,合计时间将是15秒,借助线程,则只需10秒.生成文件:echo'Hello'>hello.html运行计时:timephpreq.php查看线程:ps-efL|head-n1&&ps-efL|grepphp*/

2022-11-29 02:51 回答

mobiledu2502931997

因为用python写爬虫的人喜欢写博客分享，所以造成了你的这种错觉。
我们用java做的爬虫。其实啥语言都行，看团队和业务偏向。

2022-11-29 02:51 回答

也曾悲摧过_192
我主用PHP，但是我写爬虫依然不会选择用PHP，而是用python。
1. Python有scrapy这样成熟的框架，我们大可不必自己从0开始
2. 即使从0开始，以Python简洁的语法和一大波成熟的库，写起来相当的快。PHP语法，你懂的。我试过写爬虫，体验还是不如Python的
3. Python数据处理个人认为比较方便，虽然PHP处理DOM也很挺方便的
Pthon唯一不方便的大概是编码处理了。
2022-11-29 02:51 回答

手机用户2602880745
@eechen已经说了很多了，我来补充几个更为优雅的库。
用于爬取数据的：guzzle
文档地址：http://docs.guzzlephp.org/en/...
Composer库名：guzzlehttp/guzzle，对应Packagist地址https://packagist.org/package...
Guzzle有着非常直观的写法，底层对Stream和cURL都有封装，支持的HTTP请求方式以及细节非常丰富，支持cURL的多线程，当然也可利用pthread增强，如果配合swoole则更高效。
用于解析文档的：DOMCrawler
文档地址：http://symfony.com/doc/curren...
Composer库名：symfony/dom-crawler，对应Packagist地址：https://packagist.org/package...
该组件性能比simple_html_dom要高得多，因为是基于PHP自带的DOM解析类（用C语言）实现的，而且是强大的Symfony框架的组件，意味着可以不依赖框架单独在任何PHP项目中使用。文档简单易懂，可以同时参考PHP官方DOM的文档http://php.net/manual/zh/book...，毕竟是继承关系，DOMCrawler在此基础上多了类似CSS选择器的方式（jQuery那一套）去查找DOMNode。

2022-11-29 02:51 回答

真心AI你fd_352
我自己觉得吧，虽然PHP是最好的语言，但是最重要的还是因为程序猿最大的美得——懒，PHP还得自己造轮子，Python下已经有很成熟的轮子了，那么作为一个有良好美得的程序猿自然就都用Python啦，要是题主造出个比Python爬虫还好用的轮子保证大家都用PHP啦

2022-11-29 02:51 回答

JJ关键词
scrapy是个很成熟的爬虫库，成熟的原因；
1. 管理cookie
2. css和xpath的选择器
3. 并行爬取
4. link抽取
  等等，还有一大堆插件，最重要的是易于扩展，象处理403之类的状态加个middelware就解决了
2022-11-29 02:51 回答

Cy章健Mr_189
什么也不用说了PHP是全世界最好的语言如果这就是提问者想听到的答案我原来也是phper刚刚学习python3我的感觉就是python设计确实很精良尤其语法确实经过认真的设计PHP语法相对就很凌乱长年的版本更新造成尾大不掉还有刚学python的切片功能时震惊了居然还能如此方便的处理字符串所以这东西不用提问别人说了也不用反驳自己学一点高下立判

2022-11-29 02:51 回答

吉祥二宝
并非是说PHP可以写爬虫就得用它写爬虫，你叫C++情何以堪。在爬虫这块，Python为何如此倍受推崇，个人认为主要是各类优秀爬虫框架满足需求，不需要每个人从零开始造轮子。然后就是爬虫的应用是什么？数据分析，数据处理呀。。必然是Python相比PHP更有优势的地方

2022-11-29 02:51 回答

关注丑开
看业务场景，像爬虫这类通用的需求，自己熟悉哪个工具就用哪个吧。

2022-11-29 02:51 回答

柯洁豪雅伯育瑋
所有图灵完备又有网络功能的都能实现爬虫额。。。但是问题是斧子能打猎、枪也能打猎，工具总有方便程度的额

2022-11-29 02:51 回答

聆听最遥远的歌声
1. 库多
2. 语法清楚
3. 没了
2022-11-29 02:51 回答

崔颖2849464
因为google一开始就用大量的Python做爬虫，所以没有比Python爬虫库更完善的生态环境了。

2022-11-29 02:51 回答

测试帐号
都是遗传，20年前Guido打算写爬虫爬遍所有网站来着。
http://1997.webhistory.org/ww...

2022-11-29 02:51 回答

我-是二毛控控控_
都可以做。
python比较多看到可能是因为
1.第三方插件比较多
2.多线程（毕竟PHP没有）
对了，我是写PHP的
当然，我也会python

2022-11-29 02:51 回答

phpxiaoxuesheng
这个Node.js标签是怎么回事，上面都没人说到Node.js？用Node.js写爬虫的路过，主要是因为可以直接模拟浏览器环境执行某些特殊的算法——这样就不用费心破解了。虽然别的语言也可以做到，但是毕竟没有这么自然。

2022-11-29 02:51 回答

LD系瑰精棂_142
有一个，不过大多场景用pythonphpcrawler,php爬虫,php采集器,多进程,多线程

2022-11-29 02:51 回答

汉子r_843
Python在爬虫方面的确是很好的，有Scrapy这样成熟的框架或者pyspider也好用，并且学习成本很低，实践效果都很好，
比如说你要抓取一个网页内容只需要几行代码就可以实现
```
importrequestshtml＝requests.get（'http://www.baidu.com')
```
只需要这样就能获取页面内容，但这还是最基础的爬虫，如果爬虫需求高时，什么分布式啊，多线程，协程等需求都是很容易实现的，所以Python在爬虫方面还是很不错的
2022-11-29 02:51 回答

mobiledu2502895693
因为python有成熟强大稳定的爬虫框架,这是php所没有的，当然一些小爬虫的话，我觉得基本上主流语言都能很轻松的完成

2022-11-29 02:51 回答

衴u神是欧豪
python爬虫相关的库更多，而且也更多人在用，这是个互相促进的过程。
写爬虫很多语言都可以写，node.js也可以写，但是很多人是从python入手写爬虫的，习惯了之后偶尔想爬点东西用python很快就做好了，所以...

2022-11-29 02:51 回答

突击手丶罪域
python有各种爬虫框架，方便高效的下载网页。另外爬虫是个典型的多任务处理场景，python的多线程、进程模型成熟稳定，提升整个系统下载和分析能力。
另外请求页面带来的延时，所以这个场景是对执行效率要求不高的。
php虽然也有curl拓展，dom,xpath等处理工具，但是它并发处理能力比较弱，现在虽然已经有并发能力但当时没有，所以错过了爬虫需求的高峰，以致于如今写爬虫php不会是首选了。

2022-11-29 02:51 回答

Wonghowah

$url="http://www.pbc.gov.cn/zhengcehuobisi/125207/index.html";$str=get_str($url);echo$str;functionget_str($url){$ch=curl_init($url);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,10);$str=curl_exec($ch);curl_close($ch);return$str;}

这个网页php如何实现？这样写跳转到404了如何解决？

2022-11-29 02:51 回答

wz44_798

撰写答案

今天，你开发时遇到什么问题呢？

立即提问

热门标签