发布于 1970-01-01 08:00
  • 3 个回答
    • 1.定时用Linux工具crontab
      2.爬取用php的file_get_contents函数足矣,不行就用php_curl扩展
      3.内容用正则表达式匹配

      2022-12-01 22:14 回答
      1. 新闻一般都写有时间的吧,你比如这个 http://news.163.com/15/0313/03/AKIB93GC00014AED.html,他里面就写有时间戳: 2015-03-13 03:20:29

      2. 如果没有的化,新闻网站一般都是静态页面,你可以参考他的http header,比如

        curl 'http://news.163.com/15/0313/03/AKIB93GC00014AED.html' --head
        HTTP/1.1 200 OK
        Server: FSCS/1.2.5
        Date: Fri, 13 Mar 2015 01:23:25 GMT
        Content-Type: text/html; charset=GBK
        Content-Length: 162187
        Connection: keep-alive
        Last-Modified: Fri, 13 Mar 2015 01:18:25 GMT
        Vary: Accept-Encoding
        ETag: "55023ae1-2798b"
        ......

      这里面, Last-Modified就是可以近似当做他的时间啦.

      2022-12-01 22:14 回答
    • 写好抓取脚本,用Linux crontab定时去执行。

      2022-12-01 22:14 回答
    撰写答案
    今天,你开发时遇到什么问题呢?
    立即提问
    PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有