发布于 1970-01-01 08:00
  • 6 个回答
    • 从某编码向Unicode编码转化时,如果没有对应的字符,得到的将是Unicode的代码“\uffffd”,也就是这个字符。
      这个是你的爬虫根本不识别原网页的编码格式(ASCII或者GB2312等)和压缩格式(Gzip等),全都无脑转成UTF-8字符串导致的,出现这个字符说明转换失败,数据已经丢失了,这个字符本身并没什么实际意义。

      2022-12-01 10:33 回答
    • 如果是PHP的话,这个可能是因为substring导致的。解决办法是安装mb_string模块,使用mb_*系列函数。

      2022-12-01 10:33 回答
    • 有时候一个汉字被截掉一部分会产生这个符号,比如一个两字节的汉子被截掉了一字节,怎么处理我也不知道。。。
      你这个应该是‘具’字被分成两部分了。。

      2022-12-01 10:33 回答
    • public static function utf8Substr($str, $from, $len)
      {
          return preg_replace('#^(?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$from.'}'.
              '((?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$len.'}).*#s',
              '$1',$str);
      }
      2022-12-01 10:33 回答
    • 这个问题我估计是因为这段文字在换行的时候被截断了,你扒文字的时候注意看看换行符有没有把一个文字分成两半

      2022-12-01 10:33 回答
    • 可能它就是乱码
      你可以用浏览器正常访问一下试试

      2022-12-01 10:33 回答
    撰写答案
    今天,你开发时遇到什么问题呢?
    立即提问
    PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有