suger7 发表于 2022-11-30 16:41:06

python爬取大众对小米手机的评价

小米13将上调价格,据发布新闻消息来看,受定位升级、成本、疫情、汇率波动等因素影响,即将发布的小米新一代旗舰机小米13系列预计售价将大幅上调,上调幅度将达15-20%,小米13售价将在4500元左右。目前,这一系列产品已经开始量产,全系均搭载4nm芯片。关于手机品牌的选择,每个人的都有各方面的考量,看重品牌,性能,外观颜值,性价比等。那么选择购买小米的大众都是怎么评价该手机的呢?今天我们就通过python爬虫技术,获取京东上小米旗舰店里面每款产品购买后大家发表的评价来看下。做爬虫的都知道,现在的电商平台风控很严,反爬机制又特别的多和复杂,京东就是这样的。经过一系列的爬前准备,这里只需要加上代理IP就可以直接获取数据了。关于代理的选择这里重点分析下,网上有有太多的代理商,但是代理的质量参参差不齐,像京东这样的电商平台对IP的质量要求很高,所以可选择的代理就更少。经过一系列的测试对比最后选择了亿牛云代理,他们提供的隧道转发代理特别的推荐, 这种代理产品自带IP池随机切换,直接配置代理信息即可使用方便快捷,而且官方有提供demo可供直接使用,更是友好至极。这里我们实际测试下加上他们爬虫代理后访问京东的效果吧:#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
      "host" : proxyHost,
      "port" : proxyPort,
      "user" : proxyUser,
      "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
      "http": proxyMeta,
      "https" : proxyMeta,
    }


    #设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text有了代理爬取效果确实好,但是也是因为做了其他的反爬措施才有的效果。所以在爬取高难得的网站时,要分析网站做好反爬策略才能让我们的爬取速度和爬取质量更好的增加。


yijabc 发表于 2023-2-18 21:46:58

下一部手机想换小米, 但同事都说不怎么好用... 求高人指点

王力德 发表于 2023-3-24 09:31:10

发帖, 签到, 水时长...

zchzzz 发表于 2023-3-27 21:28:14

asdasdasdas
页: [1]
查看完整版本: python爬取大众对小米手机的评价