首页Python实战案例——京东商品页面的...

实战案例——京东商品页面的爬取

1、京东商品页面的爬取:

  • 需求:爬取京东某个商品的页面信息
  • 实现代码:
import requests
    
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
    
if __name__ == "__main__":
    url = "https://item.jd.com/5089253.html"
    print(getHTMLText(url))

2、百度搜索关键词提交:

  • 需求:通过程序向百度搜索引擎提供一个关键词并获得搜索结果
  • 实现代码:
import requests
    
keyword = "Python"
try:
    kv = {'wd':keyword}
    r = requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")

3、网络图片的爬取与存储:

  • 需求:通过程序将网络上的图片保存到本地
  • 实现代码:
import requests
import os
    
url = " " # 需要爬取的网络图片地址
root = "D:/" # 图片保存位置
path = root + url.split("/")[-1] # 图片以url中显示的名称作为保存的图片名称
    
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, "wb") as f:
            f.write(r.content)
            f.close()
            print("爬取成功")
except:
    print("爬取失败")

4、IP地址归属地的自动查询:

  • 需求:通过程序查询某一IP地址

利用http://www.ip138.com网站进行ip地址查询。
通过网站查询可以发现查询结果的url连接为http://www.ip138.com/ips138.asp?ip=114.80.216.189
可以通过http://www.ip138.com/ips138.asp?将ip地址作为变量添加到url中,从而得到查询结果。

  • 实现代码:
import requests
    
url = "http://www.ip138.com/ips138.asp?"
kv = {"ip":"114.80.216.189"}
try:
    r = requests.get(url,params=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print("爬取失败")
RELATED ARTICLES

欢迎留下您的宝贵建议

Please enter your comment!
Please enter your name here

- Advertisment -

Most Popular

Recent Comments