实战案例——京东商品页面的爬取

By 进击的码农设计师

2019年3月27日

0

1024

1、京东商品页面的爬取：

需求：爬取京东某个商品的页面信息

实现代码：

import requests
    
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
    
if __name__ == "__main__":
    url = "https://item.jd.com/5089253.html"
    print(getHTMLText(url))

2、百度搜索关键词提交：

需求：通过程序向百度搜索引擎提供一个关键词并获得搜索结果

实现代码：

import requests
    
keyword = "Python"
try:
    kv = {'wd':keyword}
    r = requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")

3、网络图片的爬取与存储：

需求：通过程序将网络上的图片保存到本地

实现代码：

import requests
import os
    
url = " " # 需要爬取的网络图片地址
root = "D:/" # 图片保存位置
path = root + url.split("/")[-1] # 图片以url中显示的名称作为保存的图片名称
    
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, "wb") as f:
            f.write(r.content)
            f.close()
            print("爬取成功")
except:
    print("爬取失败")

4、IP地址归属地的自动查询：

需求：通过程序查询某一IP地址

利用http://www.ip138.com网站进行ip地址查询。
通过网站查询可以发现查询结果的url连接为http://www.ip138.com/ips138.asp?ip=114.80.216.189，
可以通过http://www.ip138.com/ips138.asp?将ip地址作为变量添加到url中，从而得到查询结果。

实现代码：

import requests
    
url = "http://www.ip138.com/ips138.asp?"
kv = {"ip":"114.80.216.189"}
try:
    r = requests.get(url,params=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print("爬取失败")

Previous article1.空间句法——凸空间分析

Next article用WordPress快速搭建网站

欢迎留下您的宝贵建议 Cancel reply

Please enter your comment!

Please enter your name here

You have entered an incorrect email address!

Please enter your email address here

实战案例——京东商品页面的爬取

1、京东商品页面的爬取：

2、百度搜索关键词提交：

3、网络图片的爬取与存储：

4、IP地址归属地的自动查询：

【Python小程序】自动解压并删除压缩包

【Python小程序】查找并删除重复文件

【Python小程序】实现文件自动归类

欢迎留下您的宝贵建议 Cancel reply

Most Popular

【ArcGIS工具箱】221.几何网络——重新构建...

【深度学习(PyTorch篇)】47.可视化工具—...

【深度学习(PyTorch篇)】46.可视化工具—...

【深度学习(PyTorch篇)】45.autogr...

Recent Comments

EDITOR PICKS

RSS

3D Map Generator Terrain

1.ENVI软件操作基础——窗口介绍及打开、浏览数...

POPULAR POSTS

【ArcGIS小操作】56.创建线要素的泰森多边形...

46.水文分析——河网分析

【Python数据分析】29.JSON数据的读写操...

POPULAR CATEGORY