1、京东商品页面的爬取:
- 需求:爬取京东某个商品的页面信息
- 实现代码:
import requests
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "https://item.jd.com/5089253.html"
print(getHTMLText(url))
2、百度搜索关键词提交:
- 需求:通过程序向百度搜索引擎提供一个关键词并获得搜索结果
- 实现代码:
import requests
keyword = "Python"
try:
kv = {'wd':keyword}
r = requests.get("http://www.baidu.com/s",params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except:
print("爬取失败")
3、网络图片的爬取与存储:
- 需求:通过程序将网络上的图片保存到本地
- 实现代码:
import requests
import os
url = " " # 需要爬取的网络图片地址
root = "D:/" # 图片保存位置
path = root + url.split("/")[-1] # 图片以url中显示的名称作为保存的图片名称
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r = requests.get(url)
with open(path, "wb") as f:
f.write(r.content)
f.close()
print("爬取成功")
except:
print("爬取失败")
4、IP地址归属地的自动查询:
- 需求:通过程序查询某一IP地址
利用http://www.ip138.com网站进行ip地址查询。
通过网站查询可以发现查询结果的url连接为http://www.ip138.com/ips138.asp?ip=114.80.216.189
,
可以通过http://www.ip138.com/ips138.asp?
将ip地址作为变量添加到url中,从而得到查询结果。
- 实现代码:
import requests
url = "http://www.ip138.com/ips138.asp?"
kv = {"ip":"114.80.216.189"}
try:
r = requests.get(url,params=kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text)
except:
print("爬取失败")