9.以MNIST数据集为例实现神经网络学习算法

2019年5月6日

966

1.2层神经网络的构建：

import sys, os
# 为了导入父目录的文件而进行的设定
sys.path.append(os.pardir)
# 将之前的基本函数都放到一个functions.py文件中，方便以后直接调用
from common.functions import *
# 计算梯度的函数也是如此操作
from common.gradient import numerical_gradient

# 定义一个类
class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        # 初始化权重参数
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)

    # 前向计算函数
	def predict(self, x):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
    
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        return y
        
    # 损失函数，其中，x:输入数据, t:监督数据
    def loss(self, x, t):
        y = self.predict(x)
        return cross_entropy_error(y, t)
    
	# 计算准确率的函数
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        t = np.argmax(t, axis=1)
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
        
    # 梯度计算函数加速版，会比之前定义的梯度函数计算速度更快
	def gradient(self, x, t):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
        grads = {}
        
        batch_num = x.shape[0]
        
        # forward
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        
        # backward
        dy = (y - t) / batch_num
        grads['W2'] = np.dot(z1.T, dy)
        grads['b2'] = np.sum(dy, axis=0)
        
        da1 = np.dot(dy, W2.T)
        dz1 = sigmoid_grad(a1) * da1
        grads['W1'] = np.dot(x.T, dz1)
        grads['b1'] = np.sum(dz1, axis=0)

2.mini-batch版学习过程实现：

import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet


# 读入数据
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

# 损失值列表
train_loss_list = []

# 超参数
iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1


# 定义网络
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
	# 获取mini_batch
	batch_mask = np.random.choice(train_size,batch_size)
	x_batch = x_train[batch_mask]
	t_batch = t_train[batch_mask]

	# 计算梯度
	# grad = network.numerical_gradient(x_batch,t_batch)
	grad = network.gradient(x_batch, t_batch)

	# 更新参数
	for key in ('W1', 'b1', 'W2', 'b2'):
		network.params[key] -= learning_rate*grad[key]

	# 记录学习过程
	loss = network.loss(x_batch,t_batch)
	train_loss_list.append(loss)

	print(loss)

运行可以看到随着学习的进行，损失函数的值在不断减小，说明神经网络的确在学习改进。

3.基于测试数据的评价：

因为神经网络追求的是其泛化能力，所以需要在训练集以外的数据上进行测试，查看神经网络效果。

import sys, os
sys.path.append(os.pardir)
import numpy as np
import matplotlib.pyplot as plt
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

# 读入数据
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

iters_num = 10000  # 适当设定循环的次数
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 计算梯度
    #grad = network.numerical_gradient(x_batch, t_batch)
    grad = network.gradient(x_batch, t_batch)
    
    # 更新参数
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))

# 绘制图形
markers = {'train': 'o', 'test': 's'}
x = np.arange(len(train_acc_list))
plt.plot(x, train_acc_list, label='train acc')
plt.plot(x, test_acc_list, label='test acc', linestyle='--')
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.ylim(0, 1.0)
plt.legend(loc='lower right')
plt.show()

运行得到

train acc, test acc | 0.10056666666666667, 0.1032
train acc, test acc | 0.7883, 0.7913
train acc, test acc | 0.87705, 0.8806
train acc, test acc | 0.8985333333333333, 0.9028
train acc, test acc | 0.9092833333333333, 0.9109
train acc, test acc | 0.91495, 0.9167
train acc, test acc | 0.9198166666666666, 0.9208
train acc, test acc | 0.92455, 0.925
train acc, test acc | 0.92695, 0.9281
train acc, test acc | 0.9307833333333333, 0.9306
train acc, test acc | 0.93345, 0.9345
train acc, test acc | 0.9363666666666667, 0.9347
train acc, test acc | 0.93795, 0.9365
train acc, test acc | 0.9408666666666666, 0.9384
train acc, test acc | 0.9427, 0.9411
train acc, test acc | 0.9452833333333334, 0.9433
train acc, test acc | 0.94675, 0.9457

可以看出，随着学习的进行，使用训练数据和测试数据评价的识别精度都提高了，并且两者基本重叠在一起，说明这次学习过程没有发生过拟合现象。

Reference：
《Deep Learning from Scratch》

Previous article8.梯度

Next article10.链式法则(chain relu)、反向传播和在简单层的实现

欢迎留下您的宝贵建议 Cancel reply

Please enter your comment!

Please enter your name here

You have entered an incorrect email address!

Please enter your email address here

9.以MNIST数据集为例实现神经网络学习算法

1.2层神经网络的构建：

2.mini-batch版学习过程实现：

3.基于测试数据的评价：

【深度学习(PyTorch篇)】43.nn.Mod...

【深度学习(PyTorch篇)】42.搭建ResN...

【Python小程序】实现文件自动归类

欢迎留下您的宝贵建议 Cancel reply

Most Popular

【ArcGIS工具箱】210.子类型——移除子类型...

【ArcGIS工具箱】209.子类型——添加子类型...

【ArcGIS工具箱】208.子类型——设置子类型...

【ArcGIS工具箱】207.字段——计算结束时间...

Recent Comments

EDITOR PICKS

RSS

3D Map Generator Terrain

1.ENVI软件操作基础——窗口介绍及打开、浏览数...

POPULAR POSTS

16.空间数据可视化——符号化与样式

【ArcGIS小操作】15.由点坐标生成面要素

【数据可视化（ECharts篇）】9.EChart...

POPULAR CATEGORY