使用Keras处理二分类问题——以电影评论为例

2019年9月22日

1126

1.IMDB数据集：

本次使用的IMDB数据集包含来自IMDB的50000条严重两级分化的评论。
数据集被分为用于训练的25000条评论和用于测试的25000条评论，其中训练集和测试集都包含50%的正面评论和50%的负面评论。
与MNIST数据集一样，IMDB数据集也内置到了Keras库中，并且已经经过了预处理，评论（单词序列）已经被转换为整数序列，其中每个整数代表字典中的某个单词。

2.分步骤实现：

2.1 加载IMDB数据集

2.2 将评论解码为英文单词

2.3 数据预处理

2.4 构建网络

2.5 训练模型

2.6 可视化监控参数

2.7 重新训练模型，并在测试数据上评估模型效果

3.全流程代码：

import numpy as np
from keras.datasets import imdb
from keras import models
from keras import layers

# 参数num_words=10000表示仅保留训练数据中前10000个最常出现的单词，其他低频单词将被舍弃，这样得到的向量数据就不会太大，便于后续处理
(train_data , train_labels) , (test_data , test_labels) = imdb.load_data(num_words=10000)

# 因为不能将整数序列直接输入神经网络，因此需要先对数据进行预处理，将列表转换为张量。
# 这里对列表进行one-hot编码，将其转换为0和1组成的向量。
def vectorize_sequences(sequences,dimension=10000):
    results = np.zeros((len(sequences),dimension)) # 创建一个形状为(len(sequences),dimension)的全零矩阵
    for i , sequence in enumerate(sequences):
        results[i ,sequence] = 1 # 将results[i]的指定索引设为1
    return results

# 将训练和测试数据向量化
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
# 将标签数据向量化 就是将list转换为array数组
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

# 构建模型
model = models.Sequential()
model.add(layers.Dense(16,activation='relu',input_shape=(10000,)))
model.add(layers.Dense(16,activation='relu'))
model.add(layers.Dense(1,activation='sigmoid'))
# 编译模型
model.compile(optimizer='rmsprop',
             loss='binary_crossentropy',
             metrics=['accuracy'])
# 训练模型
history = model.fit(x_train,y_train,epochs=20,batch_size=512)
# 评估模型
results = model.evaluate(x_test,y_test)
print(results)

# 使用训练好的模型在新数据上生成预测结果
# print(model.predict(x_test))

Reference：
《Deep Learning with Python》

Previous article9.丢弃法

Next article使用Keras处理多分类问题——以新闻分类为例

欢迎留下您的宝贵建议 Cancel reply

Please enter your comment!

Please enter your name here

You have entered an incorrect email address!

Please enter your email address here

使用Keras处理二分类问题——以电影评论为例

1.IMDB数据集：

2.分步骤实现：

2.1 加载IMDB数据集

2.2 将评论解码为英文单词

2.3 数据预处理

2.4 构建网络

2.5 训练模型

2.6 可视化监控参数

2.7 重新训练模型，并在测试数据上评估模型效果

3.全流程代码：

【深度学习(PyTorch篇)】49.Tensor...

【深度学习(PyTorch篇)】48.Tensor...

【深度学习(PyTorch篇)】47.可视化工具—...

欢迎留下您的宝贵建议 Cancel reply

Most Popular

【Python计算生态】Dooit——待办事项管理...

【Python内置函数】hex()函数

【Python计算生态】Black——代码格式化工...

【Python内置函数】help()函数

Recent Comments

EDITOR PICKS

RSS

3D Map Generator Terrain

1.ENVI软件操作基础——窗口介绍及打开、浏览数...

POPULAR POSTS

【ArcGIS工具箱】178.要素——删除要素

【ArcGIS工具箱】13.表面分析——山体阴影

【数据可视化(Matplotlib篇)】15.添加...

POPULAR CATEGORY