1.Pandas库介绍:
Pandas是Python第三方库,提供高性能易用数据类型和分析工具,其所包含的数据 结构和数据处理工具的设计使得在Python中进行数据清洗和分析非常方便。
Pandas是基于Numpy实现,常与Numpy、Scipy和Matplotlib一同使用。
Pandas的引用直接使用以下语句即可:
import pandas as pd # 尽管别名可以省略或者修改,建议使用上述约定的别名
2.Pandas库的理解:
Pandas库主要有两种数据类型:Series(相当于一个一维数据类型)、DataFrame(相当于一个二维到多维数据类型) ,并基于上述两个数据类型提供了各类操作: 基本操作、运算操作、特征类操作、关联类操作。
Numpy | Pandas |
---|---|
基础数据类型 | 扩展数据类型 |
关注数据的结构表达 | 关注数据的应用表达 |
维度:数据间关系 | 数据与索引间关系 |
3.Pandas库的Series类型:
3.1 Series类型介绍
Series类型是由一组数据及与之相关的数据索引组成,即一维的带“标签”的数组。Series类型包括index和value两部分。
- 自动索引
- 自定义索引
3.2 Series类型的创建
- Python列表:index与列表元素个数一致
- 标量值:index表达Series类型的尺寸
- Python字典:键值对中的“键”是索引,index从字典中进行选择操作
如要构造与字典不同的数据类型时刻采用index参数:
- ndarray:索引和数据都可以用过ndarray类型创建
- 其他函数:range()函数等
4.Pandas库的DataFrame类型:
4.1 DataFrame类型介绍
DataFrame类型由共用相同索引的一组列组成。
DataFrame是一个表格型的数据类型,每列值类型可以不同;
DataFrame既有行索引(index),也有列索引(column);
DataFrame常用于表达二维数据,但可以表达多维数据。
4.2 DataFrame类型的创建
- 二维ndarray对象
- 由一维ndarray构成的字典
- 由列表构成的字典
- 由字典、元组或Series构成的字典
- Series类型
- 其他的DataFrame类型