日常机器学习（十一）Pandas数据库

在python中有一个读取数据很强大的包pandas，下面来介绍一下pandas这个包的一些功能。用pandas读取进来的数据类型为DataFrame。首先人工生成一个csv的文件

然后可以用pandas.read_csv("Filename")读取文件数据

data.dtypes可以看各行的数据类型

data.head()可以打印出数据的前几行，若无输入，默认为五行。同理data.tail()可以打印出数据的最后几行。

data.colums可以输出数据的列的名字

data.shape可以输出数据的大小（不包含标题栏那一列）

若想读取某一行的数据，可以用data.loc[n]函数，可以返回第n行的数据，n起始index为0

在dataFrame中，有以下几种类型的数值

1）obeject：就是以前的string类型的数

2）int：整型

3）float：浮点数，小数

4）datatime：时间类型

5）bool：布尔变量，0或1型

若想读取某一列的值，可以用data[“列名”]

data.columns.tolist()可以把标题栏变成一个向量。然后我们可以用一个loop对标题栏进行检索，搜索关键词，从而找到我们需要的信息。（PS：t.endswith("a")是判断t是否以a结尾）

机器学习Note