数据可视化
进群:125240963 即可获取数十套PDF哦!
1. 安装 Matplotlib
在Linux系统中安装matplotlib
Ubuntu17.10内置Python2版本和Python3版本,可以采用下面的方式安装Matplotlib。
$ sudo apt-get install python3-matplotlib
如果你使用的是Python 2.7,执行如下命令:
$ sudo apt-get install python-matplotlib
如果你安装了pip 就可以使用下面的方式安装:
$ pip install matplotlib
如果你的安装比较慢,可以尝试这种方式来安装:
$ pip3 install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple
常用的国内源地址有:
- 阿里云 http://mirrors.aliyun.com/pypi/simple/
- 豆瓣(douban) http://pypi.douban.com/simple/
- 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
- 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
在Windows系统中安装matplotlib
在Windows下下载Python后记得在安装的时候选择加入pip到环境变量。然后用下面的命令:
pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple
测试matplotlib
>>>import matplotlib
>>>
如果没有出现任何错误信息,就代表安装成功!
2. 绘制简单的折线图
下面来使用 matplotlib 绘制一个简单的折线图,再对其进行定制,以实现信息更丰富的数据可视化。我们将使用平方数序列 1 、 4 、 9 、 16 和 25 来绘制折线图。
图形表明数字是越来越大的,但标签文字太小,线条太细。所幸 matplotlib 让你能够调整可视化的各个方面。
校正图形
图形更容易阅读后,我们发现没有正确地绘制数据:折线图的终点指出 4.0 的平方为 25 !下 面来修复这个问题。
使用scatter()绘制散点图并设置其样式
有时候,需要绘制散点图并设置各个数据点的样式。要绘制单个点,可使用函数 scatter() ,并向它传递一对 x 和 y 坐标,它将在指定位置绘制一 个点:
import matplotlib.pyplot as plt
plt.scatter(2,4)
plt.show()
下面来设置输出的样式,使其更有趣:添加标题,给轴加上标签,并确保所有文本都大到能够看清:
使用scatter()绘制一系列点
要绘制一系列的点,可向 scatter() 传递两个分别包含 x 值和 y 值的列表,如下所示:
自动计算数据
手工计算列表要包含的值可能效率低下,需要绘制的点很多时尤其如此。
matplotlib允许你给散点图中的各个点指定颜色。默认为蓝色点和黑色轮廓,在散点图包含的数据点不多时效果很好。但绘制很多点时,黑色轮廓可能会粘连在一起。要删除数据点的轮廓,可在调用scatter()时传递实参edgecolor='none':
自定义颜色
要修改数据点的颜色,可向scatter()传递参数c,并将其设置为要使用的颜色的名称,如下所示:
plt.scatter(x_values,y_values,c='red',edgecolor='none',s=40)
你还可以使用RGB颜色模式自定义颜色。
plt.scatter(x_values,c=(0,0.8),s=40)
(0,0.8) 它们分别表示红色、绿色和蓝色分量。值越接近0,指定的颜色越深,值越接近1,指定的颜色越浅。
使用颜色映射
颜色映射(colormap)是一系列颜色,它们从起始颜色渐变到结束颜色。在可视化中,颜色映射用于突出数据的规律,例如,你可能用较浅的颜色来显示较小的值,并使用较深的颜色来显示较大的值。
这些代码将y值较小的点显示为浅蓝色,并将y值较大的点显示为深蓝色。
自动保存图表
plt.savefig('squares_plot.png',bBox_inches='tight')
第二个实参指定将图表多余的空白区域裁剪掉。如果要保留图表周围多余的空白区域,可省略这个实参。
3. 随机漫步
在自然界、物理学、生物学、化学和经济领域,随机漫步都有其实际用途。例如,漂浮在水滴上的花粉因不断受到水分子的挤压而在水面上移动。水滴中的分子运动是随机的,因此花粉在水面上的运动路径犹如随机漫步。我们稍后将编写的代码模拟了现实世界的很多情形。
创建RandomWalk()类
为模拟随机漫步,我们将创建一个名为RandomWalk的类,它随机地选择前进方向。这个类需要三个属性,其中一个是存储随机漫步次数的变量,其他两个是列表,分别存储随机漫步经过的每个点的x和y坐标。
RandomWalk类只包含两个方法:__init__ ()和fill_walk(),其中后者计算随机漫步经过的所有点。下面先来看看__init__(),如下所示:
选择方向
我们将使用fill_walk()来生成漫步包含的点,并决定每次漫步的方向。
绘制随机漫步图
给点着色
我们将使用颜色映射来指出漫步中各点的先后顺序,并删除每个点的黑色轮廓,让它们的颜色更明显。为根据漫步中各点的先后顺序进行着色,我们传递参数c,并将其设置为一个列表,其中包含各点的先后顺序。由于这些点是按顺序绘制的,因此给参数c指定的列表只需包含数字1~5000,如下所示:
重新绘制起点和终点
除了给随机漫步的各个点着色,以指出它们的先后顺序外,如果还能呈现随机漫步的起点和终点就更好了。为此,可在绘制随机漫步图后重新绘制起点和终点。我们让起点和终点变得更大,并显示为不同的颜色,以突出它们,如下所示:
隐藏坐标轴
如果不想显示坐标的尺寸,可以隐藏:
调整尺寸以适合屏幕
在不同的电脑上面,由于屏幕的不同,图像的大小也是不同的,为了达到这种效果,我们可以这样做:
4. Matplotlib进阶-Seaborn
Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。
安装方式
安装方式类似于matplotlib,在Windows下和Linux下面都可以采用pip安装方式。
set_style( )
set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid,whitegrid,dark,white,和 ticks 默认: darkgrid
直方图
直方图的绘制:
箱型图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。
联合分布
两个变量的画图
不用圆点表示的话也是可以的,可以用其他方式来表示,比如六角形来表示:
热力图
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。公式:
多变量图
关注数据框中各个特征之间的相关关系,呈现图形的展示,给人以直观的感受。而不是"冰冷"的数字。可以非常方便的找到各个特征之间呈现什么样的关系。比如线性,离散等关系。
原文链接:https://www.f2er.com/python/58988.html