数据可视化TheRGraphGallery(https://r-graph-gallery.com/)列举了常见的数据可视化工具:MValitDeraltRitpelrSranatTime Seietnepiotacked aesCorelationAwBubsConrwcied scatsDenity2dCrorsHeitbin mapCangianCaiscdloButbieRanikinPYTHONaVORDWerdodPiralelCrelarBaepidBsiplitSpidir/RadierLlpophorNaiwrSatoArs SagranCopeondnPant ofaiwholeGeneralknowledgeO站l国ggplot25niaciveCarveDatadonga6
6 数据可视化 The R Graph Gallery (https://r-graph-gallery.com/)列举了常见的数据可视化工具:
散点图:plot一元数据分布:直方图,盒型图,枝叶图散点图/实轴描点有助于了解一维数据的大小次序、间隔其至分布。比如数轴点“随机取10个点”通常指的是从均匀分布中产生10个随机数,其均匀性如何表现?下面产生10个[011区间上的均匀随机数!(0.389,0.583,0.095,0.853, 0.787,0.119, 0.606,0.081,0.391,0.619)0可以看到,均匀随机数并不是我们想象的那么”均匀”,数值之间的间隔(spacing)差别较大,容易出现聚簇(样本量较大时,每个局部都是如此)。简单情形:一个U(0,1)随机数将[0,1]区间划分成2段,较小一段的期望为1/4;两个U(0,1)随机数将[0,1]区间划分成3段,最小段的期望等于1/9,最小段长度小于0.1的概率大约为0.5
7 实轴描点有助于了解一维数据的大小次序、间隔甚至分布。比如, “随机取10个点”通常指的是从均匀分布中产生10个随机数, 其 均匀性如何表现?下面产生10个[0,1]区间上的均匀随机数: 散点图/ 数轴点 x=(0.389, 0.583, 0.095, 0.853, 0.787, 0.119, 0.606, 0.081, 0.391, 0.619) 可以看到,均匀随机数并不是我们想象的那么”均匀”,数值之 间的间隔(spacing) 差别较大,容易出现聚簇(样本量较大时, 每个局部都是如此)。 简单情形: • 一个𝑈 0,1 随机数将[0,1]区间划分成2段,较小一段的期望为1/4; • 两个𝑈 0,1 随机数将[0,1]区间划分成3段,最小段的期望等于1/9, 最小段长度小于0.1的概率大约为0.5 • 散点图:plot 一元数据 • 分布:直方图 ,盒型图 ,枝叶图
般结果:假设x1,,xnid~U(o,1),从小到大排列记为次序统计量Spacing/间隔x(1)≤≤x(n),间隔spacing定义为:d;= x(i) - x(i-1),i = 1, ,n + 1, 其中x(o) = 0, x(n+1) =1,已知事实:1间隔期望相同:E(di)=n+1次序统计量服从{(t1,,tn):0≤ti≤≤tn≤1)上的均匀分布d1,,dn+1服从均匀分布U(A),△={(d1,..,dn+1):di;≥O, di +... + dn+i= 1}。问题:. P(min(di) < t) =?. E(min(di)) = 1/(n + 1)2 ?8
8 一般结果: 假设 𝑥1, . , 𝑥𝑛 𝑖𝑖𝑑 ~𝑈 0,1 ,从小到大排列记为次序统计量 𝑥(1) ≤ ⋯ ≤ 𝑥(𝑛) , 间隔spacing定义为: 𝑑𝑖= 𝑥(𝑖) − 𝑥 𝑖−1 , 𝑖 = 1, . , 𝑛 + 1, 其中𝑥(0) = 0, 𝑥(𝑛+1) =1, 问题: • P min 𝑑𝑖 < 𝑡 =? • 𝐸 min 𝑑𝑖 = 1/(𝑛 + 1) 2 ? 已知事实: • 间隔期望相同: 𝐸 𝑑𝑖 = 1 𝑛+1 • 次序统计量服从{ (𝑡1, . ,𝑡𝑛 ):0 ≤ 𝑡1 ≤ ⋯ ≤ 𝑡𝑛 ≤ 1}上的均匀分布。 • 𝑑1, . , 𝑑𝑛+1 服从均匀分布𝑈(Δ), Δ = { 𝑑1, . , 𝑑𝑛+1 : 𝑑𝑖≥ 0, 𝑑1+ ⋯ + 𝑑𝑛+1= 1}。 Spacing/ 间隔
> boxplot(x) :分布Interquantilerange(度量分散程度):0.6175IQR=75%分位数一25%分位数IQR0.61750.18750.1875>hist(x, prob=T) :> stem(x)Thedecimal point is 1 digit(s)to the leftof the0|89221994186|1298/5o0.00.20.4 0.60.89
9 > boxplot(x) : > hist(x,prob=T) : IQR Interquantile range (度量分散程度): IQR=75%分位数−25%分位数 =0.6175 − 0.1875 分布 0.6175 0.1875 > stem(x)
二元散点图:plot二元数据二元分布:image,persp,contour散点图(scatterplot)是最基本、也是最重要的数据展示方法。散点图例1.纸张的强度在机器制造方向(MD:machinedirection)和与之垂直的方向(CD:crossdirection)有所不同,课本Tablel.2(数据集:paper)提供了41张纸张的三项指标:x-StrengthMD,y=StrengthCD,z-Density(密度)。两个strength正相关数据聚簇为两类透视图(perspective)、热图(heatmap)、等高线二元分布图(contour)刻画二元数据(x,y)的分布:persp()image(),contour()##kde2d估计概率密度library(MASS)k<-kde2d(paperl,2],paperl,3),n=25)#n:x,y轴划分区间的个数#二维变量的密度函数(左)和概率密度的热图、等高线图:persp(k,xlab="x",ylab="y",zlab="Prob.density",theta=30)image(k,xlab="Strength_MD",ylab="Strength_CD")10contour(k,add=TRUE,drawlabels =FALSE,nlevels=6)
10 散点图 散点图(scatter plot)是最基本、也是最重要的数据展示方法。 例1. 纸张的强度在机器制造方向(MD:machine direction) 和与之垂直的方向(CD:cross direction)有所不同,课 本Table1.2(数据集:paper )提供了41张纸张的三项指标: x=Strength_MD, y=Strength_CD, z=Density (密度)。 两个strength正相 关数据聚簇为两类 • 二元散点图: plot 二元数据 • 二元分布:image, persp, contour 二元分布 透视图(perspective)、热图(heat map)、等高线 图(contour)刻画二元数据(x,y)的分布: persp() image(), contour() ## kde2d估计概率密度 library(MASS) k <- kde2d(paper[,2],paper[,3], n=25) #n: x,y轴划分区间的个数 #二维变量的密度函数(左)和概率密度的热图、等高线图: persp(k, xlab="x", ylab="y",zlab="Prob. density",theta=30 ) image(k, xlab="Strength_MD", ylab="Strength_CD" ) contour(k, add = TRUE, drawlabels = FALSE,nlevels=6)