byjbgzdescending sfgz,run,procprintdata=sy2_10;/*列表显示数据集sy2_10*/run,说明:在对两个数据集横向合并时,为了避免因两个数据集观测顺序不同造成混乱,般应将两个数据集分别按同一个变量(BY变量)排序后再合并,如【实验2-9】中的横向合并可写成:Procsortdata=sy2_9_1;by bh;Procsortdata = sy2_9_2;by bh;run;data sy2_9,mergesy2_9_1sy2_9_2;by bh,run;proc print, run;7.数据的列表显示【实验2-11】列出数据集mylib.sy22中所有男性职工的编号、姓名、部门、基本工资。代码如下:Procprintdata=mylib.sy2_2label:bhxmbmjbgz;varlabelbh=编号xm=姓名bm="部门jigz=基本工资;wherexb="男”run,2.44上机演练【练习2-1】表2-2(Ix21.xls)为某邮购服务部的部分顾客记录,编程进行如下操作表2-2邮购服务部部分顾客记录地区姓名性别日期金额男章文华东10991996-3-20男华东39王国铭1996-5-19女华北童子敏1996-1-5986男刘念新东北1997-10-13581李思今女华北1997-4-4659关昭女东北1996-11-5358赵霞女东北1998-9-62010(1)建立自己的逻辑库(以自己名字的拼音命名):(2)用数据步把此数据输入到SAS数据集并存放在自己的逻辑库中:18
18 by jbgz descending sfgz; run; proc print data= sy2_10; /*列表显示数据集 sy2_10*/ run; 说明:在对两个数据集横向合并时,为了避免因两个数据集观测顺序不同造成混乱,一 般应将两个数据集分别按同一个变量(BY 变量)排序后再合并,如【实验 2-9】中的横向合 并可写成: Proc sort data = sy2_9_1; by bh; Proc sort data = sy2_9_2; by bh; run; data sy2_9; merge sy2_9_1 sy2_9_2; by bh; run; proc print; run; 7. 数据的列表显示 【实验 2-11】列出数据集 mylib.sy2_2 中所有男性职工的编号、姓名、部门、基本工资。 代码如下: Proc print data = mylib.sy2_2 label; var bh xm bm jbgz ; label bh = '编号' xm = '姓名' bm = '部门' jigz = '基本工资'; where xb = '男'; run; 2.4 上机演练 【练习 2-1】表 2-2(lx2_1.xls)为某邮购服务部的部分顾客记录,编程进行如下操作: 表 2-2 邮购服务部部分顾客记录 姓名 性别 地区 日期 金额 章文 男 华东 1996-3-20 1099 王国铭 男 华东 1996-5-19 39 童子敏 女 华北 1996-1-5 986 刘念新 男 东北 1997-10-1 3581 李思今 女 华北 1997-4-4 659 关昭 女 东北 1996-11-5 358 赵霞 女 东北 1998-9-6 2010 (1) 建立自己的逻辑库(以自己名字的拼音命名); (2) 用数据步把此数据输入到 SAS 数据集并存放在自己的逻辑库中;
(3)列表显示男性顾客购买金额超过1000的那些人;(4)按金额降序排序并输出结果:(5)把数据拆分为包含姓名、性别、地区的一个数据集和包含姓名、日期、金额的一个数据集;(6)用MERGE和BY合并上一步拆开的两个数据集。【练习2-2】SASHELP.PRDSALE是某国际公司在各地销售记录。变量ACTUAL是实际销售额,PREDICT是预测的销售额,COUNTRY是卖往的国家,REGION是地区,DIVISION是卖往的部门,PRODTYPE是产品类型,PRODUCT是具体的产品名称,QUARTER,YEAR,MONTH分别是销售时间的季度、年、月。编程进行如下操作:(1)用print过程列出数据集中美国的销售记录,并给各列加上合理的中文标签;(2)把数据集按产品类别、年、月排序后按产品类别分类列出年、月、实际销售额,不显示观测序号。2.5实验报告请按练习内容写出包括如下内容的实验报告:一、实验目的;二、实验内容、程序及运行结果;三、实验中存在的问题及解决方法;四、实验体会(结论、评价、感想与建议等)。19
19 (3) 列表显示男性顾客购买金额超过 1000 的那些人; (4) 按金额降序排序并输出结果; (5) 把数据拆分为包含姓名、性别、地区的一个数据集和包含姓名、日期、金额的一个数 据集; (6) 用 MERGE 和 BY 合并上一步拆开的两个数据集。 【练习 2-2】SASHELP.PRDSALE 是某国际公司在各地销售记录。变量 ACTUAL 是实际 销售额,PREDICT 是预测的销售额,COUNTRY 是卖往的国家,REGION 是地区,DIVISION 是卖往的部门,PRODTYPE 是产品类型,PRODUCT 是具体的产品名称,QUARTER,YEAR, MONTH 分别是销售时间的季度、年、月。编程进行如下操作: (1) 用 print 过程列出数据集中美国的销售记录,并给各列加上合理的中文标签; (2) 把数据集按产品类别、年、月排序后按产品类别分类列出年、月、实际销售额,不显 示观测序号。 2.5 实验报告 请按练习内容写出包括如下内容的实验报告: 一、实验目的; 二、实验内容、程序及运行结果; 三、实验中存在的问题及解决方法; 四、实验体会(结论、评价、感想与建议等)
实验3SAS的描述统计功能对数据进行频数统计、计算特征统计量和将数据图形化的过程称为描述统计。其目的是为了揭示数据的集中趋势、分散程度和数据分布形态,展示极端数据,最后作出说明现象本质的初步结论。3.1实验目的掌握使用SAS对数据作描述性统计分析的方法。3.2实验内容一、用INSIGHT计算统计量二、用“分析家”计算统计量三、编程实现描述性统计3.3实验指导一、用INSIGHT计算统计量【实验3-1】按性别分别计算SASUSER.CLASS中身高的均值、标准差、中位数和其它四分位数,简单分析学生身高的状况。1.在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”→“Analysis(分析)”→“InteractiveDataAnalysis(交互式数据分析)”,打开“SAS/INSIGHTOpen”对话框,在对话框中选择数据集:SASUSER.CLASS,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口,如图3-1左所示。2.用Distribution菜单项计算统计量(I)选择菜单“Analyze(分析)”→“Distribution(Y)(分布)",打开“Distribution(Y)”对话框。在数据集CLASS的变量列表中,选择height,然后单击“Y”按钮,height被选为分析变量,选择sex,然后单击“Group”按钮,sex被选为分组变量,如图3-1右所示。Dintributinn CyXCLASE产图3-1在INSIGHT中计算统计量20
20 实验 3 SAS 的描述统计功能 对数据进行频数统计、计算特征统计量和将数据图形化的过程称为描述统计。其目的是 为了揭示数据的集中趋势、分散程度和数据分布形态,展示极端数据,最后作出说明现象本 质的初步结论。 3.1 实验目的 掌握使用 SAS 对数据作描述性统计分析的方法。 3.2 实验内容 一、用 INSIGHT 计算统计量 二、用“分析家”计算统计量 三、编程实现描述性统计 3.3 实验指导 一、用 INSIGHT 计算统计量 【实验 3-1】按性别分别计算 SASUSER.CLASS 中身高的均值、标准差、中位数和其它四 分位数,简单分析学生身高的状况。 1. 在 INSIGHT 中打开数据集 在菜单中选择“Solution(解决方案)”→“Analysis(分析)”→“Interactive Data Analysis (交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集: SASUSER.CLASS,单击“Open(打开)”按钮,即可在 INSIGHT 中打开数据窗口,如图 3- 1 左所示。 2. 用 Distribution 菜单项计算统计量 (1) 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)” 对话框。在数据集 CLASS 的变量列表中,选择 height,然后单击“Y”按钮,height 被选为 分析变量,选择 sex,然后单击“Group”按钮,sex 被选为分组变量,如图 3-1 右所示。 图3-1 在INSIGHT中计算统计量
(2)单击“Output(输出)”按钮,在打开的对话框中包含描述性统计的选项,见表3-1。表3-1描述性统计选项选项说明选项说明Moments矩统计量频数统计Frequency CountsQuintiles分位数尺度的稳健估计Robust Measures of ScaleBasic Confidence Intervals基本置信区间正态性检验Tests for Normality位置检验Tests for Location选择矩统计量和分位数选项,取消默认的选项:“BoxPlot/MosaicPlot”和“Histogram/BarChart”,如图3-2所示。Distribution (Y)区Descriptfve Statistice:两次单击“OK”按钮,即可得到变量height按sexGrapheantile分组的各种矩统计量(Moments)和分位数Box Plot/MosaicPlotEasle Confidence IntervalsHistogran8LNornalQQPlottsforto(Quantiles),如图3-3所示。SbustearuofScalemTestsforNornalltParaneters:3.结果分析Triaed/Vinsorized MeansAlpha:0.05Density Estimatlonmuo:0从结果可以看出女生和男生分别有9个和10个Theta:0Cuaulative Distribution观测,女生的平均身高60.5889低于男生的平均身高63.91,女生的标准差5.0183略大与男生的标准差OKCancel4.9379,说明女生的身高较为分散一些。图3-2描述性统计选项,ex =sexMheight height口10, 000010,000060: 8603383201838384. 93795tanssnePKurtosig72390,34690. 04100. 934983240201.219.449041064.3300SSSMe5615212MQuantiles1antile门57:8设服88050000000000661BSN915010000:800话:7883003000057.3000图3-3分组显示的各种矩统计量和分位数女生的中位数、四分之一分位数和四分之三分位数分别为62.5、56.5和64.3,说明身高大于或小于62.5的女生各占一半,有四分之一的女生身高不超过56.5,而另有四分之一的女生身高超过了64.3:男生的中位数、四分之一分位数和四分之三分位数分别为64.15、59.0和67.0,说明身高大于或小于64.15的男生各占一半,有四分之一的男生身高不超过59.0,而另有四分之一的男生身高超过了67.0。二,用“分析家”计算统计量【实验3-2】从某大学总数为500名学生的“概率统计学”课程的考试成绩中,随机地抽取60名学生的考试成绩如表3-2(sy32.xls)所示:21
21 (2) 单击“Output(输出)”按钮,在打开的对话框中包含描述性统计的选项,见表 3-1。 表 3-1 描述性统计选项 选项 说明 选项 说明 Moments 矩统计量 Frequency Counts 频数统计 Quintiles 分位数 Robust Measures of Scale 尺度的稳健估计 Basic Confidence Intervals 基本置信区间 Tests for Normality 正态性检验 Tests for Location 位置检验 选择矩统计量和分位数选项,取消默认的选项:“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”,如图 3-2 所示。 两次单击“OK”按钮,即可得到变量 height 按 sex 分 组 的 各 种 矩 统 计 量 ( Moments ) 和 分 位 数 (Quantiles),如图 3-3 所示。 3. 结果分析 从结果可以看出女生和男生分别有 9 个和 10 个 观测,女生的平均身高 60.5889 低于男生的平均身高 63.91,女生的标准差 5.0183 略大与男生的标准差 4.9379,说明女生的身高较为分散一些。 图3-3 分组显示的各种矩统计量和分位数 女生的中位数、四分之一分位数和四分之三分位数分别为 62.5、56.5 和 64.3,说明身高 大于或小于 62.5 的女生各占一半,有四分之一的女生身高不超过 56.5,而另有四分之一的女 生身高超过了 64.3;男生的中位数、四分之一分位数和四分之三分位数分别为 64.15、59.0 和 67.0,说明身高大于或小于 64.15 的男生各占一半,有四分之一的男生身高不超过 59.0,而另 有四分之一的男生身高超过了 67.0。 二、用“分析家”计算统计量 【实验 3-2】从某大学总数为 500 名学生的“概率统计学”课程的考试成绩中,随机地抽 取 60 名学生的考试成绩如表 3-2(sy3_2.xls)所示:
表 3-2“概率统计学”考试成绩6393808291307283168472586495729363997476918361828583448894687866851008384488890g8求出上述数据的平均值、方差、极差、中位数、四分之一分位数及四分之三分位数,并分析成绩分布情况。1.在“分析家”中直接打开ExceI表生成数据集(I)首先将题中数据整理成只有一列数据的Excel表格存盘,如存为D:ISASSHIYAMI原始数据lsy32.xls。(2)选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”,打开“分析家”窗口。(3)选择主菜单“File(文件)”→“Open..:(打开)”,在打开的对话框中,选择文件类型为“MicrosoftExcelSpreadsheet"。(4)选定Excel表格:“D:ISASSHIYAN原始数据Isy32.xls”,单击“打开”按钮,打开“SASImport:SpreadsheetOptions”对话框,在“Worksheet/Range”下拉列表中选择工作表名称(图3-4左),取消对复选框Columnnamesinfirstrow的选中,单击“OK”按钮,即可将Excel数据表在“分析家”中打开,默认的变量名为F1,如图3-4右所示。C口×Knalyst:(new prosect)SAs Import:Spreadsheet Optionsa2(ExINewProiesy3_2Analysissyo2forksheet/Range:SheetisCancelColunmales in first row.ALength allocated for iaported1024图3-4将Excel数据表导入SAS(5)选择主菜单“File(文件)”→“SaveAsBySASName...”,在打开的“SaveAs”对话框中,选择所要保存的逻辑库名,并输入数据集名,单击“Save”按钮,即可将打开的Excel数据表保存为SAS数据集。2.用SummaryStatistics菜单项计算描述性统计量(1)选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“SummaryStatistics(汇总统计量)”,打开“SummaryStatistics”对话框,选择变量列表中的F1,单击“Analysis”按钮,选定分析变量,如图3-5左所示。22
22 表 3-2 “概率统计学”考试成绩 63 75 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 99 74 76 95 91 83 61 82 85 83 44 88 72 66 94 68 78 88 71 94 85 82 79 100 90 83 88 84 48 72 80 85 80 87 76 62 96 求出上述数据的平均值、方差、极差、中位数、四分之一分位数及四分之三分位数,并 分析成绩分布情况。 1. 在“分析家”中直接打开 Excel 表生成数据集 (1) 首先将题中数据整理成只有一列数据的 Excel 表格存盘,如存为 D:\SAS_SHIYAN\原 始数据\sy3_2.xls。 (2) 选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”, 打开“分析家”窗口。 (3) 选择主菜单“File(文件)”→“Open.(打开)”,在打开的对话框中,选择文件类 型为“Microsoft Excel Spreadsheet”。 (4) 选定 Excel 表格:“D:\SAS_SHIYAN\原始数据\sy3_2.xls”,单击“打开”按钮,打开 “SAS Import:Spreadsheet Options”对话框,在“Worksheet/Range”下拉列表中选择工作表 名称(图 3-4 左),取消对复选框 Column names in first row 的选中,单击“OK”按钮,即可 将 Excel 数据表在“分析家”中打开,默认的变量名为 F1,如图 3-4 右所示。 图3-4 将Excel数据表导入SAS (5) 选择主菜单“File(文件)”→“Save As By SAS Name.”,在打开的“Save As”对 话框中,选择所要保存的逻辑库名,并输入数据集名,单击“Save”按钮,即可将打开的 Excel 数据表保存为 SAS 数据集。 2. 用 Summary Statistics 菜单项计算描述性统计量 (1) 选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Summary Statistics (汇总统计量)”,打开“Summary Statistics”对话框,选择变量列表中的 F1,单击“Analysis” 按钮,选定分析变量,如图 3-5 左所示