《SAS系统和数据分析》
第一课SAS系统简介
一.SAS系统
1什么是SAS系统
SAS系统是一个模块化的集成软件系统。所谓软件系统就是一组在一起作业的计算机程序。
SAS系统是一种组合软件系统。基本部分是Base SAS软件
2SAS系统的功能
SAS系统是大型集成应用软件系统,具有完备的以下四大功能:
●数据访问
●数据管理
●数据分析
●数据显示
它是美国软件研究所(SAS Institute Inc.)经多年的研制于1976年推出。目前已被许多国家和地区的机构所采用。SAS系统广泛应用于金融、医疗卫生、生产、运输、通信、政府、科研和教育等领域。它运用统计分析、时间序列分析、运筹决策等科学方法进行质量管理、财务管理、生产优化、风险管理、市场调查和预测等等业务,并可将各种数据以灵活多样的各种报表、图形和三维透视的形式直观地表现出来。在数据处理和统计分析领域,SAS系统一直被誉为国际上的标准软件系统。
3SAS系统的主要模块
SAS系统包含了众多的不同的模块,可完成不同的任务,主要模块有:
●SAS/BASE(基础)——初步的统计分析
●SAS/STAT(统计)——广泛的统计分析
●SAS/QC(质量控制)——质量管理方面的专门分析计算
●SAS/OR(规划)——运筹决策方面的专门分析计算
●SAS/ETS(预测)——计量经济的时间序列方面的专门分析计算
●SAS/IML(距阵运算)——提供了交互矩阵语言
●SAS/GRAPH(图形)——提供了许多产生图形的过程并支持众多的图形设备
●SAS/ACCESS(外部数据库接口)——提供了与大多数流行数据库管理系统的方便接
口并自身也能进行数据管理
●SAS/ASSIST(面向任务的通用菜单驱动界面)——方便用户以菜单方式进行操作
●SAS/FSP(数据处理交互式菜单系统)
●SAS/AF(面向对象编程的应用开发工具)
另外SAS系统还将许多常用的统计方法分别集成为两个模块LAB和INSIGHT,供用户利用图形界面和菜单直接对数据进行统计分析
4SAS系统的特点
最大特点是把数据管理和数据分析融为一体,主要特点为:
1.使用灵活方便,功能齐全
SAS的宗旨是为所有需要进行数据处理,数据分析的非计算机专业人员提供一种易学易用,完整可靠的软件系统。
使用简单方便:用户把要解决的问题,用SAS语言表达出来,组成SAS程序,提交给SAS系统就可以解决提出的问题。执行的情况和输出结果都在屏幕上显示出来。用户操作是在很友好的界面下进行的。
功能齐全:从SAS系统的模块结构,用户根据需要可灵活地选择使用。SAS系统提供的20多个模块可完成各方面的实际问题,功能非常齐全。
2.SAS语言是编程能力强且简洁易学的非过程语言。
SAS语言是SAS系统的基础,是用户与系统对话的语言。
SAS语言是功能强大的程序设计语言,
SAS语言是非过程语言,不必告诉SAS怎样做,只需告诉它你要“做什么”。
3.SAS系统把数据处理与统计分析融为一体。
SAS程序的结构由两个基本步骤任意组合而成。DA TA步用于对数据的加工处理;PROC步用于分析数据和编写报告。
5SAS系统的支持技术
在当今的信息时代中,如何有效地利用业务高度自动化所产生的巨量宝贵数据,挖掘出对预测和决策有用的信息,就成为掌握竞争主导权的关键因素。因此,SAS系统始终致力于应用先进的信息技术和计算机技术对业务和历史数据进行更深层次的加工。
经过二十多年的发展,SAS系统现在是以下三种技术的主要提供者:
●数据仓库技术
●数据挖掘技术
●决策支持技术
二.WINDOWS运行环境下SAS系统的安装
1Novel局域网上共享SAS系统
操作步骤:
(1).以User Windows98进入操作系统
(2).登录Novel312-Server
●双击网上邻居
●双击233
●登录对话框:用户名键入Guest, 口令1111
(3).将服务器上的SYS目录映射到网络驱动器I:
●右键SYS出现快显菜单,选择映射到网络驱动器I:
●将登录时重新连接选项选定
(4).将SAS以快捷方式复制到桌面
●找到SAS目录下的SAS.EXE运行文件
●右键SAS.EXE出现快显菜单,选择发送到桌面快捷方式
(5).在本地工作站硬盘的E目录下建立SAS目录
●打开资源管理器,单击选中E目录
●文件/新建/新文件夹/键入SAS
(6).修改机器的系统日期为2000年9月
●双击我的电脑
●双击控制面板
●双击日期时间
●修改日期
三.启动SAS系统
WINDOWS环境下启动SAS系统
双击“The SAS System”图标
四.显示管理系统窗口
1显示管理系统(Display Manager)三个主要窗口:
●PROGRAM EDITOR窗口:编写SAS源程序,存储或调入文件,提交SAS
程序和SAS系统执行的场所,,●LOG窗口:显示SAS系统的信息和SAS程序运行的信息●OUTPUT窗口:存放和显示SAS程序运算结果的输出
2显示管理系统的常用窗口
●KEYS 查看及改变功能键的设置
●LIBNAME 查看已经存在的SAS数据库
●DIR 查看某个SAS数据库的内容
●V AR 查看SAS数据集的有关信息
●OPTIONS 查看及改变SAS的系统设置
假设我们准备自定义F12功能键为OPTIONS命令,打开KEYS 窗口后在F12的右边的空白区键入OPTIONS,完毕之后在命令框中键入END命令退出KEYS窗口
五.显示管理系统命令
1显示管理系统命令的发布
有四种命令的发布方式都可达到相同结果。
●在命令框中直接键入命令
●按功能键
●使用下拉式菜单
●使用工具栏
例如我们要增加一个OUTPUT窗口,相应地四种操作如下:
●命令框中直接键入OUTPUT和Enter
●功能键F7
●Globals/Output
●tools/customize (options/edit tools)
①Add按钮选择Tool,新增了一个空白按钮
②Command命令框中输入:OUTPUT;Help Text命令框中输入:Add new
button create by DZX;Tip Text命令框中输入:Output。
③再单击Browse命令挑选一个合适的按钮。
④单击Move Dn按钮将OUTPUT按钮移动到最后Help按钮之后
⑤单击Add按钮选择Separator,使Help按钮和新增OUTPUT命令按钮
之间有一个空白的分组间隙。
⑥单击Save按钮
2文本编辑行命令
文本编辑行命令的主要作用是为在PROGRAM EDITOR窗口方便和高效地输入和修改SAS程序提供一组编辑命令。文本编辑行命令可归两个子类:
●命令行命令——在命令框中输入NUMS命令
●行命令——在行号上键入执行指定功能的字母来完成编辑功能
例如,我们在PROGRAM EDITOR窗口中的第一行到第三行输入假设的数据和程序:“Data and program line one ”,“Data and program line two”,“Data and program line three”。
若想在第1行与第2行之间插入空行:
●在第1行的行号前键入i(或I,或i1、I1)
若想保存和调入程序:
●在命令框中键入:FILE "D:\SAS\ABC02.SAS"
●先光标定位到指定某行,再在命令框中键入:INCLUDE
"D:\SAS\ABC02.SAS"
六.SAS系统的几组重要命令
1向SAS系统寻求帮助命令
●F1键和F2键提供信息相当于简明的SAS使用手册
2显示管理系统命令框常用命令
3文本编辑行命令
本组命令很多,这里仅给出其中几个最常用的:
其中一部分可单独使用,另一部分需与操作定位命令A、B(A指after,B指before)配合起来使用。
例如,我们要将第一行和第二行的内容移到第三行的后面:
●第一行行号前键入M2
●第三行行号前键入A命令,然后按Enter键
七.运行SAS程序的步骤
1在PROGRAM EDITOR窗口中键入程序
见图1-1所示
2提交这段程序
有四种方法可以提交这段程序:
●在命令框中直接键入命令SUBMIT
●用鼠标选择菜单命令Locals / Submit
●按功能键F3
●用鼠标点击标准工具栏的第一个按钮
另外,还可以用菜单命令Locals / Submit top line来提交PROGRAM EDITOR程序窗口中
图2-1 一个典型的SAS程序实例
的某一条SAS语句,常用来测试这条语句的执行结果。
3查看LOG窗口的信息
4重新调出刚才提交的程序
●命令框中发布RECALL命令
5在OUTPUT窗口查看运行结果
如果我们需要修改和增加运行结果报告的标题,操作如下:
●选择Globals/Options/Titles命令。
●出现TITLES窗口,删除原第一大标题的内容“The SAS system”。
●在第一行和第二行分别输入所需要的大小标题的内容,见图1-2所示。
●选择Options/Save settings now命令,保存我们刚才的修改。
6存储程序
●再发布RECALL命令重新调出刚才提交的程序,
●然后可用File / Save as 菜单命令把程序存储到外部文件中(也可发布FILE命令达到
相同的目的)。
●如果今后要重新运行这个程序,用File / Open菜单命令把这个外部程序重新调入到SAS
系统的PROGRAM EDITOR窗口中。
●如果今后要将这个程序插入到正在PROGRAM EDITOR窗口编辑的某程序的某处,
可发布INCLUDE命令把外部这个程序导入到某程序中
SAS程序文件的后缀为.SAS
实例:
data class;
input name $ test1 test2 test3;
cards;
Xiaoer 90 86 88
Zhangsan 100 98 89
Lisi 79 76 70
Wangwu 68 71 64
zhaoliu 100 89 99
;
run;
例子:假定某公司生产两类机器:小型机器和计算机。这些机器由公司的职员负责在四个地区销售。下表给出的数据包括销售人员的名字(NAME),销售的地区(REGION),机器的类型(TYPE),和年销售量(SALES)。利用这些资料,想知道每个地区的年销售总量是多少,每种类型的机器卖了多少,及每类机器的人均销售量是多少。
data sale;
input name $ sales region $ type $; cards;
stafer 9664 east sm
young 22969 east sm
stride 27253 east sm
topin 86432 east c
speak 99210 east c
vetter 38928 west c
curci 21531 west sm
marco 79345 west c
Greco 18523 west sm
ryan 32915 west sm
tomas 42109 west sm
thaiman 94320 south c
moore 25718 south sm
allen 64700 south c
stelam 27634 south sm
farlow 32719 north sm
smith 38712 north sm
Wilson 97214 north c
run;
proc print;
run;
proc freq;
tables type*region;
run;
proc sort;
by type;
run;
proc means;
title 'means of two kinds of sales data'; by type;
run;