今晚被大雪困在公司了,才有时间好好把上次听得课总结一下。这2天主讲是常国珍老师,我只听了1天半,周日下午公司开会未能参加。进入主题:
主要讲的是SAS EG基本操作,SQL语句,查询生成器和图表制作。也是头一次接触SAS EG,个人的理解并没有太多,以后了不断补充。
软件比较:天下软件一大抄
Stata 和 SPSS 软件一本一样,菜单操作,编程基本没用,适用于少量数据。特定的某一类人群喜欢Stata或者SPSS。
Matlab 和 R 都属于编程类的分析工具,R开源,Matlab属于一个公司。R是有社区维护,Matlab由公司维护,有缺点自然明显了。开源的东西好,但是一般会有些问题。
Python 不了解。
SAS EG 和SAS Base 一个是菜单操作+编程,一个是编程类。都能处理大量的数据。
SAS EG 和 SPSS 比较,虽然才用2天,不过觉得SAS 设计上确实比 SPSS优化。SPSS也就是在界面美观上比SAS好点。
SPSS把太多的功能分的太开,虽然适合非统计专业的人员,但是用长了感觉不方便。首先SPSS的数据和结果不在一个窗口,总得切换。
SAS 归类很清晰,图表输出也很简洁,SPSS虽然提供了很多图表,但是如果你要修改图表,很不方便的,也一点都不好看。真像老师说的SPSS被IBM收购后就毁了,没有专门的人去维护了,迟早要倒闭的。
不过学软件还是需要SPSS 和 SAS 都学的,互补下,接受、理解的更快。
数据挖掘方法论:CRISP-DM SEMMA (以后会了解)。我的理解是:有目的,对业务的理解,数据准备,建模,模型评估,优化。
SAS 启动有两种方式,一个是 SAS 简体中文版,一个 SAS EG guide,后者比较好,用习惯就行。
SPSS 可能每次出现的结果可能不一样,而sas呢记录了操作的流程图。
变量的三个要素:名称,类型,长度,再加两个要素,标签和输出格式。
SPSS中的宽度不是SAS中的长度。
SAS中标准日期格式 DATE9. 01JAN1959,格式后代一小点,以和变量区分。
SAS中常量 字符 数值 日期 时间
SAS中表格双击进入编辑状态;
SAS中单双引号效果一样;
(未完)