Résumé des points de connaissance de l'examen final SAS (notes d'expérience en statistiques multivariées appliquées)

Répertoire d'avis SAS

1. Création, stockage, export, import et édition de jeux de données :

Pour les étapes de données et les étapes de processus, l'exécution doit être ajoutée à chaque étape et les étapes de processus peuvent être exécutées ensemble.
1. Créez un ensemble de données temporaires et stockez-le dans la bibliothèque temporaire de travail
data temp ; (ajoutez le nom de l'ensemble de données que vous souhaitez créer après data)
2. Créez un ensemble de données permanent
libname study'x:\xxx\xx' ; (nom de la base de données' Le chemin absolu de la base de données')
data study.xxx; (xxx représente le nom de l'ensemble de données)
3.
Entrée d'importation de données abc$ x1-x3 @/@@; (@ correspond à la ligne de données par ligne, @@ peut correspondre à toutes
les cartes d'une seule ligne) ;
xxxxxxxx
;
run ;

proc import out=xxx (nom de l'ensemble de données, pas de point-virgule ici)
datafile="xxxx.xls" ; (chemin absolu vers la table Excel)
dbms=excel2000 replace ;
run ;

data xxx ;(ou libname)
infile 'xxxxx' (indiquez le chemin absolu du fichier de données tel que D:\test\test.txt)
input abc$ x1-x3; (le nom et le type de données correspondant à chaque donnée du ensemble de données)
exécuter ;

4. Édition et exportation des données
Pour un ensemble de données vide, après la création,
définissez xxx ; (un ensemble de données existant)
conservez xx xx ; (conservez les variables dans l'ensemble de données sans le signe $)
(ou supprimez xx xx pour supprimer les variables dans le ensemble de données) certaines variables)
s'exécutent ;
mais l'ensemble est une connexion série et l'effet d'importation de données peut ne pas être bon pour les ensembles de données déjà écrits.
À ce stade, une connexion parallèle et une fusion sont nécessaires ; qu'elle soit définie ou conservée, plusieurs données Les ensembles peuvent être connectés en série.
Par exemple, créez un ensemble de données vide temp1, les données concaténées temp2 et temp3 sont stockées. Cela nécessite que temp2 et temp3 soient du même type de données et que les données concaténées temp2 et temp3 existent. temp2 et temp3 sont pas le même type de données.

Sélectionnez des variables dans un certain ensemble de données telles que le sexe, exportez l'ensemble de données stf pour les hommes et exportez l'ensemble de données stm pour les femmes
stf stm ; (plusieurs ensembles de données temporaires peuvent être créés en même temps)
set xxx ; (ensemble de données à traiter )
select (sex ); (Sélectionner les variables dans l'ensemble de données à traiter)
quand ("masculin") sortie stf; (la sortie consiste à exporter les données des garçons dans l'ensemble de données xxx vers l'ensemble de données stf)
quand ("femelle ") sortie stm;
sinon, mettez sex= "Error"; (pour éviter les problèmes d'importation des données)
end; (ajoutez la fin ici)
run;
proc print data=stf; (instructions d'impression courantes dans les étapes du processus)
proc print data=stm;

Que devons-nous faire pour traiter le contenu des données originales ?
La manière courante de l'écrire est de créer un ensemble de données vide, et set utilise l'ensemble de données à traiter, tel que :
data temp2 ;
set temp1 ;
sum=test1+test2+test3 ; / Ici, les variables sont définies comme étant la somme, la moyenne. et valeurs d'index. /
moyenne=somme/3;
y=x 3;**
test=somme(x1,x2,x3) ou somme(de x1 x2 x3) ou somme(de x1-x3) / Voici l'utilisation de fonction somme /
run ;
Bien sûr, vous pouvez également modifier les variables directement entre l'entrée et les cartes, telles que :
données bodyfat ;
entrée sexe $ fatpct @@ ;
fat=fatpct/100 ;
cartes ;

astuces : recall peut récupérer le code tout de suite et lib peut ouvrir la bibliothèque d'ensembles de données

2. Analyse descriptive des données statistiques

1.
signifie traiter la moyenne, la médiane, les quartiles de l'échantillon, la variance de l'échantillon, la plage, le coefficient de variation,
l'asymétrie, l'aplatissement, les statistiques de distance centrale standard, de deuxième ordre, de troisième ordre et de quatrième ordre :
proc signifie données sans impression = plage médiane moyenne temp var range cv asymétrie kurtosis std ;
var xx ;
run ;
Le moment central d'ordre k nécessite des opérations supplémentaires :
B2=Σ(Xi-X Pull)²/n, B3=, B4=;
OK Afficher les résultats ci-dessus dans un ensemble de données temp1, puis créez une nouvelle table temp2 pour importer les données d'origine et utilisez la fusion pour connecter la moyenne et les données. Vous pouvez également directement sum/n dans temp2 pour obtenir la moyenne, et enfin utiliser le symbole index**, et enfin utiliser drop pour le connecter au tableau du traitement des moyennes pour obtenir les résultats des données statistiques.

2. Données de base moments statistiques du processus univarié
, mesures de base de la position et de la variabilité, test de position, test de normalité (normal), quantiles, tracés d'observation de valeurs extrêmes : tracés à tiges et à feuilles, boîtes à moustaches,
tracés de probabilité normale (tracé)
proc univarié data=temp plot normal;
var xxx;
run;
Lorsque la taille de l'échantillon est inférieure à 2000, regardez le test de Shapiro-Wilk du test de normalité, sinon regardez la statistique de Kolmogorov-Smirnov. Lorsque la valeur P est >0,05, acceptez H0 , rejetez H1 et considérez que la variable est conforme à la loi normale, sinon elle n'y obéit pas.
Le niveau de signification a = 0,01 et 0,05, le premier est extrêmement significatif, le second est une division significative et le niveau de signification est la valeur p. Si P <0,05, cela signifie qu'il y a au moins 95 % de certitude que quelque chose se produira Statistiques Les descriptions verbales sont
significatives au niveau de 0,05.
Si P < 0,01, cela signifie qu’il y a au moins 99 % de certitude que quelque chose se produira, et le langage statistique est décrit comme significatif au niveau de 0,001.
D’après h0h1, qui est la partie correspondante du principe de l’événement complet, des conclusions expérimentales peuvent alors être tirées.

3. Analyse de régression linéaire univariée

**
proc reg data=test1 ;
model y=x/cli ; (La confiance de la valeur prédite obtenue par cli est un intervalle de confiance de 95 %. Ajoutez (x,.) aux données d'origine pour obtenir la valeur déduite et la confiance correspondante intervalle) run
;
/ Créer un nuage de points de Y par rapport à _ _ _ set test1; x=1/x; (hyperbole) y=1/y; (x=x(1/2);y=y;fonction puissance) (x=log(x);y=y;log Function) (x=1/x; y=log(y); fonction exponentielle négative) run; proc reg data=test2; model y=x; plot y * x ; exécuter ; Le tableau d'estimations de paramètres peut obtenir la pente et l'interception, l'équation de régression est obtenue à partir de cela, ce qui peut également être vu à partir du nuage de points.

Test de signification de l'équation de régression : à partir du tableau d'analyse de variance, on peut voir que la valeur F = 140,99, la valeur de Pr>F (probabilité de probabilité) est inférieure à 0,0001, bien inférieure à 0,05, donc l'hypothèse d'origine est rejetée. , l'hypothèse alternative est acceptée et y et x sont pris en compte Il existe une corrélation linéaire significative entre eux ;
à partir de la valeur R-carré de 0,9592, on peut voir que le degré d'ajustement de l'équation est très élevé. Les informations sur les valeurs d'observation de l'échantillon peuvent être expliquées par l'équation de régression, donc l'effet d'ajustement est bon. On pense qu'il existe une corrélation linéaire significative entre y et x. La meilleure courbe d'ajustement dépend également
de la valeur de R carré. Si la valeur est grande, le degré d'ajustement est bon.
Si le nuage de points n'est pas linéaire ou si la courbe est non linéaire. , vous devez transformer les variables en
variables linéaires en utilisant prédict_y=intercept+x*x. . Vous pouvez utiliser cette instruction pour effectuer une prédiction de données sur l'ensemble de données d'origine, similaire à (x., .)

4. Analyse de régression linéaire multiple et analyse résiduelle

Effectuer une régression multiple pour y et x1, x2, x3 :
terme croisé variable : Xi4=Xi1 Xi2 ; Xi5=Xi1 Xi3 ; Xi6=Xi2*Xi3 ;
proc reg data=temp2 ;
var Xi1-Xi6 ;
modèle Yi=Xi1-Xi3/ cli clb r ss2;
plot r.*pr*Xi1 r.*Xi2 r.*Xi3 r.*Xi4 r.*Xi5 r.*Xi6 npp.*r.; run; Explication : cli calcule la confiance de la valeur
prédite
comme intervalle de confiance de 95 %, clb calcule
le r du coefficient de régression en effectuant une analyse résiduelle, qui peut obtenir le résidu jackknife, le résidu de Student, la carte de signification des résidus et la statistique D de Cook.
SS2 utilise ce type de modèle pour calculer la
somme de régression des carrés du vecteur résiduel perdu sous contraintes. Le vecteur résiduel est la colonne Résiduelle ; le tracé résiduel sur les valeurs prédites ^Y et xi et le terme croisé variable : plot r.
* pr*Xi1 r .*Xi2 r.*Xi3 r.*Xi4 r.*Xi5 r. Xi6
npp. r. est un diagramme de probabilité normal du résidu. Si le résidu est fondamentalement distribué sur une ligne droite, il peut être fondamentalement considéré que le résidu obéit à la distribution normale.
proc reg data=temp1;
model Yi=Xi1-Xi3/ss2;
restrict Xi1=Xi2;
run; On peut voir sur la figure que lorsque le niveau de signification a=0,01, la valeur P est <0,0001<0,01, indiquant que le la sous-plage de régression a une corrélation linéaire significative, c'est-à-dire satisfaisant la condition de contrainte Xi1=Xi2,
La description SS2 correspondant à RESTRICT ajoute cette contrainte et perd la somme de régression des carrés 15,60337, mais en échange de la simplification du modèle : plus la valeur est petite, plus la contrainte existe. (Vous pouvez également utiliser le test Xi1=Xi2)
proc reg data=temp1;
/ Méthode R-Squre, MSE, CP pour sélectionner l'équation /
modèle optimal Yi=Xi1-Xi3/selection=rsquare mse cp;
run;
/ Méthode PRESS pour sélectionnez l'équation optimale Equation /
proc reg data=t;
model z=Xi1/noprint;
output out=temp2 press=press;
run;
proc signifie uss data=temp2;
var press;
run; (vous oblige à répéter pour toutes les variables et termes croisés variables dans l'opération séquentielle)
PRESS (Critère de la somme prévue des carrés), vous pouvez l'écrire dans le code ci-dessus comme ceci, ou vous pouvez directement effectuer le processus proc reg sur toutes les combinaisons de variables avec le mot-clé statistique r, et le Le deuxième tableau obtenu contient les SS résiduels prédits (PRESS),
puis comparez chaque valeur et choisissez celle avec la plus petite valeur. Ainsi, selon ce critère, USS=1,5990749 ne retient que Xi1 et Xi3 au minimum.
Parmi les critères ci-dessus, plus la valeur R² est grande, mieux c'est, et plus les CP, MSE et PRESS sont petits, mieux c'est
/ Méthode de régression pas à pas pour sélectionner l'équation optimale /
proc reg data = temp1 ;
modèle Yi=Xi1-Xi3/selection=stepwise ;
courir;

5. Analyse en composantes principales

**
/ Principales étapes de l'analyse des composantes principales /
proc princomp data=temp2 prefix=S out=temp3 outstat=temp4;/ std (type=cov/corr) /
var X1-X4;
run;
proc plot data=temp3;
/ Painter Nuage de points entre les composants /
tracé S2 S1 $ n=" "/
href=-1 href=2 vref=0;
/ Trier par la valeur de score de S1 de petit à grand /
proc sort data=temp3;
par S1;
/ Calculer le valeurs propres et vecteurs propres orthogonaux d'une matrice : /
proc iml;
a={15 -6 0,-6 18 -6,0 -6 21};
appeler propre(valeurs, vecteurs, A);
imprimer un vecteurs de valeurs ;
run;
/ Calcule le format de l'analyse en composantes principales à partir des données de la matrice de covariance, ou vous pouvez le changer en corr; /
data t(type=cov);
nom d'entrée $ x1-x3 ; type = 'cov' ;
cartes ;
x1 15 -6 0
x2 -6 18 -6
x3 0 -6 21
;
run ;
proc princomp data=t (type=cov) covariance ;
var x1-x3 ;
run;
Analysis : out récupère les données d'origine et les données de score du composant principal, et outstat obtient l'ensemble de données statistiques.
prefix spécifie le préfixe du composant principal. S'il est manquant, la valeur par défaut est print1, print2...
Le nuage de points de la composante principale peut trouver la situation de polarisation. , le haut, le bas, la gauche et la droite, puis effectuer une analyse réelle. La
matrice de corrélation, les valeurs propres et les vecteurs propres, ainsi que le taux de contribution et le taux de contribution cumulé sont obtenus à partir de la valeur propre et vecteurs propres.
Si une certaine valeur propre est 0, on peut juger que cet ensemble de variables a une relation linéaire approximative. L' expression de la vecteur propre
:estcomposante Le calcul des valeurs propres et des vecteurs propres peut utiliser le processus proc iml et proc princomp, ce dernier nécessitant de spécifier le type de données.

6. Analyse factorielle

**
proc factor data=temp1 method=principal priors=one simple corr score proportion=0,80 ;
var pop school employer services house ;
run ;
la méthode est principale, qui utilise la méthode des composants principaux pour effectuer une analyse factorielle.
priors=one spécifie le calcul de la variance du facteur commun antérieur. Les méthodes d'estimation, les deux sont les paramètres par défaut du programme
corr pour trouver la matrice de corrélation et la matrice de corrélation partielle, simple génère le
score de variable conditionnelle simple et utilise la méthode de régression pour estimer le score factoriel. La
proportion de coefficient du modèle est sélectionner le nombre de facteurs communs m, de sorte que m satisfasse λ1+...
Pour la solution à facteurs communs obtenue par le plus petit entier positif +λm / p ≥ 0,80, la matrice de chargement factoriel initiale ne répond pas au « critère de structure simple », c'est-à-dire que les variables représentatives typiques de chaque facteur commun ne sont pas très visibles, il est donc facile de donner la signification des facteurs
proc factor data=d832 rotate=varimax n=3 ;
/ ROTATE=VARIMAX (ou R=V) représente la matrice de chargement du facteur Effectuer une rotation orthogonale maximale de la variance , l'option N=3 spécifie le nombre de facteurs communs m=3. /
var x1-x8;
run;
Après une rotation orthogonale, seuls quelques indicateurs de chaque facteur ont des chargements factoriels plus importants, qui peuvent tous être classés
/Utilisez la méthode de régression pour trouver la fonction de score factoriel, calculer le score factoriel de l'échantillon et tracer le nuage de points des premier et deuxième scores factoriels /
proc factor data=d832 rotate=v score n=3 out=o852;
var x1-x8 ;
exécuter ;
proc print data=o852 ;
var factor1 factor2 factor3 ;
run ;
proc plot data=o852 ;
plot factor2 factor1 $ n=′ ′/
href=0 vref=0 ;
run ;
matrice de chargement de facteurs et expression du modèle factoriel , formule d'expression du score factoriel, modèle factoriel après rotation, hi² et qi², la moyenne de la charge analytique après polarisation de la charge ne peut pas être interprétée et une rotation factorielle est nécessaire pour obtenir la charge polarisée avant une interprétation professionnelle

7. Analyse discriminante

**
proc discrim data = temp1 wcov simple pool = pas de méthode manova = crosslisterr listerr normal;
/ proc discrim data = temp1 pool = oui méthode manova = crosslisterr normal listerr; /
groupe de classes;
var x1-x2;/ var x1 x3;var x1-x4; /
priors égaux; / priors '0'=0.05 '1'=0.95; /
run;
Le vecteur moyen de la population et de chaque classe peut être obtenu par simple
wcov pour obtenir la covariance intra-groupe, c'est-à-dire l'échantillon de covariance
pcov peut être obtenu Fusionner la covariance, les conditions d'utilisation correspondantes de ces deux covariances sont liées au pool.
Lorsque le pool est oui, la matrice de covariance de fusion est utilisée, ce qui signifie que la matrice de covariance globale correspondante n'est pas la idem.
Quand c'est non, la matrice de covariance intra-groupe est utilisée, ce qui signifie que les populations correspondantes obéissent toutes à la population normale avec des matrices de covariance égales.
Lors du test, la matrice de covariance au sein du groupe est corrigée pour le test du rapport de vraisemblance, et slpool est utilisé pour spécifier le niveau de test d'homogénéité. La méthode par défaut est 0,1, ce qui signifie normal
. La classe obéit à la distribution normale multivariée. Si c'est npar, cela signifie qu'elle n'obéit pas à la distribution. La méthode non paramétrique
crosslisterr est utilisé pour sortir les résultats du backtest sous la forme d’un tableau croisé, en utilisant la méthode du jackknifing.
listerr est l'information d'erreur de jugement arrière générée par la probabilité a posteriori, qui nécessite que le résultat de discrimination soit obtenu selon le critère de distance.
Priors est égal, ce qui signifie que les probabilités a priori sont égales, et il est proportionnel, ce qui signifie que le La probabilité a priori est égale à la fréquence d'échantillonnage. Vous pouvez également spécifier la probabilité a priori de la marque de classification, mais la somme est égale à 1
pour comparer la qualité du critère de discrimination et regarder l'option Total du résultat de l'erreur de jugement. De manière générale, dont le critère est plus petit, le critère est meilleur.
Dans le cas de petits échantillons, il est généralement préférable d'utiliser la matrice de covariance conjointe pour la discrimination. L'échantillon est petit et la spécificité est élevée. La matrice de covariance conjointe peut mieux équilibrer les données . Manova
obtient 4 statistiques. Wilks'lambda est utilisé pour mesurer le rapport entre la somme des carrés au sein du groupe et la somme totale des carrés. Une grande valeur de Wilks'lambda indique la moyenne de chaque groupe. Fondamentalement égal, en analyse discriminante
, l'analyse discriminante n'a de sens que lorsque les moyennes des groupes sont inégales
**

8. Analyse groupée

**
Lorsque le nombre d'échantillons est compris entre 1 et 100, utilisez le clustering système proc cluster proc
cluster data=temp1 method=single std pseudo ; / La méthode unique ne convient pas à ccc et comporte des erreurs // proc cluster data=temp1 method=ward std pseudo ccc outtree = temp2; / / var x1-x6 / / id group / proc tree hor graphiques; run; Le single ici utilise la méthode de la distance la plus courte. Les méthodes couramment utilisées incluent complete (méthode de la plus longue distance) et eml (méthode du maximum de vraisemblance ). 11 méthodes de clustering telles que, centroïde (méthode du centre de gravité), std consiste à standardiser les données, proc tree consiste à imprimer le tableau d'ascendance, hor consiste à créer le tableau horizontalement, pseudo consiste à obtenir PSF et PSFT2, c'est-à-dire , pseudo F et pseudo t² statistiques pour juger du score Lorsque le nombre d'échantillons dans est compris entre 100 et 100 000, utilisez le clustering dynamique proc fastclus proc fastclus data=temp1 maxc=4 list out=temp2; var x1-x8; id zone; proc candisc data=temp2 out=temp3; var x1-x8;

cluster de classes;
exécuter;
Utiliser le clustering de variables proc varclus lors de l'analyse de cluster sur les variables
proc varclus data=temp1 trace outtree=test; / centroid minc=4 /
var x1-x8;
proc tree data=test horizontal;
run;
la valeur par défaut est The méthode du composant principal, plus le centroïde est analysé à partir de la méthode du composant du centre de gravité.
Les nombres de cluster maximum et minimum minc maxc peuvent être définis ; trace répertorie les classes itérées. Vous
pouvez également utiliser proc transpose pour effectuer une conversion de colonne et de colonne afin de regrouper la variable système :
proc transpose data=temp1 out=temp2 ;
var x1-x8 ;
proc print data=temp2 ;
proc cluster data=temp2 method=single std pseudo ;
var COL1-COL31 ;
id NOM ;
proc tree hor graphiques ;
run ;
analyse de classification : à en juger par la valeur R², Lorsqu'une certaine classe chute fortement, c'est la norme pour la division en plusieurs classes.
La valeur pseudo-F est lorsqu'un pic se produit, et la classification est basée sur la classe où se situe le pic.
L'analyse groupée inclut le type R pour regrouper les variables ou les indicateurs et le type Q pour regrouper les échantillons. Les statistiques qui distinguent les deux sont le coefficient de similarité et la distance.
Pour la méthode varclus de clustering de variables, les résultats de classification peuvent être obtenus directement dans les résultats, et vous pouvez également les analyser par vous-même.