SAS – Détection des doublons.
Le but ici est de vous fournir un programme simple pour vous permettre de rechercher les doublons que vous pourriez avoir dans une de vos table SAS.
Nous utilisons pour cela la proc SQL de SAS.
On commence par afficher les informations de la table avec deux petites particularités :
On regroupe les observations sur un critère que vous devez déterminer, ici on à choisi : « Nom, prenom, ville, region, pays » c’est l’objet de la partie GROUP BY.
Ensuite on demande à SAS de nous retourner toutes les lignes aggrégées de la table dont le nombre de tuples « Nom, prenom, ville, region, pays » est supérieur à 1. C’est la clause HAVING.
Le résultat renverra toutes les lignes possédant au moins un doublon, l’ensemble des variables de la table plus le « nombre » d’occurences pour chaque tuple.
/* ****************************************** */
/* Site : http://www.formations-sas.fr - 2010 */
/* */
/* PGM = Détection des doublons sur Table SAS */
/* */
/* Auteur : Pascal MAUBERT */
/* ****************************************** */
proc sql;
title ‘Recherche des doublons’;
select *, count(*) as nombre
from table_double_sas
group by Nom, prenom, ville, region, pays
having count(*) > 1;
quit;
