SAS – Détection des doublons.
Le but ici est de vous fournir un programme simple pour vous permettre de rechercher les doublons que vous pourriez avoir dans une de vos table SAS.
Nous utilisons pour cela la proc SQL de SAS.
On commence par afficher les informations de la table avec deux petites particularités :
On regroupe les observations sur un critère que vous devez déterminer, ici on à choisi : « Nom, prenom, ville, region, pays » c’est l’objet de la partie GROUP BY.
Ensuite on demande à SAS de nous retourner toutes les lignes aggrégées de la table dont le nombre de tuples « Nom, prenom, ville, region, pays » est supérieur à 1. C’est la clause HAVING.
Le résultat renverra toutes les lignes possédant au moins un doublon, l’ensemble des variables de la table plus le « nombre » d’occurences pour chaque tuple.
/* ****************************************** */
/* Site : http://www.formations-sas.fr - 2010 */
/* */
/* PGM = Détection des doublons sur Table SAS */
/* */
/* Auteur : Pascal MAUBERT */
/* ****************************************** */
proc sql;
title ‘Recherche des doublons’;
select *, count(*) as nombre
from table_double_sas
group by Nom, prenom, ville, region, pays
having count(*) > 1;
quit;

Bonjour,
Je suis a la recherche de la procedure SAS qui me permettrait de le faire, sans passer par le SQL … c est possible ?
Bonjour,
Oui bien sur, mais c’est plus lourd.
Vous devez trier votre table sur la ou les variables de dédoublonnage, ensuite une étape data avec un by de ces variables et enfin ne garder que ceux qui sont first and last, les autres sont des doublons.