Articles avec le tag ‘doublon’
SAS – Détection des doublons.
Le but ici est de vous fournir un programme simple pour vous permettre de rechercher les doublons que vous pourriez avoir dans une de vos table SAS.
Nous utilisons pour cela la proc SQL de SAS.
On commence par afficher les informations de la table avec deux petites particularités :
On regroupe les observations sur un critère que vous devez déterminer, ici on à choisi : « Nom, prenom, ville, region, pays » c’est l’objet de la partie GROUP BY.
Ensuite on demande à SAS de nous retourner toutes les lignes aggrégées de la table dont le nombre de tuples « Nom, prenom, ville, region, pays » est supérieur à 1. C’est la clause HAVING. Lire la suite de cette entrée »
Programme Exemple SAS : Extraction Aléatoire sans Doublon
La problématique est la suivante, réaliser une pannélisation, pour des raisons de performance.
Afin d’appliquer un modèle prédictif sur une représentation limitée de population, ou afin d’optimiser les performance lors de l’écriture de programme SAS en effectuant des tests sur une petite portion d’une base de données, nous avons la possibilité avec le système SAS de réaliser très simplement une extraction de données, de type aléatoire et bien sur, cerise sur le gâteau : sans doublons.
Dans le programme SAS suivant, il vous suffit de renseigner les macros variables, entre le signe ‘=’ et le signe ‘;’ : PCT, contenant le pourcentage de lignes de la table à extraire et DS1, donnez lui le nom complet de la table SAS source, soit libname.tablename, ensuite lancer le programme SAS et voilà c’est tout.
Programme exemple SAS : Extraction aléatoire sans doublon.
Lire la suite de cette entrée »
