BJ Data Tech Solution

Specialized on Data processing, Data management Implementation plan, Data Collection tools - electronic and paper base, Data cleaning specifications, Data extraction, Data transformation, Data load, Analytical Datasets, and Data analysis. BJ Data Tech Solutions teaches on design and developing Electronic Data Collection Tools using CSPro, and STATA commands for data manipulation. Setting up Data Management systems using modern data technologies such as Relational Databases, C#, PHP and Android.

Dropping duplicates randomly
Dropping duplicates randomly

Hi

I'd like to drop duplicates randomly instead of just the first duplicate observation.
A snapshot of my data set: Array

Each patent-invt_id has several co_invt_id. I want to keep only one co_invt_id but picked randomly.

I found the following code on the predecessor of statalist:

Code:

 bys varnames  : gen rnd = uniform()
bys varnames (rnd) : keep if _n == 1

Does it make sense? (I'm not very familiar with Stata syntax) I can execute it in my dataset but because I have over 1 million observation it's quite difficult to see if it indeed duplicates were dropped randomly. Any feedback would be welcome.

BJ Data Tech Solution

Home / Data Cleaning / Data management / Data Processing / Dropping duplicates randomly
Dropping duplicates randomly

0 Response to Dropping duplicates randomly

Post a Comment

Home / Data Cleaning / Data management / Data Processing / Dropping duplicates randomly Dropping duplicates randomly

Related Posts with Dropping duplicates randomly

0 Response to Dropping duplicates randomly