https://cysec148.hatenablog.com/entry/2025/06/22/215742

Hello there, ('ω')ノ

データ分析を始める前に避けて通れないのが、「データの掃除（クレンジング）」です。その中でも非常に多いトラブルの一つが「重複データ（ダブり）」。

たとえば顧客名簿に同じ人が2回登録されていたり、売上データに同じ取引が重複していたりすると、集計結果がズレてしまい、間違った意思決定につながってしまうこともあります。

✅ なぜ重複が起こるのか？

重複データが発生する原因はさまざまです：

▶ データの正確性を保つためにも、早めに気づいて修正することが重要です。

SELECT name, COUNT(*)
FROM customers
GROUP BY name
HAVING COUNT(*) > 1;

→ これは「nameが2回以上出てくる人」を一覧にしてくれます。

SELECT DISTINCT * FROM customers;

→ DISTINCT を使えば、完全に同じ行を1件にまとめて表示できます。

DELETE FROM customers
WHERE rowid NOT IN (
  SELECT MIN(rowid)
  FROM customers
  GROUP BY name
);

※ 実際に削除を行う前に、必ずバックアップを取りましょう！

▶ 「すべての列が同じ」ものだけを削除することも可能です。

SQLやExcelでは文字列が完全一致でなければ別物と判断されるため、次のような表記ゆれには注意が必要です：

🔸 対策方法：

ポイント	内容
重複は必ず発生する前提で考える	手作業・自動連携どちらでも起こり得る
SQLやExcelで手軽に確認できる	`COUNT()`・`DISTINCT`・「重複の削除」など活用しよう
完全一致だけじゃ足りないことも	表記ゆれへの対応も視野に入れる
定期チェックが大切	月次でのデータ点検など、習慣にしよう！

Best regards, (^^ゞ