급여 시스템에 데이터를 입력할 때, 외부 소스에서 받은 데이터를 정제하는 과정이 필요하다. 이름에 공백이 들어가 있거나, 계좌번호에 하이픈이 있거나, 영문 이름이 대소문자가 섞여 있는 경우다. 텍스트 변환기에서 제공하는 기능들이 이런 전처리에 유용하다.
공백 정리
이름 필드에 "홍 길동" 처럼 공백이 두 개 들어간 경우가 있다. 엑셀에서 복붙하다 보면 자주 생긴다.
function normalizeSpaces(str) { return str.replace(/s+/g, " ").trim(); }
namever.kr/text-converter에서 공백 정리 기능을 사용할 수 있다.
대소문자 통일
영문 이름이 "john DOE", "John doe", "JOHN DOE" 처럼 다양하게 들어올 수 있다. 이걸 Title Case(John Doe)로 통일해야 검색과 비교가 편하다.
function toTitleCase(str) { return str.toLowerCase().replace(/w/g, c => c.toUpperCase()); }
계좌번호 형식 통일
은행 계좌번호는 은행마다 형식이 다르고, 사용자가 입력할 때 하이픈을 넣기도 하고 안 넣기도 한다. DB에는 숫자만 저장하고, 표시할 때 형식을 적용하는 게 좋다.
function cleanAccountNumber(str) { return str.replace(/[^0-9]/g, ""); }
줄바꿈 처리
주소 필드에 줄바꿈이 들어가면 CSV 내보내기 시 문제가 생긴다. 텍스트 변환 도구로 줄바꿈을 공백으로 바꾸거나 제거할 수 있다.
데이터 검증 파이프라인
전처리 후에는 검증이 필요하다. 이름이 비어있지 않은지, 계좌번호가 10~14자리인지, 이메일 형식이 맞는지 체크한다. 검증 실패 시 에러 리포트를 만들어서 수정 요청한다.
const validations = [ { field: "name", check: v => v.length >= 2, error: "이름은 2자 이상" }, { field: "account", check: v => /^d{10,14}$/.test(v), error: "계좌번호 형식 오류" } ];
벌크 업로드 기능
100명 이상 직원의 급여 데이터를 한 번에 업로드할 때, 전처리와 검증을 자동화하면 시간을 많이 줄일 수 있다. 엑셀 파일을 업로드하면 자동으로 전처리하고, 검증 결과를 보여준 후 확정하면 DB에 반영하는 플로우다.
마치며
데이터 전처리는 지루하지만 데이터 품질에 직접적인 영향을 미친다. 간단한 텍스트 정리가 필요할 때 온라인 텍스트 변환기를 활용해보자.