수집한 원천 데이터를 그대로 학습에 사용하기에는 부적절하므로, 먼저 데이터를 분석하며 몇 가지 특징과 문제점을 정리하였고, 그 결과는 다음과 같습니다.
<aside> 🔥 EDA
분석한 내용을 바탕을 전처리 규칙을 구체화하기 전에 다음과 같이 데이터 정제에 대한 준칙을 세웠습니다.
<aside> 💡 데이터 정제 준칙
학습 데이터를 수집하고 사용하는 과정에서 개인정보 유출 등 법적인 문제가 발생하지 않도록 데이터를 정제한다.
법률 QA의 경우 정확성이 매우 중요하므로, hallucination을 최소화하는 방향으로 데이터를 전처리한다.
</aside>
전처리 | 기존 데이터 예시 | 수정된 데이터 예시 | 전처리 방식 |
---|---|---|---|
상표 | ***뱅크에 입금했어요. | 은행에 입금했어요. | 수기로 제거 |
모르겠다 답변 | 답변자로서는 정확히 알 수 없습니다. | (질문, 답변 모두 삭제) | 수기로 제거 |
개인정보 삭제 | 서울시 마포구 **에 사는 홍길동입니다. | (해당 문장 삭제 또는 익명화) | 수기로 제거 |
크롤링 사이트 문구 삭제 | ****공단**에 방문해주시기 바랍니다. | (크롤링 사이트 문구 포함된 문장 삭제) | 모듈로 제거 |
url | https://yoonseul.link/ 방문해 주세요. | 방문해 주세요. | 모듈로 제거 |
전화번호 | 문제가 있으면 국번없이 112에 전화하세요. | 문제가 있으면 전화하세요. | 모듈로 제거 |
존칭 통일 | 귀하께서, 선생님께서, 질문자께서 | 질문자로 통일 | 모듈로 변경 |