수집한 원천 데이터를 그대로 학습에 사용하기에는 부적절하므로, 먼저 데이터를 분석하며 몇 가지 특징과 문제점을 정리하였고, 그 결과는 다음과 같습니다.

<aside> 🔥 EDA

  1. 온라인 상담 게시판에서 수집한 데이터의 텍스트 형식이 일정하지 않습니다.
  2. 맞춤법, 띄어쓰기 등 문법 오류가 문장 내에 다수 포함되어 있습니다.
  3. 법적 분쟁 상황에 대한 설명이 부족하거나, 문장이 부자연스러워 이해하기 어려운 경우가 있습니다.
  4. 법률 질문이 아니거나, 심리 상담에 가까운 경우가 존재합니다.
  5. 실명, 나이, 주소 등 개인정보가 포함되며 개인이나 단체를 특정할 수 있는 정보가 포함됩니다.
  6. Hallucination을 유발할 것으로 예상되는 URL, 전화번호 등의 정보가 포함됩니다.
  7. 크롤링 과정에서 추가된 유니코드 문자와 개행 문자 등이 존재합니다.
  8. 질문 또는 답변 앞뒤에 상담 내용과 직접적인 관계가 없는 인사말이 포함됩니다.
  9. 하나의 게시글에 다수의 질문이 포함되어 있는 경우가 있습니다.
  10. 답변자가 여러 명이기 때문에 사용되는 인사말, 존칭 등의 형식이 다릅니다. </aside>

분석한 내용을 바탕을 전처리 규칙을 구체화하기 전에 다음과 같이 데이터 정제에 대한 준칙을 세웠습니다.

<aside> 💡 데이터 정제 준칙

  1. 학습 데이터를 수집하고 사용하는 과정에서 개인정보 유출 등 법적인 문제가 발생하지 않도록 데이터를 정제한다.

  2. 법률 QA의 경우 정확성이 매우 중요하므로, hallucination을 최소화하는 방향으로 데이터를 전처리한다.

</aside>

전처리 기존 데이터 예시 수정된 데이터 예시 전처리 방식
상표 ***뱅크에 입금했어요. 은행에 입금했어요. 수기로 제거
모르겠다 답변 답변자로서는 정확히 알 수 없습니다. (질문, 답변 모두 삭제) 수기로 제거
개인정보 삭제 서울시 마포구 **에 사는 홍길동입니다. (해당 문장 삭제 또는 익명화) 수기로 제거
크롤링 사이트 문구 삭제 ****공단**에 방문해주시기 바랍니다. (크롤링 사이트 문구 포함된 문장 삭제) 모듈로 제거
url https://yoonseul.link/ 방문해 주세요. 방문해 주세요. 모듈로 제거
전화번호 문제가 있으면 국번없이 112에 전화하세요. 문제가 있으면 전화하세요. 모듈로 제거
존칭 통일 귀하께서, 선생님께서, 질문자께서 질문자로 통일 모듈로 변경