연구동향
EIRIC 특집세미나
컴퓨터 통신 AI
Do language models plagiarize?
  • 일시2023년 9월 12일 (화) 오전 11시
  • 연사이주영 박사과정Pennsylvania State University
  • 약력 PDF
개최완료
세미나 개요

최근 연구에서 Language Models (LM)이 종종 훈련 데이터의 일부를 기억하고 이를 자연어 생성(Natural Language Generation, 이하 NLG) 과정에서 재현한다는 것을 보여주었습니다. 그러나 LM이 훈련 말뭉치를 어느 정도로 '재사용'하는지는 여전히 불분명합니다. 예를 들어, 모델은 훈련 샘플과 단어는 다르되 문맥적으로 유사한 parahrased된 문장을 생성할 수 있습니다. 따라서 본 연구에서는 pre-trained GPT-2가 생성한 텍스트와 그 훈련 데이터 간의 세 가지 표절 유형 (verbatim plagiarism/ paraphrase plagiarism/ idea plagiarism) 을 연구하며, 실전에서 널리 사용되는 특정 분야 텍스트로 finetuned된 LM의 표절 패턴 또한 분석합니다. 결과는 (1) memorization 이상으로 LM이 생성한 컨텐츠 내에서 세 가지 유형의 표절이 널리 존재함을 시사하며, (2) LM의 크기와 디코딩 방법 모두 표절 정도와 밀접하게 관련되어 있으며, (3) 트레이닝 샘플 자체의 유사성과 균질성에 따라 표절 강도가 달라짐을 보여줍니다. 대다수의 LM 훈련 데이터가 웹에서 콘텐츠 소유자에게 동의 없이 스크랩되었기 때문에, 이들이 훈련 세트에서 단어, 구절, 심지어 핵심 아이디어를 반복하여 생성된 텍스트에 재현되면 윤리적인 문제가 발생할 수 있습니다. 모델의 표절 패턴은 LM의 크기와 훈련 데이터가 모두 증가함에 따라 더 악화될 가능성이 있으며, 이는 더 큰 모델과 데이터셋을 무분별하게 추구하는 현재의 트렌드에 대한 큰 문제점을 제시합니다. 이러한 결과는 전반적으로 현재 LM의 임무 중요한 작성 작업에서의 실용성을 의심스럽게 하며, 관찰된 현상을 둘러싼 더 많은 토론을 촉구합니다. 데이터와 소스 코드는 github에서 확인하실 수 있습니다.

동영상

댓글(0)


서울시 동작구 흑석로 84 중앙대학교 전자정보연구정보센터 (우편번호 06974)

전화 : 02-823-5081 E-mail : webmaster@eiric.or.kr

  • 유튜브
  • 인스타
  • 페이스북
  • 트위터
  • 카카오톡