일반행정

공공데이터

(AI학습데이터) 상용구문 텍스트 학습데이터

뉴스 기사나 웹페이지 등의 문서에서 자주 등장하는 상용구(표현 패턴)들을 수집하여 정제한 텍스트 데이터입니다. 2021년 ㈜무하유에서 제작하였으며, 주로 문서 요약·분류·검색 성능을 향상시키기 위한 언어 모델 학습에 활용할 수 있도록 구축되었습니다.

데이터는 웹 문서에서 수집된 문장 중 상용구로 등록할 수 있는 구문들을 사전에 분류한 뒤, 상용구문으로 등록 및 검증하여 총 58,075건의 상용구문이 텍스트(TXT) 형태로 제공됩니다. 이 중 상용구문 원문 데이터는 약 316KB, 상용구문 분류·정제된 네이밍 데이터는 약 3.04MB 규모입니다.

파일내려받기

* 파일에 이상이 있는 경우 ‘오류신고’를 통해 운영자에게 알려주세요. 오류신고
파일내려받기
NO 항목 파일명 용량 (MB) 수정일 내려받기
파일이 없습니다.

데이터 정보

데이터 정보
공개일자 2022.04.11. 데이터 갱신일 2022.04.11.
갱신주기 일회성 분류 일반행정
원본시스템 서울시 열린데이터 광장 바로가기 저작권자 서울특별시
제공기관 서울특별시 제공부서 데이터전략과(제작사 : ㈜무하유)
담당자 02-2133-4273
원본형태 File 제3저작권자 없음
라이선스
출처표시 (상업적 이용 및 변경 가능) 공공누리 1유형 : 출처표시 (상업적 이용 및 변경 가능)
메타정보 수정일 2025.11.11.
관련 태그 학습데이터 데이터분석 AI 비정형데이터 상용문구
데이터 정보
공개일자 2022.04.11.
데이터 갱신일 2022.04.11.
갱신주기 일회성
분류 일반행정
원본시스템 서울시 열린데이터 광장   바로가기
저작권자 서울특별시
제공기관 서울특별시
제공부서 데이터전략과(제작사 : ㈜무하유)
담당자 02-2133-4273
원본형태 File
제3저작권자 없음
라이선스
출처표시 (상업적 이용 및 변경 가능) 공공누리 1유형 : 출처표시 (상업적 이용 및 변경 가능)
메타정보 수정일 2025.11.11.
관련 태그 학습데이터 데이터분석 AI 비정형데이터 상용문구

연관데이터