본문 바로가기

AI학습데이터

서울시는 높은 비용과 투입시간으로 인해 자체적으로 확보하기 어려운 공공데이터를 인공지능 학습데이터로 제작하여
시민들이 활용할 수 있도록 공개하고 있습니다.
공개되고 있는 학습데이터는 「서울형 뉴딜일자리 인공지능 학습데이터 제작 사업」 등 다양한 사업을 통해 구축된 데이터입니다.

열린데이터광장에서 제공되는 학습데이터의 소유권은 서울시와 제작기업에 있습니다.
개인, 민간기업 등이 인공지능 학습, 연구, 기술개발 등에 활용할 수 있으나, 학습데이터에 기반한 인공지능 제품개발,
기술연구 논문 등의 결과물에는 데이터의 출처가 서울시 열린데이터광장 임을 명기해 주시기 바랍니다.

용어설명

인공지능 Artificial Intelligence
자연 언어의 이해, 음성 번역, 문제 해결, 학습과 지식 획득, 인지 과학 등에 응용하기 위해 인간의 지능이 갖는 학습, 추리, 적응, 논증 등의 기능을 갖춘 컴퓨터시스템
학습데이터 AI Data Set
인공지능의 기계학습에 사용하는 원천데이터와 라벨링데이터의 묶음을 말하며, 사용하는 목적에 따라 ‘훈련데이터셋’, ‘검증데이터셋’, ‘시험데이터셋’으로 구분
인공지능 학습용 데이터 구축
임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동
데이터 학습 Data Machine Learning
학습데이터셋의 훈련데이터셋, 검증데이터셋을 이용하여 선정된 인공지능 알고리즘을 학습시키고, 학습된 인공지능 모델의 성능을 향상시키거나 보정하는 활동

※ 용어설명은 ‘인공지능 학습용 데이터셋 구축 안내서(과학기술정보통신부, 한국지능정보사회진흥원, 2021. 3월)’를 참고함

학습데이터 세부내역

현장 안전모 미착용 알림 시스템 개발을 위한 안전모 객체 이미지 학습용 데이터
현장 안전모 미착용 알림 시스템 개발을 위한 안전모 객체 이미지 학습용 데이터
데이터명 현장 안전모 미착용 알림 시스템 개발을 위한 안전모 객체 이미지 학습용 데이터
관리번호 2021-1
제작사 ㈜그레온
원본데이터
확보방법
Web상에서 인력 및 Python으로 제작한 Web crawler를 이용하여 무작위 수집 후 안면 비식별처리
※트래픽 관계상 수집 가능한 화상의 수에 한계가 있어, 데이터의 일부는 영상 파일을 수집하여 균등 프레임 단위로 분할하여 활용하였음
제작방법 다양한 장소에서 다양한 해상도로 촬영된 공사현장 및 안전모 상품 이미지를 대상으로 식별 가능한 안전모 부분을 Annotation 플랫폼을 이용하여 Polygon(비정형 구역)으로 표시
구성내용 이미지 파일과 그 메타정보를 담은 JSON 파일이 한 쌍을 이루며, 이미지 파일(비압축시 52.1GByte)과 메타파일이 각각 약 20만개 가량 제작됨
- 이미지 파일: Polygon 19만7563장
활용방안 공사현장에서 인력을 사용하지 않고 자동으로 안전모 착용 여부를 점검하여 주의를 환기하거나,
안전모 미착용자가 위험구역에 진입하는 것을 제한하는 시스템에 활용할 수 있는 알고리즘 개발과정에 학습 데이터로서 사용할 수 있음
데 이 터
미리보기

안전모 착용

Polygon

파    일
다운로드
퍼스널 모빌리티 주행 데이터셋
퍼스널 모빌리티 주행 데이터셋
데이터명 퍼스널 모빌리티 주행 데이터셋
관리번호 2021-2
제작사 ㈜ 드림에이스
원본데이터
확보방법
데이터 수집 요원이 실제 도로를 주행하며 영상 촬영
제작방법 다양한 장소에서 다양한 해상도로 촬영된 공사현장 및 안전모 상품 이미지를 대상으로 식별 가능한 안전모 부분을 Annotation 플랫폼을 이용하여 Polygon(비정형 구역)으로 표시
구성내용 이미지 파일과 이미지의 메타정보를 담은 텍스트 파일이 한 쌍을 이루며, 이미지 파일 1만1천개와 메타파일 2만2천개가 제작됨
- 이미지 파일: Bounding Box 1만1천장, Segmentation 1만1천장
활용방안 퍼스널모빌리티, 자전거 등의 이동수단의 객체인식 위한 활용
데 이 터
미리보기

Bounding Box

Segmentation

파    일
다운로드
상용구문 텍스트 학습데이터
상용구문 텍스트 학습데이터
데이터명 상용구문 텍스트 학습데이터
관리번호 2021-3
제작사 ㈜무하유
원본데이터
확보방법
수집은 아닌 가공만 진행
제작방법 상용구문 등록 페이지에서 후보 구문들을 불러온 후, 상용구문으로 등록할 구문을 체크하여 등록함
구성내용 TXT파일
총 58,075건/ 상용구문 Y 데이터 :316KB, 상용구문 N 데이터 : 3.04MB
활용방안 1. 시정의 활용 방안 해당 학습데이터는 AI문서 요약 서비스를 개발하는 과정에서 결과의 정확도를 높이기 위해 필요한 것으로 AI문서 요약 서비스를 시정에서 도입시 도움이 될 수 있다는 점 외에 직접적으로 활용 가능한 방안은 없음.
다만, AI 문서 요약 서비스가 개발되어 시정에 적용되었을 때 기대되는 바는 아래와 같음
- 국가 R&D 정책 수립 시 의사결정 지원 : 기존에 수행된 연구주제별 성과 데이터를 요약하여 새로운 정책을 수립하는데 활용 가능
- 문서 관리 솔루션의 효율성 개선 : 시정 운영에 수시로 생성되는 문서가 누적은 되고 있으나 이를 추후에 검색하고 활용하기에는 어려웠던 문제를 개선 가능
2. 기업의 활용 방안
① 논문 요약
- 학위/학술 논문을 출판하거나 유통하는 기업에서는 사용자가 목적에 맞는 논문을 쉽고 빠르게 찾을 수 있도록 하는 것이 중요함
- 따라서 키워드 검색 결과상에 AI 요약 기술을 접목시키는 경우가 많음
- 상용구문을 제외하는 것은 생성된 요약문 중 논문의 적합성을 판단하는데 중요하지 않은 문장을 걸러내고 핵심 문장만을 포함하여 결과의 정확도를 높이는데 도움이 됨
② 뉴스기사 요약
언론사
- 다수의 매체, 언론사가 경쟁하는 시장에서 신뢰도 높은 기사를 작성하여 전문을 배포하는 것도 중요하지만 대중이 빠르게 핵심을 파악할 수 있도록 하는 것도 중요한 경쟁력이 될 수 있음
- AI 요약 기술을 활용하여 전문, 요약문 형태의 결과를 제공하는 언론사가 생겨나기 시작했으며, 이때 상용구문을 제외한 요약문 생성을 위해 활용 가능함
일반 기업
- 각 기업에서는 종사하고 있는 분야의 사회적 이슈, 트렌드를 파악하기 위해 뉴스기사를 모니터링 하는 것이 일반적임
- 다만, 모든 뉴스기사를 읽고, 사내에 공유하는 것은 많은 시간이 드는 비효율적인 과정일 수밖에 없음
- AI 요약 기술을 활용하여 관심분야의 기사를 축약한 내용을 검토하고 공유하는데 활용 가능
데 이 터
미리보기
상용구문 Y 데이터
영향을 주는지 알아보기 위해 다중회귀분석을 실시하였으며, 결과는 표 5.와 같다
지속적 사용의도에 정(+) 영향을 미칠 것이다
지속적 사용의도에 정(+)적인 영향을 미칠 것이다
지속적 사용 의도에 정(+)적인 영향을 미칠 것으로
지난 한달동안 다음에 제시된 감정을 얼마나 자주 느꼈습니까
및 결과는 다음 [표 4-3
및 결과는 다음 [표 4-1]과 같음
및 결과 Ⅲ. 결론 Ⅳ. 참고문헌 Ⅰ. 서론 레포트
자기효능감에 정(+)의 영향을 미칠 것이다. H5
자료: 저자 작성 [그림 Ⅴ-12
상용구문 N 데이터
한 음절으로 음운 단위가 되고 동시에 형태소 단위가 되어 단어를 이루고 구와,
이용정보 (Accessed) 저작권 안내 DBpia에서 제공되는 모든 저작물의 저작권은 원저작자에게 있으며, 누리미디어는 각 저작물의 내용을 보증하거나 책임을 지지 않습니다,
구하고 유동의 특성을 추측한다. ※ 실험장치 사용시 유의사항,
수업 연구 절차 구분 연구내용 연구기간 기초조사,
의 연구에서 실증적으로 검증된 측정도구를 사용하였다,
의 일반화와 발전을 위하여 몇가지 제언하고자 한다,
프로그램 3) 하이퍼 프로그램 4) 학생 프로그램 III. 결 론 참고문헌 I. 서 론,
연구 절차 구분 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월,
연구 절차 단계 연구 절차 추진방법 기간계획 연구주제 선정,
연구 절차 연구단계 내용 기간 대상 사전 검사,
파    일
다운로드
사회적 약자를 위한 “위로의 글” 수집과 학습을 위한 레이블링
사회적 약자를 위한 “위로의 글” 수집과 학습을 위한 레이블링
데이터명 사회적 약자를 위한 “위로의 글” 수집과 학습을 위한 레이블링
관리번호 2021-4
제작사 ㈜ 투블럭에이아이시스템
원본데이터
확보방법
인터넷에 흩어져 있는 좋은 글이나 이미지 발견 시 수집하여 상황에 맞게 레이블링을 수행함
제작방법 1. 정서적 안정과 위로를 위한 데이터 수집 및 레이블링 수행
    1.1 데이터 수집 범위
        : 사람이 위로 받을 만한 글과 이미지를 수집
        명언, 영화 대사, 만화 대사, 노래 가사 등 저작권 관련된 글귀는 제외
        이미지는 위로글귀가 포함된 이미지로 수집
2. 정보 검색을 위한 Table MRC 데이터 수집 및 레이블링 수행
        : Tool을 활용하여 Table에서 해당하는 문제와 질문을 제작
        테이블의 열과 행을 이용하여 질문을 제작
        답변 및 답변 위치는 오타 방지를 위해 마우스 클릭으로 자동 생성
구성내용 - 파일 형태 : 이미지 (위치좌표 포함), 파일 건수 : 19만7563개, 용량 : 2.6GB
활용방안 상황별로 제시한 위로 글 내용을 이용해서 상황에 맞는 이미지나 위로글을 말할 수 있는 챗봇을 제작 시 활용가능
데 이 터
미리보기

위로 상황에 맞는 위로글 내용 예시

위로 상황에 맞는 이미지 자료 예시

파    일
다운로드
Vision AI를 활용한 CCTV 기반 솔루션 개발을 위한 학습데이터 제작
Vision AI를 활용한 CCTV 기반 솔루션 개발을 위한 학습데이터 제작
데이터명 Vision AI를 활용한 CCTV 기반 솔루션 개발을 위한 학습데이터 제작
관리번호 2021-5
제작사 ㈜프롭웨이브
원본데이터
확보방법
국내 소재 민영 주차장 CCTV 데이터 확보
제작방법 다양한 시간 및 각도, 장소에서 촬영된 영상 키 프레임에서 차량에 해당하는 부분을 Bounding Box 처리 및 비식별화 전처리 진행.
비식별화 전처리는 차량 번호판 및 안면에 해당하는 개인정보의 유출을 방지하기 위해 모자이크 형태로 진행
구성내용 이미지 파일과 이미지의 Bbox를 담은 json 파일이 한 쌍을 이루며, 이미지 파일 4만개와 메타파일 4만개가 제작됨(26.6G)
활용방안 인공지능 기반 차량 관련 CCTV 영상 분석 솔루션의 정확도를 높이는데 제작된 학습데이터를 사용
데 이 터
미리보기

Bounding Box

파    일
다운로드
골목범죄 구조요청 학습데이터
골목범죄 구조요청 학습데이터
데이터명 골목범죄 구조요청 학습데이터
관리번호 2021-6
제작사 ㈜ 핀텔
원본데이터
확보방법
구조 요청(손 흔들기) 연출 및 CCTV 위치에서 영상 촬영
제작방법 촬영한 영상을 MHI(Motion History Image)로 변환한 후, 여러 스케일로 조정하고, 주간/야간, 한손/양손 을 구분하여 각 이미지에 대해 Bounding Box(구역표시) 작업 수행
(0 : 양손 길게 흔들기, 1 : 한손 흔들기, 2 : 양손 짧게 흔들기)
구성내용 이미지 파일과 이미지의 바운딩 박스 정보를 담은 텍스트 파일이 한 쌍을 이루며, 이미지 파일(5GB) 19,003개와 텍스트파일 19,003개가 제작됨
활용방안 인공지능 기반 행동을 인식·탐지할 수 있는 알고리즘 개발 시, 결함검출 및 분류의 정확도를 높이는데 제작된 학습데이터를 사용
데 이 터
미리보기

Bounding Box

파    일
다운로드
하수관로 결함탐지 학습데이터
학습데이터 세부내역
데이터명 하수관로 결함탐지 학습데이터
관리번호 2020-1
제작사 ㈜딥인스펙션
제작기간 2020. 7 ~ 2021. 1
원본데이터
확보방법
서울시에서 수행한 하수관로 점검 CCTV 영상 확보
제작방법 다양한 해상도로 촬영된 점검영상에서 결함이 발견된 부분을 이미지화하여 환경부에서 지정한 24개 유형별로
Bounding Box(구역표시), Segmentation(대상지정) 수행
구성내용 이미지 파일과 이미지의 메타정보를 담은 텍스트 파일이 한 쌍을 이루며, 이미지 파일 , 메타파일 제작됨
활용방안 하수관로 결함확인 및 분류작업에 인공지능 기술을 적용하면 소요되는 시간 및 경비를 줄일 수 있을 것으로 판단.
인공지능 기반 하수관로 결함을 탐지 분류할 수 있는 알고리즘 개발 시, 결함검출 및 분류의 정확도 향상에 제작된 학습데이터 사용가능
데 이 터
미리보기
파    일
다운로드
개인형 이동장치 진입 금지지역
개인형 이동장치 진입 금지지역
데이터명 개인형 이동장치 진입 금지지역
관리번호 2020-2
제작사 고큐바테크놀로지㈜
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
한강공원 내 개인형 이동장치 진입 금지구역 직접 촬영
제작방법 학습을 위한 다해상도로 촬영된 이미지의 위치좌표 태깅
구성내용 - 파일 형태 : 이미지(위치좌표 포함), 파일 건수 : 600개, 용량 : 1.4GB
활용방안 개인형 이동장치 진입 금지 구역을 효율적으로 관리
데 이 터
미리보기
파    일
다운로드
헬스케어 적용을 위한 운동이미지 데이터
헬스케어 적용을 위한 운동이미지 데이터
데이터명 헬스케어 적용을 위한 운동이미지 데이터
관리번호 2020-3
제작사 ㈜그레온
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
제조사 자체 촬영
제작방법 여러 가지 운동자세를 동영상 촬영 후 이미지로 분할하여 해당 이미지들을 대상으로 인체 주요 관절 및 신체부위를 Skeleton
(특정 지점을 연결한 뼈대표시) 수행
구성내용 - 파일 형태 : 이미지,메타정보(json), 파일 건수 : 이미지 5300개,json 2개, 용량 : 1.39GB
활용방안 올바른 피트니스 자세를 AI를 통해 분석, 인체 기반의 운동영역 분석 등 헬스케어와 피트니스 기반의 플랫폼 또는 서비스에 인공지능 알고리즘 적용.
데 이 터
미리보기
파    일
다운로드
스마트시티 도시관리용 시설물 및 정적객체 위치 및 사진데이터
스마트시티 도시관리용 시설물 및 정적객체 위치 및 사진데이터
데이터명 스마트시티 도시관리용 시설물 및 정적객체 위치 및 사진데이터
관리번호 2020-4
제작사 ㈜모빌테크
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
정적객체의 사진촬영 및 3차원 좌표 확인
제작방법 BLK 촬영 후 CloudComapre를 이용한 방법
구성내용 - 파일 형태 : bin, 이미지, 파일 건수 : bin 26개, 이미지 315개, 용량 : bin 13.8GB, 이미지 1.29GB
bin 파일은 3차원 포인트 클라우드 데이터로 CloudCompare 등의 프로그램으로 확인할 수 있습니다.
활용방안 시설물이 설치된 정확한 위치, 현황사진과 같은 기초데이터를 확보하여 시설물의 파손, 도난, 노후화 등을 판단하고, 체계적인 시설물 관리 가능.
이외 자동차/로봇 등 모빌리티 자율주행에 필요한 학습용 데이터로 활용 가능.
데 이 터
미리보기
파     일
다운로드
대형폐기물 학습데이터
대형폐기물 학습데이터
데이터명 대형폐기물 학습데이터
관리번호 2020-5
제작사 ㈜ 스칼라웍스
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
직접 촬영을 통한 원본데이터 확보
제작방법 직접 촬영한 이미지를 대형폐기물 수거 기준에 맞춰 분류
수거 기준 분류에 따른 객체 Bounding Box 작업
구성내용 - 파일 형태 : 이미지, 메타정보(json), 파일 건수 : 2300개, 용량 : 이미지 5.4GB, json 122KB
활용방안 인공지능 객체인식 기반의 대형폐기물 수거 시스템에 적용하여, 대형폐기물 배출 및 수거 편의성 향상
데 이 터
미리보기
파    일
다운로드
상품 표지 이미지 AI 학습 데이터셋
상품 표지 이미지 AI 학습 데이터셋
데이터명 상품 표지 이미지 AI 학습 데이터셋
관리번호 2020-7
제작사 ㈜ 인튜웍스
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
데이터 수집자가 소유한 스마트폰 활용하여 편의점, 마트의 카테고리별 상품 영상데이터 확보
제작방법 마트, 편의점에서 촬영한 영상을 이미지 프레임 추출 후 항목, 식품 명칭별 클래스를 지정하여 Bounding Box(구역표시)
※ 해상도 : 1920×1080
구성내용 - 파일 형태 : 영상, 이미지, 라벨데이터, 파일 건수 : 16000개 (영상 7개, 이미지/라벨데이터 각 8000여개), 용량 : 6GB
활용방안 시중에 판매되는 상품 표지 이미지의 학습 데이터를 활용한 공공, 민간 서비스 연계, 상품 이미지 데이터 POOL 구축에 대한 가이드라인 활용.
데 이 터
미리보기
파    일
다운로드
식물 동정 학습데이터
식물 동정 학습데이터
데이터명 식물 동정 학습데이터
관리번호 2020-8
제작사 인포보스 주식회사
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
서울시 관할 공원 지역에서 직접 촬영
제작방법 다양한 각도로 촬영된 식물 이미지에 대한 Bounding Box(구역표시) 수행 후 자료 선별
구성내용 - 파일 형태 : 이미지, 메타정보(xml), 파일 건수 : 700개, 용량 : 1.3GB
활용방안 식물관련 학습콘텐츠 개발에 활용
데 이 터
미리보기
파    일
다운로드
자율 주행 학습 데이터 가공 (3D, 2D)
자율 주행 학습 데이터 가공 (3D, 2D)
데이터명 자율 주행 학습 데이터 가공 (3D, 2D)
관리번호 2020-9
제작사 ㈜ 인피닉
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
전국 각지 도로의 주행을 통해 원천데이터 확보
- 고속도로 / 고속화도로 / 일반도로
제작방법 영상촬영 후 3D Cuboid Box(Demension(차크기) / Location(차량과의 거리)) 와 2D Image 상의 2D Box 작업 수행
구성내용 - 파일 형태 : 이미지, 메타정보, 파일 건수 : 12000개, 용량 : 6.9GB
활용방안 차량 인공지능 자율주행 학습을 통해 주행 편의성 및 안정성 확보
데 이 터
미리보기
파    일
다운로드
드론 기반의 도로 정사사진
드론 기반의 도로 정사사진
데이터명 드론 기반의 도로 정사사진
관리번호 2020-10
제작사 4S MAPPER
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
드론으로 도로를 촬영하여 이미지를 수집⋅추출
제작방법 - 드론으로 촬영한 도로 이미지 선별 및 3차원 좌표 확인
구성내용 - 파일 형태 : 이미지, 파일 건수 : 101개, 용량 : 427MB
활용방안 드론으로 촬영한 도로 이미지로 도로관리업무에 활용
데 이 터
미리보기
파    일
다운로드