본문 바로가기

AI학습데이터

서울시는 높은 비용과 투입시간으로 인해 자체적으로 확보하기 어려운 공공데이터를 인공지능 학습데이터로 제작하여
시민들이 활용할 수 있도록 공개하고 있습니다.
공개되고 있는 학습데이터는 「서울형 뉴딜일자리 인공지능 학습데이터 제작 사업」 등 다양한 사업을 통해 구축된 데이터입니다.

열린데이터광장에서 제공되는 학습데이터의 소유권은 서울시와 제작기업에 있습니다.
개인, 민간기업 등이 인공지능 학습, 연구, 기술개발 등에 활용할 수 있으나, 학습데이터에 기반한 인공지능 제품개발,
기술연구 논문 등의 결과물에는 데이터의 출처가 서울시 열린데이터광장 임을 명기해 주시기 바랍니다.

용어설명

인공지능 Artificial Intelligence
자연 언어의 이해, 음성 번역, 문제 해결, 학습과 지식 획득, 인지 과학 등에 응용하기 위해 인간의 지능이 갖는 학습, 추리, 적응, 논증 등의 기능을 갖춘 컴퓨터시스템
학습데이터 AI Data Set
인공지능의 기계학습에 사용하는 원천데이터와 라벨링데이터의 묶음을 말하며, 사용하는 목적에 따라 ‘훈련데이터셋’, ‘검증데이터셋’, ‘시험데이터셋’으로 구분
인공지능 학습용 데이터 구축
임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동
데이터 학습 Data Machine Learning
학습데이터셋의 훈련데이터셋, 검증데이터셋을 이용하여 선정된 인공지능 알고리즘을 학습시키고, 학습된 인공지능 모델의 성능을 향상시키거나 보정하는 활동

※ 용어설명은 ‘인공지능 학습용 데이터셋 구축 안내서(과학기술정보통신부, 한국지능정보사회진흥원, 2021. 3월)’를 참고함

학습데이터 세부내역

하수관로 결함탐지 학습데이터
학습데이터 세부내역
데이터명 하수관로 결함탐지 학습데이터
관리번호 2020-1
제작사 ㈜딥인스펙션
제작기간 2020. 7 ~ 2021. 1
원본데이터
확보방법
서울시에서 수행한 하수관로 점검 CCTV 영상 확보
제작방법 다양한 해상도로 촬영된 점검영상에서 결함이 발견된 부분을 이미지화하여 환경부에서 지정한 24개 유형별로
Bounding Box(구역표시), Segmentation(대상지정) 수행
구성내용 이미지 파일과 이미지의 메타정보를 담은 텍스트 파일이 한 쌍을 이루며, 이미지 파일 , 메타파일 제작됨
활용방안 하수관로 결함확인 및 분류작업에 인공지능 기술을 적용하면 소요되는 시간 및 경비를 줄일 수 있을 것으로 판단.
인공지능 기반 하수관로 결함을 탐지 분류할 수 있는 알고리즘 개발 시, 결함검출 및 분류의 정확도 향상에 제작된 학습데이터 사용가능
데 이 터
미리보기
deep_inspection 데이터 미리보기 썸네일1
deep_inspection 데이터 미리보기 썸네일2
파    일
다운로드
개인형 이동장치 진입 금지지역
개인형 이동장치 진입 금지지역
데이터명 개인형 이동장치 진입 금지지역
관리번호 2020-2
제작사 고큐바테크놀로지㈜
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
한강공원 내 개인형 이동장치 진입 금지구역 직접 촬영
제작방법 학습을 위한 다해상도로 촬영된 이미지의 위치좌표 태깅
구성내용 - 파일 형태 : 이미지(위치좌표 포함), 파일 건수 : 600개, 용량 : 1.4GB
활용방안 개인형 이동장치 진입 금지 구역을 효율적으로 관리
데 이 터
미리보기
goQba_technology 데이터 미리보기 썸네일1
goQba_technology 데이터 미리보기 썸네일2
파    일
다운로드
헬스케어 적용을 위한 운동이미지 데이터
헬스케어 적용을 위한 운동이미지 데이터
데이터명 헬스케어 적용을 위한 운동이미지 데이터
관리번호 2020-3
제작사 ㈜그레온
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
제조사 자체 촬영
제작방법 여러 가지 운동자세를 동영상 촬영 후 이미지로 분할하여 해당 이미지들을 대상으로 인체 주요 관절 및 신체부위를 Skeleton
(특정 지점을 연결한 뼈대표시) 수행
구성내용 - 파일 형태 : 이미지,메타정보(json), 파일 건수 : 이미지 5300개,json 2개, 용량 : 1.39GB
활용방안 올바른 피트니스 자세를 AI를 통해 분석, 인체 기반의 운동영역 분석 등 헬스케어와 피트니스 기반의 플랫폼 또는 서비스에 인공지능 알고리즘 적용.
데 이 터
미리보기
greon 데이터 미리보기 썸네일1
greon 데이터 미리보기 썸네일2
파    일
다운로드
스마트시티 도시관리용 시설물 및 정적객체 위치 및 사진데이터
스마트시티 도시관리용 시설물 및 정적객체 위치 및 사진데이터
데이터명 스마트시티 도시관리용 시설물 및 정적객체 위치 및 사진데이터
관리번호 2020-4
제작사 ㈜모빌테크
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
정적객체의 사진촬영 및 3차원 좌표 확인
제작방법 BLK 촬영 후 CloudComapre를 이용한 방법
구성내용 - 파일 형태 : bin, 이미지, 파일 건수 : bin 26개, 이미지 315개, 용량 : bin 13.8GB, 이미지 1.29GB
bin 파일은 3차원 포인트 클라우드 데이터로 CloudCompare 등의 프로그램으로 확인할 수 있습니다.
활용방안 시설물이 설치된 정확한 위치, 현황사진과 같은 기초데이터를 확보하여 시설물의 파손, 도난, 노후화 등을 판단하고, 체계적인 시설물 관리 가능.
이외 자동차/로봇 등 모빌리티 자율주행에 필요한 학습용 데이터로 활용 가능.
데 이 터
미리보기
mobiltech 데이터 미리보기 썸네일1
mobiltech 데이터 미리보기 썸네일2
파     일
다운로드
대형폐기물 학습데이터
대형폐기물 학습데이터
데이터명 대형폐기물 학습데이터
관리번호 2020-5
제작사 ㈜ 스칼라웍스
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
직접 촬영을 통한 원본데이터 확보
제작방법 직접 촬영한 이미지를 대형폐기물 수거 기준에 맞춰 분류
수거 기준 분류에 따른 객체 Bounding Box 작업
구성내용 - 파일 형태 : 이미지, 메타정보(json), 파일 건수 : 2300개, 용량 : 이미지 5.4GB, json 122KB
활용방안 인공지능 객체인식 기반의 대형폐기물 수거 시스템에 적용하여, 대형폐기물 배출 및 수거 편의성 향상
데 이 터
미리보기
ScalaWox 데이터 미리보기 썸네일1
ScalaWox 데이터 미리보기 썸네일2
파    일
다운로드
상품 표지 이미지 AI 학습 데이터셋
상품 표지 이미지 AI 학습 데이터셋
데이터명 상품 표지 이미지 AI 학습 데이터셋
관리번호 2020-7
제작사 ㈜ 인튜웍스
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
데이터 수집자가 소유한 스마트폰 활용하여 편의점, 마트의 카테고리별 상품 영상데이터 확보
제작방법 마트, 편의점에서 촬영한 영상을 이미지 프레임 추출 후 항목, 식품 명칭별 클래스를 지정하여 Bounding Box(구역표시)
※ 해상도 : 1920×1080
구성내용 - 파일 형태 : 영상, 이미지, 라벨데이터, 파일 건수 : 16000개 (영상 7개, 이미지/라벨데이터 각 8000여개), 용량 : 6GB
활용방안 시중에 판매되는 상품 표지 이미지의 학습 데이터를 활용한 공공, 민간 서비스 연계, 상품 이미지 데이터 POOL 구축에 대한 가이드라인 활용.
데 이 터
미리보기
intoworks 데이터 미리보기 썸네일1
intoworks 데이터 미리보기 썸네일2
파    일
다운로드
식물 동정 학습데이터
식물 동정 학습데이터
데이터명 식물 동정 학습데이터
관리번호 2020-8
제작사 인포보스 주식회사
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
서울시 관할 공원 지역에서 직접 촬영
제작방법 다양한 각도로 촬영된 식물 이미지에 대한 Bounding Box(구역표시) 수행 후 자료 선별
구성내용 - 파일 형태 : 이미지, 메타정보(xml), 파일 건수 : 700개, 용량 : 1.3GB
활용방안 식물관련 학습콘텐츠 개발에 활용
데 이 터
미리보기
infoboss 데이터 미리보기 썸네일1
infoboss 데이터 미리보기 썸네일2
파    일
다운로드
자율 주행 학습 데이터 가공 (3D, 2D)
자율 주행 학습 데이터 가공 (3D, 2D)
데이터명 자율 주행 학습 데이터 가공 (3D, 2D)
관리번호 2020-9
제작사 ㈜ 인피닉
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
전국 각지 도로의 주행을 통해 원천데이터 확보
- 고속도로 / 고속화도로 / 일반도로
제작방법 영상촬영 후 3D Cuboid Box(Demension(차크기) / Location(차량과의 거리)) 와 2D Image 상의 2D Box 작업 수행
구성내용 - 파일 형태 : 이미지, 메타정보, 파일 건수 : 12000개, 용량 : 6.9GB
활용방안 차량 인공지능 자율주행 학습을 통해 주행 편의성 및 안정성 확보
데 이 터
미리보기
infiniq 데이터 미리보기 썸네일1
infiniq 데이터 미리보기 썸네일2
파    일
다운로드
드론 기반의 도로 정사사진
드론 기반의 도로 정사사진
데이터명 드론 기반의 도로 정사사진
관리번호 2020-10
제작사 4S MAPPER
제작기간 2020.9 ~ 2020.12
원본데이터
확보방법
드론으로 도로를 촬영하여 이미지를 수집⋅추출
제작방법 - 드론으로 촬영한 도로 이미지 선별 및 3차원 좌표 확인
구성내용 - 파일 형태 : 이미지 (위치좌표 포함), 파일 건수 : 100개, 용량 : 2.6GB
활용방안 드론으로 촬영한 도로 이미지로 도로관리업무에 활용
데 이 터
미리보기
4S_Mapper 데이터 미리보기 썸네일1
4S_Mapper 데이터 미리보기 썸네일2
파    일
다운로드