서울시는 높은 비용과 투입시간으로 인해 자체적으로 확보하기 어려운 공공데이터를 인공지능 학습데이터로 제작하여
시민들이 활용할 수 있도록 공개하고 있습니다.
공개되고 있는 학습데이터는 「서울형 뉴딜일자리 인공지능 학습데이터 제작 사업」 등 다양한 사업을 통해 구축된 데이터입니다.
※ 용어설명은 ‘인공지능 학습용 데이터셋 구축 안내서(과학기술정보통신부, 한국지능정보사회진흥원, 2021. 3월)’를 참고함
데이터명 | 한국어 공공분야 행정 민원상담 음성 데이터 |
---|---|
관리번호 | 2023-1 |
제작사 | 서울특별시120다산콜재단, 연세대학교 산학협력단 |
원본데이터 확보방법 |
외주 용역업체를 통하여 데이터를 확보하였고 이에 대한 데이터 검증을 실시함 |
제작방법 | 직접 작성한 가상 시나리오에 따른 8khz로 녹음 |
구성내용 | 행정상담(여권, 재산세, 상하수도 등)을 연령(50대미만, 10~50대), 지역(수도권, 영남, 호남), 성별(남, 여)구성, 상담사는 성별(남, 여)로 구분하여 총 56개의 시나리오에 대한 음성데이터로 구성 |
활용방안 | 한국어 행정 및 민원 상담 데이터에 대한 AI학습 및 초대형 AI 모델의 성능을 검증 |
데 이 터 미리보기 |
음성데이터로 다운로드 파일만 존재
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 하수관로 결함탐지 시스템 개발을 위한 하수관로 결함 객체 이미지 학습용 데이터 |
---|---|
관리번호 | 2022-1 |
제작사 | ㈜한국지중정보 |
원본데이터 확보방법 |
하수관로 CCTV 촬영으로 조사 동영상 생성 |
제작방법 |
자치구 별 하수관로 촬영 장비로부터 생성된 조사 동영상을 대상으로 식별 가능한 영상 내 결함여부 영역을 나타내는 부분을 Python 패키지로 메타데이터를 포함한 학습데이터 생성, 민감정보를 대상으로 비식별화 영상 생성 |
구성내용 |
데이터 개방을 위한 민감정보를 비식별화 처리한 영상에 대한 메타정보를 얻어와 하수관 결함 판독을 진행할 수 있도록 원본 및 비식별화 이미지 파일과 관련 메타정보를 포함하는 JSON파일이 한 쌍을 이루도록 파일을 생성 메타정보에 해당하는 결함라벨 정보 제작 시 라벨작업 방식에 따라 직사각형 방식 및 다각형 방식으로 폴더를 구분하여 JSON파일 생성 및 라벨포함 이미지 파일 생성 |
활용방안 | 결함탐지의 정확성을 높이고 판독 시간의 단축으로 선제적인 보수 등의 조치로 관련 사고를 예방하는데 활용 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 현장 안전모 미착용 알림 시스템 개발을 위한 안전모 객체 이미지 학습용 데이터 |
---|---|
관리번호 | 2021-1 |
제작사 | ㈜그레온 |
원본데이터 확보방법 |
Web상에서 인력 및 Python으로 제작한 Web crawler를 이용하여 무작위 수집 후 안면 비식별처리
※트래픽 관계상 수집 가능한 화상의 수에 한계가 있어, 데이터의 일부는 영상 파일을 수집하여 균등 프레임 단위로 분할하여 활용하였음 |
제작방법 | 다양한 장소에서 다양한 해상도로 촬영된 공사현장 및 안전모 상품 이미지를 대상으로 식별 가능한 안전모 부분을 Annotation 플랫폼을 이용하여 Polygon(비정형 구역)으로 표시 |
구성내용 |
이미지 파일과 그 메타정보를 담은 JSON 파일이 한 쌍을 이루며, 이미지 파일(비압축시 52.1GByte)과 메타파일이 각각 약 20만개 가량 제작됨
- 이미지 파일: Polygon 19만7563장 |
활용방안 |
공사현장에서 인력을 사용하지 않고 자동으로 안전모 착용 여부를 점검하여 주의를 환기하거나,
안전모 미착용자가 위험구역에 진입하는 것을 제한하는 시스템에 활용할 수 있는 알고리즘 개발과정에 학습 데이터로서 사용할 수 있음 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 퍼스널 모빌리티 주행 데이터셋 |
---|---|
관리번호 | 2021-2 |
제작사 | ㈜ 드림에이스 |
원본데이터 확보방법 |
데이터 수집 요원이 실제 도로를 주행하며 영상 촬영 |
제작방법 | 다양한 장소에서 다양한 해상도로 촬영된 공사현장 및 안전모 상품 이미지를 대상으로 식별 가능한 안전모 부분을 Annotation 플랫폼을 이용하여 Polygon(비정형 구역)으로 표시 |
구성내용 |
이미지 파일과 이미지의 메타정보를 담은 텍스트 파일이 한 쌍을 이루며, 이미지 파일 1만1천개와 메타파일 2만2천개가 제작됨
- 이미지 파일: Bounding Box 1만1천장, Segmentation 1만1천장 |
활용방안 | 퍼스널모빌리티, 자전거 등의 이동수단의 객체인식 위한 활용 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 상용구문 텍스트 학습데이터 |
---|---|
관리번호 | 2021-3 |
제작사 | ㈜무하유 |
원본데이터 확보방법 |
수집은 아닌 가공만 진행 |
제작방법 | 상용구문 등록 페이지에서 후보 구문들을 불러온 후, 상용구문으로 등록할 구문을 체크하여 등록함 |
구성내용 |
TXT파일
총 58,075건/ 상용구문 Y 데이터 :316KB, 상용구문 N 데이터 : 3.04MB |
활용방안 |
1. 시정의 활용 방안 해당 학습데이터는 AI문서 요약 서비스를 개발하는 과정에서 결과의 정확도를 높이기 위해 필요한 것으로 AI문서 요약 서비스를 시정에서 도입시 도움이 될 수 있다는 점 외에 직접적으로 활용 가능한 방안은 없음.
다만, AI 문서 요약 서비스가 개발되어 시정에 적용되었을 때 기대되는 바는 아래와 같음 - 국가 R&D 정책 수립 시 의사결정 지원 : 기존에 수행된 연구주제별 성과 데이터를 요약하여 새로운 정책을 수립하는데 활용 가능 - 문서 관리 솔루션의 효율성 개선 : 시정 운영에 수시로 생성되는 문서가 누적은 되고 있으나 이를 추후에 검색하고 활용하기에는 어려웠던 문제를 개선 가능 2. 기업의 활용 방안 ① 논문 요약 - 학위/학술 논문을 출판하거나 유통하는 기업에서는 사용자가 목적에 맞는 논문을 쉽고 빠르게 찾을 수 있도록 하는 것이 중요함 - 따라서 키워드 검색 결과상에 AI 요약 기술을 접목시키는 경우가 많음 - 상용구문을 제외하는 것은 생성된 요약문 중 논문의 적합성을 판단하는데 중요하지 않은 문장을 걸러내고 핵심 문장만을 포함하여 결과의 정확도를 높이는데 도움이 됨 ② 뉴스기사 요약 언론사 - 다수의 매체, 언론사가 경쟁하는 시장에서 신뢰도 높은 기사를 작성하여 전문을 배포하는 것도 중요하지만 대중이 빠르게 핵심을 파악할 수 있도록 하는 것도 중요한 경쟁력이 될 수 있음 - AI 요약 기술을 활용하여 전문, 요약문 형태의 결과를 제공하는 언론사가 생겨나기 시작했으며, 이때 상용구문을 제외한 요약문 생성을 위해 활용 가능함 일반 기업 - 각 기업에서는 종사하고 있는 분야의 사회적 이슈, 트렌드를 파악하기 위해 뉴스기사를 모니터링 하는 것이 일반적임 - 다만, 모든 뉴스기사를 읽고, 사내에 공유하는 것은 많은 시간이 드는 비효율적인 과정일 수밖에 없음 - AI 요약 기술을 활용하여 관심분야의 기사를 축약한 내용을 검토하고 공유하는데 활용 가능 |
데 이 터 미리보기 |
|
파 일 다운로드 |
데이터명 | 사회적 약자를 위한 “위로의 글” 수집과 학습을 위한 레이블링 |
---|---|
관리번호 | 2021-4 |
제작사 | ㈜ 투블럭에이아이시스템 |
원본데이터 확보방법 |
인터넷에 흩어져 있는 좋은 글이나 이미지 발견 시 수집하여 상황에 맞게 레이블링을 수행함 |
제작방법 | 1. 정서적 안정과 위로를 위한 데이터 수집 및 레이블링 수행
1.1 데이터 수집 범위 : 사람이 위로 받을 만한 글과 이미지를 수집 명언, 영화 대사, 만화 대사, 노래 가사 등 저작권 관련된 글귀는 제외 이미지는 위로글귀가 포함된 이미지로 수집 2. 정보 검색을 위한 Table MRC 데이터 수집 및 레이블링 수행 : Tool을 활용하여 Table에서 해당하는 문제와 질문을 제작 테이블의 열과 행을 이용하여 질문을 제작 답변 및 답변 위치는 오타 방지를 위해 마우스 클릭으로 자동 생성 |
구성내용 | - 파일 형태 : 이미지 (위치좌표 포함), 파일 건수 : 19만7563개, 용량 : 2.6GB |
활용방안 | 상황별로 제시한 위로 글 내용을 이용해서 상황에 맞는 이미지나 위로글을 말할 수 있는 챗봇을 제작 시 활용가능 |
데 이 터 미리보기 |
|
파 일 다운로드 |
데이터명 | Vision AI를 활용한 CCTV 기반 솔루션 개발을 위한 학습데이터 제작 |
---|---|
관리번호 | 2021-5 |
제작사 | ㈜프롭웨이브 |
원본데이터 확보방법 |
국내 소재 민영 주차장 CCTV 데이터 확보 |
제작방법 |
다양한 시간 및 각도, 장소에서 촬영된 영상 키 프레임에서 차량에 해당하는 부분을 Bounding Box 처리 및 비식별화 전처리 진행.
비식별화 전처리는 차량 번호판 및 안면에 해당하는 개인정보의 유출을 방지하기 위해 모자이크 형태로 진행 |
구성내용 | 이미지 파일과 이미지의 Bbox를 담은 json 파일이 한 쌍을 이루며, 이미지 파일 4만개와 메타파일 4만개가 제작됨(26.6G) |
활용방안 | 인공지능 기반 차량 관련 CCTV 영상 분석 솔루션의 정확도를 높이는데 제작된 학습데이터를 사용 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 골목범죄 구조요청 학습데이터 |
---|---|
관리번호 | 2021-6 |
제작사 | ㈜ 핀텔 |
원본데이터 확보방법 |
구조 요청(손 흔들기) 연출 및 CCTV 위치에서 영상 촬영 |
제작방법 |
촬영한 영상을 MHI(Motion History Image)로 변환한 후, 여러 스케일로 조정하고, 주간/야간, 한손/양손 을 구분하여 각 이미지에 대해 Bounding Box(구역표시) 작업 수행
(0 : 양손 길게 흔들기, 1 : 한손 흔들기, 2 : 양손 짧게 흔들기) |
구성내용 | 이미지 파일과 이미지의 바운딩 박스 정보를 담은 텍스트 파일이 한 쌍을 이루며, 이미지 파일(5GB) 19,003개와 텍스트파일 19,003개가 제작됨 |
활용방안 | 인공지능 기반 행동을 인식·탐지할 수 있는 알고리즘 개발 시, 결함검출 및 분류의 정확도를 높이는데 제작된 학습데이터를 사용 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 하수관로 결함탐지 학습데이터 |
---|---|
관리번호 | 2020-1 |
제작사 | ㈜딥인스펙션 |
제작기간 | 2020. 7 ~ 2021. 1 |
원본데이터 확보방법 |
서울시에서 수행한 하수관로 점검 CCTV 영상 확보 |
제작방법 |
다양한 해상도로 촬영된 점검영상에서 결함이 발견된 부분을 이미지화하여 환경부에서 지정한 24개 유형별로 Bounding Box(구역표시), Segmentation(대상지정) 수행 |
구성내용 | 이미지 파일과 이미지의 메타정보를 담은 텍스트 파일이 한 쌍을 이루며, 이미지 파일 , 메타파일 제작됨 |
활용방안 |
하수관로 결함확인 및 분류작업에 인공지능 기술을 적용하면 소요되는 시간 및 경비를 줄일 수 있을 것으로 판단. 인공지능 기반 하수관로 결함을 탐지 분류할 수 있는 알고리즘 개발 시, 결함검출 및 분류의 정확도 향상에 제작된 학습데이터 사용가능 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 개인형 이동장치 진입 금지지역 |
---|---|
관리번호 | 2020-2 |
제작사 | 고큐바테크놀로지㈜ |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
한강공원 내 개인형 이동장치 진입 금지구역 직접 촬영 |
제작방법 | 학습을 위한 다해상도로 촬영된 이미지의 위치좌표 태깅 |
구성내용 | - 파일 형태 : 이미지(위치좌표 포함), 파일 건수 : 600개, 용량 : 1.4GB |
활용방안 | 개인형 이동장치 진입 금지 구역을 효율적으로 관리 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 헬스케어 적용을 위한 운동이미지 데이터 |
---|---|
관리번호 | 2020-3 |
제작사 | ㈜그레온 |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
제조사 자체 촬영 |
제작방법 |
여러 가지 운동자세를 동영상 촬영 후 이미지로 분할하여 해당 이미지들을 대상으로 인체 주요 관절 및 신체부위를 Skeleton (특정 지점을 연결한 뼈대표시) 수행 |
구성내용 | - 파일 형태 : 이미지,메타정보(json), 파일 건수 : 이미지 5300개,json 2개, 용량 : 1.39GB |
활용방안 | 올바른 피트니스 자세를 AI를 통해 분석, 인체 기반의 운동영역 분석 등 헬스케어와 피트니스 기반의 플랫폼 또는 서비스에 인공지능 알고리즘 적용. |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 스마트시티 도시관리용 시설물 및 정적객체 위치 및 사진데이터 |
---|---|
관리번호 | 2020-4 |
제작사 | ㈜모빌테크 |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
정적객체의 사진촬영 및 3차원 좌표 확인 |
제작방법 | BLK 촬영 후 CloudComapre를 이용한 방법 |
구성내용 |
- 파일 형태 : bin, 이미지, 파일 건수 : bin 26개, 이미지 315개, 용량 : bin 13.8GB, 이미지 1.29GB bin 파일은 3차원 포인트 클라우드 데이터로 CloudCompare 등의 프로그램으로 확인할 수 있습니다. |
활용방안 |
시설물이 설치된 정확한 위치, 현황사진과 같은 기초데이터를 확보하여 시설물의 파손, 도난, 노후화 등을 판단하고, 체계적인 시설물 관리 가능. 이외 자동차/로봇 등 모빌리티 자율주행에 필요한 학습용 데이터로 활용 가능. |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 대형폐기물 학습데이터 |
---|---|
관리번호 | 2020-5 |
제작사 | ㈜ 스칼라웍스 |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
직접 촬영을 통한 원본데이터 확보 |
제작방법 |
직접 촬영한 이미지를 대형폐기물 수거 기준에 맞춰 분류 수거 기준 분류에 따른 객체 Bounding Box 작업 |
구성내용 | - 파일 형태 : 이미지, 메타정보(json), 파일 건수 : 2300개, 용량 : 이미지 5.4GB, json 122KB |
활용방안 | 인공지능 객체인식 기반의 대형폐기물 수거 시스템에 적용하여, 대형폐기물 배출 및 수거 편의성 향상 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 상품 표지 이미지 AI 학습 데이터셋 |
---|---|
관리번호 | 2020-7 |
제작사 | ㈜ 인튜웍스 |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
데이터 수집자가 소유한 스마트폰 활용하여 편의점, 마트의 카테고리별 상품 영상데이터 확보 |
제작방법 |
마트, 편의점에서 촬영한 영상을 이미지 프레임 추출 후 항목, 식품 명칭별 클래스를 지정하여 Bounding Box(구역표시) ※ 해상도 : 1920×1080 |
구성내용 | - 파일 형태 : 영상, 이미지, 라벨데이터, 파일 건수 : 16000개 (영상 7개, 이미지/라벨데이터 각 8000여개), 용량 : 6GB |
활용방안 | 시중에 판매되는 상품 표지 이미지의 학습 데이터를 활용한 공공, 민간 서비스 연계, 상품 이미지 데이터 POOL 구축에 대한 가이드라인 활용. |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 식물 동정 학습데이터 |
---|---|
관리번호 | 2020-8 |
제작사 | 인포보스 주식회사 |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
서울시 관할 공원 지역에서 직접 촬영 |
제작방법 | 다양한 각도로 촬영된 식물 이미지에 대한 Bounding Box(구역표시) 수행 후 자료 선별 |
구성내용 | - 파일 형태 : 이미지, 메타정보(xml), 파일 건수 : 700개, 용량 : 1.3GB |
활용방안 | 식물관련 학습콘텐츠 개발에 활용 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 자율 주행 학습 데이터 가공 (3D, 2D) |
---|---|
관리번호 | 2020-9 |
제작사 | ㈜ 인피닉 |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
전국 각지 도로의 주행을 통해 원천데이터 확보 - 고속도로 / 고속화도로 / 일반도로 |
제작방법 | 영상촬영 후 3D Cuboid Box(Demension(차크기) / Location(차량과의 거리)) 와 2D Image 상의 2D Box 작업 수행 |
구성내용 | - 파일 형태 : 이미지, 메타정보, 파일 건수 : 12000개, 용량 : 6.9GB |
활용방안 | 차량 인공지능 자율주행 학습을 통해 주행 편의성 및 안정성 확보 |
데 이 터 미리보기 |
|
파 일 다운로드 |
※ 분할압축된 파일이므로 모두 내려받은 후에 압축을 해제하셔야 정상적으로 사용 가능합니다
|
데이터명 | 드론 기반의 도로 정사사진 |
---|---|
관리번호 | 2020-10 |
제작사 | 4S MAPPER |
제작기간 | 2020.9 ~ 2020.12 |
원본데이터 확보방법 |
드론으로 도로를 촬영하여 이미지를 수집⋅추출 |
제작방법 | - 드론으로 촬영한 도로 이미지 선별 및 3차원 좌표 확인 |
구성내용 | - 파일 형태 : 이미지, 파일 건수 : 101개, 용량 : 427MB |
활용방안 | 드론으로 촬영한 도로 이미지로 도로관리업무에 활용 |
데 이 터 미리보기 |
|
파 일 다운로드 |