서울 시민생활 데이터

서울 시민생활 데이터란?

서울시와 SK텔레콤이 공공빅데이터와 통신데이터 가명결합을 통해 추정한 서울 행정동단위 성, 연령별 1인가구와 서울시민의 생활특성 정보

용어 안내

평균 통화 대상자수
생산주기 기준 최근 3개월 월평균(단위: 번호 수) 통화대상자수, 문자대상자수 등
소액결제 사용금액
생산주기 기준 최근 3개월 월평균 사용금액(단위: 원)
요금 연체 비율
생산주기 기준 최근 3개월내 요금 연체 비율(단위: %)
주ㆍ야간 상주지 변화량
생산주기 기준 최근 36개월내 주ㆍ야간 상주지의 변경 횟수(단위: 횟수)
체류시간
생산주기 기준 최근 3개월간 야간 상주지 근처(거주 추정 위치) 체류시간 합계(단위: 분)
이동건수 및 이동거리
생산주기 기준 최근 3개월간 야간 상주지(거주지) 밖으로 이동한 건수와 이동거리 합계(단위: 횟수, km)
콘텐츠 사용지수
생산주기 기준 최근 3개월간 데이터 사용량을 3개월 전체데이터 사용량의 평균과 표준편차를 이용하여 표준화한 값(단위: z-score, 관련변수: SNS, 유튜브, 넷플릭스)

※ 서울 시민생활 데이터 설명서 6~9페이지 참고

데이터셋 바로가기

유의사항
서울 시민생활 데이터는 통계적 방법에 의해 추정된 인구로 특정 지역이나 시점에 따라 차이가 있을 수 있음
※ 본 자료는 공간적/시간적 한계를 가지는 만큼 이용자 의견수렴 등 향후 지속적으로 정교화 작업 진행 예정
제공정보는 K-익명성 및 정확성을 고려하여 ‘5명’ 이하인 경우 “*” 처리
75세 이상의 데이터값 : 다른 연령층에 비해 데이터의 수가 적으므로, 통계적 결과 해석에 있어서 유의해야 함

FAQ

A답변
서울시와 SK텔레콤이 공공빅데이터와 통신데이터 가명결합을 통해 추정한 서울 행정동단위 성, 연령별 1인가구의 생활특성을 엿볼 수 있는 데이터로 커뮤니케이션 지수, 이동지수, 재정지수 등 10개 지수 29개 통신정보(통화량, 외출횟수, 요금연체여부, app/web 사용량 등)를 말합니다.
A답변
서울 시민생활 데이터 개발 목적은 1인가구의 삶의 질, 생활특성을 분석하여 1인가구 정책을 지원하기 위함입니다. 그동안 인구총조사, 주민등록인구통계, 설문조사 등을 통해 정책개발을 하고 있었으나, 공간적 혹은 시간적 제약이 많아 좀 더 시의성 있고 해상도 높은 데이터가 필요하였으며, 특히 데이터3법이 개정('20.10.)되면서 공공데이터와 민간데이터 간 가명결합이 가능해져 새로운 관점에서 시민의 삶을 살펴 볼 수 있었습니다. 이번에 개발된 데이터를 통해 기존 통계데이터로 볼 수 없었던 서울시민의 생활특성(고립, 여가, 재정 등)을 살펴보고 1인가구 정책을 지원할 수 있을 것으로 생각됩니다.

* 공간해상도: 자치구 단위 → 행정동 단위
* 시간해상도: 1년 주기 생산 → 매월 생산

A답변
1인가구는 행정정보를 통해 집계하는데 한계가 있습니다. 매년 방문조사를 통해 1인가구의 수를 파악하는 것도 현실적으로 불가능하고, 1인가구수를 추정하는 것 뿐만 아니라 1인가구의 생활특성을 파악하고 분석하는 것이 1인가구를 위한 정책개발에 더 필요했습니다. 통신사는 각 가입자의 거주지나 근무지를 파악하기 쉽고, 관심사나 재정상태 파악에도 용이한 데이터를 갖고 있습니다. 이런 이유로 통신데이터를 통해 1인가구의 수와 생활특성을 파악하고자 하는 첫 번째 시도를 하게되었습니다.
A답변
개인정보 식별이 안되는 통계화된 데이터로 휴대폰 가입자의 위치정보를 이용해 추정한 주·야간 상주지 정보, 휴대폰요금 연체와 소액결재 등 재정상태 관련 정보, 휴대폰의 app/web을 실행해 사용하는 다양한 콘텐츠에 대한 집계정보를 말합니다.
A답변
방송통신위원회 통계에 의하면 10세 이상 아동의 휴대폰 보급율은 70% 이상, 70세 이상 노년층의 휴대폰 보급률도 90% 이상입니다. 서울 시민생활 데이터 즉, 1인가구 분석대상은 20세 이상으로 개발되었기 때문에 휴대폰 보급률 영향은 크지 않습니다.
A답변
데이터는 서울시 열린데이터 광장을 통해 매월 20일경 공개되며, 기준월 기준 직전 최근 3개월 평균값입니다. 예를들어 2022년 6월 데이터는 2022년 3월~5월 평균값입니다.
A답변
통계청의 등록센서스(1인가구)와 행안부의 주민등록인구통계(1인세대)는 등록된 주소지 기반 1인가구(세대)이며, 이번에 발표하는 서울 시민생활 데이터의 1인가구는 심야시간대(새벽 1시~6시) 휴대폰 위치 기반으로 통계모형을 적용해 추정한 인구입니다.
A답변
1인가구 정책관련 각 분야 전문가들의 의견을 수렴하여 20대(초기청년층), 30대(후기청년층), 40대(중년층), 50-64세(장년층), 65-74(초기노년층), 75세이상(후기노년층) 6개 연령층으로 구분하여 분석하였으며, 서울 시민생활 데이터의 기본 연령대는 5세 단위로 생산, 개방할 예정입니다.
A답변
통신데이터에서 결측치는 거의 없습니다. 특정 앱을 설치하지 않은 경우 관측값에는 결측치로 표시되지만, 실제 해당 앱을 사용하지 않은 경우로 0의 값을 가지며, 분석시에도 0 값으로 이용하였습니다. 데이터 오류 문제로 결측치가 있는 경우에는 값을 확인하고 분석에서 제외하였습니다.
A답변
관심집단인 이동이 적은집단, 이동이 많은 집단, 은둔형외톨이(가칭)를 구분하기 위해 몇 가지 조건의 충족여부를 확인하였습니다. 각 관심집단에 대한 조건은 매뉴얼 21페이지(p.21)를 참고하여 주시기 바랍니다. 사용한 임계값은 분산분석, 회귀분석의 변수선택 등의 방법을 통해 집단의 특성이 가장 잘 구분되는 값을 정하고 전문가의 의견수렴을 거쳐 확정하였습니다.
A답변
웨이브, 왓챠, 티빙 등입니다.
A답변
금융콘텐츠는 증권, 은행, 가계부 등이며 쇼핑은 의류, 생활서비스, 배달관련 대표 콘텐츠는 배달앱과 배달브랜드, 배달식재료 등이 있습니다.
A답변
본 데이터 개발과 분석을 통해 1인가구는 성, 연령, 거주지역에 따라 다양한 특성을 보이고 있어, 기존 설문조사에 기반한 서울시의 1인가구 4대 정책과 병행하여 고립, 주거안심 등 1인가구 특성에 맞춘 핀셋정책에 활용될 예정입니다. 특히, 20~30대 청년층 1인가구는 청년정책과 공조가 가능할 것으로 판단되며, 40대 등 중·장년층은 주거 환경 정비로 정주여건을 개선하고 커뮤니티 활동이 상대적으로 적은 노년층 밀집지역 대상 행복한 밥상, 말벗 등 사회관계성 개선 정책 등에 활용 가능할 것으로 판단됩니다.
A답변
이번에 개발된 데이터는 서울시 열린데이터광장과 빅데이터캠퍼스를 통해 매월 개방할 예정입니다. 이용자(연구자) 편의를 위해 데이터 개발 과정과 활용사례 등을 매뉴얼로 제공하고 분석코드, 통신정보 설명서 등도 함께 배포할 예정입니다.
A답변
SK텔레콤, 서울시립대와 3년간 공동연구 협약을 체결한 상태입니다. 정기적으로 이용자 의견을 받아 모형을 정교화할 예정이며, 매월 지속적으로 배포하여 연구 및 정책활용을 지원할 예정입니다.
A답변
기존에 발표되고 있는 통계청 등록센서스에서의 가구는 1인 또는 2인 이상이 모여서 취사, 취침 등 생계를 같이 하는 생활단위를 의미하며, 행안부의 주민등록은 전·출입 신고에 위해 등록된 집주소기반 1인세대를 의미합니다. 이번에 발표하는 서울 시민생활 데이터의 1인가구는 심야시간대(새벽 1시~6시) 휴대폰 위치 기반으로 통계모형을 적용해 추정한 인구입니다. 각 데이터마다 작성목적, 작성기준이 달라 데이터간 특징과 차이가 있습니다. 따라서 다른 통계와 수치적으로 직접 비교하기보다는 상호 보완적으로 활용할 필요가 있습니다. 또한, 1인가구의 숫자보다는 통신정보를 활용해 첫 번째 시도한 1인가구에 대한 커뮤니케이션 지수, 재정지수 등 그동안 없었던 새로운 데이터를 정책과 연구 등에 활용되었으면 합니다.
A답변
네에. 통신정보 기반으로 추정한 1인가구는 1,476천 가구로, 통계청의 1인가구(1,390천 가구)보다 약 6%(8만5천 가구) 많게 추정 되었습니다. 가장 큰 이유는 집계기준의 차이인데요, 통계청 등록센서스는 일반가구* 기준으로 고시원, 기숙사나 노인요양시설, 보육원 등 사회시설에 집단으로 살고 있는 집단가구나 외국인 가구 등은 제외하고 있으나, 통신 위치 정보를 기반으로 추정한 새로운 1인가구는 야간상주지를 정의하고 가족과의 동거여부 등 가족의 존재여부를 추정하여 집계하였기 때문입니다.

* 통계청 일반가구: 가족으로 이루어진 가구, 가족과 5인 이하의 남남이 함께 사는 가구, 1인가구, 가족이 아닌 남남끼리 사는 5인 이하의 가구

※ 데이터(통계) 간 차이(기준시점: 2020.11월)

드론 기반의 도로 정사사진
인구총조사
(1인가구)
행안부 주민등록
(1인세대)
SKT 실거주 추정
(1인가구)
1,390,701 가구 1,858,554 세대 1,476,040 가구
인구총조사 보다(증감률) - 467,853세대(+33.6%) 85,339가구(+6.1%)
주민등록 보다(증감률) - - △382,514세대(△25.9%)
A답변
어떤 데이터가 맞다 틀리다 할 수 없습니다. 유사 통계, 데이터간 작성방법이 다르고 기준도 다르기 때문입니다. 1인가구 수에 대한 신뢰성에 앞서 1인 가구를 식별하는 방법이 선행되어야 할 것 같습니다. 1인가구가 주민등록기준이 아닌 통신데이터 특성으로 정의하고 생활실태에 근거하여 만들어진 데이터라는 특징이 있습니다. 통신데이터와 통계청 인구총조사 자료를 결합하여 1인가구 추정방법을 정교화하고 정확도를 높이고자 했습니다. 향후 통신데이터 이외 소비데이터, 소득·부채 데이터 등 민·관 다종 데이터를 추가 결합할 예정으로 1인가구 추정 정확도와 개선효과가 있을 것 기대합니다.
A답변
특정 지역의 1인가구 수를 추정하기 위해서는 회귀모형을 사용하는 것이 보편적입니다. Logistic Regression 모형을 이용하여 개인의 1인가구 확률을 계산하고 총합을 산출하는 방식은 향후 모형개발 및 관리 유연성 측면에서 우수하다고 생각됩니다. 1인가구 추정을 위해 다양한 기계학습 방법을 비교하였으나, 모형별 큰 차이를 발견할 수 없었습니다.
A답변
적합모형의 목적은 개개인이 관심집단에 속하는지 판별하는 것이 목적이 아니라 특정 집계단위 내에서의 관심집단의 수, 즉 추정된 수의 기대값을추정하는 것이 목적입니다. 따라서, 적합된모형의 정확도는 기준치(baseline)가 되는 전체 데이터에서의 관심집단의 비율과 거의 일치합니다.
A답변
통신데이터의 기지국을 기준으로 특정 시간대에 위치가 변하지 않았던 장소를 상주지라고 합니다. 주간상주지와 야간상주지는 주간 시간대(11시∼15시)와 야간 시간대(01시∼06시)에 위치의 변화가 가장 작았던 장소를 말하며, 주간에 특정장소에서 일하고 야간에 집에서 쉬는 사람을 기준으로는 주거지와 근무지로 해석할 수 있습니다. 매 월 1일에 전 월 1개월 간의 위치를 기준으로 추정하고 있습니다.
A답변
야간 상주지역 외 타 행정동으로 이동한 경우를 통신기지국 간 직선 거리로 추정합니다.
A답변
외출은 미리 정의한 야간상주지에서 다른 곳으로 이동(기지국 간 이동)을 확인할 수 있을 때 식별할 수 있습니다. 야간상주지에서 가까운 곳으로 이동(기지국 내 이동)한 집 밖 외출은 식별할 수 없습니다.
A답변
두 데이터간 행정동별 20대 상관도를 보았을 때 0.7 이상으로 유사한 분포를 보였습니다. 다만, 40대 분포는 0.3 수준으로 차이가 가장 커서 다종 데이터와 결합해 추가 연구가 필요합니다.

* 상관계수 범위: –1에서 1사이, ±0.7이상(강한 선형상관), ±0.3 ~±0.7(뚜렷한 선형상관), ±0.1~±0.3(약한 선형상관), ±0.1(무시할 수준의 선형상관)

A답변
일반적인 40대 가구의 경우 주거시설이 많은 지역에 주로 거주하는 것으로 확인된 반면, 상대적으로 삶이 불안정한(일자리, 소득 등) 40대 1인가구의 경우 주거 상황이 열악하더라도 일자리를 구할 수 있는 기회가 많거나 주거비용이 상대적으로 적게 드는 지역을 선호하기 때문인 것으로 추측됩니다.
A답변
바로미터는 아니지만, 소액결제 금액이나 휴대폰 요금 연체율이 중·장년층(40~64세)에서 10%대를 상회하는 등 청년층과 노년층보다 재정적 위기 상황일수 도 있겠다는 생각이 들었습니다. 제도적으로 도움을 줄 수 있는지 면밀히 살펴 볼 필요가 있으며, 오히려 원래 살던 지역에 계속 살고 싶어하는 경향이 더 강한 중장년, 특히 노년을 위한 공공주택을 공급하거나 공동체 생활을 지원하는 프로그램 등이 필요하지 않을까 합니다.
A답변
1인가구의 소비와 부채를 통한 재정위기 파악은 서울시의 중장년 1인가구 정책에서 매우 중요한 일입니다. 카드사와 신용정보를 활용한 1인가구의 소비, 경제활동 상태를 추가로 결합분석할 계획이며, 통신데이터로 파악하기 어려운 1인가구 경제활동 특성을 면밀하게 분석할 수 있을 것으로 기대하고 있습니다.