대학동 등기부등본에서 이슈를 발견하기 위한 과정

  • 작성자: 장병용
  • 작성일: 2023.10.10. 13:20
  • 조회수: 677

등기부등본에서 이슈를 발견하기 위한 과정

  1. 등기부등본에서 데이터 추출하기
  2. 전처리 진행
  3. 표제부 탐색
  4. 갑구 탐색
  5. 을구 탐색
  6. 소유자 탐색

공익 중개사 팀이 등기부등본이라는 서류에서 주거불안 위험요소와 관련된 이슈들을 발견하기 위해 작업했던 과정들과 개요에 대해 설명드리겠습니다.

설명은 위에 나열한 6가지 파트로 진행합니다.

 

1. 등기부등본에서 데이터 추출하기

저희는 민유에서 제공해준 등기부등본 스캔본을 데이터화하기 위해 작업을 진행했고  1124개의 건물 등기부등본을 88개의 컬럼으로 구성되는 데이터셋으로 정리했습니다.

최종 아웃풋으로 데이터화한 등기부등본서울시 건축물대장을 병합하여 최종 데이터셋을 구축했습니다.

등기부등본을 데이터로 변환하는 작업은 정부문서, pdf 스캔본인 관계로 수기로 작업이 진행되어야 했고 모든 팀원들이 달라붙었습니다. 

데이터 구축 작업을 통해 서류상의 건물을 분석 및 시각화가 가능해졌고, 저희가 데이터화한 건물들은 신림동에서도 아래 이미지에 보이는 위치의 건물들이었습니다.

 

2. 전처리 진행

등기부등본의 데이터화는 수기 입력으로 진행됐다고 언급했었는데요. 수기입력이다보니 데이터셋으로 구축하는 과정에서 전처리가 필요했습니다.

전처리 작업은 크게 3가지 영역으로 구분이 가능합니다. 

  • 서류의 내용을 수기로 옮기면서 발생한 다양한 휴먼에러
  • 등기부등본은 공문서이지만, 놀랍게도 에러값과 서식이 불일치하는 부분들 존재
  • 데이터 클랜징 후 파생변수 생성

 

3. 표제부

등기부등본은 크게 표제부, 갑구, 을구 3가지로 구분됩니다. 표제부는 부동산에 대한 정보를 나타냅니다.

표제부에 관련된 컬럼은 총 25개이며 그 중 주거권과 관련이 있을 것으로 예상한 몇가지 컬럼들의 개요는 다음과 같습니다.

저희가 작업한 구역의 건물들 중 약 25%는 근린생활시설이었고
최대 지상 6층, 지하 2층의 건축물들이며
38%의 건물들이 옥탑을 보유하고 있었습니다.

 

4. 갑구

갑구는 해당 부동산의 소유권이 어떻게 변경되어 왔는지 내역을 기록하며, 부동산 위험감지와 밀접한 컬럼들입니다.

가등기, 신탁, 압류, 가압류, 경매개시, 소유권이전등기가처분 등 부정적인 요소들이 언급된 횟수의 카운트와 해당 요소가 해소되었는지를 체크했습니다.

해당 부동산에 위험요소가 있는지를 직 간접적으로 나타내는 파트이므로, 갑구 주요 항목의 분포를 확인한 결과는 다음과 같습니다.

그래프에서 0은 부정적인 요소가 기재되어 있지 않은 등본입니다. 대부분은 깨끗하나 압류 9회, 가압류 10회 등 사연이 많아보이는 건물도 존재합니다.

부정적인 요소들과 그 해소여부를 토대로 임의로 간단하게 위험지수를 산출했습니다.
(해당 위험지수는 '이러한 지수 산출이 가능하면 좋겠다'라는 아이디어 정도이고 본 글에서 언급하는 위험지수는 이런 아이디어를 표현하기 위한 검증되지 않은 산출식인점 밝힙니다.)

68%의 건물은 깨끗하며(위험요소가 없으며) 높은 위험지수를 보여주는 건물도 존재합니다. 위험지수가 높은 건물들을 탐색해보는게 저희팀의 목표였습니다.

산출한 위험지수를 토대로 지도에서 시각화한 이미지입니다. 위험지수가 높을수록 붉은색으로 표현됩니다.

 

5. 을구

을구는 부동산을 담보로 돈을 빌리거나 임대한 내역들이 기록됩니다.

을구와 관련하여 총 14개의 컬럼이 있으며 대출, 임대, 저당 등 민감한 컬럼들이 다수 존재합니다.

주요 항목 분포를 확인해보니 이 구역의 건물 중 54.4%는 건물을 담보로 잡은 근저당권이 설정되어 있었고
위험한 제3금융은 0.4%만 존재했으며, 의외로 개인채권 비중이 9%정도 있었습니다.

건물을 담보로 채권을 빌리는 유형은 소유자가 41%, 공유자가 10%정도 였습니다.

이 동네 집주인들은 어디서 대출을 받았는지에 대한 통계입니다.
관악농협협동조합이 비중이 높은데 금리가 낮은 상품이 있거나 있었던 것으로 보입니다.

등본 하나 당 대출금액에 대한 분포입니다. 1억 미만, 3억 미만, 6억 미만의 금액이 많았습니다. 대출은 집값에 근거하여 설정되는만큼 신림동 주택가격과 밀접해보입니다.

대출 규모가 큰 건들도 있었고, 등본 하나에 30억 가까이되는 케이스가 2건이나 있었습니다.

채권자를 기준으로 대출받은 금액을 집계하고 상위 15명을 시각화한 차트입니다.

혼자 254억을 받은 분도 보이고 백억 가까이 되는 분들도 있었습니다.

앞서 대출금액으로 봤을 때 254억, 100억 등 대규모 금액 대출이 발견되어서 소유자 이름을 기준으로 한 사람이 몇채의 명의를 갖고있는지 집계한 차트입니다.

254억을 빌렸던 분은 24채를 보유하고 계시네요.

24채에 254억 규모의 근저당권이 설정된 건물들이 괜찮은 상탱니지 파악하기 위해 앞에서 정의했던 위험지수로 확인해봤습니다.

위의 차트는 24채 건물별 위험지수입니다.

이런식으로 을구에서 이상값들을 체크하고 해당 값들을 디테일하게 들어가는 작업들이 진행되도 좋을 것 같았습니다.

 

6. 소유자 탐색

소유자 파트는 등기부등본 상에서 구분되는 명칭은 아니며, 저희가 집을 소유한 사람들의 정보를 구분하기 위해 정의한 컬럼들입니다.

총 20개의 컬럼이 포함되며 소유자의 수, 유형, 주소 등 개인정보가 포함됩니다.

집지분소유자수는 해당 건물의 지분을 몇명이서 소유하고 있는지를 나타내는 컬럼입니다. 1명이 소유한 경우가 81% 그 이상이 19%네요.
법인이 소유한 경우도 7.7%정도 있었습니다.
마지막으로 집 소유자 중 54.1%는 실제로 거주하고 있지 않았습니다.

등본상에 실제로 거주하고 있지 않은 54.1%의 소유자들이 어디에 살고있는지 '시군' 정보로 확인했습니다.

서울에 78.7%, 경기도에 11.7%로 90%가량이 수도권에 살고 있었습니다.

소유자의 거주지 정보를 토대로 시각화한 전국 분포 이미지입니다. 빨간색 원은 근저당권이 잡힌(대출을 받은) 소유자입니다.

실 거주하지 않는 집 소유자들 중 90% 가량의 수도권 거주 분포입니다. 실 거주는 아니지만 관악구 쪽에 많이 몰려있는 모습입니다.

마지막으로 소유자의 나이 분포입니다. 

60-70대가 50%를 넘었으며, 40대 보다도 80대가 더 많은게 의외였습니다.
부동산 시장에 진입하기가 40대도 어렵다는 것처럼 느껴져서 좀 속이 쓰리네요.

 

이렇게 공익중개사팀이 등기부등본에서 이슈를 발견하기 위한 과정 과 간략한 개요를 작성해봤는데요.

이번 프로젝트에서는 등기부등본을 데이터화하는 데 수기입력이라는 작업이 물리적인 시간과 볼륨을 상당부분을 차지하여 분석쪽은 깊게 들어가지 못한 아쉬움이 조금 있습니다.

그래도 여러 사람들이 모여 청년들의 주거권과 주거불안 요소를 해결하기 위해 직접 데이터를 구축하고 살펴보는 과정이 의미 깊었습니다. 

감사합니다.

공감

0명이 공감합니다.

0 / 1,000

댓글 ( 0 )