Post

서울 시민의 목소리 시각화 공부 정리 | 개별 목소리와 집계 사이에서

수천 명의 응답을 어떻게 화면에 담을까. PXD의 시각화 케이스를 공부하면서 든 생각들.

서울 시민의 목소리 시각화 공부 정리 | 개별 목소리와 집계 사이에서

PXD Story 블로그에서 흥미로운 케이스 글을 읽었다. 서울시장 후보 캠페인에서 만든 ‘서울의 목소리’ 사이트 — 시민들이 고충을 적어내면 그걸 지도나 통계로 보여주는 프로젝트다. PXD가 이 시각화 방식을 꼼꼼히 살펴본 내용이었는데, 읽다 보니 디자인하면서 자주 부딪히는 고민이 그대로 나와 있어서 정리해봤다.

“수천 명의 의견을 어떻게 보여줄 것인가” — 이 질문을 어떤 방식으로 풀었는지가 궁금했다.

1️⃣ 이게 뭐냐?

‘서울의 목소리’는 시민들에게 주관식 질문을 던진다. 서울 생활의 고충, 서울시장에게 바라는 점, 서울 키워드. 정성 데이터가 주재료인 셈이다.

이 데이터를 보여주는 방식은 두 갈래다. 개별 목소리 — 지도 위 마커나 카드 목록으로 한 명 한 명의 글을 그대로 보여준다. 통계 — 막대 그래프, 파이 차트로 집계한 결과를 보여준다.

각각의 한계가 꽤 뚜렷한 것 같다. 개별 목소리는 맥락이 살아있지만 수천 개를 다 읽기 어렵다. 통계는 전체 그림을 주지만, 평균 뒤에 가려지는 이야기들이 생긴다. 이 딜레마가 사용자 리서치를 정리할 때도 비슷하게 느껴진다 — 개별 인터뷰 발언은 생생하지만 편향이 크고, 패턴으로 묶으면 누군가의 목소리가 지워진다.

충적도(Alluvial Diagram)는 그 사이 어딘가를 겨냥하는 방식인 것 같았다. 연령대별로 고충 순위가 어떻게 달라지는지를 띠 형태로 쌓아 보여주는데, 20대 여성에서 안전·치안 문제가 압도적으로 높다는 점이 이 방식 덕에 한눈에 보인다. 남성과 전혀 다른 서울을 살고 있다는 표현이 글에 나오는데, 이 시각화가 있어야 그 차이가 실감이 나는 것 같았다.

2️⃣ 내가 든 생각

정성 데이터 시각화 부분이 특히 흥미로웠다. 글에서 워드클라우드의 한계를 짚는데 — 단어를 빈도로만 셀 때 위계도 맥락도 사라진다는 것. 그 대안으로 나온 게 어피니티버블(Affinity Bubble)이다. LLM이 응답들을 자동으로 범주화하고, 비슷한 의미끼리 가까이 배치한 뒤 버블 크기로 빈도를 표현하는 방식. 개념만 읽어도 단어가 아니라 의미 덩어리가 단위가 되는 시각화라는 게 흥미로웠다.

LLM으로 범주화한다는 부분도 한번 더 생각하게 됐다. 수동 코딩은 연구자 주관이 개입되고, 자동화는 모델 해석이 개입된다. 어느 쪽도 중립이 아닌 셈인데, 그걸 인지하면서 설계한다는 게 중요한 것 같다.

👉🏻 이 글에서 더 인상적이었던 건 데이터의 한계를 함께 다룬다는 점이다. 자발적 응답 설문이라 동기가 강한 사람들이 더 많이 참여하고, 특정 네트워크로만 퍼진다. 가중치를 줘도 원본 편향을 다 잡긴 어렵다고.

💡 그러면 이 시각화는 “서울 시민의 목소리”가 아니라 “설문에 응한 시민들의 목소리”인 건데, 그 차이를 화면에서 얼마나 드러내야 할까?

데이터를 매력적으로 보여줄수록 그게 전부인 것처럼 읽힐 위험이 같이 커진다는 생각이 들었다.

⭐️ 마지막으로, 시각화 케이스를 공부하고 남은 것

정리해보니 이 케이스에서 기억에 남는 건 개별 목소리와 집계 데이터 중 어느 쪽이 낫냐의 문제가 아니었다. 둘 다 필요하다는 전제, 그리고 어떤 방식으로 보여주든 그게 누구의 목소리인지를 같이 명시해야 한다는 것. 공부 끝에 남은 건 시각화가 결국 “뭘 보여주느냐”보다 “뭘 빠뜨리느냐”에 더 가까운 문제라는 인상이다.


참고 원문: 서울 시민의 목소리를 시각화하기

This post is licensed under CC BY 4.0 by the author.