그린이지 광산에서 금을 캐내는 방법 - 텍스트마이닝
- 작성자: 수호
- 작성일: 2023.06.24. 22:28
- 조회수: 427
출처: Unsplash의 Fernand De Canne
데이터 광산에서 금 캐내기
그린이지 팀은 석 달여의 기간 동안 시민들이 접할 수 있는 친환경 마케팅 관련 데이터를 수집했습니다. 온라인 쇼핑몰과 오프라인 매장에 직접 찾아가 하나하나 읽고, 찍고, 썼죠. 그 결과 약 140개의 제품에 대한 데이터가 수집되었습니다. 열심히 모은 데이터를 활용해 그린워싱과 관련된 이슈도 공론화하고, 시민들이 실제 소비에 활용할 수 있는 그린가이드까지 제작했습니다. 하지만 하나의 결과물이 완성되었다고 해서 데이터의 쓰임도 끝나는 것은 아닙니다. 특히 그린이지 팀이 수집한 데이터는 팀원들이 소비자로서 접할 수 있는 글과 이미지들을 직접 모은, 시민의 관점에서 만들어진 데이터라는 점에서 기존의 데이터와는 차별화되죠. 아직 찾아내지 못한 다양한 함의들이 숨겨져 있을지도 모릅니다.
이번 글에선 그린이지의 데이터, 그중에서도 특히 ‘마케팅 문구’ 데이터를 분석해보며 혹시 숨겨져 있을지도 모를 함의를 찾아보려 합니다. 바로 텍스트마이닝(text mining) 기법을 활용해서 말이죠! 잠깐, 그런데 텍스트마이닝이 뭘까요? 글을… 채굴하기..? 놀랍게도 맞습니다. 텍스트마이닝은 글이라는 정보 광산에서 의미를 캐내는 작업입니다. 텍스트로 이루어진 데이터에서 유용한 정보나 지식을 찾아내는 일이죠. 그린이지 팀에서도 활용했던 단어구름이 텍스트마이닝의 대표적인 사례입니다. 단어구름은 하나의 글에서 자주 나온 단어는 크게, 적게 나온 단어는 작게 하여 일종의 구름처럼 시각화하는 기법입니다. 그린이지 팀의 단어구름 작업이 궁금하다면 이 글을 읽어보세요!
단어구름은 분명 매우 중요하고 효과적인 분석입니다. 그러나 한계가 있습니다. 글은 하나의 단어로만 이루어지지 않습니다. 단어들이 모여 문장이 되고, 문장들이 모여 문단이 되고, 문단들이 모여 글이 되죠. 그리고 이때 단어들은 어떤 단어들과 함께 있느냐에 따라 그 구체적인 의미가 달라집니다. 단어 하나하나뿐만 아니라, 단어들의 관계에도 중요한 의미들이 숨겨져 있을 수 있습니다. 개별 단어들만 보여주는 단어구름만으로는 충분하지 않은 이유입니다.
의미 연결망 분석
의미 연결망 분석은 단어들의 관계를 분석해볼 수 있는 효과적인 기법입니다. 의미 연결망은 말그대로 의미 간의 연결 관계를 말하는데, 사실상 단어들의 연결망이라고 이해하셔도 무방합니다. 의미 연결망 분석에서는 두 단어가 같은 문장에 등장하는 빈도가 높으면 두 단어 간에 연결 관계가 있다고 봅니다. 아래의 이미지는 이러한 연결 관계들을 선으로 표현한 것입니다. 등장 빈도가 높은 12개의 단어만 표현했습니다. 선이 많고 뚜렷한 중심이 없어 굉장히 복잡해보이죠. 이러한 결과에 대한 해석은 매우 다양할 수 있습니다. 제가 해석하기에는 친환경 마케팅이 특정 요소에 대한 강조보다는 좋아보이는 단어들을 적당히 섞어서 홍보하는 방식으로 이루어지는 경우가 많다는 점을 보여주는 결과 같습니다. 물론 얼마든지 다른 해석도 가능합니다.
바이그램 분석
단어들의 관계를 분석하기 위해 바이그램 분석을 사용할 수도 있습니다. 바이그램은 두 단어가 붙어있는 관계를 말합니다. "그린이지 팀은 대단하다!"라는 문장이 있다면, '그린이지'와 '팀은'이 바이그램을 이루고, '팀은'과 '대단하다'가 바이그램을 이룹니다. 실제 분석에서는 조사와 어미를 다 빼버리므로 예시 문장의 바이그램은 '그린이지-팀'과 '팀-대단'이라고 볼 수 있습니다. 바이그램은 한 문장에 있는 것은 물론이고 바로 붙어있을 것까지 요구하므로 의미 연결망보다 훨씬 강한 관계라고 볼 수 있고, 그만큼 단어들의 연결 관계를 명확히 보여줍니다.
위의 이미지는 단어들의 바이그램 관계를 선으로 표현한 것입니다. 이번에는 단어의 등장 빈도가 아닌 바이그램의 등장 빈도가 높은 것들만 표현했습니다. ‘친환경’을 중심으로 하는 그룹과 ‘재활용’/’플라스틱’/’사용’을 중심으로 하는 그룹이 눈에 띄고, 딱 한 개의 바이그램으로만 이루어져 있는 경우도 보입니다. 이번에도 역시 자유로운 해석이 가능합니다. 개인적으로는 ‘친환경’을 중심에 두는 그룹은 주로 추상적인 단어들로 구성되어 있고 ‘재활용’/’플라스틱’/’사용’을 중심에 두는 그룹은 비교적 구체적인 단어들로 이루어져 있다는 점이 인상적입니다. 옥수수-전분, 콩기름-잉크 등의 바이그램은 일종의 친환경 공식처럼 느껴지고요. 이러한 함의를 바탕으로 소비자들이 친환경 마케팅 문구를 읽을 때 ‘친환경’보다는 ‘플라스틱’, ‘재활용’, ‘사용’이라는 단어가 쓰인 부분에 집중하거나, 빈번하게 나타나는 친환경 공식들이 정말 친환경적인지 검증해보는 등의 활용이 가능할 것입니다.
이렇듯 그린이지 데이터의 마케팅 문구 텍스트를 분석하여 다양한 정보를 추출할 수 있습니다. 이번 콘텐츠에서 보여드린 분석이 전부인 것은 당연히 아닙니다. 여러분의 필요에 따라 그린이지 데이터를 자유롭게 활용하고, 새로운 통찰을 얻어보세요!
공감
2명이 공감합니다.
나기_ / 여현