내용은 다 알만한 얘기지만 그래도 흥미로워서 가져옴

출처 링크


미시건주립대의 Jason Moeller가 디지털 인문학 수업 프로젝트로 SCP위키의 텍스트 분석을 한 것임. 시간이 흐르며 사이트 글이 어떻게 변해왔는지도 알아보고.




분석목표: 재단의 주요 scp 항목들이 한 시리즈에서 다음 시리즈로 넘어갈 때 어떤 문법 및 구조적 경향이 관찰되며, 이를 통해 시간에 따라 글이 어떻게 변했는지도 알수 있을까?


분석대상: 영어위키에서 scp 시리즈별 무작위 10개 항목 (당시 시리즈 5까지 있었음)

열기 시리즈 1: SCP-002, SCP-177, SCP-189, SCP-385, SCP-387, SCP-485, SCP-491, SCP-596, SCP-650, SCP-815
시리즈 2: SCP-1200, SCP-1241, SCP-1298, SCP-1386, SCP-1473, SCP-1531, SCP-1557, SCP-1664, SCP-1752, SCP-1886
시리즈 3: SCP-2012, SCP-2070, SCP-2221, SCP-2349, SCP-2420, SCP-2507, SCP-2651, SCP-2683, SCP-2734, SCP-2900
시리즈 4: SCP-3050, SCP-3128, SCP-3138, SCP-3293, SCP-3409, SCP-3459, SCP-3470, SCP-3605, SCP-3671, SCP-3934
시리즈 5: SCP-4010, SCP-4154, SCP-4274, SCP-4363, SCP-4709, SCP-4813, SCP-4870, SCP-4904, SCP-4919, SCP-4970


분석방법:

  1. 시리즈별 10개 항목을 단어화한 워드문서를 총 5개 준비
  2. 문서에서 가장 언급 많은건 그 scp 번호지만 불필요한 정보니까 like나 just같이 분석에 무의미한 단어들이랑 합쳐서 제외해버림.
  3. Voyant라는 텍스트 분석도구에 넣고 분석
  4. 문서별로 나온 Voyant 데이터 중 정량화 가능하고 명확하게 추세가 드러나는 것을 엑셀로 그래프화 (평균길이, 문장당 평균 단어수, 유니크한 단어유형 수, 전체 단어수 대 유니크한 단어유형 비율)

분석결과:
사이트 회원인 N_Aepic_Fael이 인터뷰로 도움을 주었음. 원년멤버거나 스태프는 아니지만 맥락 이해를 돕는 알찬 코멘터리라고 함.


  1. 시리즈별 평균 scp 길이


    • 꾸준히 가파른 상승세
    • 평균적으로 시리즈5는 시리즈1보다 3배정도 김
    • 점점 길어진건 커뮤니티의 진화하는 표준 때문입니다. 시리즈 1, 2는 주제보다 형식에 집중했습니다. 틈새시장 같은 거지만 단편소설 쓰기론 신선한 시도였습니다. 그러나 이제 우리는 '어떤 변칙적인 일을 하는 무언가'를 소진했습니다. scp 세계관에 대한 광범위한 로어와 함께 scp 자체에서 어떤 이야기를 보고자하는 욕구가 커졌습니다. 그리고 서사를 scp에 합쳐보려는 욕구의 결과는 더 긴 기사로 나타난 것입니다.

      - N_Aepic_Fael의 코멘터리
      초기 시리즈가 짧은 기사의 가능성을 소진했다는 것에 전적으로 동의하지는 않고, 또 이 분석과는 별개로 성공적인 짧은 기사들이 새로운 시리즈에 다시 슬며시 들어오는걸 보긴했지만, 종합해보면 추세는 매우 분명함. 독자들이 형식의 참신함에 더 많이 매료되었고 현재의 회원층이 대체로 더 많은 서사와 감정적 참여를 원한다는 생각을 확증할수 있었음.

      Jason Moeller의 느낀점
  2. 문장당 평균 단어수


    • 줄어듬
    • 이건 새로운 scp 항목에 더 많은 서사를 포함하려는 욕구와, 접근성있고 흥미로운 서사를 위해 짧고단순하며 가변적인 문장이 들어가기 때문이라고 생각함. 이러한 변화는 N_Aepic_Fael이 주제와 서사가 더 중요해졌다고 말한 시리즈3에서 최저점에 도달함.

      Jason Moeller의 느낀점
  3. 유니크한 단어유형 수/전체 단어수 대 유니크한 단어유형 비율



    • 유니크한 단어유형 총 개수는 증가
    • 전체 단어 대 유니크한 단어유형 비율은 약 10% 감소
    • 이건 단어수나 문장 길이 데이터만큼 명확한 의미를 갖는 데이터는 아니지만, 서사가 형식보다 우선되면서 scp가 더 읽기쉽고 산문처럼 작성되었다는 가설을 뒷받침함.

      Jason Moeller의 느낀점

결론:
이 프로젝트를 위해 수집된 데이터와 증언에 따르면 처음엔 scp재단이 시리즈 1, 2에서 짧은 형식적 기반의 개념적인 부분에 초점을 맞췄고, 그 후 독자의 초점과 관심은 산문 스타일로 변화함. 이러한 변화는 문장당평균 단어수가 안정화되며 scp 길이는 지속적으로 증가하고, 사용되는 언어는 시간에 따라 개념적으로 덜 조밀해지면서 시리즈 3 즈음에 일어남.