
가끔 파일을 열다보면 이렇게 이름이 깨져있을때가 많음
특히 외국 블로그에서 받은 파일이 이럴때가 많은데 이는 서로 사용하는 '캐릭터 셋'(코드)이 달라서 그럼

앨리스의 컴퓨터에서 BED라는 문자는 243로 표현되는데, 이게 밥의 컴퓨터선 ㄴㅁㄹ에 해당되니까 ㄴㅁㄹ로 표시가 됨
SHIFT_JIS, utf-8 등 시스템들이 서로 다른 캐릭터 셋을 쓰니까 이런 문제가 발생하는데
이걸 막기 위해 모든 문자들을 하나의 캐릭터 셋으로 만든게 Unicode임
서양을 포함한 외국에선 이 문자 깨짐 현상을 'mojibake(文字化け)" 라고 부름
아래에선 이를 해결하는 방법을 알아보겠음
0.
dlsite에서 대조하거나 다른 사이트에서 받는 방법이 가장 빠름

RJ 코드로 검색하면 이렇게 뭐가 뭔지 원문을 알 수 있으니 좀 번거로워도 가장 편한 방법이긴 함
깨진 문자열 길이로 대충 알아맞추거나, 직접 들어보거나, 동봉되어 있는 Readme 파일을 참조해도 좋음
물론 그렇게해도 잘 모르겠거나 아예 트랙별 정보가 안 나와있는 경우에는 포기하고 1번방법으로 넘어가야 함
1.
가장 기본적인 방법임

가끔 자동 인식을 선택해도 잘 안되는 경우가 있는데 그럴땐 수동으로 선택해줘야 함
체감상 일본어, 중국어(번체), 한국어가 자주 먹혔음
변태같이 파일 일부는 중국어(번체), 일부는 일본어 같이 되어있는 경우도 있으니 잘 확인하길
2.
코드페이지로 안 고쳐진다고 하면
코드 자동 변환 사이트를 사용하면 됨
기본적으로는 여러가지 가짓수중에 가장 그럴듯 해 보이는걸 선택하는 방식임
2-1. https://r12a.github.io/app-encodings/

①번에 변환할 텍스트를 넣고
②번을 누르면 밑에 초록색으로 변하는 칸들이 생겨남
그 칸의 코드 이름 옆의 작은 화살표(③)를 누른 후
④번을 누르면 밑에 다른 코드들로 변환된 텍스트가 나옴
이 경우에는 'gb18030'로 변환하니 오른쪽의 shift_js에 그럴듯한 문자열이 나왔으니
나머지도 똑같이 gb18030 -> shift_js로 변환하면 됨
(아래의 change encodings shown을 누르면 변환 가능한 코드 종류가 늘어나므로 참고)
2-2. https://alexpad.com/textdecoder

마찬가지로 텍스트를 넣고 오른쪽 define을 누르면 되는데 왼쪽의 'the most appropriate' 옵션은 잘 안맞는 것 같음
걍 all found로 바꿔서 페이지 넘겨가면서 찾는게 편함
2-3. https://2cyr.com/decode/?lang=en


위에랑 마찬가진데 Autodetect로 한번 돌려보고
그 밑에 "Select one" 열어서 그럴듯 한 거 찾으면 됨
만약 어느게 어떤걸로 인코딩된건지 알면 그 밑에 source ending : ~~ 란을 손봐서 돌리는게 빠름
3.
파일 이름 원본(HEX Code)을 직접 추출하는 방법을 쓰는데,
윗 방법으로도 복원이 애매하게 되는 개같은 경우에 씀
"걁덝뚭?귽긚갋먄궓럒궠귏뺂걂" 를 CP949(한국어) -> SJIS (shift_jis)로 변환해보면
(淫語?イス・静お姉さま編)로 ボ가 들어갈 자리에 ?가 나오는데
이건 다른 코드로 저장될 때 해당하는 문자가 없어서 저렇게 되는 경우임 (장음 'ー'가 저렇게 깨짐)
마치 앨리스가 123을 보냈는데 찰리는 3에 해당하는 문자가 없어서 あい? 이런식으로 나오는 식임
이런 경우는 2번으로 충분히 해결 가능한데
가끔 중간 문자가 공백이나 파일명 사용 금지 문자여서 파일 이름에 찍혀나오지 않는 경우가 생김
그 경우 파일이름을 가지고 변환을 해보면


여기에 문제의 압축파일(R133405)을 끌어오면

이런식으로 나옴
왼쪽이 저 파일의 실제 모습(HEX, 16진수)임
쫄지 말고 우리가 파일명을 알고 싶은 파일의 확장자를 넣어서 검색하자
mp3를 검색하면

이런식으로 검색 결과가 나옴
.mp3 앞의 주황색을 클릭하고 shift+방향키로 문자열을 선택할 수 있는데,
본래는 갈색 동그라미의 "00"이 끝을 의미하는거라 저거 전까지 선택하면 됨
하지만 저게 경로정보를 다 담고 있기도 하고 딱 봐도 erovoice니 뭐니가 다 보이니
경로 구분 문자인 백슬래시(노란색) 바로 다음 문자까지를 선택하겠음
노란색 바로 앞부터 주황색까지 선택하고 ctrl+C
ctrl+N이던 File->New해서 새 파일 만들고 거기다 ctrl+V

이제 이걸 ctrl+S던 File->Save던 해서 파일로 저장시킴
이렇게 저장된 파일을 https://www.onlinehexeditor.com/ 에서 open file로 열면

요래 나옴
"왼"쪽의 2c부터 6a까지를 드래그해서 ctrl+C (드래그를 떼면 선택이 풀어져서 드래그 한 상태에서 눌러야 됨)
복사한 텍스트를
http://www.convertstring.com/EncodeDecode/HexDecode
에 붙여넣고 Hex Decode하면

이렇게 밑에 문자열이 나오는데 이 문자열을 가지고 위의 2번 작업을 반복하면 됨
사실 저렇게 8x xx 8x xx같은 경우에는 shift_jis인 경우가 많기 때문에
http://freaka.freehostia.com/charset_js.html 여길 이용하는 것도 괜찮은 방법임
이렇게 하면 お・け貨設(蒔発リテイク集)이라는 결과물을 얻을 수 있음
중간 부분이 압축 전 혹은 그 과정에서 깨져버려서 정확한 원문은 얻을 수 없었지만,
저 '・'가 'ま'라는 걸 충분히 유추할 수 있으니 어떤 문자열이었는지 짐작할 수 있음
실사례
사실 이걸로 되면 좋은거긴 하지만 모든 경우에 대해 완전히 복구가 된다고는 장담할 수 없음
솔직히 0번 방법이 가장 편하고 그 0번 작업이 불가능할때나 그 보조로써 2, 3번 방법을 쓰는 느낌임
이 밑은 내가 만나본 모든 케이스를 담은건 아니지만
몇주전부터 직접 다운받아보며 수집한 여러 문자 깨짐의 실제 사례와 해결 방법이니 참고하고
위키페디아에도 참고 자료가 있으니 그쪽도 확인해보면 좋을 것임
(사례, 원문, 해결 방법 순)
(*shift_jis=SJIS이므로 목록에 전자가 없으면 후자로 찾아보기 바람)
亂儊僀僪條亃丂
(【メイド様】)
gb18030 -> shift_jis
åŒåã®å‚¬çœ 彼女 耳責ã‚パート1
(双子の催 彼女 耳責めパート1)
BDSKBD, 없으면 utf-8 -> windows-1252/latin14
ГxГ^ВаВ_В-Б[В+ВсВёВ¦РQВTСOГZГbГNГXЧ
(ベタあまねーちゃんの寝る前セックス)
MIK -> shift_jis
덝뚭?귽긚갋먄궓럒궠귏뺂
(淫語?イス・静お姉さま編)
CP949 -> shift_jis
(*흔히 말하는 '뷁어 번역기' 로도 해결 가능)
âCâëâXâg 또는 ç@ÅùëñùlâQü[âÇâXâ^ü[âgüI
(イラスト 또는 女王様ゲームスタート!)
CP850 -> shift_jis
‚¨E‚¯‰ÝÝiŽª”ƒŠƒeƒCƒNWj
(おまけ音声(自発リテイク集))
iso-8859-X -> shift_jis