Programming
2021. 11. 24.
한글 초성 검색 방법
1. 완성형 한글 초성 추출을 위한 기본 정보 먼저 한글(가~힣)까지의 유니코드 범위는 U+AC00 ~ U+D7A3이다. 한글의 UTF-8 인코딩 길이는 3byte이다. UTF-8 인코딩은 가변 길이 문자 인코딩 방식으로, 위의 한글 범위의 유니코드는 3바이트 길이를 가진다. 유니코드 U+0800 ~ U+FFFF범위의 UTF-8 인코딩 방식은 1110xxxx 10xxxxxx 10xxxxxx. 한글의 범위(U+AC00 ~ U+D7A3)는 U+0800 ~ U+FFFF에 해당한다. 한글의 초성, 중성, 종성 케이스는 아래와 같다. 초성 19개 ['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ'..