본문 바로가기

CS-Study

컴퓨터 구조 : 0과 1로 문자를 표현하는 방법

728x90

📗 문자 집합

문자 집합 : 컴퓨터가 이해할 수 있는 문자의 모음

인코딩 : 문자를 0과 1로 이루어진 문자코드로 변환하는 과정을 말함 (문자 -> 코드)

디코딩 : 0과 1로 표현된 문자코드를 문자로 변환하는 과정을 말함 (코드 -> 문자)

 

📗 아스키 코드

아스키 코드 : 초기 문자 집합 중 하나이다.

알파벳, 아라비아 숫자, 일부 특수문자와 제어문자를 나타낸다.

아스키코드는 7비트로 하나의 문자를 표현한다.

8비트 중 1비트는 오류 검출을 위해 사용되는 '패리티 비트' 이다.

7비트로 하나의 문자를 표현하기 때문에 최대 2^7 = 128 개의 문자 표현이 가능하다.

 

 

✔ 아스키 코드의 한계

아스키 코드는 인코딩이 간단하지만 한글을 포함해서 다른 언어나 특수문자를 표현할 수 없다.

7비트로 하나의 문자를 표현하기 때문에 128개보다 많은 문자는 표현할 수 없기 때문이다.

 

📗 유니 코드

유니코드는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 표준이다.

한글, 영어, 화살표 같은 특수 문자, 이모티콘을 표현할 수 있다.

유니코드의 인코딩 방식은 UTF-8, UTF-16, UTF-32... 등이 있다.

한글 프로그램 등에서 볼 수 있는 유니코드 표, 느낌표의 코드는 U+0021이다

✔ 유니코드는 2바이트

유니코드는 2바이트, 16비트로 문자를 표현한다. 따라서 2^16 = 65536개의 문자를

표현할 수 있다. 이 때문에 모든 문자를 표현할 수 있는 것이다.

 

📗 UTF-8

UTF-8은 유니코드의 인코딩 방법으로 인코딩 결과가 1~4바이트인 가변길이 인코딩 방법이다.

인코딩 결과가 몇 바이트가 될 지는 유니코드에 부여된 값에 따라 다르다.

 

학습 출처 :https://www.youtube.com/watch?v=upoRINMqlrw&list=PLVsNizTWUw7FCS83JhC1vflK8OcLRG0Hl&index=7

728x90
반응형