Двоичное кодирование текстовой информации

Кодирование текстовой информации. Для кодирования одного символа в компьютере обычно используется 1 байт (8 бит)

⇐ ПредыдущаяСтр 2 из 2

Для кодирования одного символа в компьютере обычно используется 1 байт (8 бит).

С помощью 8 бит можно закодировать 256 различных символов (28= 256). Эти коды хранятся в специальной таблице. Одной из самых первых была таблица, разработанная в США в институте стандартизации. Этот институт ввел в действие таблицу кодов ASCII(American Standard Code for Information Interchange — стандартный код информационного обмена США).

Таблица ASCII разделена на две части. Первая — стандартная — содержит коды от 0 до 127. Вторая — расширенная — содержит символы с кодами от 128 до 255.

Первые 32 кода отданы производителям аппаратных средств, они называются

управляющие, эти коды управляют выводом данных. Им не соответствуют никакие

символы. Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, знакам арифметических действий и некоторым вспомогательным символам.

Коды расширенной таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы.

Все буквы в алфавите расположены по алфавиту, а цифры — по возрастанию.

Кроме кодировки ASCII существуют и другие системы кодирования: Windows 1251, КОИ-8 и др. Все вышеназванные системы кодирования используют для кодирования 1 символа — 8 бит или 1байт.

В 1991 году была предложена 16-битная система Unicode (Юникод). Для представления каждого символа в этой системе используются 2 байта: один байт для кодирования символа, другой для кодирования признака. Тем самым обеспечивается информационная совместимость данного способа кодирования со стандартом ASCII.

Пример 5. В кодировке Unicode на каждый символ отводится 2 байта. Определите

информационный объем слова из двадцати четырех символов в этой кодировке.

1) 384 бита; 2) 192 бита; 3) 256 бит; 4) 48 бит.

Решение. Объем равен 24*2байта = 48 байт = 48* 8 бит = 384 бита

Правильный ответ1) 384 бита

Пример 6. Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. При этом информационное сообщение уменьшилось на 480 бит. Какова длина сообщения в символах?

1) 30 2) 60 3) 120 4) 480

Решение. Количество символов в сообщении n. Значит в 16-битном коде — Unicode объём будет равен 16*n бит, а в 8-битной кодировке КОИ-8 8*n бит. Получим уравнение из условия задачи

16*n = 8*n + 480, 8*n = 480, n = 60.

Длина сообщения будет состоять из 60 символов.

Правильный ответ 2)60.

Арифметические действия во всех системах счисления выполняются точно так же как и в десятичной системе.

Примечание:

  1. Выполнять действия можно только в одной системе счисления, если вам даны разные системы счисления, сначала переведите все числа в одну систему счисления
  2. Если вы работаете с системой счисления, основание которой больше 10 и у вас в примере встретилась буква, мысленно замените её цифрой в десятичной системе, проведите необходимые операции и переведите результат обратно в исходную систему счисления

Сложение:

Все помнят, как в начальной школе нас учили складывать столбиком, разряд с разрядом. Если при сложении в разряде получалось число больше 9, мы вычитали из него 10, полученный результат записывали в ответ, а 1 прибавляли к следующему разряду. Из этого можно сформулировать правило:

  1. Складывать удобнее «столбиком»
  2. Складывая поразрядно, если цифра в разряде > больше самой большой цифры алфавита данной Системы счисления, вычитаем из этого числа основание системы счисления.
  3. Полученный результат записываем в нужный разряд
  4. Прибавляем единицу к следующему разряду

Пример:

⇐ Предыдущая12

Date: 2015-07-17; view: 394; Нарушение авторских прав

Понравилась страница? Лайкни для друзей:

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.

Для кодирования одного символа требуется 1 байт информации.

Если рассматривать символы как возможные события, то можно вычислить, какое количество различных символов можно закодировать: N = 2 I = 2 8 = 256.

Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертаниям, а компьютер — по их кодам.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение.

Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее). Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют различные символы.

К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 2 16 = 65536 различных символов.

С развитием IBM PC международным стандартом стала таблица кодов ASCII:

Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр.

используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов. В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов, полученное число даст информационный объем текста в байтах.

Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц, на каждой странице — 40 строк, в каждой строке — 60 символов. Значит, страница содержит 40 х 60 = 2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.

Добавить комментарий

Закрыть меню