Лабораторная работа. Представление текстовой информации в ЭВМ. Часть 2::Журнал СА 5.2014
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Наука и технологии
Подписка
Где купить
Авторам
Рекламодателям
Магазин
Архив номеров
Контакты
   

  Опросы
1001 и 1 книга  
12.02.2021г.
Просмотров: 11845
Комментарии: 22
Коротко о корпусе. Как выбрать системный блок под конкретные задачи

 Читать далее...

11.02.2021г.
Просмотров: 13182
Комментарии: 13
Василий Севостьянов: «Как безболезненно перейти с одного продукта на другой»

 Читать далее...

20.12.2019г.
Просмотров: 19996
Комментарии: 3
Dr.Web: всё под контролем

 Читать далее...

04.12.2019г.
Просмотров: 16718
Комментарии: 13
Особенности сертификаций по этичному хакингу

 Читать далее...

28.05.2019г.
Просмотров: 17424
Комментарии: 8
Анализ вредоносных программ

 Читать далее...

Друзья сайта  

Форум системных администраторов  

sysadmins.ru

 Лабораторная работа. Представление текстовой информации в ЭВМ. Часть 2

Архив номеров / 2014 / Выпуск №5 (138) / Лабораторная работа. Представление текстовой информации в ЭВМ. Часть 2

Рубрика: Карьера/Образование /  Пятая пара

Владимир Закляков ВЛАДИМИР ЗАКЛЯКОВ, советник налоговой службы 2-го ранга, zaklyakov@samag.ru

Лабораторная работа
Представление текстовой информации в ЭВМ. Часть 2

Дополнительные знания по кодированию текстов, практические задания по кодированию русских букв разными кодовыми таблицами, примеры перекодирования

В первой (теоретической) части работы [1] были рассмотрены кодирование текстовой информации и некоторые полезные свойства кодировок.

Разберём несколько вопросов, в меньшей степени относящихся к кодировкам, и перейдём к практической части, где предлагается самостоятельно выполнить несколько заданий посредством общения с компьютером через интерфейс командной строки (CLI). Это должно способствовать закреплению теоретических знаний и получению соответствующих навыков работы в консоли.

Транслитерация

Особняком стоит семибитная русская «кодировка» – транслитерация, или транскириллица, когда русские буквы передаются похожими по звучанию или написанию английскими (primerno takim obrazom). Первоначально такой способ кодирования использовался в первых ПК, привозимых из-за рубежа, когда установить программы русификации не было возможности.

Как правильнее: подбирать буквы по звучанию (например, «ш» – «sh», «ч» – «ch») или схожему начертанию («ш» – «w», «ч» – «4»), ответить сложно, потому как это не стандарт, а очередная придумка наших находчивых граждан, «псеводкодировка». Если при фонетическом соответствии задача написать программу, конвертирующую однозначно тексты «туда» и «обратно», кажется реальной, то при визуальном способе подбора соответствий задача не решается простой заменой.

Вторую жизнь в «псевдокодировку» вдохнули SMS. Максимальный размер сообщения в стандарте GSM – 140 байт (1120 бит) при семибитном кодировании. Поэтому такой способ кодирования можно встретить, когда нужно уложиться в отведённые 160 символов или 140 байт.

При использовании восьмибитной кодировки (например, немецкий и французский языки, где есть точки над буквами (мляуты) и др. значки) можно отправлять сообщения длиной до 140 символов. Для поддержки иных национальных алфавитов (китайского, арабского, русского и др.) используется двухбайтовая (16-битная) кодировка UCS-2.

Таким образом, SMS, написанное кириллицей, не может превышать 70 знаков. В ряде телефонов поддерживаются восьмибитные кодировки кириллицы – KOI8-R и CP1251, но при использовании их возникают проблемы с совместимостью с обычными телефонами, где данных кодовых таблиц нет.

Естественно, при таком выборе кодовой таблицы невозможна отправка сообщений с использованием других алфавитов, кроме кириллицы и латиницы.

В «обществе потребления» корпорациям, предоставляющим услуги сотовой связи, проще переложить дополнительную финансовую нагрузку на плечи абонентов. Вот и получается, что для передачи русских букв аппараты по умолчанию используют невыгодную с точки зрения получаемого конечного размера сообщений кодировку UCS-2. Ответом на эту несправедливость в России были попытки законодательно защитить абонентов, уравняв размеры оплаты за сообщения длиной в 160 символов, независимо от используемого алфавита: кириллицы или латиницы, но они быстро сошли на нет.

Статью целиком читайте в журнале «Системный администратор», №5 за 2014 г. на страницах 86-91.


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-41
Fax: (499) 277-12-45
E-mail: sa@samag.ru