Кодирование информации на компьютере. Что такое кодирование информации и ее обработка? Как кодируются в компьютере разные виды информации

Кодирование информации в компьютере

Вся информация, которую обрабатывает компьютер, должна быть представлена двоичным кодом с помощью двух цифр - 0 и 1. Эти два символа принято называть двоичными цифрами, или битами. С помощью двух цифр 1 и 0 можно закодировать любое сообщение. Это явилось причиной того, что в компьютере обязательно должно быть организовано два важных процесса:

кодирование, которое обеспечивается устройствами ввода при преобразовании входной информации в форму, воспринимаемую компьютером, то есть в двоичный код; декодирование, которое обеспечивается устройствами вывода при преобразовании данных из двоичного кода в форму, понятную человеку.

С точки зрения технической реализации использование двоичной системы счисления для кодирования информации оказалось намного
более простым, чем применение других способов. Действительно, удобно кодировать информацию в виде последовательности нулей и единиц, если представить эти значения как два возможных устойчивых состояния электронного элемента:

0 - отсутствие электрического сигнала или сигнал имеет низкий уровень; 1 - наличие сигнала или сигнал имеет высокий уровень.

Эти состояния легко различать. Недостаток двоичного кодирования - длинные коды. Но в технике легче иметь дело с большим числом простых элементов, чем с небольшим количеством сложных.

Вам и в быту ежедневно приходится сталкиваться с устройством, которое может находиться только в двух устойчивых состояниях: включено/выключено. Конечно же, это хорошо знакомый всем выключатель. А вот придумать выключатель, который мог бы устойчиво и быстро переключаться в любое из 10 состояний, оказалось невозможным. В результате после ряда неудачных попыток разработчики пришли к выводу о невозможности построения компьютера на основе десятичной системы счисления. И в основу представления чисел в компьютере была положена именно двоичная система счисления.

В настоящее время существуют разные способы двоичного кодирования и декодирования информации в компьютере. В первую очередь это зависит от вида информации, а именно, что должно кодироваться: текст, числа, графические изображения или звук. Кроме того, при кодировании чисел важную роль играет то, как они будут использоваться: в тексте, в расчетах или в процессе ввода-вывода. Накладываются также и особенности технической реализации.

Кодирование графической информации

Создавать и хранить графические объекты в компьютере можно двумя способами - как растровое или как векторное изображение. Для каждого типа изображения используется свой способ кодирования.

Растровое изображение представляет собой совокупность точек, используемых для его отображения на экране монитора. Объем растрового изображения определяется как произведение количества точек и информационного объема одной точки, который зависит от количества возможных цветов. Для черно-белого изображения информационный объем одной точки равен 1 биту, так как точка может быть либо черной, либо белой, что можно закодировать двумя цифрами - 0 или 1.

Для кодирования 8 цветов необходимо 3 бита; для 16 цветов - 4 бита; для 6 цветов - 8 битов (1 байт) и т. д.

Кодирование звуковой информации

Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие участки, причем для каждого такого участка устанавливается определенная величина амплитуды. Таким образом, непрерывная зависимость амплитуды сигнала от времени заменяется на дискретную последовательность уровней громкости.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. В таком случае количество уровней сигнала будет равно 65536.

При двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала. Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, т. е. от частоты дискретизации. Чем больше количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48000, т. е. частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц - качество звучания аудио-CD. Следует также учитывать, что возможны как моно-, так и стерео-режимы.

Представление видеоинформации

В последнее время компьютер все чаще используется для работы с видеоинформацией. Простейшей такой работой является просмотр кинофильмов и видеоклипов. Следует четко представлять, что обработка видеоинформации требует очень высокого быстродействия компьютерной системы.

Что представляет собой фильм с точки зрения информатики? Прежде всего, это сочетание звуковой и графической информации. Кроме того, для создания на экране эффекта движения используется дискретная по своей сути технология быстрой смены статических картинок. Исследования показали, что если за одну секунду сменяется более 10-12 кадров, то человеческий глаз воспринимает изменения на них как непрерывные.

Казалось бы, если проблемы кодирования статистической графики и звука решены, то сохранить видеоизображение уже не составит труда. Но это только на первый взгляд, поскольку, как показывает разобранный выше пример, при использовании традиционных методов сохранения информации электронная версия фильма получится слишком большой. Достаточно очевидное усовершенствование состоит в том, что первый кадр запомнить целиком (в литературе его принято называть ключевым), а в следующих сохранять только отличия от начального кадра (разностные кадры).

Существует множество различных форматов представления видеоданных.

В среде Windows, например, уже боле 10 лет (начиная с версии 3.1) применятся формат Video for Windows, базирующийся на универсальных файлых с расширением AVI (Audi o Video Interleave - чередование аудио и видео).

Большое рапространение получила технология под названием DivX (происходит от сокращения слова Digital Video Express). Благодаря DivX удалось достигнуть степени сжатия, позволившей вместить качественную запись полнометражного фильма на один компакт диск - сжать 4,7 Гб DVD-фильма до 650 Мб.

22. КОДИРОВАНИЕ ИНФОРМАЦИИ

22.1. Общие сведения

Кодирование – представление информации в альтернативном виде. По своей сути кодовые системы (или просто коды) аналогичны , в которых элементам кодируемой информации соответствуют кодовые обозначения. Отличие заключается в том, что в шифрах присутствует переменная часть (ключ), которая для определенного исходного сообщения при одном и том же алгоритме шифрования может выдавать разные шифртексты. В кодовых системах переменной части нет. Поэтому одно и то же исходное сообщение при кодировании, как правило, всегда выглядит одинаково 1 . Другой отличительной особенностью кодирования является применение кодовых обозначений (замен) целиком для слов, фраз или чисел (совокупности цифр). Замена элементов кодируемой информации кодовыми обозначениями может быть выполнена на основе соответствующей таблицы (наподобие таблицы шифрозамен) либо определена посредством функции или алгоритма кодирования.

В качестве элементов кодируемой информации могут выступать:

Буквы, слова и фразы естественного языка;

Различные символы, такие как знаки препинания, арифметические и логические операции, операторы сравнения и т.д. Следует отметить, что сами знаки операций и операторы сравнения – это кодовые обозначения;

Аудиовизуальные образы;

Ситуации и явления;

Наследственная информация;

Кодовые обозначения могут представлять собой:

Буквы и сочетания букв естественного языка;

Графические обозначения;

Электромагнитные импульсы;

Световые и звуковые сигналы;

Набор и сочетание химических молекул;

Кодирование может выполняться в целях :

Удобства хранения, обработки и передачи информации (как правило, закодированная информация представляется более компактно, а также пригодна для обработки и передачи автоматическими программно-техническими средствами);

Удобства информационного обмена между субъектами;

Наглядности отображения;

Идентификации объектов и субъектов;

Сокрытия секретной информации;

Кодирование информации бывает одно- и многоуровневым . Примером одноуровневого кодирования служат световые сигналы, подаваемые светофором (красный – стой, желтый – приготовиться, зеленый – вперед). В качестве многоуровневого кодирования можно привести представление визуального (графического) образа в виде файла фотографии. Вначале визуальная картинка разбивается на составляющие элементарные элементы (пикселы), т.е. каждая отдельная часть визуальной картинки кодируется элементарным элементом. Каждый элемент представляется (кодируется) в виде набора элементарных цветов (RGB: англ. red – красный, green – зеленый, blue – синий) соответствующей интенсивностью, которая в свою очередь представляется в виде числового значения. Впоследствии наборы чисел, как правило, преобразуются (кодируются) с целью более компактного представления информации (например, в форматах jpeg, png и т.д.). И наконец, итоговые числа представляются (кодируются) в виде электромагнитных сигналов для передачи по каналам связи или областей на носителе информации. Следует отметить, что сами числа при программной обработке представляются в соответствии с принятой системой кодирования чисел.

Кодирование информации может быть обратимым и необратимым . При обратимом кодировании на основе закодированного сообщения можно однозначно (без потери качества) восстановить кодируемое сообщение (исходный образ). Например, кодирование с помощью азбуки Морзе или штрихкода. При необратимом кодировании однозначное восстановление исходного образа невозможно. Например, кодирование аудиовизуальной информации (форматы jpg, mp3 или avi) или .

Азбука Морзе - способ кодирования символов (букв алфавита, цифр, знаков препинания и др.) с помощью последовательности «точек» и «тире». За единицу времени принимается длительность одной точки. Длительность тире равна трём точкам. Пауза между элементами одного знака - одна точка (около 1/25 доли секунды), между знаками в слове - 3 точки, между словами - 7 точек. Назван в честь американского изобретателя и художника Сэмюэля Морзе.

Русская буква	Латинская буква	Код Морзе	Русская буква	Латинская буква	Код Морзе	Символ	Код Морзе
A	A	· -	Р	R	· - ·	1	· - - - -
Б	B	- · · ·	С	S	· · ·	2	· · - - -
В	W	· - -	Т	T	-	3	· · · - -
Г	G	- - ·	У	U	· · -	4	· · · · -
Д	D	- · ·	Ф	F	· · - ·	5	· · · · ·
Е (Ё)	E	·	Х	H	· · · ·	6	- · · · ·
Ж	V	· · · -	Ц	C	- · - ·	7	- - · · ·
З	Z	- - · ·	Ч	O	- - - ·	8	- - - · ·
И	I	· ·	Ш	CH	- - - -	9	- - - - ·
Й	J	· - - -	Щ	Q	- - · -	0	- - - - -
К	K	- · -	Ъ	N	- - · - -	Точка	· · · · · ·
Л	L	· - · ·	Ы	Y	- · - -	Запятая	· - · - · -
М	M	- -	Ь (Ъ)	X	- · · -	-	· · - - · ·
Н	N	- ·	Э	E	· · - · ·	!	- - · · - -
О	O	- - -	Ю	U	· · - -	@	· - - · - ·
П	P	· - - ·	Я	A	· - · -	Конец связи (end contact)	· · - · -

Рис.22.1. Фрагмент азбуки Морзе

Изначально азбука Морзе применялась для передачи сообщений в телеграфе. При этом точки и тире передавались в виде электрических сигналов, проходящих по проводам. В настоящий момент азбуку Морзе, как правило, используют в местах, где другие средства обмена информации недоступны (например, в тюрьмах).

Любопытный факт связан с изобретателем первой лампочки Томасом Альвой Эдисоном (1847-1931 гг.). Он плохо слышал и общался со своей женой, Мэри Стиуэлл, с помощью азбуки Морзе. Во время ухаживания Эдисон сделал предложение, отстучав слова рукой, и она ответила тем же способом. Телеграфный код стал обычным средством общения для супругов. Даже когда они ходили в театр, Эдисон клал руку Мэри себе на колено, чтобы она могла «телеграфировать» ему диалоги актеров .

Код Бодо - цифровой 5-битный код. Был разработан Эмилем Бодо в 1870 г. для своего телеграфа. Код вводился прямо клавиатурой, состоящей из пяти клавиш, нажатие или ненажатие клавиши соответствовало передаче или непередаче одного бита в пятибитном коде. Существует несколько разновидностей (стандартов) данного кода (CCITT-1, CCITT-2, МТК-2 и др.) В частности МТК-2 представляет собой модификацию международного стандарта CCITT-2 с добавление букв кириллицы.

Управляющие символы
Двоичный код	Десятичный код	Назначение
01000	8	Возврат каретки
00010	2	Перевод строки
11111	31	Буквы латинские
11011	27	Цифры
00100	4	Пробел
00000	0	Буквы русские

Двоичный код	Десятичный код	Латинская буква	Русская буква	Цифры и прочие символы
00011	3	A	А	-
11001	25	B	Б	?
01110	14	C	Ц	:
01001	9	D	Д	Кто там?
00001	1	E	Е	З
01101	13	F	Ф	Э
11010	26	G	Г	Ш
10100	20	H	Х	Щ
00110	6	I	И	8
01011	11	J	Й	Ю
01111	15	K	К	(
10010	18	L	Л	)
11100	28	M	М	.
01100	12	N	Н	,
11000	24	O	О	9
10110	22	P	П	0
10111	23	Q	Я	1
01010	10	R	Р	4
00101	5	S	С	"
10000	16	T	Т	5
00111	7	U	У	7
11110	30	V	Ж	=
10011	19	W	В	2
11101	29	X	Ь	/
10101	21	Y	Ы	6
10001	17	Z	З	+

Рис.22.2. Стандарт кода Бодо МТК-2

На следующем рисунке показана телетайпная перфолента с сообщением, переданным с помощью кода Бодо.

Рис. 22.3. Перфолента с кодом Бодо

Следует отметить два интересных факта, связанных с кодом Бодо.

1. Сотрудники телеграфной компании AT&T Гильберто Вернам и Мейджор Джозеф Моборн в 1917 г. предложили идею автоматического шифрования телеграфных сообщений на основе кода Бодо. Шифрование выполнялось .

2. Соответствие между английским и русским алфавитами, принятое в МТК-2, было использовано при создании компьютерных кодировок КОИ-7 и КОИ-8.

ASCII и Unicode.

ASCII (англ. American Standard Code for Information Interchange) - американская стандартная кодировочная таблица для печатных и управляющих символов. Изначально была разработана как 7-битная для представления 128 символов, при использовании в компьютерах на символ выделялось 8 бит (1 байт), где 8-ой бит служил для контроля целостности (бит четности). Позднее, с задействованием 8 бита для представления дополнительных символов (всего 256 символов), например букв национальных алфавитов, стала восприниматься как половина 8-битной. В частности на основе ASCII были разработаны кодировки, содержащие буквы русского алфавита: для операционной системы MS-DOS - cp866 (англ. code page – кодовая страница), для операционной системы MS Windows – Windows 1251, для различных операционных систем – КОИ-8 (код обмена информацией, 8 битов), ISO 8859-5 и другие.

Кодировка ASCII						Дополнительные символы
Двоичный код	Десятичный код	Символ	Двоичный код	Десятичный код	Символ	Двоичный код	Десятичный код	Символ	Двоичный код	Десятичный код	Символ
00000000	0	NUL	01000000	64	@	10000000	128	Ђ	11000000	192	А
00000001	1	SOH	01000001	65	A	10000001	129	Ѓ	11000001	193	Б
00000010	2	STX	01000010	66	B	10000010	130	‚	11000010	194	В
00000011	3	ETX	01000011	67	C	10000011	131	ѓ	11000011	195	Г
00000100	4	EOT	01000100	68	D	10000100	132	„	11000100	196	Д
00000101	5	ENQ	01000101	69	E	10000101	133	…	11000101	197	Е
00000110	6	ACK	01000110	70	F	10000110	134	†	11000110	198	Ж
00000111	7	BEL	01000111	71	G	10000111	135	‡	11000111	199	З
00001000	8	BS	01001000	72	H	10001000	136	€	11001000	200	И
00001001	9	HT	01001001	73	I	10001001	137	‰	11001001	201	Й
00001010	10	LF	01001010	74	J	10001010	138	Љ	11001010	202	К
00001011	11	VT	01001011	75	K	10001011	139	‹	11001011	203	Л
00001100	12	FF	01001100	76	L	10001100	140	Њ	11001100	204	М
00001101	13	CR	01001101	77	M	10001101	141	Ќ	11001101	205	Н
00001110	14	SO	01001110	78	N	10001110	142	Ћ	11001110	206	О
00001111	15	SI	01001111	79	O	10001111	143	Џ	11001111	207	П
00010000	16	DLE	01010000	80	P	10010000	144	ђ	11010000	208	Р
00010001	17	DC1	01010001	81	Q	10010001	145	‘	11010001	209	С
00010010	18	DC2	01010010	82	R	10010010	146	’	11010010	210	Т
00010011	19	DC3	01010011	83	S	10010011	147	“	11010011	211	У
00010100	20	DC4	01010100	84	T	10010100	148	”	11010100	212	Ф
00010101	21	NAK	01010101	85	U	10010101	149		11010101	213	Х
00010110	22	SYN	01010110	86	V	10010110	150	–	11010110	214	Ц
00010111	23	ETB	01010111	87	W	10010111	151	-	11010111	215	Ч
00011000	24	CAN	01011000	88	X	10011000	152		11011000	216	Ш
00011001	25	EM	01011001	89	Y	10011001	153	™	11011001	217	Щ
00011010	26	SUB	01011010	90	Z	10011010	154	љ	11011010	218	Ъ
00011011	27	ESC	01011011	91	[	10011011	155	›	11011011	219	Ы
00011100	28	FS	01011100	92	\	10011100	156	њ	11011100	220	Ь
00011101	29	GS	01011101	93	]	10011101	157	ќ	11011101	221	Э
00011110	30	RS	01011110	94	^	10011110	158	ћ	11011110	222	Ю
00011111	31	US	01011111	95	_	10011111	159	џ	11011111	223	Я
00100000	32		01100000	96	`	10100000	160		11100000	224	а
00100001	33	!	01100001	97	a	10100001	161	Ў	11100001	225	б
00100010	34	"	01100010	98	b	10100010	162	ў	11100010	226	в
00100011	35	#	01100011	99	c	10100011	163	Ј	11100011	227	г
00100100	36	$	01100100	100	d	10100100	164	¤	11100100	228	д
00100101	37	%	01100101	101	e	10100101	165	Ґ	11100101	229	е
00100110	38	&	01100110	102	f	10100110	166	¦	11100110	230	ж
00100111	39	"	01100111	103	g	10100111	167	§	11100111	231	з
00101000	40	(	01101000	104	h	10101000	168	Ё	11101000	232	и
00101001	41	)	01101001	105	i	10101001	169	©	11101001	233	й
00101010	42	*	01101010	106	j	10101010	170	Є	11101010	234	к
00101011	43	+	01101011	107	k	10101011	171	«	11101011	235	л
00101100	44	,	01101100	108	l	10101100	172	¬	11101100	236	м
00101101	45	-	01101101	109	m	10101101	173	¬	11101101	237	н
00101110	46	.	01101110	110	n	10101110	174	®	11101110	238	о
00101111	47	/	01101111	111	o	10101111	175	Ї	11101111	239	п
00110000	48	0	01110000	112	p	10110000	176	°	11110000	240	р
00110001	49	1	01110001	113	q	10110001	177	±	11110001	241	с
00110010	50	2	01110010	114	r	10110010	178	І	11110010	242	т
00110011	51	3	01110011	115	s	10110011	179	і	11110011	243	у
00110100	52	4	01110100	116	t	10110100	180	ґ	11110100	244	ф
00110101	53	5	01110101	117	u	10110101	181	µ	11110101	245	х
00110110	54	6	01110110	118	v	10110110	182	¶	11110110	246	ц
00110111	55	7	01110111	119	w	10110111	183	·	11110111	247	ч
00111000	56	8	01111000	120	x	10111000	184	ё	11111000	248	ш
00111001	57	9	01111001	121	y	10111001	185	№	11111001	249	щ
00111010	58	:	01111010	122	z	10111010	186	є	11111010	250	ъ
00111011	59	;	01111011	123	{	10111011	187	»	11111011	251	ы
00111100	60	<	01111100	124	\|	10111100	188	ј	11111100	252	ь
00111101	61	=	01111101	125	}	10111101	189	Ѕ	11111101	253	э
00111110	62	>	01111110	126	~	10111110	190	ѕ	11111110	254	ю
00111111	63	?	01111111	127	DEL	10111111	191	ї	11111111	255	я

Рис. 22.4. Кодовая страница Windows 1251

Unicode - стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков. Стандарт был предложен в 1991 г. некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium, Unicode Inc.). Применение этого стандарта позволяет закодировать большее число символов (чем в ASCII и прочих кодировках) за счет двухбайтового кодирования символов (всего 65536 символов). В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы.

Коды в стандарте Unicode разделены на несколько разделов. Первые 128 кодов соответствуют кодировке ASCII. Далее расположены разделы букв различных письменностей, знаки пунктуации и технические символы. В частности прописным и строчным буквам русского алфавита соответствуют коды 1025 (Ё), 1040-1103 (А-я) и 1105 (ё).

Шрифт Брайля - рельефно-точечный тактильный шрифт, предназначенный для письма и чтения незрячими людьми. Был разработан в 1824 г. французом Луи Брайлем (Louis Braille), сыном сапожника. Луи в возрасте трёх лет потерял зрение, в результате воспаления глаз, начавшегося от того, что мальчик поранился шорным ножом (подобие шила) в мастерской отца. В возрасте 15 лет он создал свой рельефно-точечный шрифт, вдохновившись простотой «ночного шрифта» капитана артиллерии Шарля Барбье (Charles Barbier), который использовался военными того времени для чтения донесений в темноте.

Для изображения символов (в основном букв и цифр) в шрифте Брайля используются 6 точек, расположенных в два столбца, по 3 в каждом.

Рис. 22.5. Нумерация точек

Каждому символу соответствует свой уникальный набор выпуклых точек. Т.о. шрифт Брайля представляет собой систему для кодирования 2 6 = 64 символов. Но присутствие в шрифте управляющих символов (например, переход к буквам или цифрам) позволяет увеличить количество кодируемых символов.

Управляющие символы
Символ шрифта Брайля	Назначение
⠠	Буквы
⠼	Цифры
Буквы, цифры и остальные символы
Символ шрифта Брайля	Латинские буквы	Русские буквы	Цифры
⠁	A	А	1
⠃	B	Б	2
⠉	C	Ц	3
⠙	D	Д	4
⠑	E	Е	5
⠋	F	Ф	6
⠛	G	Г	7
⠓	H	Х	8
⠊	I	И	9
⠚	J	Ж	0
⠅	K	К
⠇	L	Л
⠍	M	М
⠝	N	Н
⠕	O	О
⠏	P	П
⠟	Q	Ч
⠗	R	Р
⠎	S	С
⠞	T	Т
⠥	U	У
⠧	V
⠺	W	В
⠭	X	Щ
⠽	Y
⠵	Z	З
⠡		Ё
⠯		Й
⠱		Ш
⠷		Ъ
⠮		Ы
⠾		Ь
⠪		Э
⠳		Ю
⠫		Я
⠲	Точка
⠂	Запятая
⠖	Восклицательный знак
⠢	Вопросительный знак
⠆	Точка с запятой
⠤	Дефис
	Пробел

Рис. 22.6. Шрифт Брайля

Шрифт Брайля, в последнее время, стал широко применяться в общественной жизни и быту в связи с ростом внимания к людям с ограниченными возможностями.

Рис. 22.7. Надпись "Sochi 2014" шрифтом Брайля на золотой медали Параолимпийских игр 2014г.

Штрихкод - графическая информация, наносимая на поверхность, маркировку или упаковку изделий, представляющая собой последовательность черных и белых полос либо других геометрических фигур в целях ее считывания техническими средствами.

В 1948 г. Бернард Сильвер (Bernard Silver), аспирант Института Технологии Университета Дрекселя в Филадельфии, услышал, как президент местной продовольственной сети просил одного из деканов разработать систему, автоматически считывающую информацию о продукте при его контроле. Сильвер рассказал об этом друзьям - Норману Джозефу Вудланду (Norman Joseph Woodland) и Джордину Джохэнсону (Jordin Johanson). Втроем они начали исследовать различные системы маркировки. Их первая работающая система использовала ультрафиолетовые чернила, но они были довольно дороги, а кроме того, со временем выцветали.

Убежденный в том, что система реализуема, Вудланд покинул Филадельфию и перебрался во Флориду в квартиру своего отца для продолжения работы. 20 октября 1949 г. Вудланд и Сильвер подали заявку на изобретение, которая была удовлетворена 7 октября 1952 г. Вместо привычных нам линий патент содержал описание штрихкодовой системы в виде концентрических кругов.

Рис. 22.8. Патент системы Вудланда и Сильвера с концентрическими кругами, предшественниками современных штрихкодов

Впервые штрихкоды начали официально использоваться в 1974 г. в магазинах г. Трой, штат Огайо . Системы штрихового кодирования нашли широкое применение в общественной жизни: торговля, почтовые отправления, финансовые и судебные уведомления, учет единиц хранения, идентификация личностей, контактная информация (веб-ссылки, адреса электронной почты, телефонные номера) и т.д.

Различают линейные (читаемые в одном направлении) и двумерные штрихкоды. Каждая из разновидностей различается как размерами графического изображения, так и объемами представленной информации. В следующей таблице приведены примеры некоторых разновидностей штрихкода.

Таблица 22.1. Разновидности штрихкодов

Наименование	Пример штрих-кода	Примечания
Линейные
Universal Product Code, UPC (универсальный код товара)	(UPC-A)	Американский стандарт штрихкода, предназначенный для кодирования идентификатора товара и производителя. Имеются разновидности: - UPC-E – кодируются 8 цифр; - UPC-A – кодируется 13 цифр.
European Article Number, EAN (европейский номер товара)	(EAN-13)	Европейский стандарт штрихкода, предназначенный для кодирования идентификатора товара и производителя. Имеются разновидности: - EAN-8 – кодируются 8 цифр; - EAN 13 – кодируется 13 цифр; - EAN-128 – кодируется любое количество букв и цифр, объединенных в регламентированные группы. ГОСТ ИСО/МЭК 15420-2001 «Автоматическая идентификация. Кодирование штриховое. Спецификация символики EAN/UPC (ЕАН/ЮПиСи)».
Code 128 (Код 128)		Включает в себя 107 символов. Из которых 103 символа данных, 3 стартовых, и 1 остановочный символ. Для кодирования всех 128-ми символов ASCII предусмотрено три комплекта символов - A, B и C, которые могут использоваться внутри одного штрихкода. EAN-128 кодирует информацию по алфавиту Code 128 ГОСТ 30743-2001 (ИСО/МЭК 15417-2000) «Автоматическая идентификация. Кодирование штриховое. Спецификация символики Code 128 (Код 128)».
Двумерные
DataMatrix (матричные данные)		Максимальное количество символов, которые помещаются в один код - 2048 байт. ГОСТ Р ИСО/МЭК 16022-2008 «Автоматическая идентификация. Кодирование штриховое. Спецификация символики Data Matrix».
QR-код (англ. quick response - быстрый отклик)		Квадраты в углах изображения позволяют нормализовать размер изображения и его ориентацию, а также угол, под которым сенсор относится к поверхности изображения. Точки переводятся в двоичные числа с проверкой контрольной суммы. Максимальное количество символов, которые помещаются в один QR-код: - цифры - 7089; - цифры и буквы (латиница) - 4296; - двоичный код - 2953 байт; - иероглифы - 1817.
MaxiCode (максикод)		Размер - дюйм на дюйм (1 дюйм = 2.54 см). Используется для грузоотправительных и грузоприемных систем. ГОСТ Р 51294.6-2000 «Автоматическая идентификация. Кодирование штриховое. Спецификация символики MaxiCode (Максикод)».
PDF147 (англ. Portable Data File - переносимый файл данных)		Применяется при идентификации личности, учете товаров, при сдаче отчетности в контролирующие органы и других областях. Поддерживает кодирование до 2710 символов и может содержать до 90 строк.
Microsoft Tag (метка Microsoft)		Разработан для распознавания при помощи фотокамер, встроенных в мобильные телефоны. Может вместить в себя столько же символов, что Code128. Предназначен для быстрой идентификации и получения на устройство заранее подготовленной информации (веб-ссылки, произвольного текста длиной до 1000 символов, телефонного номера и т.п.), привязанной к коду и хранящейся на сервере компании Microsoft. Содержит 13 байт плюс один дополнительный бит для контроля четности.

Представление чисел в двоичном виде (в компьютере) . Как известно, информация, хранящаяся и обрабатываемая в компьютерах, представлена в двоичном виде. Бит (англ. bi nary digit - двоичное число; также игра слов: англ. bit - кусочек, частица) - единица измерения количества информации, равная одному разряду в двоичной системе счисления. С помощью бита можно закодировать (представить, различать) два состояния (0 или 1; да или нет). Увеличивая количество битов (разрядов), можно увеличить количество кодируемых состояний. Например, для байта (англ. byte), состоящего из 8 битов, количество кодируемых состояний составляет 2 8 = 256.

Числа кодируются в т.н. форматах с фиксированной и плавающей запятой.

1. Формат с фиксированной запятой , в основном, применяется для целых чисел, но может применяться и для вещественных чисел, у которых фиксировано количество десятичных знаков после запятой. Для целых чисел подразумевается, что «запятая» находится справа после младшего бита (разряда), т.е. вне разрядной сетки. В данном формате существуют два представления: беззнаковое (для неотрицательных чисел) и со знаком.

Для беззнакового представления все разряды отводятся под представление самого числа. Например, с помощью байта можно представить беззнаковые целые числа от 0 10 до 255 10 (00000000 2 - 11111111 2) или вещественные числа с одним десятичным знаком от 0.0 10 до 25.5 10 (00000000 2 - 11111111 2). Для знакового представления, т.е. положительных и отрицательных чисел, старший разряд отводится под знак (0 – положительное число, 1 – отрицательное).

Различают прямой, обратный и дополнительный коды записи знаковых чисел.

В прямом коде запись положительного и отрицательного числа выполняется так же, как и в беззнаковом представление (за исключение того, что старший разряд отводится под знак). Таким образом, числа 5 10 и -5 10 записываются, как 00000101 2 и 10000101 2 . В прямом коде имеются два кода числа 0: «положительный нуль» 00000000 2 и «отрицательный нуль» 10000000 2 .

При использовании обратного кода отрицательное число записывается в виде инвертированного положительного числа (0 меняются на 1 и наоборот). Например, числа 5 10 и -5 10 записываются, как 00000101 2 и 11111010 2 . Следует отметить, что в обратном коде, как и в прямом, имеются «положительный нуль» 00000000 2 и «отрицательный нуль» 11111111 2 . Применение обратного кода позволяет вычесть одно число из другого, используя операцию сложения, т.е. вычитание двух чисел X – Y заменяется их суммой X + (-Y). При этом используются два дополнительных правила:

Вычитаемое число инвертируется (представляется в виде обратного кода);

Если количество разрядов результата получается больше, чем отведено на представление чисел, то крайний левый разряд (старший) отбрасывается, а к результату добавляется 1 2 .

В следующей таблице приведены примеры вычитания.

Таблица 22.2. Примеры вычитания двух чисел с использованием обратного кода

X – Y	5 – 5	6 – 5	5 – 6	5 – (-6)
X 2	00000101	00000110	00000101	00000101
Y 2	00000101	00000101	00000110	11111001
Замена сложением	5 + (-5)	6 + (-5)	5 + (-6)	5 + 6
Обратный код для вычитаемого (-Y 2)	11111010	11111010	11111001	00000110
Сложение	00000101 + 11111010 11111111	00000110 + 11111010 100000000	00000101 + 11111001 11111110	00000101 + 00000110 00001011
	не требуется	00000000 + 00000001 00000001	не требуется	не требуется
Результат	-0	1	-1	11

Несмотря на то, что обратный код значительно упрощает вычислительные процедуры, а соответственно и быстродействие компьютеров, наличие двух «нулей» и другие условности привели к появлению дополнительного кода. При представлении отрицательного числа его модуль вначале инвертируется, как в обратном коде, а затем к инверсии сразу добавляется 1 2 .

В следующей таблице приведены некоторые числа в различном кодовом представлении.

Таблица 22.3. Представление чисел в различных кодах

Десятичное представление	Код двоичного представления (8 бит)
Десятичное представление	прямой	обратный	дополнительный
127	01111111	01111111	01111111
6	00000110	00000110	00000110
5	00000101	00000101	00000101
1	00000001	00000001	00000001
0	00000000	00000000	00000000
-0	10000000	11111111	---
-1	10000001	11111110	11111111
-5	10000101	11111010	11111011
-6	10000110	11111001	11111010
-127	11111111	10000000	10000001
-128	---	---	10000000

При представлении отрицательных чисел в дополнительных кодах второе правило несколько упрощается - если количество разрядов результата получается больше, чем отведено на представление чисел, то только отбрасывается крайний левый разряд (старший).

Таблица 22.4. Примеры вычитания двух чисел с использованием дополнительного кода

X – Y	5 – 5	6 – 5	5 – 6	5 – (-6)
X 2	00000101	00000110	00000101	00000101
Y 2	00000101	00000101	00000110	11111010
Замена сложением	5 + (-5)	6 + (-5)	5 + (-6)	5 + 6
Дополнительный код для вычитаемого (-Y 2)	11111011	11111011	11111010	00000110
Сложение	00000101 + 11111011 00000000	00000110 + 11111011 100000001	00000101 + 11111010 11111111	00000101 + 00000110 00001011
Отбрасывание старшего разряда и добавление 1 2	не требуется	00000001	не требуется	не требуется
Результат	-0	1	-1	11

Можно возразить, что представление чисел в дополнительных кодах требует на одну операцию больше (после инверсии всегда требуется сложение с 1 2), что может и не потребоваться в дальнейшем, как в примерах с обратными кодами. В данном случае срабатывает известный «принцип чайника». Лучше сделать процедуру линейной, чем применять в ней правила «Если A то B» (даже если оно одно). То, что с человеческой точки зрения кажется увеличением трудозатрат (вычислительной и временной сложности), с точки зрения программно-технической реализации может оказаться эффективней.

Еще одно из преимуществ дополнительного кода перед обратным заключается в возможности представления в единице информации на одно число (состояние) больше, за счет исключения «отрицательного нуля». Поэтому, как правило, диапазон представления (хранения) для знаковых целых чисел длиной один байт составляет от +127 до -128.

2. Формат с плавающей запятой , в основном, используется для вещественных чисел. Число в данном формате представляется в экспоненциальном виде

X = e n * m, (22.1)

где e - основание показательной функции;
n - порядок основания;
e n - характеристика числа;
m - мантисса (лат. mantissa - прибавка) – множитель, на который надо умножить характеристику числа, чтобы получить само число.

Например, число десятичное число 350 может быть записано, как 3.5 * 10 2 , 35 * 10 1 , 350 * 10 0 и т.д. В нормализованной научной записи , порядок n выбирается такой, чтобы абсолютная величина m оставалась не меньше единицы, но строго меньше десяти (1 ≤ |m| < 10). Таким образом, в нормализованной научной записи число 350 выглядит, как 3.5 * 10 2 . При отображении чисел в программах, учитывая, что основание равно 10, их записывают в виде m E ± n , где Е означает «*10^» («…умножить на десять в степени…»). Например, число 350 – 3.5Е+2, а число 0.035 – 3.5Е-2.

Так как числа хранится и обрабатывается в компьютерах в двоичном виде, то для этих целей принимается e = 2. Одной из возможных форм двоичного представления чисел с плавающей запятой является следующая.

Рис. 22.9. Двоичный формат представления чисел с плавающей запятой

Биты bn± и bm±, означающие знак порядка и мантиссы, кодируются аналогично числам с фиксированной запятой: для положительных чисел «0», для отрицательных – «1». Значение порядка выбирается таким образом, чтобы величина целой части мантиссы в десятичном (и соответственно в двоичном) представлении равнялась «1», что будет соответствовать нормализованной записи для двоичных чисел. Например, для числа 350 10 порядок n = 8 10 = 001000 2 (350 = 1.3671875 * 2 8), а для 576 10 – n = 9 10 = 001001 2 (576 = 1.125 * 2 9). Битовое представление величины порядка может быть выполнено в прямом, обратном или дополнительном коде (например, для n = 8 10 бинарный вид 001000 2). Величина мантиссы отображает дробную часть. Для ее преобразования в двоичный вид, она последовательно умножается на 2, пока не станет равной 0. Например,

Рис. 22.10. Пример получения дробной части в бинарном виде

Целые части, получаемые в результате последовательного перемножения, и представляют собой двоичный вид дробной части (0.3671875 10 = 0101111 2). Оставшаяся часть разрядов величины мантиссы заполняется 0. Таким образом, итоговый вид числа 350 в формате с плавающей запятой с учетом представления мантиссы в нормализованной записи

Рис. 22.11. Двоичный вид числа 350

В программно-аппаратных реализациях арифметических действий широко распространен стандарт представления чисел с плавающей точкой IEEE 2 754 (последняя редакция «754-2008 - IEEE Standard for Floating-Point Arithmetic»). Данный стандарт определяет форматы с плавающими запятыми для представления чисел одинарной (англ. single, float) и двойной (англ. double) точности. Общая структура форматов

Рис. 22.12. Общий формат представления двоичных чисел в стандарте IEEE 754

Форматы представления отличаются количеством бит (байт), отводимым для представления чисел, и, соответственно, точностью представления самих чисел.

Таблица 22.5. Характеристики форматов представления двоичных чисел в стандарте IEEE 754

Формат	single	double
Общий размер, бит (байт)	32 (4)	64 (8)
Число бит для порядка	8	11
Число бит для мантиссы (без учета знакового бита)	23	52
Величина порядка	2 128 .. 2 -127 (±3.4 * 10 38 .. 1.7 * 10 -38)	2 1024 .. 2 -1023 (±1.8 * 10 308 .. 9.0 * 10 -307)
Смещение порядка	127	1023
Диапазон представления чисел (без учета знака)	±1.4 * 10 -45 .. 3.4 * 10 38	±4.9 * 10 -324 .. 1.8 * 10 308
Количество значащих цифр числа (не более)	8	16

Особенностью представления чисел по стандарту IEEE является отсутствие бита под знак порядка. Несмотря на это, величина порядка может принимать как положительные значения, так и отрицательные. Этот момент учитывается т.н. «смещением порядка». После преобразования двоичного вида порядка (записанного в прямом коде) в десятичный от полученной величины отнимается «смещение порядка». В результате получается «истинное» значения порядка числа. Например, если для числа одинарной точности указан порядок 11111111 2 (= 255 10), то величина порядка на самом деле 128 10 (= 255 10 - 127 10), а если 00000000 2 (= 0 10), то -127 10 (= 0 10 - 127 10).

Величина мантиссы указывается, как и в предыдущем случае, в нормализованном виде.

C учетом вышеизложенного, число 350 10 в формате одинарной точности стандарта IEEE 754 записывается следующим образом.

Рис. 22.13. Двоичный вид числа 350 по стандарту IEEE

К другим особенностям стандарта IEEE относится возможность представления специальных чисел. К ним относятся значения NaN (англ. Not a Number - не число) и +/-INF (англ. Infinity - бесконечность), получающихся в результате операций типа деления на ноль. Также сюда попадают денормализованные числа, у которых мантисса меньше единицы.

В заключение по числам с плавающей запятой несколько слов о пресловутой «ошибке округления ». Т.к. в двоичной форме представления числа хранится только несколько значащих цифр, она не может «покрыть» все многообразие вещественных чисел в заданном диапазоне. В результате, если число невозможно точно представить в двоичной форме, оно представляется ближайшим возможным. Например, если к числу типа double «0.0» последовательно добавлять «1.7», то можно обнаружить следующую «картину» изменения значений.

0.0
1.7
3.4
5.1
6.8
8.5
10.2
11.899999999999999
13.599999999999998
15.299999999999997
16.999999999999996
18.699999999999996
20.399999999999995
22.099999999999994
23.799999999999994
25.499999999999993
27.199999999999992
28.89999999999999
30.59999999999999
32.29999999999999
33.99999999999999
35.699999999999996
37.4
39.1
40.800000000000004
42.50000000000001
44.20000000000001
45.90000000000001
47.600000000000016
…

Рис. 22.14. Результат последовательного добавления числа 1.7 (Java 7)

Другой нюанс обнаруживается при сложении двух чисел, у которых значительно отличается порядок. Например, результатом сложения 10 10 + 10 -10 будет 10 10 . Даже если последовательно триллион (10 12) раз добавлять 10 -10 к 10 10 , то результат останется прежним 10 10 . Если же к 10 10 добавить произведение 10 -10 * 10 12 , что с математической точки зрения одно и то же, результат станет 10000000100 (1.0000000100 * 10 10).

Генетический код - свойственная всем живым организмам кодированная аминокислотная последовательность белков. Кодирование выполняется при помощи нуклеотидов 3 , входящих в состав ДНК (дезоксирибонуклеиновой кислоты). ДКН - макромолекула, обеспечивающая хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов. Пожалуй, самый главный код в истории человечества.

В ДНК используется четыре азотистых основания - аденин (А), гуанин (G), цитозин (С), тимин (T), которые в русскоязычной литературе обозначаются буквами А, Г, Ц и Т. Эти буквы составляют алфавит генетического кода. В молекулах ДНК нуклеотиды выстраиваются в цепочки и, таким образом, получаются последовательности генетических букв.

Белки практически всех живых организмов построены из аминокислот всего 20 видов. Эти аминокислоты называют каноническими. Каждый белок представляет собой цепочку или несколько цепочек аминокислот, соединенных в строго определенной последовательности. Эта последовательность определяет строение белка, а, следовательно, все его биологические свойства. Синтез белков (т.е. реализация генетической информации в живых клетках) осуществляется на основе информации, заложенной в ДНК. Для кодирования каждой из 20 аминокислот, а также сигнала «стоп», означающего конец белковой последовательности, достаточно трех последовательных нуклеотидов (триплета).

Рис. 22.15. Фрагмент ДНК

2 IEEE (англ. Institute of Electrical and Electronics Engineers) - институт инженеров по электротехнике и электронике.

3 Содержит азотистое основание, соединенное с сахаром, и фосфорную кислоту.

22.3. Секретные кодовые системы

Секретные коды, как и шифры, предназначены для обеспечения конфиденциальности информации. Изначально секретные кодовые системы представляли собой систему, в основе которой лежало подобие жаргонного кода. Они возникли в целях сокрытия имен реальных людей, упоминавшихся в переписке. Это были небольшие списки, в которых в были записаны скрываемые имена, а напротив них - кодовые замены (подстановки). Официальные коды для сокрытия содержания донесений, которыми пользовались папские эмиссары и послы средиземноморских городов-государств, найденные в ранних архивах Ватикана, датируются XIV в. По мере возрастания потребности в безопасности переписки, у представителей городов-государств появились более обширные перечни, которые включали в себя не только кодовые замены имен людей, но и стран, городов, видов оружия, провианта и т.д. В целях повышения защищенности информации к перечням были добавлены шифралфавиты для кодирования слов, не вошедших в перечень, а также правила их использования, базирующиеся на различных стеганографических и криптографических методах. Такие сборники получили название «номенклаторы ». С XV и до середины XIX в. они были основной формой обеспечения конфиденциальности информации .

Вплоть до XVII столетия в номенклаторах слова открытого текста и их кодовые замены шли в алфавитном порядке, пока французский криптолог Антуан Россиньоль не предложил использовать более стойкие номенклаторы, состоящие из двух частей. В них существовало два раздела: в одном перечислялись в алфавитном порядке элементы открытого текста, а кодовые элементы были перемешаны. Во второй части в алфавитном порядке шли перечни кодов, а перемешанными были уже элементы открытого текста.

Изобретение телеграфа и азбуки Морзе, а также прокладка трансатлантического кабеля в середине XIX в. значительно расширило сферы применения секретных кодов. Помимо традиционных областей их использования (в дипломатической переписке и в военных целях) они стали широко использоваться в коммерции и на транспорте. Секретные кодовые системы того времени в своем названии содержали слово «код » («Код Госдепартамента (1867 г.)», «Американский код для окопов», «Речные коды: Потомак», «Черный код») или «шифр » («Шифр Госдепартамента (1876 г.)», «Зеленый шифр»). Следует отметить, что, несмотря на наличие в названии слова «шифр», в основу этих систем было положено кодирование.

Рис. 22.16. Фрагмент «Шифра Госдепартамента (1899 г.)»

Разработчики кодов, как и составители шифров, нередко добавляли дополнительные степени защиты, чтобы затруднить взлом своих кодов. Такой процесс называется перешифрованием . В итоге секретные кодовые системы сочетали в себе, как стеганографические, так и криптографические способы обеспечения конфиденциальности информации. Наиболее популярные из них приведены в следующей таблице.

Таблица 22.6. Способы обеспечения конфиденциальности информации в секретных кодовых системах

Способ	Тип	Примечания	Примеры (кодируемое слово – кодовое обозначение)
Замена слова (словосочетания) другим словом произвольной длины	стеганографический	Аналог - .	1. Номенклатор города Сиены (XV в.): Cardinales (кардинал) – Florenus; Antonello da Furli (Антолло да Фурли) – Forte. 2. Шифр Госдепартамента 1899 г.: Russia (Россия) – Promotes; Cabinet of Russia (Правительство России) – Promptings. 3. Код руководителя службы связи (1871 г.): 10:30 – Anna, Ida; 13th (тринадцатый) – Charles, Mason.
Замена слова (словосочетания) символьной строкой фиксированной длины	стеганографический	Аналог - .	1. Американский код для окопов (1918 г.): Patrol (патруль) – RAL; Attack (атака) – DIT. 2. Код Госдепартамента А-1 (1919 г.): Diplomat (дипломат) – BUJOH; Diplomatic corps (дипломатический корпус) – BEDAC.
Замена слова (словосочетания) числом	стеганографический	Аналог - . Для одного кодируемого слова могли использоваться несколько кодовых обозначений.	1. Номенклатор Бенджамина Толмаджа (1779 г.): Defense (оборона) – 143; Attack (атака) – 38. 2. Код вещания для торговых судов союзников во Второй мировой войне (BAMS): остров – 36979; порт – 985.
Замена слова (словосочетания) набором цифр фиксированной длины	стеганографический	Аналог - .	1. Американский код для окопов (1918 г.): Patrol (патруль) – 2307; Attack (атака) – 1447. 2. Американский служебный радиокод № 1 (1918 г.): Oil (масло) – 001; Bad (плохой) – 642.
Замена букв	криптографический	Аналоги – шифр , . В качестве кодового обозначения могли использоваться буквы, числа, графические обозначения. Применялась для слов, отсутствующих в списке кодируемых.	1. Номенклатор города Сиены (XV в.): q – ; s – . 2. Номенклатор Джеймса Мэдисона (1781 г.): o – 527; p – 941. 3. Американский код для окопов (1918 г.): a – 1332 .. 2795 или CEW .. ZYR. Содержал также 30 алфавитов шифрозамен для перешифрования кодовых обозначений.
Замена сочетания букв	криптографический	Аналог – . В качестве кодового обозначения могли использоваться буквы, числа, графические обозначения.	1. Номенклатор города Сиены (XV в.): bb – ; tt – . 2. Номенклатор X-Y-Z (1737 г.): ce – 493; ab – 1194.
Использование пустых знаков	стеганографический	Аналог – . Ничего назначавшие (лат. nihil importantes) символы использовались для запутывания криптоаналитиков.	1. Номенклатор города Сиены (XV в.): , . 2. Речные коды: Потомак (1918 г.): ASY.
Использование аддитивных чисел	криптографический	Аналог – . Аддитивное число, добавляемое к числовому кодовому обозначению, служило в качестве переменной части кода (ключа).	Шифр Госдепартамента 1876 г.: правило «Horse» (лошадь) в начале сообщения означало, что при кодировании последующих кодовых обозначений использовалось аддитивное число 203; «Hawk» (ястреб) - 100.
Перестановка букв (цифр) в кодовых обозначениях	криптографический	Аналог – .	Телеграфный код для обеспечения секретности при передаче телеграмм (1870 г.): одно из правил предписывало перестановку последних трех цифр в цифровом кодовом обозначении, состоящем из пяти цифр.
Перестановка кодовых обозначений	криптографический	Аналог – .	Шифр Госдепартамента 1876 г.: правило «Tiger» (тигр) в начале сообщения означало, что раскодированное сообщение надо читать с последнего слова по первое (задом-наперед); «Tapir» (тапир) – меняя местами каждую пару слов (т.е. первое и второе, третье и четвертое и т.д.).

Сочетание различных способов кодирования и перешифровки в кодовой системе было обычной практикой у разработчиков кодов и стало применяться практически с самого начала их появления. Так, еще в номенклаторе, использовавшемся в г. Сиена в XV в., помимо кодовых замен слов, применялись для замены букв, их и пустых знаков. Наибольшего расцвета эта практика получила в конце XIX – начале XX вв. В частности в «Шифре Госдепартамента 1876 г.» (англ. Red Book – Красная книга), состоящем из 1200 страниц, и его дополнении «Неподдающийся декодированию код: дополнение к шифру Госдепартамента» применялись:

Кодовые обозначения в виде слов и чисел;

Доброго времени суток уважаемый пользователь. В этой статье мы поговорим на такие темы, как: Кодирование информации , Кодирование текстовой информации , Кодирование информации в компьютере .

Кодирование информации в компьютере.

На сегодняшний день персональный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию . Вся информация в компьютере представлена в двоичном коде, то есть используется алфавит в два символа 0 и 1. Именно в двоичном коде легч всего представить информацию как электрический импульс, его отсутствие (0), а его присутствие (1).

Такой вид кодирования принято называть двоичным, а алфавит двоичного кодирования из нулей и единиц, несущий смысловую нагрузку на компьютер принято называть машинным языком.

Примечание

Каждая цифра двоичного кода, занимает место в памяти, равное 1 биту, соответственно две цифры 2 бита, три — 3 бита и т.д…

Кодирование текстовой информации.

На сегодняшний день большое колличество пользователей при помощи компьютера обрабатывает текстовую информацию , которая состоит из: букв, цифр, знаков препинания и других элементов.

Обычно для кодирования одного символа, используеться 1 байт памяти то есть 8 бит. По теории вероятностей с помощью простой формулы, которая связывает количество возможных событий (К) и количество информации (I), можно вычислить сколько не одинаковых символов можно закодировать : К = 2^I = 28 = 256 .

Примечание

Для кодирования текстовой информации обычно используют алфавит мощьностью в 256 символов…

Принцип данного кодирования заключается в том, что каждому символу (букве, знаку) соответствуе свой двоичный код от 00000000 до 11111111, так-же текстовая информация может быть представлена в десятичном коде от 0 до 255.

Нужно запомнить, что на сегодняшний день для кодирования букв российского алфавита используют пять разных кодировачных таблиц (КОИ — 8, СР1251, СР866, Мас, ISO), запомните, что тексты закодированные с помощью одной таблицы не будут корректно отображаться в другой кодировке. Это можно увидить в обьединенной таблице кодировки символов .

Для одного двоичного кода в разных таблицах соответствуют разные символы:

Двоичный код	Десятичный код	КОИ8	СР1251	СР866	Мас	ISO
11000010	194	б	В	—	—	Т

На сегодняшний день перекодированием текстовых документов заботится не пользователь, а программы, которые встроены в текстовые редакторы и текстовые процессоры. В начале 1997 года Microsoft Office начали поддерживать новую кодировку Unicode. В Unicode можно закодировать не 256 символов а, 65536, это было достигнуто тем, что под каждый символ начали отводить 2 байта. Сегодня больше всего популярны две таблицы это Windows (СР1251), и Unicode.

Решаем задачи.

Задача №1.
Допустим у нас есть два текста которые содержат одинаковое колличество символов. Один текст записан на русском языке его алфавит (32 символа), а второй допустим на украинском его алфавит (16 символов). Чей текст несет большее количество информации?

Решение

I = К * а (информационный объем текста равен произведению числа символов на информационный вес одного символа). Т.к. оба текста имеют одинаковое число символов (К), то разница зависит от информативности одного символа алфавита (а).
2^а1 = 32, т.е. а1 = 5 бит.
2^а2 = 16, т.е. а2 = 4 бит.
I1 = К * 5 бит, I2 = К * 4 бит.
Значит, текст, записанный на русском языке в 5/4 раза несет больше информации.

Задача №2.
Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Определить мощность алфавита.

Решение

I = 1/512 * 1024 * 1024 * 8 = 16384 бит. - перевели в биты информационный объем сообщения.
а = I / К = 16384 /1024 = 16 бит - приходится на один символ алфавита.
2^16 = 65536 символов - мощность использованного алфавита.
Именно такой алфавит используется в кодировке Unicode, который стал международным стандартом для представления символьной информации в компьютере.

Одна и та же информация может представляться в нескольких формах. Основные способы кодирования позволяют это сделать в современном мире. После появления компьютерных технологий появилась необходимость кодирования любого типа информации, с которыми работает человек. Но решать задачу такого типа начали еще задолго до появления компьютеров.

Навигатор по способам

1 способ. Двоичное кодирование.

Одним из самых популярных и распространенных методов представления информации считается именно двоичное кодирование. В работе с вычислительными машинами, роботами и станками с числовым программным управлением чаще всего кодируют информацию в форме слов двоичного алфавита.

Интересно: 10 способов очистить диск С

2 способ. Стенография.

Этот способ относят к методам кодирования текстовой информации при помощи специальных знаков. Этот способ самый быстрый при записи устной речи. Навыками стенографии владеют только некоторые специально обученные люди, которым и дали название стенографисты. Такие люди успевают записать текст синхронно с речью человека, который выступает.

3 способ. Синхронизация.

В процессе работы с цифровой информацией особенное значение получает синхронизация. В момент считывания либо записи информации немаловажным остается точное определение времени каждой смены знака. Если синхронизации нет, то период смены знака может определяться неправильно. В итоге этого неизбежной будет потеря или искажение данных.

4 способ. Run Length Limited - RLL.

На сегодняшний день одни из самых популярных методов является кодирование информации с ограничением длины поля записи. Благодаря этому способу на диске можно разместить в полтора раза больше данных, нежели в процессе записи по методу MFM. Используя этот метод происходит кодирование не отдельного бита, а целой группы.

Интересно: 10 способов защиты файлов от кражи

5 способ. Таблицы перекодировки.

Таблицей перекодировки считается та, которая содержит перечень кодируемых символов, упорядоченный специальным образом. Соответственно с этим и происходит преобразование символа в его двоичный код и обратно.

6 способ. Матричный способ.

Матричный принцип кодирования графических изображений состоит в том, что картинка разбивается на заданное количество столбцов и строк. После этого каждый элемент полученной сетки кодируется по выбранному правилу.

А теперь напиши комментарий!

Кодирование текстовой информации в компьютере - порой неотъемлемое условие корректной работы устройства или отображения того или иного фрагмента. Как происходит этот процесс в ходе работы компьютера с текстом и визуальной информацией, звуком - все это мы разберем в данной статье.

Вступление

Электронная вычислительная машина (которую мы в повседневной жизни называем компьютером) воспринимает текст весьма специфично. Для нее кодирование текстовой информации очень важно, поскольку она воспринимает каждый текстовый фрагмент в качестве группы обособленных друг от друга символов.

Какие бывают символы?

В роли символов для компьютера выступают не только русские, английские и другие буквы, но и еще знаки препинания, а также другие знаки. Даже пробел, которым мы разделяем слова при печатании на компьютере, устройство воспринимает как символ. Чем-то очень напоминает высшую математику, ведь там, по мнению многих профессоров, ноль имеет двойное значение: он и является числом, и одновременно ничего не обозначает. Даже для философов вопрос пробела в тексте может стать актуальной проблемой. Шутка, конечно, но, как говорится, в каждой шутке есть доля правды.

Какая бывает информация?

Итак, для восприятия информации компьютеру необходимо запустить процессы обработки. А какая вообще бывает информация? Темой этой статьи является кодирование текстовой информации. Мы уделим особенное внимание этой задаче, но разберемся и с другими микротемами.

Информация может быть текстовой, числовой, звуковой, графической. Компьютер должен запустить процессы, обеспечивающие кодирование текстовой информации, чтобы вывести на экран то, что мы, например, печатаем на клавиатуре. Мы будем видеть символы и буквы, это понятно. А что же видит машина? Она воспринимает абсолютно всю информацию - и речь сейчас идет не только о тексте - в качестве определенной последовательности нулей и единиц. Они составляют основу так называемого двоичного кода. Соответственно, процесс, который преобразует поступающую на устройство информацию в понятную ему, имеет название “двоичное кодирование текстовой информации”.

Краткий принцип действия двоичного кода

Почему наибольшее распространение в электронных машинах получило именно кодирование информации двоичным кодом? Текстовой основой, которая кодируется при помощи нулей и единиц, может быть абсолютно любая последовательность символов и знаков. Однако это не единственное преимущество, которое имеет двоичное текстовое кодирование информации. Все дело в том, что принцип, на котором устроен такой способ кодирования, очень прост, но в то же время достаточно функционален. Когда есть электрический импульс, его маркируют (условно, конечно) единицей. Нет импульса - маркируют нулем. То есть текстовое кодирование информации базируется на принципе построения последовательности электрических импульсов. Логическая последовательность, составленная из символов двоичного кода, называется машинным языком. В то же время кодирование и обработка текстовой информации при помощи двоичного кода позволяют осуществлять операции за достаточно краткий промежуток времени.

Биты и байты

Цифра, воспринимаемая машиной, кроет в себе некоторое количество информации. Оно равно одному биту. Это касается каждой единицы и каждого нуля, которые составляют ту или иную последовательность зашифрованной информации.

Соответственно, количество информации в любом случае можно определить, просто зная количество символов в последовательности двоичного кода. Они будут численно равны между собой. 2 цифры в коде несут в себе информацию объемом в 2 бита, 10 цифр - 10 бит и так далее. Принцип определения информационного объема, который кроется в том или ином фрагменте двоичного кода, достаточно прост, как вы видите.

Кодирование текстовой информации в компьютере

Вот сейчас вы читаете статью, которая состоит из последовательности, как мы считаем, букв алфавита русского языка. А компьютер, как говорилось ранее, воспринимает всю информацию (и в данном случае тоже) в качестве последовательности не букв, а нулей и единиц, обозначающих отсутствие и наличие электрического импульса.

Все дело в том, что закодировать один символ, который мы видим на экране, можно при помощи условной единицы измерения, называемой байтом. Как написано выше, у двоичного кода есть так называемая информационная нагрузка. Напомним, что численно она равняется суммарному количеству нулей и единиц в выбранном фрагменте кода. Так вот, 8 бит составляют 1 байт. Комбинации сигналов при этом могут быть самыми разными, как это легко можно заметить, нарисовав на бумаге прямоугольник, состоящий из 8 ячеек равного размера.

Выходит, что закодировать текстовую информацию можно при помощи алфавита, имеющего мощность 256 символов. В чем заключается суть? Смысл кроется в том, что каждый символ будет обладать своим двоичным кодом. Комбинации, “привязываемые” к определенным символам, начинаются от 00000000 и заканчиваются 11111111. Если переходить от двоичной к десятичной системе счисления, то кодировать информацию в такой системе можно от 0 до 255.

Не стоит забывать о том, что сейчас есть различные таблицы, которые используют кодировку букв русского алфавита. Это, например, ISO и КОИ-8, Mac и CP в двух вариациях: 1251 и 866. Легко убедиться в том, что текст, закодированный в одной из таких таблиц, не отобразится корректно в отличной от данной кодировке. Это происходит из-за того, что в разных таблицах к одному и тому же двоичному коду соответствуют различные символы.

Поначалу это было проблемой. Однако в настоящее время в программах уже встроены специальные алгоритмы, которые конвертируют текст, приводя его к корректному виду. 1997 год ознаменовался созданием кодировки под названием Unicode. В ней каждый символ имеет в своем распоряжении сразу 2 байта. Это позволяет закодировать текст, имеющий гораздо большее количество символов. 256 и 65536: есть ведь разница?

Кодирование графики

Кодирование текстовой и графической информации имеет некоторые схожие моменты. Как известно, для вывода графической информации используется периферийное устройство компьютера под названием “монитор”. Графика сейчас (речь идет сейчас именно о компьютерной графике) широко используется в самых разных сферах. Благо, аппаратные возможности персональных компьютеров позволяют решать достаточно сложные графические задачи.

Обрабатывать видеоинформацию стало возможным в последние годы. Но текст при этом значительно “легче” графики, что, в принципе, понятно. Из-за этого конечный размер файлов графики необходимо увеличивать. Преодолеть подобные проблемы можно, зная суть, в которой представляется графическая информация.

Давайте для начала разберемся, на какие группы подразделяется данный вид информации. Во-первых, это растровая. Во-вторых, векторная.

Растровые изображения достаточно схожи с клетчатой бумагой. Каждая клетка на такой бумаге закрашивается тем или иным цветом. Такой принцип чем-то напоминает мозаику. То есть получается, что в растровой графике изображение разбивается на отдельные элементарные части. Их именуют пикселями. В переводе на русский язык пиксели обозначают “точки”. Логично, что пиксели упорядочены относительно строк. Графическая сетка состоит как раз из определенного количества пикселей. Ее также называют растром. Принимая во внимание эти два определения, можно сказать, что растровое изображение является не чем иным, как набором пикселей, которые отображаются на сетке прямоугольного типа.

Растр монитора и размер пикселя влияют на качество изображения. Оно будет тем выше, чем больше растр у монитора. Размеры растра - это разрешение экрана, о котором наверняка слышал каждый пользователь. Одной из наиболее важных характеристик, которые имеют экраны компьютера, является разрешающая способность, а не только разрешение. Оно показывает, сколько пикселей приходится на ту или иную единицу длины. Обычно разрешающая способность монитора измеряется в пикселях на дюйм. Чем больше пикселей будет приходиться на единицу длины, тем выше будет качество, поскольку “зернистость” при этом снижается.

Обработка звукового потока

Кодирование текстовой и звуковой информации, как и другие виды кодирования, имеет некоторые особенности. Речь сейчас пойдет о последнем процессе: кодировании звуковой информации.

Представление звукового потока (как и отдельного звука) может быть произведено при помощи двух способов.

Аналоговая форма представления звуковой информации

При этом величина может принимать действительно огромное количество различных значений. Причем эти самые значения не остаются постоянными: они очень быстро изменяются, и этот процесс непрерывен.

Дискретная форма представления звуковой информации

Если же говорить о дискретном способе, то в этом случае величина может принимать только ограниченное количество значений. При этом изменение происходит скачкообразно. Закодировать дискретно можно не только звуковую, но и графическую информацию. Что касается и аналоговой формы, кстати.

Аналоговая звуковая информация хранится на виниловых пластинках, например. А вот компакт-диск уже является дискретным способом представления информации звукового характера.

В самом начале мы говорили о том, что компьютер воспринимает всю информацию на машинном языке. Для этого информация кодируется в форме последовательности электрических импульсов - нулей и единиц. Кодирование звуковой информации не является исключением из этого правила. Чтобы обработать на компьютере звук, его для начала нужно превратить в ту самую последовательность. Только после этого над потоком или единичным звуком могут совершаться операции.

Когда происходит процесс кодирования, поток подвергается временной дискретизации. Звуковая волна непрерывна, она развивается на малые участки времени. Значение амплитуды при этом устанавливается для каждого определенного интервала отдельно.

Заключение

Итак, что же мы выяснили в ходе данной статьи? Во-первых, абсолютно вся информация, которая выводится на монитор компьютера, прежде чем там появиться, подвергается кодированию. Во-вторых, это кодирование заключается в переводе информации на машинный язык. В-третьих, машинный язык представляет собой не что иное, как последовательность электрических импульсов - нулей и единиц. В-четвертых, для кодирования различных символов существуют отдельные таблицы. И, в-пятых, представить графическую и звуковую информацию можно в аналоговом и дискретном виде. Вот, пожалуй, основные моменты, которые мы разобрали. Одной из дисциплин, изучающей данную область, является информатика. Кодирование текстовой информации и его основы объясняются еще в школе, поскольку ничего сложного в этом нет.

Кодирование информации на компьютере. Что такое кодирование информации и ее обработка? Как кодируются в компьютере разные виды информации

Кодирование информации в компьютере.

Примечание

Кодирование текстовой информации.

Примечание

Решаем задачи.

Решение

Решение

3 способ. Синхронизация.

4 способ. Run Length Limited - RLL.

5 способ. Таблицы перекодировки.

6 способ. Матричный способ.

Вступление

Какие бывают символы?

Какая бывает информация?

Краткий принцип действия двоичного кода

Биты и байты

Кодирование текстовой информации в компьютере

Кодирование графики

Обработка звукового потока

Аналоговая форма представления звуковой информации

Дискретная форма представления звуковой информации

Заключение

Лучшие программы для мониторинга температуры процессора и видеокарты

Два антивируса на компьютере, почему это плохая затея

Как подключить новую мышь?

Как эффективно освободить память на Андроид-устройстве: пошаговая инструкция

PDF Creator — программа для создания файлов PDF Pdf creator скачать русском языке

Кодирование информации на компьютере. Что такое кодирование информации и ее обработка? Как кодируются в компьютере разные виды информации

Кодирование информации в компьютере.

Примечание

Кодирование текстовой информации.

Примечание

Решаем задачи.

Решение

Решение

3 способ. Синхронизация.

4 способ. Run Length Limited - RLL.

5 способ. Таблицы перекодировки.

6 способ. Матричный способ.

Вступление

Какие бывают символы?

Какая бывает информация?

Краткий принцип действия двоичного кода

Биты и байты

Кодирование текстовой информации в компьютере

Кодирование графики

Обработка звукового потока

Аналоговая форма представления звуковой информации

Дискретная форма представления звуковой информации

Заключение

Похожие статьи