|
Вопрос
«как измерить информацию?» очень непростой.
Понятие "информация" является
контекстным, а значит и способы её измерения могут быть различны
.
Информация - мера уменьшения неопределенности знаний.
Если рассматривать информацию как знания, то сообщение несёт
информацию только в том случае, когда пополняет знания.
Такой подход позволяет рассматривать информацию как меру
уменьшения неопределенности знаний. Количество информации в
одном и том же сообщении для разных получателей может быть
различно, так как для одного из них информация может быть новой,
а для другого - уже известной. Таким образом, количество
информации в сообщении будет зависеть от степени
неопределенности знаний получателя.
Вероятностный подход к измерению информации.
Существует и другой подход – алфавитный. Он позволяет
определять количество информации в сообщении независимо от
человеческого восприятия. В этом случае не рассматриваются
социально значимые свойства
информации, содержащейся в сообщении, а только общее
количество символов и мощность алфавита с помощью которого оно
записано. Такой подход тесно связан с теорией вероятностей.
Пример 1.
Предположим, что мы подбрасываем монету. Есть два
равновероятных исхода – выпадет орел или решка. Узнав
результат бросания монеты, Вы получаете 1 бит информации.
Сообщение о том, что произошло одно из двух равновероятных
событий, содержит один бит информации (говорят, также, что 1 бит
информации уменьшает неопределенность знаний в два раза).
Можно обозначить (закодировать) возможные варианты:
Равновероятные события |
Их обозначение (код) |
Решка |
0 |
Орёл |
1 |
Преобразование информации из одной формы представления в
другую называют кодированием. Для кодирования используют
определенную систему знаков – алфавит. Количество знаков
в алфавите может быть различным. Самый короткий алфавит состоит
из двух знаков. Если для кодирования информации используется
только два знака - 0 и 1, то кодирование называют
двоичным. Таблица, представленная выше, называется таблицей
двоичной кодировки, а один бит информации, таким образом,
представляет собой один двоичный знак.
Заметим теперь, что записать результаты многократного бросания
монет можно по-разному:
-
Орёл, решка, решка, орёл, решка, орёл, орёл ......
-
1, 0, 0, 1, 0, 1, 1, ........
Пример 2. На уроке
информатики проводится тестовая работа, состоящая из трёх
заданий. Составим таблицу двоичной кодировки возможных
результатов выполнения работы одним из учеников:
События |
Двоичные коды |
выполнено 0 заданий |
00 |
выполнено 1 задание |
01 |
выполнено 2 задания |
10 |
выполнено 3 задания |
11 |
Коды должны быть различны, поэтому сообщение о том, что
произошло одно из четырех равновероятных событий, содержит уже
два бита. Заметим, что мы использовали полный набор кодов,
которые можно составить из 2 бит.
Пример 3.
Если увеличить количество заданий до семи, то таблица
примет вид:
События |
Двоичные коды |
выполнено 0 заданий |
000 |
выполнено 1 задание |
001 |
выполнено 2 задания |
010 |
выполнено 3 задания |
011 |
выполнено 4 задания |
100 |
выполнено 5 заданий |
101 |
выполнено 6 заданий |
110 |
выполнено 7 заданий |
111 |
С увеличением количества событий в два раза увеличивается на
1 бит длина кода:
Количество событий (N) |
Длина кода (i) |
N
=
2 |
i =
1 |
N
=
4 |
i =
2 |
N
=
8 |
i =
3 |
Нетрудно заметить, что величины
N и
i связаны формулой
2i =
N,
если N
выбирать из ряда 2,4,8,16,32,64…….. Для других значений
N формула
выглядит так: 2i ≥ N.
По ней мы можем рассчитать длину двоичного кода для любого
количества событий. Неравенство можно решить подбором
наименьшего значения i
из ряда натуральных чисел.
Для записи текстовой (знаковой) информации всегда
используется какой-либо язык (естественный или формальный).
Всё множество используемых в языке символов называется
алфавитом. Полное число символов алфавита называют
его мощностью. При записи текста в каждой очередной
позиции может появиться любой из
N символов алфавита, т.е.
может произойти N
событий. Следовательно, каждый символ алфавита содержит
i бит
информации, где i
определяется из неравенства: 2i ≥
N.
Тогда общее количество информации в тексте определяется
формулой:
V
= k *
i
, где V
– количество информации в тексте;
k – число знаков в тексте
(включая знаки препинания и даже пробелы),
i
- количество бит, выделенных на кодирование
одного знака.
Так как каждый бит – это 0 или 1, то любой текст может
быть представлен последовательностью нулей и единиц. Именно
так текстовая информация хранится в памяти компьютера.
Присвоение символу алфавита конкретного двоичного кода - это
вопрос соглашения,
зафиксированного в кодовой таблице. В настоящее время
широкое распространение получили кодовые таблицы
ASCII и
Unicode.
ASCII (American Standart Code for
Informational Interchange - Американский стандартный
код информационного обмена) используется достаточно давно.
Для хранения кода одного символа выделено 8 бит,
следовательно, кодовая таблица поддерживает до 28
= 256 символов. Первая половина таблицы (128
символов) - управляющие символы, цифры и буквы латинского
алфавита. Вторая половина отводится под символы национальных
алфавитов. К сожалению, в настоящее время существует целых
пять вариантов кодовых таблиц для русских букв, поэтому
тексты созданные в одной кодировке неверно отображаются в
другой. (Наверное, Вы встречали русскоязычные сайты, тексты
которых выглядят как бессмысленный набор знаков? Приходилось
менять кодировку?).
Unicode - получил
распространение в последние годы. Для хранения кода одного
символа выделено 16 бит, следовательно, кодовая таблица
поддерживает до 216 = 65536 символов.
Такого пространства достаточно, чтобы в одном стандарте
объединить все "живые" официальные (государственные)
письменности. Кстати, стандарт ASCII
вошел в состав Unicode.
Растровая графика.
Количество информации в изображении тоже можно измерить. Для
этого изображение разбивают на отдельные маленькие фрагменты
(пиксели), затем каждому пикселю присваивается код цвета
(считаем, что весь пиксель целиком одноцветный, а
изображение в целом – мозаика мелких цветных точек). Этот
процесс называют пространственной дискретизацией
изображения.
Качество такого изображения зависит от двух параметров.
Качество выше при меньшем размере пикселя и большем
количестве используемых цветов (или оттенков серого, для
монохромного изображения). Полный набор цветов, которые
можно использовать для создания изображения
палитрой. Изображение, сформированное таким способом,
называют растровым. Формула для определения
количества информации в нём имеет вид:
V
= k *
i
, где
V – количество информации в
изображении; k
– количество пикселей, а
i –
глубина цвета (т.е. количество бит, выделенных на
кодирование цвета), определяемая по формуле:
2i ≥
N,
где N
– количество цветов в палитре. Так как каждый бит – это 0
или 1, то изображение может быть представлено
последовательностью нулей и единиц. Количество пикселей
на экране дисплея (растр) указывают соотношением количества
пикселей в строке по горизонтали к их количеству в столбце
по вертикали (800*600, 1024*768 и т.д.). Максимально
возможное количество пикселей на экране называют
разрешающей способностью дисплея. Качество растровых
изображений может быть очень высоким, но размер файла также
весьма велик (изучите свойства нескольких Точечных рисунков
*.BMP, созданных с помощью
Paint). При уменьшении размера
изображения (например, с целью экономии места на диске)
качество безвозвратно ухудшается. Для уменьшения размера
файлов часто используют другие форматы файлов
такие как *.JPG,*.GIF
и др.
Векторная графика.
Отметим
также, что рассмотренный выше способ представления
изображений не единственный. Можно представить изображение
совокупностью простых геометрических фигур (прямых линий,
окружностей, эллипсов, дуг, прямоугольников и т.д.) –
графических примитивов и записать информацию о
координатах и параметрах каждого их них. При этом
координатная сетка должна совпадать с сеткой пикселей на
экране. Такой способ представления изображений называют
векторной графикой.
Видеоинформация.
Если рассматривать видеоинформацию как
последовательность изображений, появляющихся на экране с
определенной частотой (частотой кадров), то можно понять,
что видео может быть закодировано подобно тому как
кодируются растровые изображения (с той разницей, что этих
изображений много). Такой способ используется в
формате (см.
тему Файловая система) *.AVI
(несжатое видео) - высокое качество и огромные
размеры файлов. Существуют способы сжатия видеоинформации
путем преобразования файла в другие форматы.
Из курса физики Вам должно быть известно, что звук представляет
собой волну с непрерывно меняющейся амплитудой и частотой:
Чтобы компьютер мог работать со звуком, непрерывный звуковой
сигнал должен быть представлен в двоичной форме, для этого
выполняют временную дискретизацию звука:
Весь интервал изменения амплитуды разбивают на уровни громкости,
а всё время звучания на одинаковые временные интервалы.
Количество возможных уровней громкости можно рассматривать, как
набор вероятных состояний в каждый временной интервал. Тогда,
определить количество информации в звуке можно по формуле:
V
= k *
i , где
V – количество информации в
звуке;
k – количество временных
интервалов, а
i
– глубина звука (т.е. количество бит, выделенных на
кодирование уровня громкости на одном интервале), определяемая по формуле: 2i ≥
N,
где N –
количество уровней громкости. Так как каждый бит – это 0 или 1,
то любой звук может быть представлен последовательностью
нулей и единиц. Качество звука тем выше, чем больше
глубина звука и частота дискретизации (т.е. количество
«ступеней» в секунду). Исходная формула может быть преобразована
следующим образом:
V
= t * ν *
I
, где V
– количество информации в звуке;
t – время звучания,
ν – частота дискретизации, а
i
– глубина звука.
При работе с компьютером используется алфавит мощностью 256
символов. В него входят русские и латинские буквы, цифры, знаки
препинания, специальные символы. Для кодирования одного символа
такого алфавита потребуется 8 бит (2 8 = 256). Этой
величине присвоили своё название – байт. Бит и
байт – «мелкие» единицы измерения количества информации. Для
измерения больших объемов используют производные от байта
единицы. При этом знакомая приставка кило- обозначает не
точно 103, а 210,
т.е. 1024. То же правило действует и на другие приставки
(мега-, гига- и т.д.).
Таблица единиц измерения количества информации. Передача
информации.
Единица измерения |
Обозначение |
Связь с другими единицами измерения
количества информации |
1 бит |
бит |
Минимальное количество информации |
1 Байт |
байт |
8 бит |
1 Килобайт |
Кб |
210 байт = 1024
Байт |
1 Мегабайт |
Мб |
210 Килобайт = 1024 КБ |
1 Гигабайт |
Гб |
210 Мегабайт = 1024 МБ |
Кроме хранения информации в двоичных кодах, ведется постоянный
обмен данными между устройствами компьютера, компьютером и
пользователем, компьютерами в сети. Процесс передачи информации
подразумевает наличие трех составляющих: приемника,
передатчика и канала связи. Основная характеристика
канала связи - пропускная способность, т.е. максимальное
количество информации которое можно передать по нему в единицу
времени.
Количество информации, передаваемое за единицу времени,
называют скоростью передачи информации (или скоростью
информационного потока). Существуют две параллельные шкалы
измерения скорости передачи информации: байт/с,
килобайт/с, мегабайт/с или бит/с, килобит/с,
мегабит/с, что часто создает путаницу. Кроме того,
величина в 1 бит/с имеет другое название - бод, а это
значит, что Вы можете встретиться с обозначениями килобод,
мегабод и т.д.
В начало темы
|
|