|
Вопрос
«как измерить информацию?» очень непростой.
Понятие "информация" является
контекстным, а значит и способы её измерения могут быть различны
.
Информация - мера уменьшения неопределенности знаний.
Если рассматривать информацию как знания, то сообщение несёт
информацию только в том случае, когда пополняет знания.
Такой подход позволяет рассматривать информацию как меру
уменьшения неопределенности знаний. Количество информации в
одном и том же сообщении для разных получателей может быть
различно, так как для одного из них информация может быть новой,
а для другого - уже известной. Таким образом, количество
информации в сообщении будет зависеть от степени
неопределенности знаний получателя.
Вероятностный подход к измерению информации.
Существует и другой подход – алфавитный. Он позволяет
определять количество информации в сообщении независимо от
человеческого восприятия. В этом случае не рассматриваются
социально значимые свойства
информации, содержащейся в сообщении, а только общее
количество символов и мощность алфавита с помощью которого оно
записано. Такой подход тесно связан с теорией вероятностей.
Пример 1.
Предположим, что мы подбрасываем монету. Есть два
равновероятных исхода – выпадет орел или решка. Узнав
результат бросания монеты, Вы получаете 1 бит информации.
Сообщение о том, что произошло одно из двух равновероятных
событий, содержит один бит информации (говорят, также, что 1 бит
информации уменьшает неопределенность знаний в два раза).
Можно обозначить (закодировать) возможные варианты:
Равновероятные события |
Их обозначение (код) |
Решка |
0 |
Орёл |
1 |
Преобразование информации из одной формы представления в
другую называют кодированием. Для кодирования используют
определенную систему знаков – алфавит. Количество знаков
в алфавите может быть различным. Самый короткий алфавит состоит
из двух знаков. Если для кодирования информации используется
только два знака - 0 и 1, то кодирование называют
двоичным. Таблица, представленная выше, называется таблицей
двоичной кодировки, а один бит информации, таким образом,
представляет собой один двоичный знак.
Заметим теперь, что записать результаты многократного бросания
монет можно по-разному:
-
Орёл, решка, решка, орёл, решка, орёл, орёл ......
-
1, 0, 0, 1, 0, 1, 1, ........
Пример 2. На уроке
информатики проводится тестовая работа, состоящая из трёх
заданий. Составим таблицу двоичной кодировки возможных
результатов выполнения работы одним из учеников:
События |
Двоичные коды |
выполнено 0 заданий |
00 |
выполнено 1 задание |
01 |
выполнено 2 задания |
10 |
выполнено 3 задания |
11 |
Коды должны быть различны, поэтому сообщение о том, что
произошло одно из четырех равновероятных событий, содержит уже
два бита. Заметим, что мы использовали полный набор кодов,
которые можно составить из 2 бит.
Пример 3.
Если увеличить количество заданий до семи, то таблица
примет вид:
События |
Двоичные коды |
выполнено 0 заданий |
000 |
выполнено 1 задание |
001 |
выполнено 2 задания |
010 |
выполнено 3 задания |
011 |
выполнено 4 задания |
100 |
выполнено 5 заданий |
101 |
выполнено 6 заданий |
110 |
выполнено 7 заданий |
111 |
С увеличением количества событий в два раза увеличивается на
1 бит длина кода:
Количество событий (N) |
Длина кода (i) |
N
=
2 |
i =
1 |
N
=
4 |
i =
2 |
N
=
8 |
i =
3 |
Нетрудно заметить, что величины
N и
i связаны формулой
2i =
N,
если N
выбирать из ряда 2,4,8,16,32,64…….. Для других значений
N формула
выглядит так: 2i ≥ N.
По ней мы можем рассчитать длину двоичного кода для любого
количества событий. Неравенство можно решить подбором
наименьшего значения i
из ряда натуральных чисел.
Для записи текстовой (знаковой) информации всегда
используется какой-либо язык (естественный или формальный).
Всё множество используемых в языке символов называется
алфавитом. Полное число символов алфавита называют
его мощностью. При записи текста в каждой очередной
позиции может появиться любой из
N символов алфавита, т.е.
может произойти N
событий. Следовательно, каждый символ алфавита содержит
i бит
информации, где i
определяется из неравенства: 2i ≥
N.
Тогда общее количество информации в тексте определяется
формулой:
V
= k *
i
, где V
– количество информации в тексте;
k – число знаков в тексте
(включая знаки препинания и даже пробелы),
i
- количество бит, выделенных на кодирование
одного знака.
Так как каждый бит – это 0 или 1, то любой текст может
быть представлен последовательностью нулей и единиц. Именно
так текстовая информация хранится в памяти компьютера.
Присвоение символу алфавита конкретного двоичного кода - это
вопрос соглашения,
зафиксированного в кодовой таблице. В настоящее время
широкое распространение получили кодовые таблицы
ASCII и
Unicode.
ASCII (American Standart Code for
Informational Interchange - Американский стандартный
код информационного обмена) используется достаточно давно.
Для хранения кода одного символа выделено 8 бит,
следовательно, кодовая таблица поддерживает до 28
= 256 символов. Первая половина таблицы (128
символов) - управляющие символы, цифры и буквы латинского
алфавита. Вторая половина отводится под символы национальных
алфавитов. К сожалению, в настоящее время существует целых
пять вариантов кодовых таблиц для русских букв, поэтому
тексты созданные в одной кодировке неверно отображаются в
другой. (Наверное, Вы встречали русскоязычные сайты, тексты
которых выглядят как бессмысленный набор знаков? Приходилось
менять кодировку?).
Unicode - получил
распространение в последние годы. Для хранения кода одного
символа выделено 16 бит, следовательно, кодовая таблица
поддерживает до 216 = 65536 символов.
Такого пространства достаточно, чтобы в одном стандарте
объединить все "живые" официальные (государственные)
письменности. Кстати, стандарт ASCII
вошел в состав Unicode.
Растровая графика.
Количество информации в изображении тоже можно измерить. Для
этого изображение разбивают на отдельные маленькие фрагменты
(пиксели), затем каждому пикселю присваивается код цвета
(считаем, что весь пиксель целиком одноцветный, а
изображение в целом – мозаика мелких цветных точек). Этот
процесс называют пространственной дискретизацией
изображения.
Качество такого изображения зависит от двух параметров.
Качество выше при меньшем размере пикселя и большем
количестве используемых цветов (или оттенков серого, для
монохромного изображения). Полный набор цветов, которые
можно использовать для создания изображения называется
палитрой. Изображение, сформированное таким способом,
называют растровым. Формула для определения
количества информации в нём имеет вид:
V
= k *
i
, где
V – количество информации в
изображении; k
– количество пикселей, а
i –
глубина цвета (т.е. количество бит, выделенных на
кодирование цвета), определяемая по формуле:
2i ≥
N,
где N
– количество цветов в палитре. Цвет пикселя формируется как
комбинация трех основных цветов ( обычно красного
- Red,
зеленого -
Green и синего -
Blue). Ниже приведена таблица
кодирования шестнадцатицветной (глубина цвета - 4 бита)
палитры:
Номер |
Цвет |
Яркость |
Красный |
Зеленый |
Синий |
0 |
Черный |
0 |
0 |
0 |
0 |
1 |
Синий |
0 |
0 |
0 |
1 |
2 |
Зеленый |
0 |
0 |
1 |
0 |
3 |
Голубой |
0 |
0 |
1 |
1 |
4 |
Красный |
0 |
1 |
0 |
0 |
5 |
Фиолетовый |
0 |
1 |
0 |
1 |
6 |
Коричневый |
0 |
1 |
1 |
0 |
7 |
Белый |
0 |
1 |
1 |
1 |
8 |
Серый |
1 |
0 |
0 |
0 |
9 |
Светло-синий |
1 |
0 |
0 |
1 |
10 |
Светло-зеленый |
1 |
0 |
1 |
0 |
11 |
Светло-голубой |
1 |
0 |
1 |
1 |
12 |
Светло-красный |
1 |
1 |
0 |
0 |
13 |
Светло-фиолетовый |
1 |
1 |
0 |
1 |
14 |
Желтый |
1 |
1 |
1 |
0 |
15 |
Ярко-белый |
1 |
1 |
1 |
1 |
Такая
палитра используется например при создании
программ на
Qbasic.
Она не дает возможности получить качественную графику,
поэтому сейчас используют палитры с глубиной цвета 16 или 32
бита (см. настройки параметров экрана). В последнем случае,
на каждую составляющую (R,
G, B) и яркость отводится
по восемь бит (что составляет диапазон десятичных значений
от 0 до 255), а общее количество цветов в палитре 224,
что соответствует примерно 16-ти миллионам. Если учесть еще
и градации яркости, то получим 232. Такое
количество цветов намного превышает возможности восприятия
цветовой гаммы глазом человека. 32 битная глубина цвета
способна обеспечить самое высокое качество графики. Выше
отмечалось, что качество растровой графики зависит также от
размера пикселя. Количество пикселей
на экране дисплея (растр) указывают соотношением количества
пикселей в строке по горизонтали к их количеству в столбце
по вертикали (800*600, 1024*768 и т.д.). Максимально
возможное количество пикселей на экране называют
разрешающей способностью дисплея. Качество растровых
изображений может быть очень высоким, но размер файла также
весьма велик (изучите свойства нескольких Точечных рисунков
*.BMP, созданных с помощью
Paint). При уменьшении размера
изображения и последующим сохранением рисунка (например, с целью экономии места на диске)
качество безвозвратно ухудшается. Для уменьшения размера
файлов часто используют другие форматы файлов
такие как *.JPG,*.GIF
и др.
Независящий от аппаратного обеспечения формат
GIF
был разработан в 1987 году (GIF87a) для передачи растровых
изображений по сетям. В 1989-м формат был модифицирован
(GIF89a), были добавлены поддержка прозрачности и анимации.
GIF
использует LZW-компрессию, что позволяет неплохо сжимать
файлы, в которых много однородных заливок (логотипы,
надписи, схемы).
Метод сжатия LZW
(Lempel-Ziv-Welch) разработан в 1978 году израильтянами
Лемпелом и Зивом и доработан позднее в США. Сжимает данные
путем поиска одинаковых последовательностей (они называются
фразы) во всем файле. Выявленные последовательности
сохраняются в таблице, им присваиваются более короткие
маркеры (ключи). Так, если в изображении имеются наборы из
розового, оранжевого и зеленого пикселов, повторяющиеся 50
раз, LZW выявляет это, присваивает данному набору отдельное
число (например, 7) и затем сохраняет эти данные 50 раз в
виде числа 7. Метод LZW хорошо действует на участках
однородных цветов. В GIF’e можно назначить один или более
цветов прозрачными, они станут невидимыми в интернетовских
браузерах и некоторых других программах. Кроме того файл
GIF может содержать не одну, а несколько растровых
картинок, которые браузеры могут подгружать одну за другой с
указанной в файле частотой. Так достигается иллюзия движения
(GIF-анимация). Основное ограничение формата GIF
состоит в том, что цветное изображение может быть записано
только в режиме 256 цветов.
JPEG’ом называется формат, алгоритм сжатия
которого, основан не на поиске одинаковых элементов, как в
LZW,
а на разнице между пикселами. Кодирование данных происходит
в несколько этапов. Сначала графические данные
конвертируются в цветовое пространство,
затем отбрасывается половина или
три четверти информации о цвете (в зависимости от реализации
алгоритма). Далее анализируются блоки 8х8 пикселов. Для
каждого блока формируется набор чисел. Первые несколько
чисел представляют цвет блока в целом, в то время, как
последующие числа отражают тонкие делали. На следующем
этапе, в зависимости от выбранного вами уровня качества,
отбрасывается определенная часть чисел, представляющих
мелкие детали. На последнем этапе используется кодирование
для более эффективного сжатия
конечных данных. Восстановление данных происходит в обратном
порядке
Векторная графика.
Отметим
также, что рассмотренный выше способ представления
изображений не единственный. Можно представить изображение
совокупностью простых геометрических фигур (прямых линий,
окружностей, эллипсов, дуг, прямоугольников и т.д.) –
графических примитивов и записать информацию о
координатах и параметрах каждого их них. При этом
координатная сетка должна совпадать с сеткой пикселей на
экране. Такой способ представления изображений называют
векторной графикой. На рисунке показаны примеры
графических примитивов:
Такой способ представления изображения дает возможность
получить файл малого размера.
Качество изображения не изменяется с изменением размера
рисунка, но даже профессиональные
векторные графические редакторы не могут обеспечить
качество графики, сравнимое с растровыми изображениями.
Видеоинформация.
Если рассматривать видеоинформацию как
последовательность изображений, появляющихся на экране с
определенной частотой (частотой кадров), то можно понять,
что видео может быть закодировано подобно тому, как
кодируются растровые изображения (с той разницей, что этих
изображений много). Такой способ используется в
формате (см.
тему Файловая система) *.AVI
(несжатое видео) - высокое качество и огромные
размеры файлов. Существуют способы сжатия видеоинформации
путем преобразования файла в другие форматы.
Из курса физики Вам должно быть известно, что звук представляет
собой волну с непрерывно меняющейся амплитудой и частотой. Чем
больше амплитуда, тем звук громче. Чем выше частота колебаний,
тем выше тон (частота колебаний измеряется в герцах (штук в
секунду). Человеческое ухо способно улавливать колебания от 20
Гц до 20 кГц. На рисунке ниже в виде зависимости амплитуды от
времени показан фрагмент звуковой волны:
Чтобы компьютер мог работать со звуком, непрерывный звуковой
сигнал должен быть представлен в двоичной форме, для этого
выполняют временную дискретизацию звука:
Весь интервал изменения амплитуды разбивают на уровни громкости,
а всё время звучания на одинаковые временные интервалы.
Количество возможных уровней громкости можно рассматривать, как
набор вероятных состояний в каждый временной интервал. Тогда,
определить количество информации в звуке можно по формуле:
V
= k *
i , где
V – количество информации в
звуке;
k – количество временных
интервалов, а
i
– глубина звука (т.е. количество бит - 16, 32 или 64, выделенных на
кодирование уровня громкости на одном интервале), определяемая по формуле: 2i ≥
N,
где N –
количество уровней громкости. Таким образом, любой звук может быть представлен последовательностью
нулей и единиц. т.е. двоичным кодом. Качество звука тем выше, чем больше
глубина звука и частота дискретизации (т.е. количество
«ступеней» в секунду). Исходная формула может быть преобразована
следующим образом:
V
= t * ν *
I
, где V
– количество информации в звуке;
t – время звучания,
ν – частота дискретизации, а
i
– глубина звука.
Преобразование звука в двоичный код выполняет специальное
устройство - аналого-цифровой преобразователь. Частота
дискретизации варьируется от 8 кГц до 48 кГц (нижний предел
соответствует качеству радиотрансляции, верхний - качеству
звучания музыкальных носителей). В виде двоичного кода
записанный звук хранится в памяти компьютера. Для
воспроизведения звука потребуется его обратное преобразование из
двоичного кода в звуковую волну с помощью цифро-аналогового
преобразователя.
В настоящее время существует несколько
форматов звуковых файлов. Так
формат *.WAV использует способ
кодирования, описанный выше. Другие форматы могут основываться
на использовании библиотек, содержащих образцы звуков, что
обеспечивает более высокое качество звучания. Широкое
распространение в последнее время получил формат *.MP3,
обеспечивающий высокое качество при сравнительно небольших
размерах файла.
При работе с компьютером долгое время использовался алфавит мощностью 256
символов. Для кодирования одного символа
такого алфавита потребуется 8 бит (2 8 = 256). Этой
величине присвоили своё название – байт.
Бит и
байт – «мелкие» единицы измерения количества информации. Для
измерения больших объемов используют производные от байта
единицы. При этом знакомая приставка кило- обозначает не
точно 103, а 210,
т.е. 1024. То же правило действует и на другие приставки
(мега-, гига- и т.д.).
Единицы измерения количества информации
Единица измерения |
Обозначение |
Связь с другими единицами измерения
количества информации |
1 бит |
бит |
Минимальное количество информации |
1 Байт |
байт |
8 бит |
1 Килобайт |
Кб |
210 байт = 1024
Байт |
1 Мегабайт |
Мб |
210 Килобайт = 1024 КБ |
1 Гигабайт |
Гб |
210 Мегабайт = 1024 МБ |
Передача информации
Кроме хранения информации в двоичных кодах, ведется постоянный
обмен данными между устройствами компьютера, компьютером и
пользователем, компьютерами в сети. Процесс передачи информации
подразумевает наличие трех составляющих: приемника,
передатчика и канала связи. Основная характеристика
канала связи - пропускная способность, т.е. максимальное
количество информации которое можно передать по нему в единицу
времени.
Количество информации, передаваемое за единицу времени,
называют скоростью передачи информации (или скоростью
информационного потока). Существуют две параллельные шкалы
измерения скорости передачи информации: байт/с,
килобайт/с, мегабайт/с или бит/с, килобит/с,
мегабит/с, что часто создает путаницу. Кроме того,
величина в 1 бит/с имеет другое название - бод, а это
значит, что Вы можете встретиться с обозначениями килобод,
мегабод и т.д.
В начало темы
|
|