Формула расчета количества информации

  • Найти и оформить в виде сносок ссылки на независимые авторитетные источники, подтверждающие написанное.
  • Исправить статью согласно стилистическим правилам Википедии.

Пожалуйста, после исправления проблемы исключите её из списка параметров. После устранения всех недостатков этот шаблон может быть удалён любым участником.

Формула Хартли или хартлиевское количество информации или мера Хартли — логарифмическая мера информации, которая определяет количество информации, содержащееся в сообщении.

I = K log 2 ⁡ N <displaystyle I=Klog _<2>N>

Где N — количество символов в используемом алфавите (мощность алфавита), K — длина сообщения (количество символов в сообщении), I — количество информации в сообщении в битах.

Формула была предложена Ральфом Хартли в 1928 году как один из научных подходов к оценке сообщений.

Для случая определения количества информации i в одном символе алфавита мощности N, формула Хартли принимает вид:

i = log 2 ⁡ N <displaystyle i=log _<2>N>

Соответственно, мощность алфавита равна:

N = 2 i <displaystyle N=2^>

Из формулы Хартли следует, что алфавит, содержащий только 1 символ не может быть использован для передачи информации:

log 2 ⁡ 1 = 0 <displaystyle log _<2>1=0>

Пусть, имеется алфавит А, из N букв которого составляется сообщение:

| A | = N . <displaystyle |A|=N.>

Количество возможных вариантов разных сообщений:

M = N K , <displaystyle M=N^,>

где M — возможное количество различных сообщений, N — количество букв в алфавите, K — количество букв в сообщении.

Пример: цепь ДНК состоит из 4 видов азотистых оснований: Аденин (A), Гуанин (G), Тимин (T), Цитозин (C). Следовательно, мощность (N) «алфавита ДНК» равна 4. Значит, каждое азотистое основание несет i = log 2 ⁡ 4 = 2 <displaystyle i=log _<2>4=2> бита информации.

Пример: Пусть алфавит состоит из 16 символов «1», «2», «3», «4», «5», «6», «7», «8», «9», «0», «+», «-», « », «*», «#», «✆» (символы для набора номеров и команд мобильных телефонов), а длина сообщения составляет 10 символов (например, команда «*123*1*3#✆») — таким образом, мощность алфавита N = 16, а длина сообщения K = 10. При выбранных нами алфавите и длине сообщения можно составить M = N K = 16 10 = 1099511627776 <displaystyle M=N^=16^<10>=1099511627776> сообщений. В этом случае, по формуле Хартли можно определить, что количество информации в каждом символе этого сообщения равно i = log 2 ⁡ N = log 2 ⁡ 16 = 4 <displaystyle i=log _<2>N=log _<2>16=4> бита, а количество информации во всем сообщении, соответственно, равно I = K log 2 ⁡ N = 10 log 2 ⁡ 16 = 10 ∗ 4 = 40 <displaystyle I=Klog _<2>N=10log _<2>16=10*4=40> бит или 5 байт.

При равновероятности символов p = 1 m , m = 1 p <displaystyle p=<frac <1>>,m=<frac <1>

>> формула Хартли переходит в собственную информацию.

Иллюстрация [ править | править код ]

Допустим, нам требуется что-либо найти или определить в той или иной системе. Есть такой способ поиска, как «деление пополам». Например, кто-то загадывает число от 1 до 100, а другой должен отгадать его, получая лишь ответы «да» или «нет». Задаётся вопрос: «число меньше N?». Любой из ответов «да» и «нет» сократит область поиска вдвое. Далее по той же схеме диапазон снова делится пополам. В конечном счёте загаданное число будет найдено.

Сколько вопросов надо задать, чтобы найти задуманное число от 1 до 100. Допустим, загаданное число 27. Вариант диалога:

Если число не 28 и не меньше 27, то это явно 27. Чтобы угадать методом «деления пополам» число от 1 до 100, нам потребовалось 7 вопросов.

Можно просто спрашивать: это число 1? Это число 2? И т. д. Но тогда вам потребуется намного больше вопросов. «Деление пополам» — оптимальный в данном случае способ нахождения числа. Объём информации, заложенный в ответ «да»/«нет», если эти ответы равновероятны, равен одному биту (действительно, ведь бит имеет два состояния: 1 или 0). Итак, для угадывания числа от 1 до 100 нам потребовалось семь битов (семь ответов «да»/«нет»).

N = 2 i <displaystyle N=2^>

Такой формулой можно представить, сколько вопросов (битов информации) потребуется, чтобы определить одно из возможных значений. N — это количество значений, а i — количество битов. Например, в нашем примере 27 меньше, чем 28, однако больше, чем 26. Да, нам могло бы потребоваться и всего 6 вопросов, если бы загаданное число было 28.

i = log 2 ⁡ N . <displaystyle i=log _<2>N.>

Количество информации (i), необходимой для определения конкретного элемента, есть логарифм по основанию 2 общего количества элементов (N).

Формула Шеннона [1] [ править | править код ]

Когда события не равновероятны, может использоваться формула Шеннона:

I = − ∑ i p i log 2 ⁡ p i , <displaystyle I=-sum _p_log _<2>p_,>

Количеством информации называют числовую характеристику сигнала, отражающую ту степень неопределенности (неполноту знаний), которая исчезает после получения сообщения в виде данного сигнала.

Эту меру неопределенности в теории информации называют энтропией.

Если в результате получения сообщения достигается полная ясность в каком-то вопросе, говорят, что была получена полная или исчерпывающая информация и необходимости в получении дополнительной информации нет. И, наоборот, если после получения сообщения неопределенность осталась прежней, значит, информации получено не было (нулевая информация).

Приведенные рассуждения показывают, что между понятиями информация, неопределенность и возможность выбора существует тесная связь. Так, любая неопределенность предполагает возможность выбора, а любая информация, уменьшая неопределенность, уменьшает и возможность выбора. При полной информации выбора нет. Частичная информация уменьшает число вариантов выбора, сокращая тем самым неопределенность.

Читайте также:  Ютуб видеохостинг кино бесплатно

Связь между количеством информации и числом состояний системы устанавливается формулой Хартли.

Американский инженер Р. Хартли в 1928 г. предложил рассматривать процесс получения информации как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений.

Тогда количество информации I, содержащееся в выбранном сообщении, определяется как двоичный логарифм N:

Формула Хартли: I = log2N,

где I — количество информации в битах; N — число возможных состояний.

Ту же формулу можно представить иначе:

N = 2 I .

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 = 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

Пример. Человек бросает монету и наблюдает, какой стороной она упадет. Обе стороны монеты равноправны, поэтому одинаково вероятно, что выпадет одна или другая сторона. Такой ситуации приписывается начальная неопределенность, характеризуемая двумя возможностями. После того, как монета упадет, достигается полная ясность и неопределенность исчезает (становится равной нулю).

Приведенный пример относится к группе событий, применительно к которым может быть поставлен вопрос типа «да — нет». Количество информации, которое можно получить при ответе на вопрос типа «да — нет», называется битом (англ., bit — сокращенное от binary digit — двоичная единица). Бит — минимальная единица количества информации, ибо получить информацию меньшую, чем 1 бит, невозможно. При получении информации в 1 бит неопределенность уменьшается в 2 раза. Таким образом, каждое бросание монеты дает нам информацию в 1 бит.

В качестве других моделей получения такого же количества информации могут выступать электрическая лампочка, двухпозиционный выключатель, магнитный сердечник, диод и т. п. Включенное состояние этих объектов обычно обозначают цифрой 1, а выключенное — цифрой 0.

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона:

I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN),

где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, . pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений.

В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

На практике чаще применяется более крупная единица — байт, равная восьми битам. Если бит — минимальная единица информации, то байт ее основная единица. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2 8 ).

Существуют производные единицы информации: килобайт (кбайт, кб), мегабайт (Мбайт, Мб) и гигабайт (Гбайт, Гб).

§ 1 кб = 1024 байта = 210 (1024) байтов.

§ 1 Мб = 1024 кбайта = 220 (1024 x 1024) байтов.

§ 1 Гб = 1024 Мбайта = 230 (1024 х 1024 x 1024) байтов.

§ 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

Эти единицы чаще всего используют для указания объема памяти ЭВМ.

| следующая лекция ==>
Информация и формы ее представления | СВОЙСТВА ИНФОРМАЦИИ

Дата добавления: 2014-01-06 ; Просмотров: 2036 ; Нарушение авторских прав? ;

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

При изучении различных явлений и объектов окружающего мира люди стремились связать с этими объектами число, ввести их количественную меру. Люди научились измерять расстояния, взвешивать различные предметы, вычислять площади фигур и объёмы тел. Научившись измерять время, его длительность, мы до сих пор пытаемся понять его природу. Термометр был придуман за много лет до того, как учёные поняли, что он измеряет: с момента появления первого термометра до создания термодинамики прошло примерно три столетия. Количественное изучение некоторого явления, объекта может опережать его качественное изучение, процесс формирования соответствующего понятия может следовать за количественным изучением.

Похожая ситуация сложилась и в отношении информации. Р. Хартли в 1928, а затем К. Шеннон в 1948 предложили формулы для вычисления количества информации, однако на вопрос о том, что такое информация, они так и не ответили. В теории связи информация выступает в виде различных сообщений: например, букв или цифр, как в телеграфии, или в виде непрерывной функции времени, как при телефонии или радиовещании. В любом из указанных примеров, в конечном итоге, задача состоит в передаче смыслового содержания человеческой речи. В свою очередь, человеческая речь может быть представлена в звуковых колебаниях или в письменном изложении.

Читайте также:  Ga 890gpa ud3h драйвера

Это ещё одно из свойств этого вида информации: способность представлять одно и то же смысловое содержание в различном физическом виде. Впервые на это обратил особое внимание У. Эшби. Представление информации в различном физическом виде называется кодированием. Для того, чтобы общаться с другими людьми, человеку приходится постоянно заниматься кодированием, перекодированием и декодированием. Очевидно, что по каналам связи информация может передаваться в самых различных системах кодирования.

Р. Хартли первым ввел в теорию передачи информации методологию «измерения количества информации». При этом Р. Хартли считал, что информация, которую он собирался измерять, это «… группа физических символов – слов, точек, тире и т. п., имеющих по общему соглашению известный смысл для корреспондирующих сторон». Таким образом, Хартли ставил перед собой задачу ввести какую-то меру для измерения кодированной информации.

Пусть передаётся последовательность из n символов а1а2а3аn, каждый из которых принадлежит алфавиту Аm, содержащему m символов. Чему равно число К различных вариантов таких последовательностей? Если n = 1 (передаётся один символ), то K = m; если n=2 (передаётся последовательность из 2-х символов), то K = m*m = m 2 ; в общем случае для последовательности из n символов получим

Количество информации, содержащееся в такой последовательности, Хартли предложил вычислять как логарифм числа K по основанию 2:

То есть, количество информации, содержащееся в последовательности из n символов из алфавита Am, в соответствии с формулой Хартли равно

Замечание 1. Хартли предполагал, что все символы алфавита Am могут с равной вероятностью (частотой) встретиться в любом месте сообщения. Это условие нарушается для алфавитов естественных языков: например, не все буквы русского алфавита встречаются в тексте с одинаковой частотой.

Замечание 2. Любое сообщение длины n в алфавите Am будет содержать одинаковое количество информации. Например, в алфавите <0; 1>сообщения 00111, 11001 и 10101 содержат одинаковое количество информации. Это означает, что при вычислении количества информации, содержащегося в сообщении, мы отвлекаемся от его смыслового содержания. «Осмысленное» сообщение и сообщение, полученное из него произвольной перестановкой символов, будут содержать одинаковое количество информации.

Пример. В телеграфном сообщении используются два символа – точка (.) и тире (-), т.е. алфавит состоит из m = 2 символов. Тогда при передаче одного символа (n =1) количество информации I = Log22 = 1. Это количество было принято за единицу измерения количества информации и называется 1 бит (от английского binary unit = bit). Если телеграфное сообщение в алфавите <. ; ->содержит n символов, то количество информации I = n Log22 = n (бит).

С помощью символов 0 и 1 кодируется информация в компьютере и при передаче в вычислительных сетях, т.е. алфавит состоит из двух символов <0 ; 1>; один символ и в этом случае содержит I = Log22 = 1 бит информации, поэтому сообщение длиной n символов в алфавите <0 ; 1>в соответствии с формулой Хартли (2.2) будет содержать n бит информации.

Если рассматривать передачу сообщений в алфавите русского языка, состоящего из 33 букв, то количество информации, содержащееся в сообщении из n символов, вычисленное по формуле Хартли, равно I = n*Log233 » n* 5.0444 бит. Английский алфавит содержит 26 букв, один символ содержит Log2 26 » 4.7 бит, поэтому сообщение из n символов, вычисленное по формуле Хартли, содержит n* Log2 26 » 4.7 *n бит информации. Однако, этот результат не является правильным, так как не все буквы встречаются в тексте с одинаковой частотой. Кроме того, к буквам алфавита надо добавить разделительные знаки: пробел, точку, запятую и др.

Формула (2.1) внешне напоминает формулу Больцмана для вычисления энтропии системы с N равновероятными микросостояниями:

где k — постоянная Больцмана = 1,38*10 -23 , а W- вероятность спонтанного принятия одного из микросостояний системы в единицу времени t = 10 -13 сек., W = 1/N, т.е.

что полностью согласуется с формулой (2.1) за исключением множителя k и основания логарифма. Из-за этого внешнего сходства величину Log2K в теории информации также называют энтропией и обозначают символом H. Информационная энтропия – это мера неопределённости состояния некоторой случайной величины (физической системы) с конечным или счётным числом состояний. Случайная величина (с.в.) – это величина, которая в результате эксперимента или наблюдения принимает числовое значение, заранее неизвестно какое.

Итак, пусть X – случайная величина, которая может принимать N различных значений x1, x2, … xN; если все значения с.в. X равновероятны, то энтропия (мера неопределённости) величины X равна:

Замечание. Если случайная величина (система) может находиться только в одном состоянии (N=1), то её энтропия равна 0. Фактически это уже не случайная величина. Неопределённость системы тем выше, чем больше число её возможных равновероятных состояний.

Энтропия и количество информации измеряются в одних и тех же единицах – в битах.

Определение. 1 бит – это энтропия системы с двумя равновероятными состояниями.

Пусть система X может находиться в двух состояниях x1 и x2 с равной вероятностью, т.е. N = 2; тогда её энтропия H(X) = Log2 2 = 1 бит. Пример такой системы даёт нам монета, при подбрасывании которой выпадает либо орёл (x1), либо решка (x2). Если монета «правильная», то вероятность выпадения орла или решки одинаковая и равна 1/2.

Читайте также:  256 Гб ssd накопитель a data su800

Дадим ещё одно определение единицы измерения информации.

Определение. Ответ на вопрос любой природы (любого характера) содержит 1 бит информации, если он с равной вероятностью может быть «да» или «нет».

Пример. Игра в «пусто-густо». Вы прячете мелкий предмет в одной руке и предлагаете партнёру угадать, в какой руке вы его спрятали. Он спрашивает вас « в левой руке?» (или просто выбирает руку: левую или правую). Вы отвечаете «да», если он угадал, или «нет», в противном случае. При любом варианте ответа партнёр получает 1 бит информации, а неопределённость ситуации полностью снимается.

Формулу Хартли можно использовать при решении задач на определение выделенного элемента некоторого заданного множества. Этот результат можно сформулировать в виде следующего правила.

Если в заданном множестве M, состоящем из N элементов, выделен некоторый элемент x, о котором ничего более неизвестно, то для определения этого элемента необходимо получить Log2N бит информации.

Рассмотрим несколько задач на применение формулы Хартли.

Задача 1. Некто задумал натуральное число в диапазоне от 1 до 32. Какое минимальное число вопросов надо задать, чтобы гарантированно угадать задуманное (выделенное) число. Ответы могут быть только «да» или «нет».

Комментарий. Можно попытаться угадать задуманное число простым перебором. Если повезёт, то придётся задать только один вопрос, а при самом неудачном варианте перебора придётся задать 31 вопрос. В предложенной задаче нужно определить минимальное число вопросов, с помощью которых вы гарантированно определяете задуманное число.

Решение. По формуле Хартли можно вычислить количество информации, которое необходимо получить для определения выделенного элемента x из множества целых чисел <1,2,3 32>. Для этого необходимо получить Н = Log2 32 = 5 бит информации. Вопросы надо задавать так, чтобы ответы на них были равновероятны. Тогда ответ на каждый такой вопрос будет приносить 1 бит информации. Например, можно разбить числа на две равные группы от 1 до 16 и от 17 до 32 и спросить, в какой группе находится задуманное число. Далее, аналогично следует поступить с выделенной группой, которая содержит уже лишь 16 чисел, и т.д. Пусть, например, задумано число 7.

Вопрос №1: Задуманное число принадлежит множеству <17; 32>? Ответ «нет» приносит вам 1 бит информации. Мы теперь знаем, что число принадлежит множеству <1 ; 16>.

Вопрос №2: Задуманное число принадлежит множеству <1 ; 8>? Ответ «да» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству <1 ; 8>.

Вопрос №3: Задуманное число принадлежит множеству <1 ; 4>? Ответ «нет» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству <5 ; 8>.

Вопрос №4: Задуманное число принадлежит множеству <7 ; 8>? Ответ «да» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству <7 ; 8>.

Вопрос №5: Задуманное число равно 8? Ответ «нет» приносит вам ещё 1 бит информации. Мы теперь знаем, что задуманное число равно 7. Задача решена. Было задано пять вопросов, в ответ получено 5 бит информации и определено задуманное число. ‚

Задача 2. (Задача о фальшивой монете). Имеется 27 монет, из которых 26 настоящих и одна фальшивая. Каково минимальное число взвешиваний на рычажных весах, за которое можно гарантированно определить одну фальшивую монету из 27, используя то, что фальшивая монета легче настоящей.

Рычажные весы имеют две чашки и с их помощью можно лишь установить, одинаково ли по весу содержимое чашек, и если нет, то содержимое какой из чашек тяжелее.

Решение. Это задача на определение одного выделенного элемента из 27. По формуле Хартли мы сразу можем определить количество информации, которое нужно получить для определения фальшивой монеты: оно равно I = Log227 = Log2(3 3 ) = 3 Log23 бит. Отметим, что ещё не зная стратегии взвешивания, можно сказать, сколько информации мы должны получить для решения задачи.

Если положить на чашки весов равное количество монет, то возможны три равновероятных исхода:

1. Левая чашка тяжелее правой (Л > П);

2. Левая чашка легче правой (Л B); значит f Î B;

2) A легче B (A H , т.е. N = 2 7 = 128.

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Как то на паре, один преподаватель сказал, когда лекция заканчивалась — это был конец пары: "Что-то тут концом пахнет". 8526 — | 8113 — или читать все.

91.146.8.87 © studopedia.ru Не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования. Есть нарушение авторского права? Напишите нам | Обратная связь.

Отключите adBlock!
и обновите страницу (F5)

очень нужно

Оставьте ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *