О закономерностях структуры бинарной последовательности

О закономерностях структуры бинарной последовательности (продолжение, начало см. в №5 май 2014 г.)

Филатов Олег Владимирович,

инженер-программист НТЦ «Модуль»,

Филатов Илья Олегович,

ученик 9 класса школы № 457 г. Москва.

Бинарная потоковая последовательность – самостоятельный целостный объект, который описывается в «Потоковой теории» как сумма спектров (составных событий). Нарушение её целостности, путём расчленения на короткие спектры, приводит к потере её свойств, утере спектральных пропорций. В статье развивается математический аппарат, описывающий строение потоковой последовательности бинарных событий. Для физиков (генетиков) анализируется распределение магнетиков в тонкой нити.

Ключевые слова: потоковая последовательность, составное событие, элементарное событие, элементар, цуга, мода.

Используемые сокращения и термины: ПП - потоковая последовательность; ф., ф-ла – формула; Эл – элементарное бинарное случайное событие (0; 1).

Введение

В статье рассматриваются новые статистические идеи для длинных бинарных случайных последовательностей на физическом примере. Статья ориентирована на физиков, генетиков, математиков.

Выход за рамки привычного мироощущения – требование современной науки. Так, в своё время, научная общественность обсуждала очередную «сумасшедшую» идею поиска симметрий в физике. В рамках этой идеи тяжёлые частицы: протон и нейтрон, принадлежат барионному классу и описываются едиными формулами. Идея физической симметрии была применена и к бинарным событиям («0», «1»).

В рамках общей симметрии логические нули и единицы стали называться элементарными событиями, элементарами, или элами [2, 3]. Элы, оказалось, описываются формулами, которыми нельзя вывести из ф-лы: р=1/2^n [1]. В качестве общего свойства была взята повторяемость (смена выпадения значения эла).

Кроме идеи симметрии была внесена идея потоковой последовательности (ПП) [2, 3]. Она заключается в том, что исследуются длинные цепочки последовательно выпадающих бинарных случайных событий. И, случайные события, подвергаясь операции симметричного выравнивания, трансформируются в элы. Поэтому можно сказать, что ПП образуется элами.

Третья составляющая теории – классификация элов по группам. В ПП группировка эл может быть любой [2]. Но в работе взята группировка эл по составным событиям [2, 3].

Основная часть

Рассмотрим фрагмент ПП F0,5(200) [2] в примере 1:

Пример 1.

«00010100010001011111000110100101010000101110111010010010001001110011001 10000111110011011001010111111001000110110011110000101000001001111000111111111 0001001010000110110000000000101001001101101111110111».

Этот фрагмент ПП получен с помощью ф.1(выпадение сторон монеты):

(1)

Но, для описания количества составных событий (в примере 1 подчёркнуты составные события ) в ПП [2, 3] применяется ф. 2:

(2)

Где: N – число эл потоковой последовательности; n – номер моды (число эл составного события); - число составных событий n – ой моды.

Прямой вывод ф.2 из ф.1 не найден.

Устраним в ф.2 зависимость от N, получим ф.3:

(3)

Ф.4 описывает отношение - доли n-ых составных событий, к полной сумме всех составных событий :

(4)

Гипотеза «О отношении доли произвольного спектра».

Из похожести правых частей ф.1 и ф.4 можно выдвинуть гипотезу, в рамках которой можно предположить:

- что существуют множество систем , образующих потоковую последовательность;

- каждая из систем содержит своё множество спектров отличных от составных событий ;

- доля произвольного спектра относится к полной сумме долей всех спектров , из которых образована потоковая последовательность, как единица, делённая на два в степени n, где n длина спектра в элах: .

Данная гипотеза предлагает трактовать вероятность выпадения бинарных событий, как долевое отношение различных систем спектров.

Дальнейшее исследование свойств ПП проводиться на примере гипотетической нити из магнетиков. Так как человеческое сознание лучше воспринимает то, что можно представить. Но поскольку свойства рассматриваемой нити сконструированы авторами так, что являются свойствами ПП состоящей из элов, то, на самом деле, продолжается изложение «Потоковой теории». В примере про нить, элы и молекулы смешиваются преднамеренно, что бы ни сложилась иллюзия, что речь идёт лишь о физической задаче. Элы в «Потоковой теории» и молекулы в примере про нить – одно и то же.

Протяжённая нить из случайно ориентированных магнетиков.

Полным аналогом ПП является тонкая струна - двумерная протяжённая нить, ширина и высота нити равны размеру одной её молекулы. Молекулы нити собраны в магнитные группы одинаковой полярности случайным образом по ф.1. Магнитную группы нити (противоположная ориентация магнитных доменов и численность молекул в них) можно рассматривать в качестве составных событий (из элов) в ПП. Все вектора магнитных полей внутри магнетиков пересекает перпендикулярная им прямая. Все магнетики (маленькие магнитные стрелки) лежат в одной плоскости.

Учёт числа магнетиков нити и их магнитной ориентации производят посредством зонда.

Одноразовое зондовое исследование

Условия. Зонд подводят к случайному месту нити. Размер зонда не превышает продольного размера молекулы нити. Проведение замера исключает попадание зонда между молекулами нити.

Определить вероятность попадания зонда в магнитную группу длиной в n молекул.

По ф.3, чем больше (выше доля среди других групп), тем выше вероятность попадания в группу.

Аналогично, чем длиннее составное событие (больше n, длиннее магнитная группа), тем выше вероятность попасть в неё. Вероятность попадания в рассчитывается по ф.5:

(5)

Действительно, просуммировав вероятности случайного попадания в для всех n, получим единицу. Выкладка 1:

Выкладка 1

В таблице 1 приведены рассчитанные по ф.5 вероятности .

Таблица 1.

Вероятности попадания зондом толщины z=1 в .

n	1	2	3	4	5	6	7	8	…
	0,25	0,25	0,1875	0,125	0,078125	0,046875	0,02734375	0,015625	…

Пример расчета числа ⁿZ(x) - попаданий зонда в, , , при числе зондовых замеров х=8*10⁵: ¹Z(x) = * х =0,25*8*10⁵ =200000; ⁵Z(x) = * х =0,078125*8*10⁵ =62500; ⁸Z(x) = * х =0,015625*8*10⁵ =12500.

Вероятность попадания в k-ый эл составного события .

Так как все элы составного события равноправны, то вероятности попасть в любой из них равны между собой. Более того, сумма вероятностей попадания в каждый из элов образует вероятность попадания в данное составное событие, ф.6:

(6)

Отсюда, вероятность попадания в любой из элов составного события рассчитывается по ф.7:

(7)

Вероятность попадания в полярное событие зондом толщиной z = 1.

Пусть выполняются условия из раздела «Одноразовое зондовое исследование».

Составные события из нулей - , и из единиц - называются полярными составными событиями .То есть в ПП +. Причём: =.

Для расчёта вероятности - попадания в единичную цепочку, или вероятности попадания в нулевую цепочку, нужно (ф.5) разделить пополам, ф.8:

(8)

где: – вероятности выпадений полярных событий.

Перемещение по ПП с фиксированным шагом, толщина зонда z = 1.

Производится перемещение вдоль нити. Пропускаются без рассмотрения заданное число элов (k-1). После пропуска, на k-ом эле, производится зондовое исследование с определением длины составного события. И пусть выполняются условия из раздела «Одноразовое зондовое исследование».

Нить содержит N молекул. При делении N эл (молекул) на отрезки длиной в k эл, получится m замеров: m=N/k.

Исходя из ф.5 (для ) получаем ф.9. По ф.9 производим расчёт чисел составных событий , в которые произошли попадания зонда при шаге k:

(9)

где N – число эл в ПП; n – длина составного события; k – период, шаг в элах между исследованиями, k>n.

В таблице 2 приведены - попадания зонда в составные события разных длин (n – столбец длин). «Зксп-нт» - экспериментально полученные результаты. «Теор» - расчёт по ф.9.

Таблица 2.

(m = N(2*10⁷ ) / k).

(k=25)

(k=50)

(k=133)

Эксп-нт

Теор

Эксп-нт

Теор

Эксп-нт

Теор

200010

200009

149934

99995

62550

37416

22049

12342

200000^*

200000

150000

100000

62500

37500

21875

12500

100052

100146

75060

49784

31198

18742

11020

6132

100000

75000

50000

31250

18750

10937,5

6250

37423

37806

28205

18876

11720

7015

4117

2252

37593,984

28195,488

18796,992

11748,120

7048,872

4111,842

2349,624

200000^* - пример расчёта (k=25) - числа попаданий зонда в составные события длиной 1 эл. Расчёт производится по ф.9:

(k=25)= 2*10⁷ * 1 / (25 * 2¹⁺¹) = 200000.

Исследование широким зондом (z>1).

Зонд толщиной в несколько молекул (z>1) не может исследовать события меньшей длины (в таблице 3 пробелы). Наименьшая исследуемая длина n, события , равна ширине зонда z.

Пусть зонд перемещается с шагом k=25 эл вдоль ПП (тонкой струны) F0,5(2*10⁷) – ПП из 2*10⁷ эл с вероятностью значений 0,5. В таблице 3 результаты замеров зондов разных толщин в элах (молекулах) z.

Таблица 3.

Попадания зонда z в разнодлинные составные события.

n	(k=25)
n
1 2 3 4 5 6 7 8 9 10 11 …	200010 200009 149934 99995 62550 37416 22049 12342 …	99417 100126 75086 50097 31223 18902 10812 6297 …	50098 50222 37749 25092 15521 9480 5632 3099 …	25273 25159 18877 12400 7895 4827 2702 1505 …
	800000	399795	200745	100609

В нижней строке таблицы 3 посчитаны по каждому столбцу суммы. Но ради экономии места значения столбцов оборваны. Не напечатанные значения обозначены многоточием. Число попаданий зондом толщиной z эл, во все составные события длины n (где n ≥ z) при шаге в k (где k > n) эл рассчитывается по ф.10:

(10)

Пример расчёта числа составных событий , по ф.10, в которые попал зонд толщиной в 3 молекулы (z=3), проходя вдоль нити в 2*10⁷ эл, с шагом k=25: . Полученный результат хорошо совпадает с экспериментальным значением из таблицы 3.

Вероятность попадания зонда , шириной z эл, в составные события рассчитывается по ф.11:

(11)

где: z – ширина зонда в элах.

График распределения - вероятностей случайного попадания в моду n (составное событие ), приведён на рисунке 1.

Рис. 1.

Из рисунка 1 видно, что для зонда любой толщины z два первых (наименьших по n) составных события имеют равную вероятность попадания, и, в то же время, наибольшую вероятность, по отношению к другим вероятностям, для данной толщины зонда.

Из ф.11 следует ф.12 - число попаданий зонда, толщины z, в :

(12)

Пример расчёта числа составных событий, (n=5), по ф.12, в которые попал зонд толщиной в 4 молекулы (z=4), проходя вдоль нити в 2*10⁷ эл, с шагом k=25: . Полученный результат хорошо совпадает с экспериментальным значением из таблицы 3.

Число попаданий зондом толщины z в одну из возможных позиций составного события .

Рассчитывается по формуле 13:

(13)

Как и ожидалось, ф.13 подтверждает, равенство количества попаданий зонда в любые позиции i, составного события .

Пример расчёта числа составных событий, в которые попадает зонд толщиной z .

Зонд движется над нитью и, через равные промежутки, осуществляет контакт и замер. Причём, если зонд попадает на два и более магнетика, то замер не производится. Длина нити 2*10⁷, шаг зонда k=25 молекул (элов), толщина зонда z=4 молекулы (эла).

На рисунке 2, в строке № 5 условно нарисован «ЗОНД» с контактной длиной в n молекул (элов). Рассмотрим положения зонда относительно магнитных групп в измерениях.

В строке №1 левый край зонда и составного события совпадают, зонд короче. В строке №2 края зонда и составного события совпадают. В строке №3 правый край зонда и события совпадают, зонд короче. В строке №4 зонд не попал в края события.

Рис. 2. Совмещение зонда и событий мишени (магнитных групп).

Требуется рассчитать число составных событий в каждом из четырёх вариантов взаимодействия зонда с нитью.

Рассчитаем по ф.10 общее число составных событий для всех строк рисунка 2. . Подтверждается значением из таблицы 3.

Рассчитаем по ф.12 число составных событий пространственно совпавших с зондом (строка №2). =. Подтверждается значением из таблицы 3.

Числа событий строки №1 получим из следствия ф.2 - число составных событий равно сумме составных событий больших длин, ф. 14:

(14)

Из ф.14 следует, что число составных событий в строке №1 равно числу событий в строке №2.

Попутно заметим, что отношение двух соседних мод (отношение численности составных событий в дух соседних модах): n и m=n+1, равно двум, ф.15:

(15)

Для расчёта числа событий строки №3, замечаем, что на уровне составных событий, при наращивании своих событий (не выпадении новых элов), ПП не зависит от направления движения по выпавшим событиям (прямой ход времени, обратный ход времени). То есть, взаимное расположение элов не зависит от направления движения времени. А значит, числа составных событий строк: №1, №2 – будут одинаковыми.

Для расчёта событий строки №4, надо из вычесть численность строк 1,2,3: 10⁵– 25000 – 25000 – 25000 =25000.

Деформации составных событий при фрагментации ПП

ПП – самостоятельный целостный объект. Нарушение целостности ПП, путём её расчленения на короткие фрагменты, приводит к потере закономерностей в распределении составных событий. В терминологии физической тонкой нити - для исследования распределения молекул по магнитным доменам необходимо сохранить нить в неразрезанном состоянии. Если порезать нить на фрагменты, то уничтожится первоначальная структура её магнетиков. Во фрагментах, таблица 4, создастся много ложных событий, которых не было в исходной нити. И наоборот, исчезнут события, которые были в целостной нити, пример 1.

Таблица 4.

Деформация составных событий ПП при фрагментации.

№ строки	№№ элов в примере 1
№ строки	1-40	41-80	80-120	121-160	161-200
1 2 3 4 5 6 7 8 9 10	0001 0100 0100 0101 *1111^Н 0001 1010 0101 0100^* 0010^**	1110 1110 1001 0010 0010 0111 0011 0011 *0000^ПП 1111*^Н	1001 1011 0010 1011 *1111^Н 0010 0011 0110 0111^* 1000^**	0101^ 0000^Н 0100 1111^ПП 0001 1111^Н 1111^Н 0001 0010 1000^	0110^ 1100 0000^Н 0000^Н 1010 0100 1101 1011 1111**^Н 0111
Всего: два «ПП», восемь «Н»

В примере 1 ПП образована из 200 эл (результатов бросков монеты). В F0,5(200) найдено шесть составных событий (четыре «0000», и два «1111»). Из них два соединённых в цугу «11110000».

Из шести найденных составных событий в ПП (пример 1), после разрезки ПП на фрагменты, длиной в четыре эла, попали в таблицу 4 только два. В таблице 4 они подчёркнуты и снабжены буквами «ПП».

Четыре (из шести) события после фрагментации ПП перестали проявляться в таблице 4 в качестве событий. В таблице 4 их фрагменты подчёркнуты и снабжены двумя звёздочками «**».

Образовавшиеся в результате фрагментации новые составные события, которые в таблице 4 воспринимаются как , снабжены буквой «Н».

Становится ясно, что в каждом коротком фрагменте возникает деформация составного события.

В таблице 5 представлены расчёты чисел шаблонов, которые будут обнаружены в целой ПП (столбец 3) и после фрагментации ПП (столбец 4). Формулы расчётов прописаны в заголовочных ячейках.

Поскольку шаблоны состоят из «1», то искомые составные события будут полярными - , (столбец 3).

В столбце 5 представлены отношения столбцов 3 и 4 друг к другу, рассчитанные по ф.16.

Таблица 5.

Число эл N = 12000
1	2	3	4	5
n (длина шаблона)	Шаблон поиска
1	«1»	1500	6000	0,25
2	«11»	750	1500	0,5
3	«111»	375	500	0,75
4	«1111»	187,5	187,5	1
5	«11111»	93,75	75,0	1,25
6	«111111»	46,875	31,25	1,5
7	«1111111»	23,4375	13,39	1,75
8	«11111111»	11,71875	5,86	2
9	«111111111»	5,859375	2,60	2,25
10	«1111111111»	2,9296875	1,17	2,5

Отношение друг к другу чисел найденных шаблонов (составных событий) по этим двум методам поиска описывается ф.16:

(16)

При в ПП находится меньше спектров, в раздельных фрагментах. При оба метода поиска выдают, в среднем, одинаковое количество найденных спектров. При в ПП находится больше спектров, чем в раздельных фрагментах. Отметим, что график, полученный по ф.16, представляет собой возрастающую прямую линию.

В статье [3] был приведён алгоритм поясняющий принцип поиска составных событий в ПП. В этой статье проводится код поисковой функции, ищущей составные события в ПП. Надо ещё раз отметить, что поисковая функция не является предсказывающей. И поэтому, поисковой функции доступны одновременно все элы ПП. Код поисковой функции на С++ (среда разработки Builder 6), с помощью которого производился поиск составных событий в текстовом файле, представлен в таблице 6. Файл содержит ПП, записанную двумя символами: «0», «1».

Таблица 6. Код поисковой функции.

TSearchRec sr;

ifstream infile;

char *cName, chr; // входной поток

int Counter=0, Counter0=0, Counter1=0, CounterPodriad=1, Mas[1001];

bool bChrOjidan, bChr;

for(int i=0; i<=1000; i++) Mas[i]=0;

Form1->Memo1->Lines->Add("");

Form1->Memo1->Lines->Add( ((TButton*)Sender)->Name);

if(!OpenDialog3->Execute()) return;

if(FindFirst("*.*",faAnyFile, sr)==0)

while(FindNext(sr)==0) if(sr.Name==ExtractFileName(

OpenDialog3->FileName))

{

infile.open( sr.Name.c_str());

if(!infile) return;

infile >> chr;

if(chr == '1') bChrOjidan = true;

else bChrOjidan = false;

while (!infile.eof(), Counter++, infile >> chr)

{

if(chr == '1')

{ bChr = true;

Counter1++; }

else

{

bChr = false;

Counter0++;

}

if(bChr == bChrOjidan) CounterPodriad++;

else

{

bChrOjidan = bChr;

Mas[CounterPodriad]++;

CounterPodriad=1;

} } }

FindClose(sr);

infile.close();

Form1->Memo1->Lines->Add("file = "+OpenDialog3->FileName);

Form1->Memo1->Lines->Add("Counter = "+IntToStr(Counter));

Form1->Edit12->Text=Counter;

int SumSL=0;

for(int i=1; i<=1000; i++) SumSL+=Mas[i];

Form1->Memo1->Lines->Add("SumSL = "+IntToStr(SumSL));

for(int i=0; i<=1000; i++)

if(Mas[i]>0)

Form1->Memo1->Lines->Add("Mas["IntToStr(i)+"] = "+IntToStr(Mas[i]));

Вывод закона S распределения.

В ф.15 выведено отношение составных событий для соседних мод (равно 2). То есть, все моды связаны, по численности, со своими соседями коэффициентом 2.

Из этого факта можно вывести ф.2 – формулу распределение составных событий ⁿS_N мод ⁿM для ПП.

Заметим, что у моды 1 (¹M) [3] максимальное число составных событий ¹S_N среди всех мод ПП. В работе [3] было доказано, что число всех составных событий ПП равно числу элов ПП, делённых на два. Поэтому можно написать выкладку 2:

Выкладка 2

Преобразуем выкладку 1 относительно и получаем численность составных событий, и одновременно число элов - , в первой моде, ф.17:

(17)

Заменяем в выкладке 1 обозначение на число событий первой моды и получаем выкладку 3:

Выкладка 3

Зная, что каждый член суммы является числом составных событий моды n, выносим из под знака суммы функцию расчёта чисел составных событий, ф.19:

Выкладка 4

Таким образом, ф.2, формула распределение составных событий ⁿS_N мод ⁿM для ПП, получена.

Выражение числа составных событий любой моды через составные события моды 1 представлено в выкладке 5:

Выкладка 5

Из выкладки 5 следует ф.18, связывающая составные события моды 1 с числом составных событий любой другой моды:

(18)

Выражение числа событий нулевой цуги через составные события

В выкладке 6 показаны преобразования, приводящие к выражению нулевой цуги через составные события :

Выкладка 6

Варианты связи нулевых цуг мод с составными событиями представлены в ф.19:

(19)

Вывод формулы числа цуг единичной длины

Вероятность выпадения составного события длины n вслед за головной цугой длиной в n эл будет равна :

(20)

Полученная ф.20 описывает число цуг потоковой последовательности с числом колен больше единицы. Если взять число нулевых цуг и вычесть из него , то останется число цуг единичной длины, ф.21:

(21)

Так как: , то . Отсюда получаем ф.22:

(22)

Расчёт выпадений цуг с числом колен k

Фрагмент ПП: «111000111000» состоит из четырёх колен, составных событий длины три. Вывод формулы из нулевой цуги для расчёта числа цуг с числом колен k, представлен ниже.

Из ф.21 раскрываем и перемножаем сомножители в ф.23:

(23)

В работе [3] в ф.17 произошла описка. Вместо (k+1) должно быть (k+2), как в ф.23.

Литература

1. Андронов А.М., Копытов Е.А., Гринглаз Л.Я. Теория вероятностей и математическая статистика. СПб.: Питер, 2004. С.461.

2. Филатов О. В., Филатов И.О., Макеева Л.Л. и др. «Потоковая теория: из сайта в книгу». М.: Век информации, 2014. С.200.

3. Филатов О. В., Филатов И.О. О закономерностях структуры бинарной последовательности // Журнал научных публикаций аспирантов и докторантов - 2014 - №5 – с. 226-233.

Поступила в редакцию 18.06.2014 г.