Тема 8. Эксперимент (26/34, 6/6)

Здравствуйте.

В этом видео мы заканчиваем с экспериментами. И в заключении этой темы, как я и обещала, про эксперимент и математическую статистику.

Есть особенность, которую нужно учитывать при поиске и анализе литературы по вопросам, связанным с экспериментами. Она заключается в том, что выражение «планирование эксперимента» с середины прошлого века обычно применяется только в контексте математической статистики. Вплоть до того, что в литературе обсуждается, является ли планирование эксперимента самостоятельной областью деятельности, или это часть математической статистики.

Грубо можно обобщить так: усилия по планированию эксперимента в этой парадигме предпринимаются по двум направлениям – снижение дисперсии (отклонения от математического ожидания) и рандомизация.

При этом рандомизация – процесс, касающийся собственно эксперимента и его условий, а дисперсия – характеристика оценки результатов методами математической статистики. Представляется неочевидной правомерность ставить их в один ряд, однако научная практика именно такова.

Более того, совершенно необходимо понимать, что дисперсия – это характеристика, которая вообще возникает только в одном довольно специфическом случае – если фактический результат сравнивается с математическим ожиданием, то есть с результатом рассчитанным.

Почему этот случай специфический? Ведь в прошлой теме мы разбирали, что совершенно необходимо при планировании эксперимента сформулировать ожидаемый результат и сравнивать с ним фактический результат по заранее заданным критериям. Чем сравнение с математическим ожиданием в этом смысле специфично?

Сравнение с математическим ожиданием (и, соответственно, снижение дисперсии) имеет смысл только в том случае, если стоит задача добиться как можно более точного измерения в условиях недостаточно точного или не вполне подходящего инструментария. Наверняка есть огромное количество областей деятельности, когда эта задача крайне важна, но, когда эксперимент проводится в рамках процесса разработки средств или систем защиты информации, такая потребность может возникнуть исключительно редко. Несмотря на то что при описании исследовательских процедур в обобщенном смысле используется слово «измерение», собственно мерить что-то при разработке в области защиты информации нужно довольно нечасто, а абсолютно преобладают эксперименты, выясняющие причины или следствия каких-либо явлений, выявляющие закономерности протекания каких-либо процессов. Статистические методы в таких экспериментах тоже применимы, но совсем для другого – для интерпретации результата, а не для оценки его точности.

Решение о применимости или неприменимости тех или иных инструментов в своей работе исследователь должен принимать информированно и осознанно – литературы по этому поводу достаточно на любом языке.

С моей точки зрения целесообразность применения этих методов сомнительна, по следующей причине. Чтобы планировать эксперимент с учетом последующего применения статистических приемов оценки результата, нужно сначала построить его математическую модель, так как этими методами оцениваются параметры модели, а не что-то в реальном мире.

Модель же всегда строится так, чтобы отражать важные для текущей задачи параметры реальной ситуации, а не все. Потому что смысл модели всегда в том, что она проще реальности.

Когда мы планируем реальный эксперимент, то есть такой, результаты которого нам заранее не известны (мы их только прогнозируем и проверяем свой прогноз практикой), мы не можем знать наверняка, какие параметры модели важны. Вероятность того, что результаты расчета модели совершенно не совпадут с данными реального эксперимента, крайне высока. Затем ее можно итерационно корректировать, в итоге повысить точность оценки измерений на несколько процентов.

Думается, что в значительном числе случаев, когда эксперимент носит физический, реальный характер, а материалом эксперимента является непосредственный объект изучения, а не его модель, цена усилий просто слишком высока. Для того, чтобы не делать лишней работы, до начала эксперимента нужно ответить себе на вопрос, нужна ли вообще математическая оценка результатов в данном случае и почему. Точно ли нужна такая точность оценки результатов измерения для решения именно этой задачи? Или нужен вообще не расчет (сколько), а оценка (много/мало) либо соотношение (больше/меньше), или требуется вообще установить факт (есть/нет)? 

Использование приемов снижения дисперсии там, где не нужно ничего мерить или нужно, но точность несущественна, просто ради демонстрации умения это делать – не украсит работу, поскольку это ошибка выбора инструментария.

Наконец, несколько слов необходимо сказать о рандомизации эксперимента, поскольку такие факторы, как различие напряжения в электрической сети день ото дня, разная загруженность каналов связи и прочие факторы внешней, не контролируемой исследователем среды проведения эксперимента, влияние которой не всегда следует именно исключать, а зачастую, напротив, следует принимать во внимание, актуальны и для исследований в сфере защиты информации.

Если задачей эксперимента является сравнение каких-то параметров, то все проверки в рамках эксперимента со всеми группами объектов нужно проводить в одинаковых условиях. Это не всегда возможно, так как, даже если стенд позволяет одновременно экспериментировать со всеми объектами, все проверки могут не уложиться в один день (или иной период, в рамках которого условия получаются условно одинаковыми). В этом случае план эксперимента делают блочным. То есть планируются блоки проверок над набором объектов, составленные таким образом, чтобы их распределение по периодам обеспечило равномерность влияния на результат неконтролируемых факторов.

В простейшем случае у нас есть 4 типа объектов (например, планшеты 4 марок), есть 6 видов проверок, чувствительных к напряжению в электрической сети, параллельно можно проводить 4 проверки, и за один период (предположим, день) можно осуществить последовательно 4 проверки.

Очевидно, что блок будет построен так: проверки ведутся одновременно на 4 разных планшетах, за один день проводятся 4 первые проверки, за второй – 2 оставшиеся на всех 4, а затем 2 из первых – на 2 и еще 2 из первых – на вторых двух. Таким образом, мы получаем данные, позволяющие оценить отклонения под влиянием неконтролируемых факторов, свободные от жесткой связи с моделью планшета.

Не хотелось бы оставить впечатление, что статистические методики вообще бесполезны в экспериментах в сфере разработки средств защиты информации. Они, безусловно, применимы, но, применяя их, нужно стараться избегать искушения уйти от предметной, вещественной сути эксперимента в область математики как самоцели. В качестве примера ситуации, когда может быть полезным обратиться к закону нормального распределения и правилу трех сигм, можно привести такую. Имеем ряд ноутбуков одной модели, в одном из которых работает установленное устройство, а в других – нет. Серия проверок показывает, что то же самое устройство не работает в других ноутбуках этой же модели, а в этом же ноутбуке не работают другие экземпляры устройства, которые, казалось бы, не должны ничем отличаться.

В результате расширения числа проверяемых экземпляров устройств и ноутбуков удается выявить еще несколько пар «экземпляр ноутбука + экземпляр устройства», которые оказываются работоспособны. Составление из этих же устройств других пар дает неработоспособность. И ноутбуки, и исследуемые устройства выполнены в соответствии со стандартами и работают с другими аналогичными продуктами (устройства – с другими ноутбуками, а ноутбуки – с другими устройствами этого форм-фактора). 

Каковы дальнейшие действия исследователя? Какую гипотезу можно сформулировать по этим результатам?

Видимо, логичным будет выдвижение гипотезы о том, что наложение отклонений в реализации каких-то стандартизированных параметров дает в одних случаях конфликт и неработоспособность, а в других – работоспособность. Дальше необходимо принять решение о целесообразности проведения серии сложных исследований, которые позволят установить те параметры, отклонения в которых влияют на ситуацию, и то, каким именно образом они сочетаются с тем самым счастливым результатом, ведь, если менять устройства и ноутбуки в рамках этих уже отобранных пар, работоспособность утрачивается, то есть мы имеем дело с разными комплектами отклонений, в каждом из которых каждое отклонение индивидуально (в рамках проверенной выборки).

Как принять решение о целесообразности проведения этих исследований или об их нецелесообразности? Можно воспользоваться правилом трех сигм, приняв за величину, вероятность выпадения отклонения от средних значений которой анализируется с помощью «горба нормального распределения», сочетание отклонений. У нас есть данные о том, сколько всего пар «ноутбук + устройство» проверено и сколько из них оказались работоспособными. График горба по оси x занимает 10 «сигм» (от -5 до +5), из которых по 3,5 в каждую сторону – в пределах горба и по 1,5 – за пределами, сводясь практически к нулю. Значит, сигмой в нашем случае будет 0,1 от общего числа пар «ноутбук + устройство». Определив долю от этого количества работоспособных пар, получаем значение по оси y и теперь можем определить, попадает оно в горб или нет, руководствуясь графиком, и далее принимать решение, конечно, руководствуясь не только одной лишь этой оценкой, а некоторой совокупностью доводов, но с учетом и этого тоже. Отношение числового значения доли работоспособных пар к графику делает оценку «очень мало / приемлемо / довольно много» и т. п. более объективной.

Это все про эксперименты, в следующий раз у нас вами новая тема – научный дискурс.

Кнопка связи