Тема дипломной работы: Theoretical analysis and development of techniques for estimating the reliability of information obtained by modern profilers. Теоретический анализ и разработка методик оценки достоверности информации, получаемой современными профайлерами. Содержание Вставим потом автоматически Вступление В этой работе будут рассмотрены современные профайлеры, описан принцип их работы и будут приведены оценки их способности измерять производительность программ. Данная работа является продолжением работы (ссылка), в которой предпринималась попытка разработать альтернативный метод тестирования производительности программ. Оценка этого метода будет также приведена в этой работе (тут). 1. Обзор 1.1. Современные профайлеры В настоящее время … В данной работе будут рассматриваться инструменты, которые, в частности, умеют считать или оценивать время исполнения программы или ее участка. Профайлеры, которые работают только с памятью, процессорным кэшом или другими показателями, которые не являются оценкой времени, в этой работе рассматриваться не будут. Далее будет рассмотрен ряд систем, которые в настоящее время пользуются большей популярностью. К таким средствам можно отнести: Intel VTune – огромный набор инструментальных средств, разработанный компанией Intel. Некоторая часть функциональности работает только на процессорах этой компании. Более подробное описание в соответствующем разделе. AMD CodeAnalyst – продукт компании AMD. Также как и для Intel VTune, полный набор функциональности можно использовать лишь на процессорах компании AMD. AQTime – универсальный инструмент с очень простым интерфейсом. 1.2. Общие принципы работы Все перечисленные профайлеры имеют схожие принципы работы. Основные методы: семплирование – анализ программы на основе периодических замеров без изменения исполняемого кода, инструментирование – здесь в исходные или машинные коды внедряются дополнительные команды, которые и производят необходимые замеры (времени, счетчиков процессора и т.д.). 1.2.1. Семплирование Суть метода семплирования заключается в том, что профайлер делает замеры системных счетчиков программы через постоянный интервал времени с использованием системных прерываний. Изменения исполняемого кода при этом не происходит. Так как этот метод является статистическим, то сильных погрешностей в измерениях не происходит. Семплированием можно искать участки программы, которые больше всего процессорного времени тратят на свое исполнение, которые больше всего подвержены кэш-промахам и ошибкам предсказаний ветвлений. Этот метод применяется в большинстве коммерческих инструментов тестирования производительности. Он прост в реализации, универсален. Его используют для первичного анализа программы, чтобы определить возможные аспекты оптимизации ее кода. Проблема, с которой часто сталкиваются современные профайлеры – многообразие процессоров. Не существует стандартов, которые определяют их архитектуру. Это сказалось и на встроенных средствах профилирования – специальных счетчиках, которые считают количество тактов процессора, кэш-промахи и т.п. Для разных архитектур и для разных процессоров набор счетчиков и способ доступа к ним совершенно различны. Поэтому и возникает несовместимость между, например, процессором Intel и профайлером AMD CodeAnalyst, когда большинство счетчиков недоступны для семплирования. 1.2.2. Инструментирование Метод инструментирования применяется в программирования для осуществления мониторинга и измерения уровня производительности приложения, отладки и диагностики ошибок, записи трассировочной информации. Суть метода заключается в том, что в исходный или скомпилированный код вставляются дополнительные команды, которые, в свою очередь собирают информацию о ходе исполнения программы. В отличие от метода семплирования, внедрение инструкций может вносить значительную погрешность в измерение производительности 1.3. Intel VTune performance analyzer Intel VTune performance analyzer представляет из себя набор инструментов профилирования, который позволяет: строить дерево вызовов, производить статистический анализ кода (семплирование), просматривать измерения на строчках исходного кода и на дизассемблированных инструкциях скомпилированного кода, оптимизировать приложение в соответствии с рекомендациями, которые будет давать Intel VTune. 1.3.1. Описание Intel VTune performance analyser является профессиональным платным коммерческим продуктом. Также компания Intel выпускает такие средства тестирования производительности, как Intel Thread Profiler, Intel Parallel Studio, специализирующиеся на тестировании и анализе активности исполняемых потоков. Все эти инструменты взаимно дополняют друг друга и составляют комплекс, который не имеет аналогов в мире. 1.3.2. Принцип работы В своих измерениях Intel VTune использует методы семплирования и инструментирования. Сам Intel VTune performance analyzer предлагает сбор трех видов информации: 1. Collect sampling data, 2. Collect counter monitor data, 3. Collect call graph data. Collect sampling data. Как упоминалось ранее, большинство массово выпускаемых на данный момент процессоров снабжаются встроенными средствами тестирования производительности. Наиболее важные и используемые из этих средств – встроенные счетчики. Сейчас существуют десятки типов встроенных счетчиков, которые умеют подсчитывать: количество тактов процессора, количество промахов и попаданий в кэш первого и второго уровней, количество выполненных инструкций, количество верно и ошибочно предсказанных ветвлений, количество прерываний, другие. Полный список событий, с которыми работают счетчики процессоров фирмы Intel, можно смотреть тут [Intel 3B, Appendix A, Performancemonitoring events]. Существует два способа использования счетчиков (стр 328): 1. простой подсчет событий, 2. семплирование – процессор генерирует прерывание, когда показатель счетчика превышает определенное значение (при этом счетчик сбрасывается). Настраивать и считывать счетчики производительности можно только в режиме ядра, поэтому Intel VTune, используя собственные драйвера, настраивает нужные счетчики, исходя из настроек профилирования. При возникновении прерывания, профайлер обрабатывает его, считывает все необходимые показания, анализирует контекст потока, в котором произошло прерывание. Собрав достаточное количество семплов, VTune производит их анализ: находит функции и участки кода, исполнение которых происходит чаще всего, или те участки, которые чаще всего вызывают соответствующие события в процессоре (промах кеша, ошибка предсказания ветвления и прочее). Collect counter monitor data. Этот вид сбора данных использует счетчики по второму их назначению, а именно, обычный подсчет событий в системе. Такой способ не подходит для вычисления производительности самой программы. Он предназначен для оценки работы программы внутри системы: оценивается, насколько эффективно используется процессор, не простаивают ли процессы в ожидании тех или иных ресурсов и т.д. Collect call graph data. Этот вид сбора статистики основан на инструментировании скомпилированного кода программы. При этом используется информация из файла с отладочными данными или информация из таблицы импорта (ссылка) для того, чтобы локализовать положение каждой функции в скомпилированной программе. Вычислив необходимые адреса, VTune производит замену первых байт каждой функции инструкцией безусловного перехода. Поэтому, когда будет вызываться та или иная функция, тут же будет осуществлен переход в код динамической библиотеки VTune, которая предварительно загружается в память профилируемого процесса. Для полноценного инструментирования программы, построения дерева вызовов и подсчета необходимой статистики, необходимо иметь файл отладочной информации. Таким образом инструментирование производится статически, во время подготовки процесса к профайлингу. Без отладочного файла дерево вызовов не будет отображать большую часть информации, которая присуща профилируемой программе. 1.4. AMD CodeAnalyst 1.5. AQTime 1.6. Valgrind 1.7. Метод подсчета инструкций 2. Анализ 2.1. Проблема профайлера Основная проблема профайлеров заключатся в том, что они не умеют считать время исполнения программы или ее участка. Вернее, считать это время они в принципе не могут. Все это происходит из-за того, что в современных процессорах исполнение инструкции это очень сложный процесс. Частично он описан в многотомных документациях, но значительная доля все же остается известна только разработчикам процессоров и другим высококвалифицированным разработчикам. На время исполнения участков программ влияют следующие факторы: кэши первого и второго уровней процессора, предсказания ветвлений, конвейерное выполнение инструкций, технологии Hyper-threading, Super-threading и прочие, многопоточность и многозадачность. Использование этих технологий не позволит процессору исполнять один и тот же участок программы одинаковое время. Вторая причина невозможности точных измерений – это сами замеры времени. Здесь неточность кроется в конвейерности выполнения инструкций. Допустим, мы хотим измерить время исполнения конкретной процедуры. Исполнение процедуры, как известно, заканчивается возвратом к точке вызова. Для процессора это исполнение инструкции RET. Но как же замерять время, если при выполнении этой последней инструкции, в конвейере находится еще десяток команд, которые находятся как до, так и после RET. 2.2. Задачи, с которыми работает профайлер В этом пункте будет приведен список задач, с которыми приходится работать современным средствам тестирования производительности программ. Итак, профайлеры вычисляют: время исполнения всей программы, время исполнения определенной процедуры, время исполнения произвольного участка кода, время, потраченное на выполнение команд определенного исполняемого модуля, время исполнения определенной инструкции. А также полезные функции, наличие которых приветствуется в профайлере: возможность тестирования кода на платформе, отличной от платформы, на которой код был скомпилирован, возможность тестирования кода на виртуальных машинах, пакетное (batch) тестирование. 2.3. Перечень проводимых экспериментов Сначала будут проведены тесты, которые определят область применимости выделенных профайлеров. Каждый профайлер будет запускаться в различных условиях, чтобы понять, где тестирование производить можно, а где нет. После этого каждым из профайлеров будут протестированы ряд специально подобранных программ-тестов с различными параметрами. В частности, у тестов будет варьироваться активность использования оперативной памяти и кешей, а также нагрузка прочих программ на систему. 2.4. Область применимости 2.4.1. Результат Ниже приведена таблица применимости профайлеров: Intel VTune Процессоры Intel Процессоры AMD Единицы измерения производительности Все функции доступны Профайлинг недоступен секунды результатов AMD CodeAnalyst Все функции доступны CPU clocks, Timer samples тестирования AQTime Valgrind области xxx Все функции доступны Все функции доступны секунды 2.4.2. Комментарии к результатам Как упоминалось ранее, профайлер Intel VTune не работает корректно на процессорах фирмы AMD. Действительно, проведя элементарный эксперимент, можно в этом убедиться: при любых конфигурациях профайлер выдает сообщение об ошибке «The CPU architecture can't be identified properly; data collection is not available» (осуществлялась проверка версии 9.1 на процессоре AMD Turion 64 TL-60). И наоборот, профайлер AMD CodeAnalyst несовместим с процессорами семейства Intel. … Рассмотрим единицы измерения, которыми оперируют соответствующие профайлеры. Intel VTune и AQTime в этом отношении выглядят более привлекательно, чем AMD CodeAnalyst, потому что секунды более естественная величина, чем CPU clock. Естественными величинами можно производить измерения времени работы программы или процедуры, в то время как прочими можно производить измерения, чтобы сравнивать в дальнейшем их между собой. 2.5. Порядок проведения экспериментов 2.6. Единые единицы измерений Помимо того, что мы будем анализировать результаты запусков отдельно для каждого профайлера, важно, в конечном итоге, попытаться сравнить их между собой. Понятно, что сравнение запусков должно происходить на одном компьютере. Проблема, с которой мы столкнемся, – разные единицы измерений для различных профайлеров. Поэтому необходимо научиться переводить одни единицы в другие. 2.7. Эксперимент “Использование оперативной памяти” Проведем серию экспериментов, в которых попытаемся разнообразить использование оперативной памяти. Будет три типа тестов: 1. оперативная память минимально используется, 2. оперативная память активно используется, 3. неоптимальное использование оперативной памяти (многочисленные промахи кеша памяти). Программы, которые будут представлены в виде тестов, должны иметь возможность быть сконфигурированными двумя параметрами. Первый параметр – целое число, при произведении серии тестов, варьироваться будет именно этот параметр. Второй параметр – также целое число, но оно будет изменяться только для различных профайлеров, чтобы в некоторых случаях скомпенсировать накладные расходы, которые могут быть значительными. 2.7.1. Минимальное использование оперативной памяти Данный набор тестов должен показать, как соответствующие профайлеры измеряют время простейшей программы, которая должна производить некоторые вычисления, не использующие оперативную память. Это нужно, чтобы избежать некоторых погрешностей, которые могут ей вызываться. В качестве тестируемой программы можно выбрать программу, которой в качестве параметра передается некоторое число, и которая должна посчитать и вывести сумму от единицы до этого числа. Код программы представлен в приложении. 2.7.2. Активное использование оперативной памяти Здесь мы будем тестировать программу, которая активно использует оперативную память. Тестируемая программа создаст массив, который заполнится числами. Потом эти числа будут складываться в некоторой переменной. Сложение будет происходить несколько раз, количество определяется вторым постоянным параметром. Код программы представлен в приложении. 2.7.3. Использование оперативной памяти с частыми промахами кеша В этой программе, как и в предыдущем тесте, будем создавать массив и производить сложение элементов, предварительно заполнив его произвольными числами. Только в этом тесте массив должен быть двумерным, и сложение будет происходить поперек выделенной памяти (внутренний цикл перебирает строчки в массиве). В этом случае промахи кеша будут происходить настолько часто, насколько это возможно. Код программы представлен в приложении. 2.8. Эксперимент “Предсказания ветвлений” Вторая серия экспериментов будет относиться к предсказаниям ветвлений. Они, как и кеш памяти, вносят определенную неоднородность в процесс исполнения машинного кода. 2.8.1. Эксперимент “Вариация длины цикла” Суть программы-теста будет такая: фиксируются N операций и разделяются на M групп по K операций (M * K = N). Программа состоит из двух вложенных циклов: внутренний цикл – K итераций, внешний – M итераций. Одна итерация вложенного цикла – одна операция. Зафиксировав N операций и варьируя K, можно наблюдать некоторые неоднородности во времени исполнения теста. Совершенно очевидно, что они вызваны конвейерностью обработки инструкций. Ключевая инструкция в этой программе – инструкция условного перехода внутреннего цикла. Именно на ней процессор чаще всего обращается к предсказателю ветвлений. Для очень маленьких значений K процессор будет знать, что, скорее всего, повторять цикл не придется. Для больших K – скорее всего, цикл повторится. Код программы представлен в приложении. 2.8.2. Эксперимент “Периодически выполняемые операции” В этом тесте мы упростим подход и будем просто выполнять некоторые действия периодически, в нашем случае действия будут выполняться, когда некоторый счетчик будет делиться на некоторое число K, которое будет варьироваться. Поэтому программа структурно будет содержать лишь цикл и одно условие. Код программы представлен в приложении. 3. Результаты 3.1. Минусы современных методов профайлинга 3.2. Преимущества метода подсчета инструкций 4. Описание инструмента 5. Выводы Приходится идти на компромиссы. 6. Заключение 7. Библиография 8. Приложение