Руководство по настройке производительности

Настройка PDT

Некоторые параметры работы PDT можно настроить. Например, можно назначить пользователя, которому будут передаваться отчеты PDT, или изменить время хранения хронологических данных. Для настройки всех необходимых параметров необходимо внести изменения в один из файлов PDT в каталоге /var/perf/cfg/diag_tool/ или запустить сценарий /usr/sbin/perf/diag_tool/pdt_config.

Все изменения в конфигурацию PDT рекомендуется вносить только после начального ознакомления с PDT и создания нескольких отчетов.

Изменение получателя отчетов PDT и уровня серьезности

По умолчанию отчеты PDT создаются с уровнем серьезности 1 только для наиболее сложных неполадок. Существуют другие уровни серьезности (2 и 3), на которых можно получить более подробные сведения. Далее, при создании отчета PDT он отправляется администратору. Можно задать отправку отчета на другой адрес или не отправлять его вообще.

Оба этих параметра можно настроить с помощью сценария /usr/sbin/perf/diag_tool/pdt_config.Имя пользователя и уровень серьезности устанавливаются с помощью следующего диалога:

# /usr/sbin/perf/diag_tool/pdt_config
 
________________Меню настройки PDT__________________
 
1) показать текущего получателя отчета PDT и уровень серьезности
2) изменить/включить создание отчетов PDT
3) отключить создание отчетов PDT
4) изменить/включить сбор данных PDT
5) отключить сбор данных PDT
6) удалить PDT из системы
7) завершить работу pdt_config
Введите номер: 1
 
текущий получатель отчета PDT и уровень серьезности
adm 1
 
________________Меню настройки PDT__________________
 
1) показать текущего получателя отчета PDT и уровень серьезности
2) изменить/включить создание отчетов PDT
3) отключить создание отчетов PDT
4) изменить/включить сбор данных PDT
5) отключить сбор данных PDT
6) удалить PDT из системы
7) завершить работу pdt_config
Введите номер: 2
 
введите id@host для получателя отчета : rsmith
введите уровень серьезности для отчета (1-3): 2
 
получатель отчета и уровень серьезности
rsmith 2
 
________________Меню настройки PDT__________________
 
1) показать текущего получателя отчета PDT и уровень серьезности
2) изменить/включить создание отчетов PDT
3) отключить создание отчетов PDT
4) изменить/включить сбор данных PDT
5) отключить сбор данных PDT
6) удалить PDT из системы
7) завершить работу pdt_config
Введите номер: 1
 
текущий получатель отчета PDT и уровень серьезности
rsmith 2
 
________________Меню настройки PDT__________________
 
1) показать текущего получателя отчета PDT и уровень серьезности
2) изменить/включить создание отчетов PDT
3) отключить создание отчетов PDT
4) изменить/включить сбор данных PDT
5) отключить сбор данных PDT
6) удалить PDT из системы
7) завершить работу pdt_config
Введите номер: 7

В предыдущем примере был задан новый получатель отчетов rsmith, а уровень серьезности был изменен на 2. Это означает, что пользователь rsmith получит отчет PDT, в который будут включены сообщения уровня серьезности 1 и 2. Обратите внимание на использование опции 1 для просмотра информации о текущем получателе отчета и уровне серьезности.

Пользователя и уровень защиты можно изменить непосредственно в файле /var/perf/cfg/diag_tool/.reporting.list.

Отключить форматирование отчетов (с продолжением сбора данных) можно с помощью опции 3, например:

# /usr/sbin/perf/diag_tool
 
________________Меню настройки PDT__________________
 
1) показать текущего получателя отчета PDT и уровень серьезности
2) изменить/включить создание отчетов PDT
3) отключить создание отчетов PDT
4) изменить/включить сбор данных PDT
5) отключить сбор данных PDT
6) удалить PDT из системы
7) завершить работу pdt_config
Введите номер: 3
 
создание отчетов PDT отключено
 
________________Меню настройки PDT__________________
 
1) показать текущего получателя отчета PDT и уровень серьезности
2) изменить/включить создание отчетов PDT
3) отключить создание отчетов PDT
4) изменить/включить сбор данных PDT
5) отключить сбор данных PDT
6) удалить PDT из системы
7) завершить работу pdt_config
Введите номер: 1
 
создание отчетов отключено (файл .reporting.list не найден).

Уровни серьезности PDT

Ниже приведен список возможных ошибок и уровень их серьезности в PDT. Помните, что если задан уровень серьезности n, то в отчет будут включены все сообщения уровня серьезности, меньшего либо равного n.

Неполадки с уровнем серьезности 1

Журналируемая файловая система (JFS) недоступна
JFS почти заполнена
Физический том не входит ни в одну группу томов
Все области подкачки находятся на одном физическом томе
В системе недостаточно памяти для текущей рабочей схемы
Пространство подкачки почти заполнено
Возможно, неправильно настроена система управления загрузкой памяти
VMM обнаружил поврежденные страницы памяти
Хост из списка .nodes недостижим

Неполадки с уровнем серьезности 2

Неравномерное распределение устройств ввода-вывода (например, число дисков для каждого адаптера)
Неравномерное распределение областей подкачки по физическим томам из пространства подкачки
Фрагментация пространства подкачки в группе томов
Существенная неравномерность в распределении операций ввода-вывода между физическими томами
Новый процесс требует много памяти или ресурсов CPU
Файл из списка .files регулярно увеличивается (уменьшается) в размере
Занятый объем файловой системы или области подкачки регулярно увеличивается (или уменьшается)
Для хоста из списка .nodes увеличивается время задержки ping или процент потери пакетов
Для работы процесса getty требуется слишком много ресурсов CPU.
Уровень использования ресурсов процессом с высокой потребностью в памяти или процессорном времени регулярно увеличивается (или уменьшается)
Значение maxuproc является, скорее всего, слишком низким для конкретного пользователя
Значение индикатора МОНИТОРИНГ РАБОЧЕЙ СХЕМЫ постоянно возрастает

Сообщения с уровнем серьезности 3

Сообщения с уровнем серьезности 3 содержат дополнительную информацию об ошибках с уровнем серьезности 1 и 2. В число таких сообщений входят характеристики системы сбора данных, такие как количество измерений.

Получение отчета PDT по запросу

В качестве дополнения к периодическому отчету пользователь может запросить текущий отчет с помощью сценария /usr/sbin/perf/diag_tool/pdt_reportSeverityNum. Отчет будет создан с текущим уровнем серьезности (если он не задан, то используется значение по умолчанию параметра SeverityNum - 1) и направлен на стандартный вывод. При создании отчета таким способом в файлы /var/perf/tmp/PDT_REPORT и /var/perf/tmp/PDT_REPORT.last не будут внесены никакие изменения.

Изменение списка файлов, отслеживаемых PDT

PDT позволяет следить за изменением размера отдельных файлов и каталогов. Размер вычисляется только для файлов и каталогов, перечисленных в файле /var/perf/cfg/diag_tool/.files. В файлах типа .files в каждой строке содержится имя одного каталога. По умолчанию файл содержит следующие каталоги:

/usr/adm/wtmp
/var/spool/qdaemon/
/var/adm/ras/
/tmp/

Для отслеживания критических файлов и каталогов системы этот файл можно изменить с помощью редактора.

Изменение списка хостов, отслеживаемых PDT

PDT отслеживает среднюю задержку ping соединений с хостами, которые перечислены в файле /var/perf/cfg/diag_tool/.nodes. Этот файл не поставляется в комплекте PDT (это означает, что по умолчанию анализ для хостов не выполняется), но может быть создан администратором. В файле .nodes необходимо указывать одно имя хоста в строке. Например, для отслеживания узлов chuys и hulahut файл .nodes должен выглядеть следующим образом:

chuys
hulahut

Изменение времени хранения хронологических данных

Записи в хронологической записи PDT, время хранения которых превосходит заданное значение, удаляются периодически запускаемым сценарием отсрочки оболочки. Время хранения всех данных определяется единой стратегией хранения. Эта стратегия задана в файле /var/perf/cfg/diag_tool/.retention.list. По умолчанию файл .retention.list содержит следующие записи:

* * * 35

При этом все данные хранятся не более 35 дней. Число 35 можно заменить любым натуральным числом.

PDT использует базу данных хронологии для выявления тенденций и определения произошедших в системе изменений. При увеличении периода отсрочки область анализа будет расширена, но для этого потребуется дополнительное место на диске и вычислительные ресурсы PDT.

Хронологическая запись PDT хранится в файле /var/perf/tmp/.SM. Перед удалением устаревших данных сценарий создает копию этого файла в /var/perf/tmp/.SM.last. Кроме того, удаляемые хронологические данные добавляются в файл /var/perf/tmp/.SM.discards.

Данные в файле /var/perf/tmp/.SM.last позволяют восстановить некоторую часть хронологических записей, но администратора должен следить за регулярным созданием резервной копии файла /var/perf/tmp/.SM. Если файл теряется, то PDT продолжает работу, но хронологическая информация при этом не учитывается. С течением времени хронологическая информация накапливается, и PDT возобновляет нормальную работу.

Изменение времени сбора, хранения и обработки данных

Сбор, хранение и обработка данных инициируются тремя записями в таблице администратора cron. Сбор данных запускается по рабочим дням в 09:00 (Driver_ daily). Создание отчетов запускается каждый день в 10:00 (Driver_ daily2). Отложенный анализ данных выполняется один раз в неделю, в субботу, в 09:00 (Driver_ offweekly). При выполении этих операций применяются следующие файлы:

/var/perf/cfg/diag_tool/.collection.control: Содержит параметры сбора информации
/var/perf/cfg/diag_tool/.retention.control: Содержит параметры хранения информации
/var/perf/cfg/diag_tool/.reporting.control: Содержит параметры создания отчетов

Ниже показаны записи cron (для их создания необходимо запустить сценарий /usr/sbin/perf/diag_tool/pdt_config и выбрать опцию 2):

0  9 * * 1-5   /usr/sbin/perf/diag_tool/Driver_ daily
0 10 * * 1-5   /usr/sbin/perf/diag_tool/Driver_ daily2
0 21 * * 6     /usr/sbin/perf/diag_tool/Driver_ offweekly

Для изменения значений времени по умолчанию необходимо изменить файл администратора crontab.

Изменение пороговых значений

Файл /var/perf/cfg/diag_tool/.thresholds содержит пороговые значения, которые применяются при анализе данных и создании отчетов. Перечисленные ниже пороговые значения влияют на структуру и содержимое создаваемых отчетов PDT.

DISK_STORAGE_BALANCE
Идентифицируются контроллеры SCSI с наибольшим и наименьшим объемами дисковой памяти. Это постоянное значение, а не объем занятого или свободного пространства. Если разность этих значений (в Мб) превосходит значение DISK_STORAGE_BALANCE, то отправляется следующее сообщение:
```
Объем памяти контроллера SCSI  %s превосходит объем памяти контроллера %s на %.0lf Мб
```
Значение DISK_STORAGE_BALANCE по умолчанию - 800. Допустимо любое целое значение от 0 до 10000.
PAGING_SPACE_BALANCE
Идентифицируются наибольшая и наименьшая области подкачки. Если разность значений (в Мб) превосходит PAGING_SPACE_BALANCE, то отправляется соответствующее сообщение. Значение по умолчанию - 4. Допустимо любое целое значение от 0 до 100. В данном выпуске это пороговое значение не используется при анализе данных и создании отчетов.
NUMBER_OF_BALANCE
Идентифицируются контроллеры SCSI с наибольшим и наименьшим числом подключенных дисков. Если разность этих значений превосходит NUMBER_OF_BALANCE, то отправляется следующее сообщение:
```
Число дисков контроллера SCSI %s превосходит число дисков контроллера %s на %.0lf
```
Значение по умолчанию - 1. Допустимо любое целое значение от 0 до 10000.
Аналогичным образом проверяется число областей подкачки для каждого физического тома:
```
Физический том %s содержит %.0lf областей подкачки, а физический %s - только %.0lf
```
MIN_UTIL
Значение, связанное с использованием процессов. Если в число 3 процессов, наиболее активно использующих ресурсы CPU, попадает новый процесс, то сообщение о нем отправляется только в том случае, если степень использования им CPU превосходит MIN_UTIL.
```
Первое появление процесса %s (%s) в числе 3 наиболее активно использующих cpu
```
Это же пороговое значение используется для трех процессов, для работы которых требуется наибольший объем памяти:
```
Первое появление процесса %s (%s) в числе 3, для работы которых требуется наибольший объем памяти
```
Значение по умолчанию - 3. Допустимо любое целое значение от 0 до 100.
FS_UTIL_LIMIT
Значение, связанное с использованием журналируемой файловой системы. Если степень использования файловой системы превосходит FS_UTIL_LIMIT, то отправляется следующее сообщение:
```
Степень использования файловой системы %s (%s) достигла %.0lf %%
```
Это же пороговое значение используется для областей подкачки:
```
Степень использования области подкачки %s достигла %.0lf %%
```
Значение по умолчанию - 90 процентов. Допустимо использование любого целого значения от 0 до 100.
На файловые системы /, /var и /tmp следует обратить особое внимание. Эти файловые системы используются в нормальном режиме работы системы. При переполнении любой из них поведение системы становится непредсказуемым. Если при выполнении команд возникают сбои, то создаются соответствующие сообщения об ошибках; тем не менее, для предварительного обнаружения неполадок файловых систем рекомендуется снизить значение FS_UTIL_LIMIT до 70 или 80 процентов.
MEMORY_FACTOR
Это значение позволяет определить, соответствует ли общий объем памяти объему областей подкачки. Если объем памяти близок к используемому объему областей подкачки, то области подкачки в системе, скорее всего, используются, и при увеличении объема оперативной памяти производительность системы может возрасти.
Сравнение проводится с использованием существующей информации; значение MEMORY_FACTOR * сравнивается со средним объемом используемой области подкачки.
Значение по умолчанию - 0.9. При увеличении этого числа предупреждающее сообщение отправляется с большей частотой:
```
В системе установлено %.0lf Мб памяти; ее может быть недостаточно.
```
При увеличении данного числа это значение будет отправляться реже. Допустимы значения от 0.001 до 100.
TREND_THRESHOLD
Применяется при оценке всех тенденций. Оно используется после линейного восстановления всех хронологических данных. Оно позволяет выбрать наиболее короткий отрезок между точками. Угол наклона отрезка должен превышать значение last_value * TREND_THRESHOLD.
```
Объем файловой системы %s (%s) увеличивается,
файловая система %.2lf %% переполнена и ее объем увеличивается в среднем на %.2lf %% ежедневно
```
Это значение служит для практической проверки тенденций независимо от их статистической основы.
Например, при предположении, что файловая система ежедневно увеличивается на X Мб, и значение last_value для файловой системы не превосходит 100 MB, для практического подтверждения тенденции необходимо создание отчета о том, что X превосходит 100 MB * TREND_THRESHOLD. Значение по умолчанию - 0.01; таким образом, для создания отчета необходимо ежедневное увеличение объема на 1 Мб. Для порога допустимо значение от 0.00001 до 100000.
Эти пороговые значения позволяют оценивать тенденции, связанные с:
- Использованием CPU тремя самыми требовательными процессами
- Использованием памяти тремя самыми требовательными процессами
- Размером файлов, указанным в файле .files
- Журналируемыми файловыми системами
- Областями подкачки
- Ошибками программного и аппаратного обеспечения
- Индикаторами рабочей схемы
- Процессами для каждого пользователя
- Задержкой ping соединений с узлами, перечисленными в файле .nodes
- Доля потерянных пакетов в соединениях с узлами, перечисленными в файле .nodes
EVENT_HORIZON
Применяется при оценке тенденций. Например, для файловых систем, если существует явная (как статистически, так и практически подтвержденная), тенденция использования файловой системы, то это позволяет оценить время, за которое файловая система будет полностью заполнена. Если этот момент находится в интервале, обозначенном значением EVENT_HORIZON, то будет отправлено следующее сообщение:
```
При такой степени использования, файловая система %s будет заполнена через %.0lf дней
```
Значение по умолчанию - 30; допустимо использование любых целых значений от 0 до 100000.
Эти пороговые значения позволяют оценивать тенденции, связанные с:
- Файловыми системами (JFS)
- Областями подкачки

Сообщения об ошибках PDT

Ошибки могут возникнуть в любом из компонентов PDT. Обычно при возникновении ошибки работа PDT не завершается. Вместо этого сообщение отправляется в стандартный файл ошибок PDT - /var/perf/tmp/.stderr. Затем этот этап обработки завершается.

Если неадекватном поведении системы, например, в том случае, если не создаются необходимые отчеты PDT, ознакомьтесь с файлом /var/perf/tmp/.stderr.

Удаление PDT

Удалить PDT непосредственно с помощью команды pdt_config невозможно, но с помощью опции 6 можно просмотреть информацию о действиях по удалению PDT из системы:

# /usr/sbin/perf/diag_tool/pdt_config
 
________________Меню настройки PDT__________________
 
1) показать текущего получателя отчета PDT и уровень серьезности
2) изменить/включить создание отчетов PDT
3) отключить создание отчетов PDT
4) изменить/включить сбор данных PDT
5) отключить сбор данных PDT
6) удалить PDT из системы
7) завершить работу pdt_config
Введите номер: 6
 
  PDT установлен как пакет bos.perf.diag_tool в составе bos lpp.
  Удалите пакет с помощью средства installp