Оценивание показателей качества измерительного инструмента

Постановка проблемы.
В соответствии с требованиями международных стандартов ИСО серии 9000, организация должна проводить мониторинг информации, касающейся восприятия потребителями выполнения организацией их требований, как одного из способов измерения работы системы менеджмента качества (СМК). При этом должны быть установлены методы получения и использования этой информации.
 
Особую актуальность приобретает обоснование качества измерительного инструмента, т.е. составляемые аудиторами опросные листы, анкеты, тесты и т.п. Опыт организации и проведения мониторинга показывает, что аудиторы достаточно редко используют статистические методы обоснования соответствия применяемых ими анкет их целевому предназначению, считая их априорно пригодными для исследования. Данная практика
может приводить к получению надежной, точной, но не имеющей прямого отношения к объекту исследования информации.
 
Анализ последних исследований и публикаций.
 
 Анализ литературы и практик в данной предметной области показывает, что в настоящее время процесс выбора измерительного инструмента для мониторинга требований потребителей имеет следующие недостатки:
• применение эталонного подхода, базирующегося на авторитете разработчика инструмента, признанном в профессиональной среде, что не всегда оправдано; необходима дополнительная адаптация подхода к конкретным условиям проведения исследований;
• отсутствие в большинстве случаев статистического обоснования состоятельности самостоятельно разработанного авторского инструмента. При этом следует отметить, что сами потребители (внешний и внутренний) в СМК представляют собой достаточно сложный объект исследования:
• внешний потребитель как пользователь конечной продукции или услуг, производимых предприятием;
• внутренний потребитель как персонал организации, заинтересованный в системе вознаграждения (заработная плата, карьера, обучение и т. д.) за качественный и производительный труд. Если требования внешних потребителей конечной продукции являются относительно конкретными, то требования внутренних потребителей отличаются высокой степенью неопределенности или имеют латентный характер, что вызывает необходимость более корректной разработки методов, технологий и инструментов их изучения.
 
Постановка задачи.
В связи с этим представляется целесообразной разработка и применение алгоритма оценивания показателей качества измерительного инструмента для изучения удовлетворенности потребителя уровнем реализации его требований в продукции (услуге) или в системе вознаграждения (мотивационной политике) организации, позволяющего обеспечить качество анкеты (теста) и обосновать возможность ее использования для конкретного исследования. Обоснование качества измерительного инструмента предусматривает реализацию следующих мероприятий (рис. 1):
• оценка эмпирической валидности инстру мента, т. е. соответствия результатов применения инструмента той характеристике, для измерения которой он предназначен;
• оценка надежности инструмента путем определения его согласованности, т. е. степени однородности состава вопросов (заданий) с точки зрения измеряемой характеристики;
• оценка надежности инструмента путем определения его устойчивости, т. е. способность инструмента давать при повторном измерении близкие результаты;
• подтверждение соответствия использования инструмента целям исследования, а при наличии несоответствий разработка или выбор нового инструмента.
 
Изложение основного материала исследования.
Оценивание состоятельности параметров измерительного инструмента (анкеты), где в качестве объекта исследования рассматривалась степень удовлетворенности внутреннего потребителя (персонала) выполнением требований к системе вознаграждения, предлагаемого работодателем за производительный труд, проводилось на промышленном предприятии Брянской области. В качестве измерительного инструмента предлагалась разработанная авторская анкета [1], базирующаяся на известной модели конкурирующих
ценностей К. Камерона и Р. Куинна [2] и адаптированная к российской действительности. Независимыми экспертами при оценке предлагаемого инструмента выступили ведущие сотрудники и руководители предприятия (13 человек). Обоснование эмпирической валидности авторского инструмента основывается на наличии тесноты ранговой корреляции между авторской и апробированной анкетами: если существует корреляционная связь между данными, полученными при изучении объекта различными инструментами, и один из них уже является валидным (апробированным), то и другой также может рассматриваться как валидный.
 
В качестве апробированной анкеты использовалась анкета модели конкурирующих ценностей К. Камерона и Р. Куинна – инструмент оценки организационной культуры (OCAI Organizational Cultures Analyze Instrument) [2]. Идентификация организационной культуры, ее ценностей и моделей поведения работника позволяют разработать
систему вознаграждений персонала (заработной платы, карьеры, обучения и т.д.) за качественный и производительный труд, исходя из возможностей организации.
 
Для установления эмпирической валидности инструмента проводится пилотное исследование, в ходе которого респонденты оценивают исследуемый объект при помощи альтернативных анкет: авторской и эталонной. Связь между результатами измерения по авторской и эталонной анкетам определяется расчетом коэффициента ранговой
корреляции Спирмена [3]:
где ri и si – ранги i-го объекта по авторской и альтернативной анкетам; n – число наблюдений (респондентов).
Ранговые оценки организационных культур на основе альтернативных анкет представлены в табл. 1.
 
Возможность применения авторской анкеты требует обоснования статистической значимости коэффициента корреляции Спирмена по выборке из n элементов, определяемой путем сравнения эмпирического и критического значений t-критерия
Стьюдента (с f=n–2 степенями свободы и уровнем значимости α=0,05):
где ρ – коэффициент корреляции Спирмена; n – число наблюдений (респондентов); t1–α;n–2 – критическое значение t-критерия Стьюдента. При ρ≥0,71 и t>t1–α;n–2 коэффициент корреляции Спирмена признается статистически значимым, а исследуемый
инструмент (авторская анкета) – валидным [4, 5]. Полученные данные подтверждают гипотезу о статистической значимости коэффициента корреляции Спирмена (ρ=0,75>0,71; t=3,7920>t0,95;11=2,20) и признании исследуемого инструмента эмпирически валидным.
 
Надежность как внутренняя согласованность определяется связью каждого конкретного элемента анкеты с общим результатом, с тем, насколько каждый элемент измеряет признак, на который направлен весь инструмент. Для проверки внутренней согласованности применяется метод расщепления (метод раздельного коррелирования),
предусматривающий разделение анкеты на две равные части (например, четные и нечетные вопросы, первая и вторая половины опросного материала) и нахождение корреляции между ними.  Данные исследования надежности анкеты по критерию согласованности представлены в табл. 2.
 
Обоснование надежности анкеты по признаку ее согласованности может быть проведено на основе вычисления коэффициента надежности Спирмена–Брауна (rнт), базирующегося на значении коэффициента корреляции (rxy) между двумя частями анкеты:
При коэффициенте rнт≥0,71 и подтверждении его статистической значимости на основе t-критерия Стьюдента можно говорить о надежности материала анкеты по критерию согласованности [4]. В нашем случае критерий надежности принимает значение rнт=0,98>0,71, что свидетельствует о высокой надежности исследуемого инструмента по признаку согласованности.
 
Статистическая значимость коэффициента корреляции, используемого при расчете коэффициента надежности Спирмена–Брауна, устанавливается аналогично определению эмпирической валидности инструмента (анкеты), но в данном случае в формулу подставляется не число респондентов n, а m – число пунктов анкеты:
где rxy– коэффициент корреляции между двумя частями анкеты (А и В); m – число пунктов анкеты; t1-α;m⁄2-2 – критическое значение t-критерия Стьюдента. Предлагаемая анкета является статистически надежной по критерию согласованности, так как выполняются условия: коэффициент корре ляции rxy=0,95>0,71 (коэффициент надежности Спирмена–Брауна rнт=0,98>0,71), эмпирическое и критическое значения t-критерия Стьюдента отвечают неравенству t=13,0493>t0,95;18=10.
 
Надежность как устойчивость определяется методом ретеста [4]. Этот метод предусматривает проведение нескольких измерений одним и тем же инструментом с некоторым промежутком времени (от недели до двух месяцев). Для того чтобы признать надежность (устойчивость) тестируемого инструмента, следует проверить выполнение следующих условий:
• статистически значимое значение коэффициента корреляции (rxy≥0,71) между данными первого и повторного опросов респондентов (t>t1-α;n-2);
• статистически незначимые различия в средних значениях x , y , полученных при первичном и повторном анкетировании ( ) ; t t n n > 1−α 1+ 2−2 .
 
Результаты опросов респондентов представлены в табл. 3. В нашем случае очевидно наличие сильной связи между полученными результатами:
rxy=0,91>0,71. Возможность применения авторской анкеты требует обоснования статистической значимости коэффициента корреляции.
 
Коэффициент корреляции, как известно, признается статистически значимым при уровне значимости α=0,05 и числе степеней свободы f=n–2 при выполнении следующего неравенства:
где rxy – коэффициент корреляции между результатами первого и повторного анкетирования; n – число наблюдений (респондентов); t1-α;n-2 – табличное значение t-критерия Стьюдента. В нашем случае имеем t=7,2795>t0,95;11=2,20. Полученные результаты свидетельствуют о статистической значимости коэффициента корреляции.
 
Статистическая значимость различий в средних значениях при небольших выборках определяется на основе t-критерия Стьюдента. При этом, чтобы различия в средних значениях, полученных при первичном и повторном анкетировании, рассматривались как статистически незначимые, необходимо провести сравнение эмпирического и критического значений t-критерия Стьюдента (с f=n1+n2–2 степенями свободы и уровнем значимости α = 0,05), отвечающее требованию выполнения неравенства t t n n < 1− 1 + 2 −2 α ; .
 
Для обоснования статистически незначимых различий в средних значениях, полученных при первичном и повторном анкетировании, вначале проверяется равенство дисперсий Sx
2 и Sy 2 с помощью F-критерия Фишера. Если обозначить через S1 2 большую из сравниваемых дисперсий, а через S2 2 меньшую, то при выполнении неравенства дисперсии можно рассматривать как однородные:
Sy 2 =13933,3333 однородны, а среднеквадратическое отклонение S=118,8234, то несущественные различия в средних значениях, полученных при первичном и вторичном тестировании, подтверждаются на основе применения t-критерия Стьюдента и при выполнении следующего неравенства:
где x , y , – средние значения оценок, полученных при первичном и повторном опросах; S – среднеквадратичное отклонение оценок, полученных при опросе; nx, ny – число наблюдений (респондентов) при первичном и повторном опросах; t(1 /2);n1 n2 2 −α + − критическое значение t-критерия Стьюдента. Предлагаемый авторский инструмент может
быть признан надежным по критерию устойчивости, так как одновременно выполняются условия о статистической значимости коэффициента корреляции (rxy=0,91>0,71 при t=7,2795>t0,95;11=2,20) и статистически незначимых различиях в средних значениях, полученных при первичном и повторном тестировании (t=0<t(1-0,05/2);24=2,06). Полученные результаты позволяют сделать вывод о том, что авторская анкета, разработанная для оценки, например, удовлетворенности персонала своим положением на предприятии, обладает состоятельностью и может быть использована в исследовании.
 
Выводы и предложения.
С учетом того, что в современных условиях развития организация должна достаточно корректно определять, собирать и анализировать соответствующую информацию для демонстрации пригодности, результативности и постоянного повышения эффективности процессов и СМК в целом, особое значение придается методам и инструментам получения такой информации. Предлагаемый подход обоснования состоятельности измерительного инструмента, базирующегося на использовании статистических методов, позволяет не только определить качество используемого в исследовании инструмента, но и повысить уровень надежности получаемых при этом данных.