Александр Фатерыга пишет:Вот не собираюсь, ибо фигня это все, так как
Илья Оголь пишет:применение разных метрик (имени десятка достопочтенных математиков) к одним и тем же данным приводят к разным выводам
Это не касается PCA, в нем всегда только одна метрика - коэффициент корреляции Пирсона. А то, что в многомерном шаклировании разные метрики приводят к разным результатам - не баг, а фича, так как это эквивалентно проверке разных гипотез. Но она налагает высокие требования к квалификации аналитика. Вертолетом труднее управлять чем мопедом, и для этого надо гораздо больше учиться, но если уж научился, то возможности передвижения резко расширяются.
А под доверительным интервалом вроде бы всегда понималось стандартное отклонение, деленное на корень из объема выборки и умноженное на табличное значение t. Если где-то что-то другое имеется в виду под доверительным интервалом, то наверное тогда об этом упоминают специально.
Это неверное утверждение. Описан лишь один из множества способов построения доверительного интервала для математического ожидания при условии нормальности выборки. Кстати, о какой-либо проверке нормальности в статье ни слова нет. Вполне может быть, что там настолько ненормальное распределение, что применение всех тех методов является полным нонсенсом.
Какой t-критерий использован, в статье указано путем ссылки на книгу, где есть формула (а не на программы, которые считают что-то другое вместо него).
Если мне память не изменяет, в этой книжке оба описаны. Причем, по крайней мере в западной традиции, считается, что это один-единственный t-критерий Стьюдента, просто о в разных модификациях. И ихний софт зачастую даже не предупреждает, какую из них считает (для этого надо курить мануал). Ты ж не руками по формуле из Гланца считал, так ведь?
Илья Оголь пишет:Вот я же говорю, фигня все это. Например, критерий показал отличие двух видов по средним размерам лепестка, но если добавить третий вид, то первые два уже перестанут друг от друга отличаться.
Фигня - только на первый взгляд, а в реальности - сложная эпистемологическая проблема! Причем статистика тут вторична, проблема множественных сравнений в ней лишь приобрела наиболее формализировнный вид, но разспространяется так же на любой другой метод познания. Например, если бы ты взял выборку цветочков, и последовательно сравнивал с множеством других выборок цветочков, то некоторые из них даже чисто визуально показались бы ну совсем непохожими, несмотря на принадлежность к одной генеральной совокупности. И чем больше сравнений, тем больше найдется непохожих выборок, при том что это будет чисто случайная непохожесть, не имеющая никакого научного смысла. В статистике это называется ошибкой первого рода, и именно с ней связан достигаемый уровень значимости p. Есть много способов ее контроля для множественных сравнений, но самый элегантный - применение перестановочных критериев. Кстати это спасает и от множеств других промлем, таких как сильные допущения.
Илья Оголь пишет:И еще, хотя у факторного анализа ноги растут из анализа главных компонент, традиционно координаты последнего принято именовать главными компонентами, а не факторами.
Т.е. программу Statistica тоже делали люди, которым надо матчасть подтянуть, раз она выдает такие подписи осей?
Очевидно, это происходит вследствие того, что простой PCA делается там через модуль ФА, а программисту было лень добавить пару строк кода для изменения подписей осей, в зависимости от выбранного метода. Фактически PCA - это факторный анализ без вращения решения, тем не менее, в нем есть свои традиции оформления.
Так может лучше ты их пойдешь просветишь? А еще лучше выложи свою статью с крутой (надо полагать?) статистикой, но с устаревшими названиями и классификацией растений, а также криво переведенной английской аннотацией, а я накидаю с десяток придирок и советов, что тебе надо "подтянуть".
Я уже говорил, что к любой обоснованной критике отношусь сугубо положительно, чего и тебе желаю. Конструктивная критика - путь к совершенствованию. Так что можешь начинать придираться и советовать - только лишь скажу "спасибо". Судя по упоминанию устаревших названий растений, образец у тебя уже имеется. Единственное, - по поводу перевода на английский ничего писать не надо. Я этот язык никогда не учил, и не собираюсь. Термины перевожу я, остальное - Гугль, а буржуи пусть читают, как есть (там все вполне понятно, даже если имеются грамматические огрехи) и радуются, что им не приходится переводить русского самостоятельно (как нам с ихнего), а заодно Гугль-переводчик допиливают.
А если серьезно, то конечно авторы статьи не эксперты в статистике, и эти промеры добавлены лишь затем, чтобы не быть как кое-кто из коллег-орхидологов, у которых "растения более мощные" и "цветки крупнее" без всяких там измерений.
А как бы ты оценил статью, написанную профессиональным статистиком, который бы с математической точки зрения безукоризненно доказал, что среди всех огородных растений средней полосы России в среднем самый крупный цветок имеет подсолнечник, а самый толстый корень - картофель? Кстати, к тем орхимдологам, у кого "цветки крупнее" и "растение мощнее" придраться с точки зрения статистики не получится: нету тела - нету дела. Применение любого нового для автора научного метода не только открывает новые возможности, но и налагает новые обязательства, а именно применять его правильно. Иначе можно такого "понаоткрывать"... И примеров ложных открытий масса, причем нередко даже опытные статистики ошибаются в основном выводе, забыв учесть какую-нибудь малость. Это нормально и простительно. А вот отговорка "я не статистик, и фигня все это" - нет. Errare gumanum est, stultum est in errore perseverare.