Re: Цифровой Гербарий МГУ
10.01
За кулисами Цифрового гербария МГУ
Этот небольшой иллюстрированный рассказ о том, как мы готовим первичные метаданные перед публикацией новых сканов.
Метаданные - это текстовая структурированная информация, которая используется для правильной интеграции изображения в онлайн-версию портала. В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) обязательными метаданными являются три параметра: 1) номер образца по штрихкоду, 2) принятое в коллекции название таксона, 3) один из 60 географических районов гербария. Уже потом они "обрастают" привязкой к странам и регионам, полным текстом этикеток и, наконец, координатами мест сбора.
Ввод кратких метаданных - это очень ответственная процедура. Малейшая ошибка, и образец уже никогда не будет найден среди миллиона других листов. Детали должны сойтись "до копейки": все новые образцы (а их от 15 до 20 тыс. в год) должны иметь сведения в таблице метаданных и, наоборот, все записи в таблице метаданных должны соответствовать единственному скану.
Итак, по порядку.
1) Сразу после монтировки сотрудники надписывают карандашом на образце два кода: индекс рода в правом нижнем углу... (здесь "9339" - индекс ромашки)
2) ... и номер района в левом нижнем углу (здесь "7" - номер для Чукотки и Камчатки). Далее гербарий накапливается в течение 11 месяцев до следующего завоза сканеров. Сканеры привозят на пару месяцев осенью.
3) Перед сканированием все образцы, например, из отдела Сибири нами сортируются друг за другом: по индексу рода - далее по алфавиту видов - далее по номеру района. Именно в таком порядке они и сканируются. Сразу после сканирования программа-ридер автоматически присваивает файлу номер по штрихкоду (например, "MW0162810" и многие др.).
4) Получив диск с отсканированными новыми материалами, мы также получаем к нему столбик в формате xls с номерами файлов. Этот файл формируется программой, поэтому пропуски исключены.
5) На его основе мы образец за образцом начинаем создавать таблицу метаданных. Здесь дан пример для сибирского массива: штрихкод - индекс рода - название таксона "как есть" (с этикетки) - номер района. На части экрана открыта xls-таблица, сверху - скан. Удобный вариант: использовать два монитора. Один оператор способен в день вбить до 1 тыс. листов. Иногда мы это делаем еще до сканирования, используя пачки свежего гербария до их отправки на сканеры и внося номера штрихкодов вручную.
6) Далее идет этап стандартизации номенклатуры. Это делает куратор гербария. С помощью функции ВПР стыкуем две таблицы: свежую с видами, введенными для скорости с этикетки, и стандартный перечень принятых в коллекции названий, которая показана на скриншоте.
7) Реальная формула стыковки для строки 3120 выглядит так:
=ВПР(C3120;$I$1:$J$37182;2;ЛОЖЬ), где "$I$1:$J$37182" - якори для таблицы со стандартными названиями (в правой части экрана). Если все состыковалось, то получаем "1", если нет - то "Н/Д". Например, ниже на строке 3122 написано "Arnica unalaschkensis", а стандартный перечень содержит "Arnica unalaschсensis".
8) Вручную исправляем "невставшие" названия. Это позволяет как уточнить номенклатуру введенных данных, так и избежать ошибок и опечаток операторов. Поправленный файл отправляем нашей IT-команде.
9) Программисты грузят новые сканы на портал, используя эту табличку как ключ, и стыкуют наши стандартные "названия в коллекции" с номенклатурой из Catalogue of Life. В поисковой выдаче это потом выглядит так...
10) ...а в слайд-шоу через функцию "Галерея" уже так.
В этом процессе задействовано 5 человек: монтировщик, сортировщик, оператор ввода, куратор, программист. Настоящий team-work.