Re: Цифровой Гербарий МГУ

10.01

За кулисами Цифрового гербария МГУ

Этот небольшой иллюстрированный рассказ о том, как мы готовим первичные метаданные перед публикацией новых сканов.

Метаданные - это текстовая структурированная информация, которая используется для правильной интеграции изображения в онлайн-версию портала. В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) обязательными метаданными являются три параметра: 1) номер образца по штрихкоду, 2) принятое в коллекции название таксона, 3) один из 60 географических районов гербария. Уже потом они "обрастают" привязкой к странам и регионам, полным текстом этикеток и, наконец, координатами мест сбора.

Ввод кратких метаданных - это очень ответственная процедура. Малейшая ошибка, и образец уже никогда не будет найден среди миллиона других листов. Детали должны сойтись "до копейки": все новые образцы (а их от 15 до 20 тыс. в год) должны иметь сведения в таблице метаданных и, наоборот, все записи в таблице метаданных должны соответствовать единственному скану.

Итак, по порядку.

1) Сразу после монтировки сотрудники надписывают карандашом на образце два кода: индекс рода в правом нижнем углу... (здесь "9339" - индекс ромашки)
https://pp.userapi.com/c830108/v830108573/2a672/7lS5kuh6Aqc.jpg

2) ... и номер района в левом нижнем углу (здесь "7" - номер для Чукотки и Камчатки). Далее гербарий накапливается в течение 11 месяцев до следующего завоза сканеров. Сканеры привозят на пару месяцев осенью.
https://pp.userapi.com/c830108/v830108573/2a685/Ap_NMq07fp8.jpg

3) Перед сканированием все образцы, например, из отдела Сибири нами сортируются друг за другом: по индексу рода - далее по алфавиту видов - далее по номеру района. Именно в таком порядке они и сканируются. Сразу после сканирования программа-ридер автоматически присваивает файлу номер по штрихкоду (например, "MW0162810" и многие др.).
https://pp.userapi.com/c830108/v830108495/270fb/wyuyTY1rzGk.jpg

4) Получив диск с отсканированными новыми материалами, мы также получаем к нему столбик в формате xls с номерами файлов. Этот файл формируется программой, поэтому пропуски исключены.
https://pp.userapi.com/c830108/v830108495/27134/sn0I8BZSSJs.jpg

5) На его основе мы образец за образцом начинаем создавать таблицу метаданных. Здесь дан пример для сибирского массива: штрихкод - индекс рода - название таксона "как есть" (с этикетки) - номер района. На части экрана открыта xls-таблица, сверху - скан. Удобный вариант: использовать два монитора. Один оператор способен в день вбить до 1 тыс. листов. Иногда мы это делаем еще до сканирования, используя пачки свежего гербария до их отправки на сканеры и внося номера штрихкодов вручную.
https://pp.userapi.com/c830108/v830108495/27166/Ujy-iM-SuEs.jpg

6) Далее идет этап стандартизации номенклатуры. Это делает куратор гербария. С помощью функции ВПР стыкуем две таблицы: свежую с видами, введенными для скорости с этикетки, и стандартный перечень принятых в коллекции названий, которая показана на скриншоте.
https://pp.userapi.com/c830108/v830108495/27192/IRp8fdx5p1o.jpg

7) Реальная формула стыковки для строки 3120 выглядит так:
=ВПР(C3120;$I$1:$J$37182;2;ЛОЖЬ), где "$I$1:$J$37182" - якори для таблицы со стандартными названиями (в правой части экрана). Если все состыковалось, то получаем "1", если нет - то "Н/Д". Например, ниже на строке 3122 написано "Arnica unalaschkensis", а стандартный перечень содержит "Arnica unalaschсensis".
https://pp.userapi.com/c830108/v830108495/271af/bUdP2acMfCA.jpg

8) Вручную исправляем "невставшие" названия. Это позволяет как уточнить номенклатуру введенных данных, так и избежать ошибок и опечаток операторов. Поправленный файл отправляем нашей IT-команде.
https://pp.userapi.com/c830108/v830108495/271e6/THHRZ48VFF8.jpg

9) Программисты грузят новые сканы на портал, используя эту табличку как ключ, и стыкуют наши стандартные "названия в коллекции" с номенклатурой из Catalogue of Life. В поисковой выдаче это потом выглядит так...
https://pp.userapi.com/c834400/v834400495/6668a/FjQM0ZOjrzI.jpg

10) ...а в слайд-шоу через функцию "Галерея" уже так.
https://pp.userapi.com/c834400/v834400495/666e3/njWZtnL9zFE.jpg

В этом процессе задействовано 5 человек: монтировщик, сортировщик, оператор ввода, куратор, программист. Настоящий team-work.

Re: Цифровой Гербарий МГУ

Наталья, просветите!
Возможно ли отсортировать по автору сбора, по дате сбора?

Re: Цифровой Гербарий МГУ

..а что в первую очередь интересует - сборы одного автора или вид какой-то?

Вообще, со страницы https://plant.depo.msu.ru/ можно перейти на поиск по этикеткам https://plant.depo.msu.ru/module/planti … abelpublic

Но выдать, конечно, может только то, что внесено в базу в эл. виде (а этикетки пока есть примерно у 75 тыс. сборов ..)

Или я неточно поняла вопрос?
Если так - уточните. пожалуйста

Re: Цифровой Гербарий МГУ

Спасибо, всё нашёл и понял. То, что меня интересует, видно ещё не внесено.

Re: Цифровой Гербарий МГУ

Немножко нового.

03.02.18.

Герани Сибири

(первое обновление базы данных этикеток в 2018 году)

В 2017 году в Гербарии МГУ плодотворно работала В.И. Трошкина из Новосибирска (ЦСБС СО РАН) - специалист по многолетним гераням. Благодаря ее труду, почти 300 образцов получили уточненные определения.

Виктория согласилась поучаствовать в создании полнотекстовой базы данных Цифрового гербария МГУ. На портал ( https://plant.depo.msu.ru/ ) мы загрузили текстовые расшифровки 700 этикеток гераней Сибири и Дальнего Востока. Это еще один шаг на пути к "Чеклисту флоры России" и "Атласу флоры России", где каждая запись в базе данных будет подкреплена конкретным гербарным образцом.

Re: Цифровой Гербарий МГУ

07.02.

Центральная Камчатка: полные этикетки 1400 образцов

(второе обновление базы данных этикеток в 2018 году)

Известный исследователь флоры Камчатки В.В. Бурый давно сотрудничает с Гербарием МГУ. Но вот беда: на окраинах нашей огромной страны скорость интернета не позволяет эффективно работать со сканами Цифрового гербария МГУ. Для удалённой (во всех смыслах) работы мы поделились с Владимиром офлайн выгрузкой из 25 тыс. сканов с северо-востока России.

На днях Владимир аккуратно внёс в базу данных этикеточную информацию всех сборов с Центральной Камчатки, обнаружив в фондах несколько новых и редких для этого района видов. Теперь этот массив данных был опубликован на нашем портале https://plant.depo.msu.ru/ .

Осенью 2017 года Алексей Лапин сделал аккуратную геопривязку части массива того же района S7 (Чукотка, Камчатка, Магаданская область). Благодаря разработанной нашим программистом Олегом Платко системе ИСТРА ( https://www.msu.ru/science/main_themes/ … istra.html ), большинство образцов с Камчатки, только что введенных в систему, были автоматически привязаны к карте.

Re: Цифровой Гербарий МГУ

09.02.

Северо-Запад России: полные этикетки 2800 образцов

(третье обновление базы данных этикеток в 2018 году)

Основу фондов Гербария Московского университета составляют сборы с территории России. Именно российские коллекции в фокусе нашего постоянного внимания при вводе новых полнотекстовых данных. В середине ноября 2017 г. мы загрузили в Цифровой гербарий МГУ ( https://plant.depo.msu.ru/ ) 940 этикеток с Северо-Запада России. Это Калининградская, Тверская, Новгородская, Псковская, Ленинградская области и Санкт- Петербург. Благодаря усилиям Ирины Мельник к ним вчера добавлены еще 2,800 записей.

Район Е2 нашего гербария когда-то включал и сборы из Прибалтики - Литвы, Латвии и Эстонии. В начале 1990-х гг. район был разделен на четыре части согласно государственным границам, однако некоторые образцы не были переложены верно. Да и попробуйте найти на карте, где находится сейчас Heiligensee или Camby с пометкой "Ост-Зейские губернии". В общем, задача по оцифровке этикеточных данных района E2 включала в себя и более сложную частную задачу - убрать всё лишнее. Сотни листов "уехали" в Латвию, десятки - в Эстонию, немногое - в Литву, Белоруссию и на Русский Север.

Благодаря аккуратной "чистке" массива, Гербарий Московского университета сейчас является крупнейшей точкой доступа к сканам гербарных образцов не только с Северо-Западной России, но и из сопредельных стран - Латвии (3349 листов), Литвы (588) и Белоруссии (5304). А вот эстонские национальные коллекции уже давно переведены в цифру - об этом свидетельствуют и данные GBIF, которые представлены на карте. Есть над чем работать!

Re: Цифровой Гербарий МГУ

Наталья, вся ваша команда - вы молодцы.

Re: Цифровой Гербарий МГУ

10.02

ИСТРА: второе издание

На прошедшей неделе вышел долгожданный релиз улучшенного алгоритма ИСТРА. Издание второе, переработанное и дополненное. Автор: Олег Платко.

ИСТРА - это Интеллектуальная Система Топонимического Распознавания и Атрибутирования. Она была разработана для того, чтобы не делать много раз (да еще и с разным результатом) одну и ту же работу - геопривязку образцов, собранных в одном и том же месте (или в один и тот же день) одним и тем же коллектором.

Исходная логика простая: если в базу данных Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ) для одного из образцов уже внесена ручная геопривязка, то ИСТРА ищет и находит этикетки с идентичным текстом и ставит им точку на карте автоматически. Чем больше этикеток в базе, тем больше вероятность того, что привязывать вручную надо будет лишь небольшую долю "базовых" (референсных) образцов.

Оптимизация алгоритма позволила проставить еще 4 тысячи геопривязок: статистика на 8 и 9 февраля (до и после обновления) дана на картинке. Это еще один шаг на пути к "Атласу флоры России".

https://pp.userapi.com/c840228/v840228133/6061c/YmtjtB6MDAE.jpg

Re: Цифровой Гербарий МГУ

11.02

Кардиограмма Гербария МГУ: пульсация поступлений по годам

На портале https://www.gbif.org/ у каждого загруженного массива теперь можно посмотреть базовую статистику в виду таблиц и графиков. Она доступна в разделе "Metrics".

На представленном рисунке показано ежегодное поступление гербарных материалов, установленная по датам сборов. Отмечу, что из 911 тыс. наших образцов только у 9% (85,468 листов) в базу данных внесена дата сбора. Тем не менее, выборка сейчас уже вполне репрезентативная и общие тренды останутся примерно такими же. Разве что ямы 1918-1922 и 1942-1945 гг. станут еще более выраженными.

Статистика за 2015-2017 гг. пока недостоверна.

Источник: https://www.gbif.org/dataset/902c8fe7-8 … 03/metrics

https://pp.userapi.com/c830509/v830509942/6ac17/hSWw1JEpfIA.jpg

Re: Цифровой Гербарий МГУ

Наталья Гамова :

опубликован гербарий Средней Азии

В последние дни неоднократно заглядывал в среднеазиатский раздел и был немного удивлён количеством листов без государственной привязки.  sad  Понятное дело, если это сборы первой трети прошлого века, где в этикетках указаны только хребты, горы и речные долины...  Но там много и сборов позднего советского и постсоветского периодов с полностью прописанной адм. привязкой.  Вероятно рук и времени не хватает?  А возможно ли удалённое заполнение последнего столбца в перечне материала?

Re: Цифровой Гербарий МГУ

Ну да, так и есть: ещё в работе  roll

Уточнила у А.П.:

В работе из Средней Азии сейчас район M4 (всего 12,5 тыс. листов, 10,5 тыс. сделано).
Остаются районы М2, М3 и М7 (около 48 тыс. в сумме).

Еще по странам не "поделена" Америка (сделано около 60%, не залито) и мхи Западной Европы.

Re: Цифровой Гербарий МГУ

15.02.

Обновление раздела "Ссылки" ("Links")

Вчера мы полностью обновили закладку "Ссылки" на главной странице Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ). Этот раздел содержит перенаправления на доступное в сети описание истории и состояния оцифровки фондов Гербария Московского университета. Здесь есть статьи, презентации и блоги.

Вот, что можно найти сейчас в этом разделе

* Статьи

Цифровой гербарий МГУ – крупнейшая российская база данных по биоразнообразию (статья на русском, конец 2017 г.)

Гербарий Московского университета (MW) в 2015 году: первый год новой эры (статья на русском, начало 2016 г.)

Making the Russian Flora Visible: Fast Digitisation of the Moscow University Herbarium (MW) in 2015 (статья в журнале "Taxon", начало 2016 г.)

Гербарий Московского университета (статья в Википедии)

* Презентации

Цифровой гербарий МГУ: новые возможности (конец 2017 г.)

Moscow Digital Herbarium and the National Depository Bank of Live Systems Initiative (Russia) (presentation on IBC 2017, Shenzhen, China)

* Информационные блоги

Блог проекта "Цифровой гербарий МГУ" (vk.com)

Страница проекта "Цифровой гербарий МГУ" на ResearchGate

* Наша страница в GBIF

Moscow University Herbarium (MW). Occurrence Dataset

https://sun1-1.userapi.com/c840527/v840527504/55c1c/F126L2LRgrw.jpg

https://sun1-1.userapi.com/c840527/v840527504/55c26/lkVFjV3bgEU.jpg

Re: Цифровой Гербарий МГУ

16.02
Средняя Россия: пара "коллектор - дата" для 17,500 образцов

(четвертое обновление базы данных этикеток в 2018 году)

Сегодня большой день. В наш мартен, выплавляющий новые геоданные, с ночи мы загрузили колоссальный свежий массив. Для нашего Центрального района (он же E4: Владимирская, Рязанская, Тульская, Калужская области) мы опубликовали ключевые метаданные с этикеток 17,5 тыс. образцов. Это примерно половина фондовой коллекции E4.

В нашей базе уже есть 6 тыс. геопривязок из этих областей (они на карте). Алгоритм ИСТРА ( https://www.msu.ru/science/main_themes/ … istra.html ) по совпадению пары полей "Коллектор" и "Дата" между новыми и уже привязанными к карте образцами позволил сделать быструю привязку. Отмечу, что это не точное определение координат, а лишь результат работы вероятностного алгоритма. Такие образцы снабжаются особым значком в выдаче (серый глобус), что предупреждает потенциального пользователя о том, что данные не верифицированы вручную.

По итогам загрузки, общее число привязанных к карте образцов в Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) превысило 50 тыс. штук! Сегодняшняя цифра 52,788.

Немного статистики по коллекторам. В базе данных из Центрального района сейчас числится 4,800 образцов, собранных В.Н. Тихомировым, и 1,200 сборов, сделанных В.С. Новиковым. Это преимущественно коллекции со студенческих практик времен Мещерской экспедиции Ботанического сада МГУ. Что уж скрывать: студенты почти всегда вписывали Тихомирова в соавторы сбора, когда проходили практику под его руководством.

https://pp.userapi.com/c824600/v824600453/b99c0/3vCsFZnh5FU.jpg

Re: Цифровой Гербарий МГУ

Переопределил ряд хохлаток в Сибирском отделе гербария неделю назад, но реакции ноль. Или прошли определения, или нет  hmm

Re: Цифровой Гербарий МГУ

Николай Витальевич, смотрите почту.

А в общем виде ответ А.П. такой:

переносы согласно поступившим в системе уведомлениям о переопределении проводятся разом за месяц или чуть больший срок; так получается проще.

Но всё работает, все сообщения поступают.

Re: Цифровой Гербарий МГУ

Ух, успокоили  roll

Re: Цифровой Гербарий МГУ

17.02.

Крым, Кавказ, Европейская Россия, Прибалтика: 4109 ручных геопривязок

(первое обновление базы геопривязок в 2018 году)

Вчера в систему были загружены геопривязки для 4109 пунктов сбора гербарных материалов. Число образцов, "накрытых" этой загрузкой в разы больше, благодаря предварительной агрегации сборов по пунктам - координатами снабжено почти 14 тыс. экземпляров.

Итак, исходным материалом для этого массива были полнотекстовые расшифровки мест сбора, загруженные в Цифровой гербарий МГУ с августа по декабрь 2017 года. Это Крым, Кавказ, Латвия, некоторые районы Европейской России и отдельные образцы из других мест. Эти образцы были агрегированы системой  ИСТРА в группы по совпадению текста этикеток. Таких групп было около 10 тысяч, в каждой из них - от 2 до 10 образцов.

Наш оператор Андрей Салмин вручную с использованием открытых картографических источников заполнял данные по локализации этих мест: N, E и точность привязки. Разумеется, у нас не было цели осуществить ковровую бомбардировку всего массива любой ценой, поэтому некоторое число пропусков осталось. Это забытые и утраченные топонимы, неточные привязки (только река, например) или загадочные ошибки, когда на расстоянии "5 км на юг от Симеиза" оказывается Черное море, а не можжевеловый лес.

В большой работе нужно привыкнуть делать две вещи: доверять коллегам и признавать ошибки. Если вдруг Вы увидите, что метка на карте явно не соответствует тексту этикетки, дайте нам знать через форму "Сообщить об ошибке". Мы обязательно (пусть и не сразу) все поправим.

Всего в Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) уже 66,519 образцов имеют метки на карте.

Re: Цифровой Гербарий МГУ

20.02.

Киргизия или Казахстан?

(первое обновление государственных привязок в 2018 г.)

Отдел Средней Азии в Гербарии Московского университета особенный. Это единственная часть гербария, которая внутри географически организована не по принципу административных границ, а по физико-географическим выделам.
http://forum.plantarium.ru/misc.php?action=pun_attachment&item=18829&download=0

Из-за этого нам оказалось сложно встраивать и анализировать наши пространственные данные в рамках международных и национальных проектов - GBIF, Flora of Uzbekistan, "Конспект флоры Киргизии" и др.

Да и на этикетках во многих случаях не написано в явном виде политическое деление территории. Заилийский Алатау, Кунгей, Александровский хребет, Сусамыр - вот язык наших этикеток. За последний месяц Ксения Дудова "растащила" по странам 12 тыс. листов из района M4 (Северный и Центральный Тянь-Шань), который и представлен на карте.
https://pp.userapi.com/c831109/v831109292/86e47/_tCaPmnQP-Q.jpg

К сожалению, небольшую часть локальных топонимов так и не удалось найти, но общий итог таков: 4,5 тыс. образцов из Казахстана и 7,1 тыс. образцов из Киргизии. Попадались и образцы из Таджикистана, Узбекистана и Китая, которые были случайно не туда вложены.

Вчера днём эти привязки к странам были залиты в систему.

Аттачменты сообщения

Иконка аттачмента MAsia_MW_Herbarium.jpg 89.23 kb, 1 раз(а) скачан с 2018-02-20 

Re: Цифровой Гербарий МГУ

21.02. Чукотка и Камчатка: 1590 ручных геопривязок
(второе обновление базы геопривязок в 2018 году)

Вчера в систему были загружены ручные геопривязки для 1590 образцов из района S7. Число образцов, "накрытых" этой загрузкой несколько больше: благодаря автоматической геопривязке удалось установить координаты для части камчатских сборов, для которых ранее были внесены полные этикетки.

Исходным материалом для этого массива были сканы злаков в диапазоне штрихкодов MW0009544 - MW0019353.

Наш волонтёр Алексей Лапин вручную с использованием открытых картографических источников заполнял данные по локализации этих мест: N, E (а иногда и W - страна-то большая!) и точность привязки. Разумеется, некоторое число пропусков осталось. Это забытые и утраченные топонимы, очень общие описания или неоднозначные привязки (когда, например, на Чукотке есть 3-4 одинаковых топонима). Для каждого образца всегда указывались дата и коллектор, что поможет, возможно, отловить места сборов некоторых трудных коллекций в будущем.

В понедельник мы сделали еще два небольших вклада в базу геопривязок, о которых не сообщали отдельно. Был залит 271 образец с GPS-координатами из Крыма (сборы А.П. Серегина) и поправлена неточность в алгоритме-ридере, вытаскивающем фамилии из поля "Первый коллектор" (+664 привязки по ИСТРЕ).

В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) число геопривязок неуклонно растет: 66,519 образцов имели метки на карте вечером 18 февраля; 67,275 - вечером 19 февраля и, наконец, 68,833 - вечером 20 февраля. За несколько дней мы сделали еще несколько шагов на пути "Атласу флоры России".