25.07.
Цифровой гербарий МГУ: таймлайн проекта
/АП от первого лица/
В данном сообщении кратко охарактеризован ход работ по созданию Цифрового гербария МГУ – крупнейшей российской базы данных о биоразнообразии, онлайн-зеркала наших коллекций, одного из крупнейших цифровых гербариев мира.
Одновременно и очень радостно, и очень трудно кратко рассказать об огромной работе, которая ведется под моим руководством над Цифровым гербарием МГУ. Тот, кто следит за нашим проектом, знает его основные вехи и имеет общее представление о базе данных. Для тех, кто впервые об это слышит, сжатое изложение вряд ли даст представление о сложности и масштабе работ. Поэтому я выберу жанр таймлайна, опираясь на хронологию сообщений в нашем блоге ( https://vk.com/mw_herbarium ).
20.08.2014 – П.А. Каменский (в будущем – заместитель Проректора МГУ) сообщает мне о предложении декана биофака МГУ М.П. Кирпичникова возглавить ботаническую часть заявки на грант РНФ "Научные основы создания Национального банка-депозитария живых систем" (по конкурсу комплексных научных программ организаций). В течение следующих десяти дней из 10 заявок, поступивших от ботанических кафедр и ботанического сада МГУ, формируется единая программа работ на четыре года. Из девяти научных групп одна ("Гербарий") имеет перед собой задачу оцифровки фондов Гербария МГУ.
2.09.2014 – Гербарий МГУ становится одним из первых российских учреждений, зарегистрированных в качестве поставщика данных в Global Biodiversity Information Facility (GBIF). Спустя 16 дней в GBIF появился первый опубликованный набор данных "A grid-based database on vascular plant distribution in the Meshchera National Park, Vladimir Oblast, Russia" (Seregin, 2014).
18.11.2014 – стало известно, что заявка МГУ, которую лично возглавил Ректор В.А. Садовничий, прошла конкурсный отбор. Окончательно формируется коллектив, между пятью направлениями ("Растения", "Животные", "Микроорганизмы и грибы", "Биологическая информация", "Биоматериал человека") распределяется финансирование. Проект получает название "Ноев ковчег".
2.12.2014 – первые контакты с корпорацией ЭЛАР, которая станет в дальнейшем нашим многолетним партнером по оцифровке коллекций Гербария МГУ.
23.12.2014 – GBIF-совещание на биологическом факультете МГУ, организованное Д. Щигелем. Сотрудничество Гербария и GBIF становится постоянным. Спустя три года Гербарий Московского университета станет крупнейшим владельцем GBIF-данных о биоразнообразии России и крупнейшим поставщиком сведений для GBIF из числа российских организаций.
31.12.2014 – подписано соглашение между МГУ и РНФ о начале финансирования проекта. Общий объем финансирования со стороны Фонда – 750 млн рублей до конца 2018 года. Одна девятая от одной пятой этих средств пойдет в Гербарий.
18.04.2015 (суббота) – я пришел в Гербарий МГУ один, чтобы в спокойной обстановке приклеить первую катушку штрихкодов. К концу дня стало ясно, что живой человек с учетом мелкой дополнительной работы по приведению коллекций в порядок вряд ли сможет приклеивать больше 1 тыс. штрихкодов в день. Уже на конец мая было запланировано начало работ по сканированию. А, значит, нам предстояло спешить. В итоге, за год "на штрихкодах" у нас проработало 63 человека, но 30% работы всё же выполнили пятеро штатных сотрудников Гербария.
18.05.2015 – ЭЛАР завёз в Гербарий МГУ оборудование. Спустя несколько дней в аудитории 401 (нижний зал Гербария) за тремя сканерами по 10–11 часов в день стояли операторы ЭЛАРа, прошедшие инструктаж. Каждый день по 2,5–3 тыс. файлов добавлялись в библиотеку цифровых изображений. Эта работа длилась почти полгода – до декабря. За 2015 г. было оцифровано 502 тыс. образцов из отделов Сибири и Восточной Европы – чуть больше половины гербария. Почти всё время вместе с сотрудниками ЭЛАРа бок о бок клеили штрихкоды сотрудники и студенты МГУ.
3.03.2016 – стала доступной первая версия портала Цифрового гербария МГУ (http://bio.labinform.ru/). Его сделала команда направления "Биологическая информация" гранта РНФ. В него был залит отдел Сибири и Дальнего Востока общим объемом около 155 тыс. образцов. Спустя пару месяцев общения с разработчиками и обсуждения дальнейших действий стало ясно, что IT-команда не готова работать в качестве девелоперов, а лишь следуют техническому заданию. Проект bio.labinform.ru был признан непригодным для наших целей и мы начали сотрудничество с командой "Проекта Скулачева".
7.06.2016 – в фонды Гербария Московского университета вложен миллионный образец!
15.08.2016 – начат второй этап оцифровки Гербария МГУ. Корпорации ЭЛАР предстояло оцифровать в тот год 284 000 образцов из отделов Кавказа, Крыма, Монголии, Зарубежной Азии, Herbarium Alchemillarum и типовые образцы (215 тыс. образцов), а также этикетки с конвертов гербария мхов (73 тыс. образцов).
17.10.2016 – открыт доступ к новому порталу Гербария МГУ (https://plant.mitotech.ru/), который, развиваясь, и является сейчас платформой Цифрового гербария МГУ. В тот день он содержал 501 892 скана образцов из отделов Восточной Европы и Сибири, оцифрованных в 2015 г. Поиск и сортировка на больших выборках висли, но альфа-версия удалась. Разработку выполнила команда "Проекта Скулачева", осуществив титаническую работу с нуля.
26.11.2016 – переезд портала Цифрового гербария МГУ на современный адрес в доменной зоне Московского университета (https://plant.depo.msu.ru/).
23.01.2017 – сообщение о работе портала Цифрового гербария МГУ прошло по лентам ведущих информационных агентств (например, https://tass.ru/nauka/3963062).
9.02.2017 – Цифровому гербарию МГУ предоставлены мощности Центра обработки данных МГУ.
4.03.2017 – Кавказский гербарий опубликован на портале https://plant.depo.msu.ru/. Таким образом, целиком завершена онлайн-публикация гербарных коллекций с территории России. На тот момент Цифровой гербарий МГУ обеспечивал доступ к 688 568 сканам.
11.07.2017 – Цифровой гербарий МГУ теперь "говорит" по-русски! В тот день мы загрузили базу данных русских названий растений.
29.07.2017 – первые 1 207 этикеток стали доступны в Цифровом гербарии МГУ в виде полнотекстовой базы данных. Был сделан первый шаг по очень длинной дороге по полной оцифровке текстовых данных с этикеток Гербария Московского университета. За несколько дней до этого в системе появились и первые геопривязки – 2 910 штук из Средней России.
1.09.2017 – начат третий этап сканирования Гербария МГУ, который продлится два месяца. В планах была оцифровка 120 000 образцов – 94 000 образцов из отдела Средней Азии, 12 000 образцов из отдела Америки и 14 000 образцов новых включений (Восточная Европа, Сибирь и ДВ, Зарубежная Азия, Африка, Крым, Кавказ). Кроме того, предстояло отсканировать этикетки с конвертов печеночников. Кроме того, была составлена полнотекстовая база данных 45 000 образцов из отделов Крыма и Кавказа.
12.09.2017 – преодолен пятитысячный рубеж по числу загруженных в систему этикеток и геопривязок. Статистика на тот день была такой: привязано к карте – 5 707 штук, загружено этикеток – 5 217 штук.
21.10.2017 – в Цифровой гербарий МГУ внедрена система автоматической геопривязки ИСТРА (Интеллектуальная Система Топонимического Распознавания и Атрибутирования), которая группирует образцы по совпадающему тексту этикеток или по совпадению пары "дата сбора"/"коллектор". Таким образом, резко увеличилась эффективность геопривязки отдельных образцов.
2.11.2017 – в GBIF опубликован набор данных "Moscow University Herbarium (MW)" общим объемом 786 145 образцов. Россия стала крупнейшим поставщиком электронных данных о биоразнообразии со своей территории. Сейчас этот массив включает 1 002 455 образцов, для которых учтено 58 цитирований.
14.03.2018 – мы опубликовали в Цифровом гербарии МГУ OCR 55 467 образцов мхов. За несколько месяцев до этого Яндекс, проиндексировав 786 тыс. сканов Гербария МГУ для сервиса Яндекс.Картинки, прогнал наш массив через эту процедуру. Все печатные символы, слова и предложения, которые программа распознала на этикетках, стали использоваться для индексации изображений. Мхи, этикетки которых были отсканированы без открывания конвертов, проиндексировались почти идеально. У нас появилась уверенность в том, что в будущем мы самостоятельно осуществим OCR и опубликуем результаты на портале. В течение пяти суток на мощностях Центра обработки данных МГУ с помощью программного продукта Tesseract проходила обработка и распознавание этикеток 77 тыс. сканов образцов мхов. Результаты чистились с помощью наших собственных скриптов, которые находили и убирали строки нераспознанной абракадабры рукописного текста.
13.04.2018 – запущен OCR гербария сосудистых растений.
9.07.2018 – в Цифровой гербарий МГУ залиты данные о дате сбора и коллекторе для 80% образцов. По сути, эти данные введены для всех образцов, в которых единственная дата сбора и фамилия коллектора были указаны ясно и полно. Эта работа осуществлялась операторами корпорации ЭЛАР в мае–июне 2018 г. На следующий день система ИСТРА автоматически привязала к карте 63 тыс. образцов и общее число геопривязок перевалило за 200 тыс., составив 217 971 штук – каждый четвертый оцифрованный образец Гербария МГУ получил метку на карте.
18.09.2018 – начат четвертый этап сканирования Гербария МГУ, который продлится два месяца. В планах была оцифровка отделов Западной Европы (40 000 образцов), Австралии и Океании (3 300 образцов), а также новых включений.
23.09.2018 – на 12-й ежегодной Вики-конференции в Санкт-Петербурге Цифровой гербарий МГУ стал лауреатом Вики-премии 2018 в категории «Свободные знания» с формулировкой "за важный вклад в глобальную коллекцию знаний о биоразнообразии". Цифровой гербарий МГУ незадолго до этого целиком перешел на лицензию CC-BY 4.0.
30.10.2018 – корпорацией ЭЛАР была отсканирована последняя пачка фондовой коллекции Гербария МГУ – сложноцветные Австралии и Океании. Работы по оцифровке коллекции (точнее, созданию библиотеки графических образов) полностью завершены.
7.12.2018 – Цифровой гербарий МГУ стал обладателем Премии Русского географического общества в номинации «Лучший научный проект». В торжественной церемонии награждения, проходившей в Кремле, принял участие Президент РФ В.В. Путин.
31.12.2018 – окончание гранта РНФ "Научные основы создания Национального банка-депозитария живых систем" (проект МГУ "Ноев ковчег").
30.03.2019 – заливка гигантского массива из 144 тыс. этикеток, ввод которых был осуществлен корпорацией ЭЛАР в 2018 г. Цифровой гербарий МГУ включает 974 289 образцов, 968 033 изображений, 37 782 видов, 373 163 геопривязки, 297 497 этикеток. Все данные, полученные по проекту "Ноев ковчег" опубликованы онлайн.
9.07.2019 – Цифровой гербарий МГУ включает 1 002 032 образцов, 993 585 изображений, 37 857 видов, 409 916 геопривязок, 314 257 этикеток. Работы продолжаются по трем грантам (два от РФФИ, один от GBIF).
