Re: Цифровой Гербарий МГУ

Вопрос понятен; передала.

Re: Цифровой Гербарий МГУ

Новое за февраль-март

07.02.19.

Проект "Флора России | Flora of Russia" и GBIF: тонкости передачи данных

Цифровой гербарий МГУ является системой хранения данных о разнообразии флоры мира, основанной на образцах из Гербария Московского университета. Постепенно к этой системе проявляют интерес и другие гербарии. Так в 2019 г. к нам присоединится Гербарий Главного ботанического сада РАН (московский отдел гербария). Все данные Цифрового гербария МГУ предоставляются по лицензии CC-BY-4.0 и доступны также через всемирную базу-агрегатор Global Biodiversity Information Facility (GBIF).

Как вы уже знаете, принять участие в сборе данных о флористическом разнообразии России (да и других стран мира) теперь может любой желающий. Это стало возможным благодаря открытию на платформе iNaturalist курируемого нами проекта "Флора России | Flora of Russia" ( https://www.inaturalist.org/projects/flora-of-russia ). Нужно указать место сбора и загрузить фотографию. Наблюдения, загруженные в iNaturalist, также отображаются в GBIF, но не всегда и не все. Почему? Давайте разберемся.

В настройках учетной записи каждый пользователь iNaturalist предоставляет информацию о том, по какой лицензии он делится своим контентом: фотографиями и текстовыми метаданными. По умолчанию здесь стоит лицензия CC-BY-NC (она же CC-BY 4.0 NC). Именно эта лицензия является пороговой для того, чтобы данные автоматически передавались в GBIF и становились общедоступными для мирового научного сообщества. Именно из GBIF мы будем выкачивать данные для "Атласа флоры России" на платформе Цифрового гербария МГУ, поскольку работаем в том же формате данных и гарантированно избавлены, таким образом, от вопросов лицензирования (авторского права).

Некоторые пользователи умышленно меняют лицензии на более жёсткие:

- Cc by sa С указанием авторства-С сохранением условий
- Cc by nd С указанием авторства-Без производных
- Cc by nc sa С указанием авторства-Некоммерческая-С сохранением условий
- Cc by nc nd С указанием авторства-Некоммерческая-Без производных
- Нет лицензии (Все права защищены)

Такие наблюдения никогда не попадут в GBIF, где наш любимый iNat составляет лишь 0,7% от общего массива информации о живом.

Именно поэтому число наблюдений сосудистых растений с территории России на 4 февраля 2019 г. в GBIF равно не 20 000, а 12 538 штук. Но и без этого Россия уже находится на 11 месте в мире по числу наблюдений растений в iNat, а сам iNat является девятым по числу записей источником GBIF-данных по флоре России, уступая следующим базам данных:

Moscow University Herbarium (MW) 548 759
A grid-based database on vascular plant distribution in Vladimir Oblast, Russia 123 054
A global database for the distributions of crop wild relatives 69 255
EURISCO, The European Genetic Resources Search Catalogue 51 497
A grid-based database on vascular plant distribution in Udomlya District of Tver Oblast, Russia 31 669
A grid-based database on vascular plant distribution in the Meshchera National Park, Vladimir Oblast, Russia 22 625
Flora of the Volga River basin 20 308
Phenological observations of biota on the territory of Prioksko-Terrasnyi biosphere reserve 20 106

Если вы решите поменять лицензии на пригодные для GBIF-индексирования (СС0, CC-BY, CC-BY-NC), то это делается в настройках учетной записи отдельно для метаданных и отдельно для фотографий. Выбрав другую лицензию, не забудьте поставить галочку в поле "Обновить существующие наблюдения новыми вариантами лицензий" и "Обновить существующие фото новыми вариантами лицензий".

Re: Цифровой Гербарий МГУ

09.02.2019 г. в Москве, в Центральном доме художника Центральный Дом художника / The Central House of Artists , на VI фестивале Первозданная Россия Общероссийский фестиваль "Первозданная Россия" , в 12.30, выступил ведущий научный сотрудник биологического факультета МГУ Алексей Серегин. Алексей Серегин (Alexey Seregin)
Рассказ о проекте «Цифровой гербарий МГУ» — крупнейшей в России базе данных по биоразнообразию
Цифровой гербарий — портал с изображениями и метаданными почти всех видов флоры России и сопредельных стран. Колоссальная информационная база, интегрированная с аналогичными международными платформами. Результат работы более ста человек, позволивший России стать одним из мировых лидеров в области информатики биоразнообразия. А недавно в фонды гербария включили миллионный образец. И все это богатство — в свободном доступе. Принять участие в создании «Атласа флоры России» на платформе Цифрового гербария МГУ может каждый, загрузив фотографию и поставив точку съемки на карте.

Автор видео Юрий Соколков ( https://www.facebook.com/profile.php?id=100000307002114 )

https://www.youtube.com/watch?v=UZ_AsRZnr0A

https://www.youtube.com/watch?v=MGjkKNG5ahM

https://www.youtube.com/watch?v=zxQzLYhlzIM

Re: Цифровой Гербарий МГУ

Дневник Московского университета

21 февраля 1823 г. Московский университет приобрёл у профессора Г.Ф.Гофмана (отделение физических и математических наук) гербарий, состоящий из 12 тыс. растений за 7000 рублей. Сохранившиеся экземпляры этой коллекции являются одними из наиболее ценных материалов, хранящихся ныне в Гербарии МГУ.
Возникновение Гербария Московского университета можно связывать с именем П.Д.Вениаминова, который в 1765/1766 гг. открыл курс «Ботаническая философия с гербаризацией в летнее время». В 1770-1777 г. курс «Ботаническая терминология по Линнею с гербаризацией в весеннее время» в Московском университете читал первый русский профессор натуральной истории М.И.Афонин. Первые коллекции Гербария университета слагались в основном из сборов на экскурсиях по Подмосковью. В начале XIX в. появилась кафедра ботаники, заведовать которую был приглашён Георг Франц Гофман. Он привёз с собой принадлежащий лично ему обширный гербарий, который пополнял и в Москве, хотя сам в России практически не гербаризировал. Пополнение шло в основном за счёт подарков и обмена с ботаниками-современниками. На одном из традиционных торжественных годичных собраниях Московского университета он произнёс речь «О судьбе и развитии гербарного дела, прежде всего в Российской Империи», в которой показал широкое развитие ботанических исследований и гербаризации в России. Именно Гофман «усиленно прививал в московском обществе того времени, и особенно у своих учеников, вкус к собиранию гербариев», а с его именем связывают подлинное начало Гербария Московского университета.
Сегодня Гербарий МГУ — второй по величине гербарий России; 62-й по объёму фондов среди всех гербариев мира и 24-й — среди гербариев вузов. Объём основных фондов — более 1 млн образцов. В гербарии сосредоточены важнейшие коллекции по флоре средней полосы России, важные коллекции по флоре других регионов России, Кавказа, Средней Азии, Казахстана, Монголии, а также по мохообразным России; важные именные коллекции (Георга Гофмана, Фридриха Эрхарта, Карла Триниуса, отца и сына Форстеров, а также коллекции, имеющие отношение к Карлу Линнею).
В рамках проекта «Ноев ковчег» к концу 2017 г. оцифрованы и размещены в цифровом гербарии изображения и метаданные более 910 тысяч образцов. Цифровой гербарий МГУ: https://plant.depo.msu.ru/

Re: Цифровой Гербарий МГУ

02.03.2019.
Большое интервью пресс-службе РГО с видеосюжетами и фотографиями

Русское географическое общество

ПРЕМИЯ РГО – 2018

Re: Цифровой Гербарий МГУ

08.03.2019.

Россия в GBIF

Тут возник вопрос: каково участие России в GBIF? Вопрос не праздный, поскольку Цифровой гербарий МГУ ( https://www.gbif.org/dataset/902c8fe7-8 … 24fed36303 ) является крупнейшим поставщиком данных как среди российских организаций, так и среди всех баз данных, охватывающих Россию.

По точкам находок всех живых организмов мы на 30-м месте:

United States of America 327,168,721
Sweden 80,197,945
Australia 73,760,525
United Kingdom 65,891,108
France 57,886,823
Canada 50,332,130
Netherlands 48,855,075
Germany 37,905,804
Norway 31,589,318
Denmark 29,429,707
Finland 27,735,450
Spain 27,432,165
South Africa 22,443,719
Belgium 19,875,434
Mexico 14,206,197
Brazil 11,812,595
Costa Rica 8,485,704
Japan 6,464,662
Portugal 6,241,867
India 6,163,990
Colombia 5,561,138
New Zealand 5,550,491
Austria 3,617,214
Peru 3,346,368
Argentina 3,282,662
Taiwan 3,161,578
Ecuador 3,137,894
China 2,880,062
Estonia 2,690,940
Russian Federation 2,541,483

По точкам находок сосудистых растений мы на 23-м месте:

France 39,667,143
Germany 26,553,003
Netherlands 18,344,760
Australia 17,040,026
United Kingdom 15,548,324
Sweden 12,327,871
United States of America 11,790,811
Spain 10,098,298
Belgium 7,088,858
Brazil 6,784,683
Finland 6,276,795
Norway 5,870,163
Canada 4,745,348
Denmark 4,167,641
Mexico 3,354,201
Japan 2,460,062
New Zealand 2,112,728
South Africa 1,950,848
Colombia 1,948,214
China 1,864,620
Portugal 1,369,078
Peru 1,162,618
Russian Federation 1,080,748
Costa Rica 926,872
Unknown country 904,925
Ecuador 861,085
Luxembourg 788,298
Antarctica 766,669
Taiwan 765,336
Austria 751,960

https://pp.userapi.com/c846219/v846219381/1b5354/8vDVl5D9SEc.jpg

Re: Цифровой Гербарий МГУ

Наталья Гамова пишет:

в 2019 г. к нам присоединится Гербарий Главного ботанического сада РАН

А в какой фазе там работа?  Всё уже оцифровано?  А таком же разрешении, как в MW?

Re: Цифровой Гербарий МГУ

09.03.2019.
Новые массивы: загрузка данных продолжается!

Друзья, Цифровой гербарий МГУ ( https://plant.depo.msu.ru/ ) вышел из гибернации, которая продолжалась январь и февраль, и вот теперь начинаем загрузку накопившихся массивов. Всю неделю мы редактировали имеющиеся массивы и загружали их на портал.

Итак, на утро 4 марта была следующая статистика:

Образцов: 971732
Изображений: 968031
Видов: 37782
Геопривязок: 323015
Этикеток + OCR: 135811 + 330122

1. Мы загрузили небольшой массив ручных геопривязок из Южного и Среднего Урала, который сделал В.П. Травкин. На 99 ручных геопривязок пришлось еще 363 благодаря алгоритму ИСТРА - 39 по совпадению текста этикетки и 324 по совпадению пары коллектор/дата. Карта Урала постепенно покрывается новыми данными о ботаническом разнообразии территории.

2. Далее мы загрузили массив из 332 ручных геопривязок из Крыма, который сделала Е.С. Каширина (Филиал МГУ в г. Севастополе). Опять же по ИСТРЕ к ним добавилось еще 324 штуки (34 по тексту, 290 по коллектору/дате). Крымские горы - одна из территорий с наивысшей плотностью флористической информации в Цифровом гербарии МГУ. Работа по геопривязке продолжается, осталось привязать из Крыма 8046 образцов.

3. Загружены координаты 769 образцов мхов из новых включений 2018 года. Они взяты напрямую с этикеток. ИСТРА к ним добавила еще 102 единицы. Автор массива - наш оператор А.С. Борцова.

Статистика после загрузки этих трех массивов:

Образцов: 971734
Изображений: 968031
Видов: 37782
Геопривязок: 324844
Этикеток + OCR: 135811 + 330122

https://pp.userapi.com/c849520/v849520870/149165/9IVPdVx7NDM.jpg

Re: Цифровой Гербарий МГУ

10.03.2019.
Гербарий Цингера аннотирован и доступен онлайн!

Василий Я́ковлевич Цингер (1836-1907) - российский математик, заслуженный профессор Императорского Московского университета; основатель геометрической школы Московского университета; один из основателей Московского математического общества, позже его президент. Декан физико-математического факультета и проректор Московского университета. Но нам В.Я. Цингер известен, прежде всего, как ботаник, автор "Сборника сведений о флоре Средней России" (1885).

"Корреспонденты Цингера" из гимназий Московского учебного округа прислали ему в 1880-е гг. колоссальный гербарий по флоре Средней России. Именно его труд лёг в основу "Определителя" П.Ф. Маевского, которым мы пользуемся до сих пор.

К сожалению, на рубеже 19 и 20 вв. за гербарием В.Я. Цингера не уследили (опубликованное свидетельство М.И. Назарова). Фантастическим образом он, судя по всему, был перемешан, а многие сборы утрачены. Когда чуть позже гербарий был смонтирован и вложен в фонды, на один лист пришлось наклеить все сборы какого-либо вида из одной губернии вперемешку.

Наш оператор Дарья Бородина, профессиональный историк, провела титаническую работу по аннотации и составлению исчерпывающей базы данных сборов Цингера. Мы залили на днях 8112 записей - полных транскрипций рукописных этикеток с образцов из исторической коллекции. Даше пришлось работать с этикетками на русском, латыни и немецком, написанных десятками сложнейших почерков.

Разобранные по полям базы данных этикетки включаются в алгоритм автоматической геопривязки ИСТРА. Эта система после заливки массива нашла в цингеровских этикетках совпадение с уже привязанными к карте образцами и смогла дополнительно дать координаты для 148 образцов по совпадению текста этикетки (например, 69 образцов с идентичным местом "Торжок. Тверск. губ.") и 190 образцов по совпадению пары "коллектор/дата".

Через пару месяцев мы зальем на портал Цифрового гербария МГУ (https://plant.depo.msu.ru/) продолжение гербария Цингера.

https://pp.userapi.com/c845121/v845121870/1bece3/nISFImU0R9M.jpg https://pp.userapi.com/c849520/v849520866/14999d/ou_4UShv1g0.jpg

Re: Цифровой Гербарий МГУ

11.03.2019.
1015 этикеток Назарова загружены в Цифровой гербарий МГУ

Этот сумрачный тип - один из легендарных ботаников Московского университета. Его звали Михаил Иванович Назаров, и он стал одним из самых плодотворных коллекторов Гербария МГУ за всю историю, собрав почти 15 тыс. образцов (https://vk.com/wall-134484155_1238).

Мы бережно относимся к оцифровке наследия самых трудолюбивых коллекторов нашего Гербария. На днях мы загрузили в систему Цифрового гербария МГУ (https://plant.depo.msu.ru) очередную порцию этикеток Назарова объемом 1015 штук от сборов 1915-1916 гг. Они были сделаны в сопредельных районах современных Владимирской и Рязанской областей. Назаров тогда жил в г. Меленки и с азартом собирал материал.

Особое внимание он уделял ивам и их гибридам. Пройдет 20 лет, и его позовут обрабатывать Salix для "Флоры СССР". А пока же Михаил Иванович - учитель уездного городка, вынужденно оставивший университет из-за политических взглядов и поддержки революционных идей.

Автор массива: Татьяна Сухова.

368 этикеток М.И. Назарова из этой заливки получили автоматические геопривязки.

https://pp.userapi.com/c851528/v851528083/d0e80/FNj4Ex3o_CA.jpg https://pp.userapi.com/c846216/v846216039/1b6c11/JpcNEIPVqdE.jpg

Re: Цифровой Гербарий МГУ

12.03.2019.
Новые массивы: загрузка продолжается

6. И снова геопривязки. Н.В. Иванова и М.П. Шашков в рамках нашего сотрудничества с GBIF выполнили ручную геопривязку 187 образцов из Восточной Европы и Кавказа. Предварительно были отобраны образцы, собранные отдельными коллекторами в наиболее продуктивные дни своей работы. Таким образом, благодаря алгоритму ИСТРА к ручным геопривязкам добавилось еще 3200 автоматических.

7. Геопривязки района S4 предоставлены сотрудником Гербария К.В. Дудовой. Ксения поставила 93 ручные метки на карте, еще 265 автоматически проставила система ИСТРА.

8. Наш оператор А.С. Салмин работал с коллекциями самых плодотворных коллекторов Сибири и Дальнего Востока. Точнее, это отдельные коллекции с восточного макросклона Урала, Западной Сибири, гор юга Сибири, Якутии. Привязано руками 349 образцов, еще 5145 образцов накрыто ИСТРОЙ.

По итогам загрузки восьми массивов прошедшей недели общее число геопривязок превысило 334 тыс. штук!

Образцов: 974261
Изображений: 968031
Видов: 37782
Геопривязок: 334160
Этикеток + OCR: 144592 + 324373

https://pp.userapi.com/c849328/v849328773/14f73e/xG0LXoXU5CI.jpg

Re: Цифровой Гербарий МГУ

13.03.2019.
Якутия: терра инкогнита (часть 1)

Якутия на картах Цифрового гербария МГУ уже довольно давно выделялась очень низкой плотностью фактического материала. Так, на карте нашего массива в GBIF (см. скриншот) четко видна граница Якутии почти на всем протяжении. Так уж сложилось, что по разным проектам и в результате работы волонтеров из всех сопредельных регионов у нас есть полные массивы геоданных (Красноярский край, бассейн Амура) или репрезентативные выборки (Магаданская обл., Чукотка).

Собственно, из 14 752 образцов флоры Якутии только 10% (1 478 ед.) имели геопривязки. А ведь это пятая часть нашей страны!

Благодаря нашему сотрудничеству с коллегами из Улан-Удэ по гранту РФФИ 19-54-53014 "Сравнительный анализ закономерностей разнообразия древесных и травянистых видов континентальной Азии" (рук. Санданов Д.В.) мы привязали к карте еще 3 410 образцов, представляющих флору Якутии.

Авторы массива: А.П. Серегин (2 781 шт.) и А.С. Салмин (629 шт.).

Начали с массовой геопривязки сборов самых активных коллекторов - А.Я. Бронзова ( https://plant.depo.msu.ru/open/public/s … D0%B2%20S5 ), В.Б. Куваева ( https://plant.depo.msu.ru/open/public/s … D0%B2%20S5 ), А.П. Тыртикова (
https://plant.depo.msu.ru/open/public/s … D0%B2%20S5 ), каждый из которых привёз из Якутии свыше 1 тыс. гербарных образцов.

К сожалению, пришлось пока отказаться от привязки крупной коллекции М.Н. Караваева (906 образцов) ( https://plant.depo.msu.ru/open/public/s … D0%B2%20S5 ). Караваев, будучи автором "Конспекта флоры Якутии" (М.; Л.: АН СССР, 1958. 192 с.) и куратором Гербария МГУ, как выяснилось, крайне ненадежно этикетировал массовые сборы с Хараулахских гор в низовьях Лены. Сборы 1938 г. имеют вполне ясные указания на пункты сбора (с точностью до реки), а вот даты сборов даны самым невероятным случайным образом. Настолько случайным, что нет ни малейшей возможности установить хотя бы приблизительно маршруты Караваева. Еще предстоит разобраться с более поздними сборами, но уже сейчас ясно, что легкими эти изыскания точно не будут.

Общее число геопривязок Цифрового гербария МГУ после загрузки этого массива превысило 337 тыс. штук.

Статистика Цифрового гербария МГУ на утро 12 марта 2019 г.:

Образцов: 974 262
Изображений: 968 031
Видов: 37 782
Геопривязок: 337 202
Этикеток + OCR: 144 592 + 324 373

https://pp.userapi.com/c849328/v849328773/14f751/iBIqYexe8XA.jpg
Алексей Павлович Тыртиков https://pp.userapi.com/c849328/v849328773/14f7c0/lAA7qerYHU0.jpg
Владимир Борисович Куваев https://pp.userapi.com/c844616/v844616897/1c578c/afWZVQfT2-g.jpg
Михаил Николаевич Караваев https://pp.userapi.com/c854220/v854220334/1fe/b9uKHNa8-Hg.jpg

Re: Цифровой Гербарий МГУ

16.03.2019.
Новые массивы: Западная Сибирь

13 марта мы залили на портал очередной большой массив геопривязок. На сей раз из Западной Сибири. Автор массива: И.Н. Поспелов.

Игорь Николаевич Поспелов - известный российский ботаник, соавтор монументальной "Флоры Таймыра" и наш самый активный волонтёр. В 2017-2018 гг. он выполнил ручную геопривязку 20 тысяч образцов Средней Сибири (Красноярский край без южной горной части), став наиболее плодотворным оператором геопривязок Цифрового гербария МГУ (https://plant.depo.msu.ru/). При этом многие сборы сделаны им лично на Таймыре, Анабаре и Путоране.

Сейчас в работе у И.Н. Поспелова - Западная Сибирь, которая включает восточный макросклон Урала и всю Западно-Сибирскую низменность. Мы залили 995 ручных геопривязок + 707 штук встали автоматически в результате работы алгоритма ИСТРА.

Сейчас у нас есть уже 8481 образцов с геопривязками из Западной Сибири. Всего из этого района у нас хранится 15484 образца. В общем, 55% уже сделано!

Статистика Цифрового гербария МГУ на 13 марта после заливки Западной Сибири:

Образцов: 974262
Изображений: 968031
Видов: 37782
Геопривязок: 338485
Этикеток + OCR: 144592 + 324373

https://pp.userapi.com/c849420/v849420142/14d933/-5IbgcJKQOU.jpg https://pp.userapi.com/c848616/v848616142/153679/KfTpdU2e8u0.jpg

Re: Цифровой Гербарий МГУ

17.03.2019.
Камчатка, Чукотка, Колыма: новые геоданные

Продолжаем загрузку новых массивов в Цифровой гербарий МГУ (http://plant.depo.msu.ru/). Вечером 13 марта мы загрузили координаты мест сбора 3628 образцов с крайнего Северо-Востока нашей страны: Чукотки, Камчатки и Магаданской области. Этот огромный массив пространственных данных был подготовлен нашим неутомимым волонтером А.А. Лапиным.

Поскольку Алексей вручную привязывает все коллекции подряд без предварительной агрегации, то ИСТРА работает менее активно - дополнительно автоматическими привязками закрыто всего 112 образцов. Кроме того, Алексей добавляет к каждому образцу краткое содержание этикетки для удобства геопривязки.

Присмотритесь к картинкам. На представленных скриншотах показаны те же самые данные. Мы поменяли размер точек и проекцию. Визуально кажется, что на правой карте точек гораздо больше и они гуще покрывают территорию. Так что картографическая визуализация вещь обманчивая.

После загрузки массива от А.А. Лапина (вечер 13 марта) статистика Цифрового гербария МГУ выглядит следующим образом:

Образцов: 974 273
Изображений: 968 031
Видов: 37 782
Геопривязок: 341 797
Этикеток + OCR: 148 467 + 322 723

https://pp.userapi.com/c847218/v847218720/1c10e8/BXYHS27Lny0.jpg https://pp.userapi.com/c847218/v847218720/1c10f2/lZ1N1Vwbcbo.jpg

Re: Цифровой Гербарий МГУ

18.03.2019.
Новые массивы: продолжаем!

Мы продолжили 14 и 15 марта 2019 г. загрузку новых геоданных, которые наши операторы добывают в результате геопривязки образцов Цифрового гербария МГУ. В этот раз - три массива от студентов МГУ, которые сотрудничают с нами в качестве операторов геоданных.

Массив 12. Наталья Копылова работала с образцами из Европейской России, собранных после 2000 г. Получилось 30 ручных геопривязок, к которым ИСТРА добавила еще 369 автоматических.

Массив 13. Иван Кривокорин делал ручные геопривязки Москвы и Московской области за период с 1950 по 1999 гг. К 68 ручным геопривязкам ИСТРА добавила 964 автоматические.

Массив 14. Ирина Мельник вручную привязывала этикетки, в которых OCR нашел слово "Москва". Итог - 136 ручных геопривязок, 16 координат напрямую с этикеток и 301 дополнение по ИСТРЕ.

Итог трех загрузок (со всеми циклами ИСТРЫ получилось +1879 штук) повлиял на статистику Цифрового гербария МГУ следующим образом (срез к обеду 15 марта 2019 г.):

Образцов: 974 273
Изображений: 968 031
Видов: 37 782
Геопривязок: 343 676
Этикеток + OCR: 148 467 + 322 723

До лета у нас должно случиться 400 тыс. геопривязок и 300 тыс. этикеток. Продолжаем работать

https://pp.userapi.com/c855432/v855432708/4093/_4TnHQ3_tUc.jpg

Re: Цифровой Гербарий МГУ

18.03.2019.
В нашем проекте "Флора России | Flora of Russia" на платформе iNaturalist 40 000 наблюдений!

Подробности тут: https://www.inaturalist.org/projects/fl … ia/journal

Принимаем поздравления и ждём новых участников!

Наш адрес: https://www.inaturalist.org/projects/flora-of-russia

https://pp.userapi.com/c853528/v853528419/719a/KM8aPUw3LkU.jpg

Re: Цифровой Гербарий МГУ

19.03.2019.
Якутия: терра инкогнита (часть 2)

Заливка первой части геопривязок Якутии состояла из 3 410 образцов. Их сделали А.П. Серегин и А.С. Салмин. Она включала в себя сборы трёх выдающихся коллекторов - А.Я. Бронзова, В.Б. Куваева и А.П. Тыртикова, каждый из которых доставил в Гербарий МГУ из Якутии свыше 1 тыс. гербарных образцов.

Вторая часть якутского массива включала сборы М.Н. Караваева за 1946-1960 гг. и В. Ивановой за 1956-1958 гг. (910 образцов). Кроме того, были включены сборы А.П. Хохрякова, В.Р. Филина, В.Н. Павлова и некоторых других коллекторов (Трушковский, Сладков, Приземина, Осин, Николаев, Макаров, Куприянов, Колпаков) (680 образцов). Автор массива: А.П. Серегин.

О том, что М.Н. Караваев оказался очень неаккуратным в документации своих сборов мы уже писали. Пришлось полностью отказаться от привязки его довоенных и военных сборов из Якутии.

Другие сложности были связаны с привязкой массовых сборов В. Ивановой с горных хребтов бассейна Индигирки, Колымы, Алдана и Яны. Основные ориентиры на этикетках - реки, большие и малые. В 1950-е гг. в этих местах были приняты одни их названия, взятые то ли из юкагирского, то ли из ульчского. Сейчас приняты уже другие - то ли эвенские, то ли якутские топонимы. На все это наложена "практическая транскрипция" на русский, которая также не была стабильной. В итоге имеем:
1) на доступных картах генштаба второй половины 20 в. (вплоть до 500-метровок) - одни названия;
2) в государственном водном реестре ( http://textual.ru/gvr/ ) - другие;
3) на этикетках - третьи.
Старых подробных карт и планшетов, которыми пользовались геоботанические партии на Колымском тракте в 1950-е гг. не достать. Итог - массовые пропуски недель плодотворных экспедиционных сборов из труднодоступных районов.

Вот, например, попробуйте найти на карте (и прислать нам) координаты вот этих мест работы В. Ивановой и Л. Добрецовой. Нам слабо:

20.06.1955 - есть сбор из точки 64.651469, 137.018114
22.06.1955 - р. Сергелькан (лев. приток р. Сынабыл)
23.06.1955 - р. Екетчан (прав. приток р. Икири)
27.06.1955 - р. Нелоти (лев. приток р. Делиньи)
28.06.1955 - р. Нёлини (приток р. Делиньи)
30.06.1955 - р. Турахы (прав. приток р. Делиньи)
1.07.1955 - есть сбор из точки 65.126411, 138.596972

См. скриншоты этих этикеток.

Геопривязки Якутии случились благодаря нашему сотрудничеству с коллегами из Улан-Удэ по гранту РФФИ 19-54-53014 "Сравнительный анализ закономерностей разнообразия древесных и травянистых видов континентальной Азии" (рук. Санданов Д.В.).

Итог якутской загрузки за две недели: + 4939 геопривязок из самых труднодоступных мест Сибири.

Статистика Цифрового гербария МГУ ( https://plant.depo.msu.ru/ ) к обеду 18 марта 2019 г.:

Образцов: 974 273
Изображений: 968 031
Видов: 37 782
Геопривязок: 346 156
Этикеток + OCR: 148 467 + 322 723

1. https://pp.userapi.com/c851424/v851424797/dba97/UrsbhPM24KE.jpg

2. https://pp.userapi.com/c851424/v851424797/dbaa1/4OxSykGCDLE.jpg

3. https://pp.userapi.com/c851424/v851424797/dbaab/M7-Tt0gLGjs.jpg

4. https://pp.userapi.com/c851424/v851424797/dbab5/CHcIuyMYVl8.jpg

5. https://pp.userapi.com/c851424/v851424797/dbabf/gvC2JKmzEjo.jpg

Re: Цифровой Гербарий МГУ

20.03.2019.
Новые массивы: Южный и Средний Урал

Район E10 Гербария Московского университета включает Башкирию, Пермский край, Свердловскую, Челябинскую и Оренбургскую области. Территория интересная и очень разнообразная во флористическом отношении - от гольцов и горных тундр до солончаков с пустынными видами.

Автор массива: В.П. Травкин. Мы познакомились с Владимиром Петровичем благодаря платформе iNaturalist (и проекту https://www.inaturalist.org/projects/flora-of-russia ), где он является самым активным наблюдателем из Самарской ( https://www.inaturalist.org/projects/sa … =observers ) и Оренбургской ( https://www.inaturalist.org/projects/or … =observers ) областей.

Сейчас В.П. сотрудничает с Цифровым гербарием МГУ в качестве оператора геоданных. Постепенно двигаясь от последних по времени коллекций к самым старым, В.П. выясняет координаты сбора образцов.

В этой заливке от 16 марта 2019 г. имеется 493 ручные геопривязки, еще 602 штуки помогла добыть система ИСТРА. Общее число геопривязок с Южного и Среднего Урала выросло с 5840 до 6839 штук (всего 22 444 образцов). Так что уже 30,5% образцов из этого района имеют геопривязки.

https://pp.userapi.com/c850428/v850428644/e3d04/pug9pp3GIbc.jpg

https://pp.userapi.com/c850428/v850428644/e3d0e/t3q9ugM7meY.jpg

Re: Цифровой Гербарий МГУ

22.03.2019.
Большая чистка: как мы ищем ошибки

Когда у вас есть 1 047 000 гербарных образцов, 974 000 записей в базе данных и 361 000 геопривязок, то поиск неизбежных ошибок никак невозможен путем аккуратного просмотра каждой этикетки и проверки каждой введенной на карту точки. Для работы с большими данными нужны принципиально иные решения и алгоритмы.

В Цифровом гербарии МГУ есть алгоритм автоматической геопривязки ИСТРА ( http://www.rscf.ru/ru/node/2618 ). Это Интеллектуальная Система Топонимического Распознавания и Атрибутирования. Работает она двумя способами:
- геопривязка образцов по идентичному тексту у нескольких этикеток;
- геопривязка нескольких образцов, собранных тем же коллектором в тот же день.

Второй способ использует только фамилию коллектора, поэтому для исключения однофамильцев мы добавили еще и район гербария. Логика такова: если есть однофамильцы и живут они в одно время, то работают они, скорее всего, в разных районах. Это касалось многочисленных Петровых, Смирновых, Ивановых. В общем получалось, что второй алгоритм ИСТРЫ ищет образцы по совпадению полей "коллектор - дата - район гербария".

Очевидно, что среди миллиона образцов попадаются такие, у которых район гербария (а их у нас 60 штук) введен неверно. Такие ошибки возникали в результате: 1) случайных ошибок при включении образцов в фонды (образец из Москвы клали в Черноземье); 2) изменения административных границ (Переславский уезд из Владимирской губ. переехал в Ярославскую обл., а образцы не переложили); 3) разделения районов гербария (из E12 выделили E12a, но не везде аккуратно); 4) наличия идентичных топонимов (Уральской областью в 1930-е гг. называли Пермский край, а после войны - Западно-Казахстанскую область); 5) неверного атрибутирования образцов во время сканирования (образцы Hordeum jubatum из E5 случайно отнесли к E6). В общем, на миллион образцов ошибочек накопилось.

Мы придумали как массово их найти и исправить с помощью той же ИСТРЫ. Если привязанные к карте образцы коллектора А.Б. за день 01.01.1930 относятся к одному району, а непривязанные - к другому, то велика вероятность того, что именно район введен с ошибкой.

Такие образцы были выгружены и проверены вручную. В итоге, у 1309 образцов (0,1% от коллекции) район гербария был исправлен и все эти образцы, к тому же, получили геопривязки. На это ушло несколько часов работы одного оператора.

Статистика до чистки (18.03.2019, 16:30 MSK):

Образцов: 974 273
Изображений: 968 031
Видов: 37 782
Геопривязок: 347 915
Этикеток + OCR: 148 467 + 322 723

Статистика после чистки (18.03.2019, 18:00 MSK):

Образцов: 974 273
Изображений: 968 031
Видов: 37 782
Геопривязок: 353 261
Этикеток + OCR: 148 467 + 322 723

Re: Цифровой Гербарий МГУ

24.03.2019.
Новые массивы: 5359 этикеток Москвы и Московской области
Автор массива: И.В. Мельник.

В Цифровом гербарии МГУ уже более 153 000 образцов имеют распознанный текст этикеток. Если их заскриншотить, получится 5123 такие картинки. В течение недели мы зальем еще 144 000 этикеток.

Статистика до заливки (вечер 19 марта):
Образцов: 974 277
Изображений: 968 031
Видов: 37 782
Геопривязок: 353 619
Этикеток + OCR: 148 467 + 322 723

Статистика после заливки (к обеду 20 марта):
Образцов: 974 285
Изображений: 968 031
Видов: 37 782
Геопривязок: 353 623
Этикеток + OCR: 153 705 + 320 341

https://pp.userapi.com/c852124/v852124987/dea11/vJEtbOzry5I.jpg

Re: Цифровой Гербарий МГУ

29.03.2019.
Большой март продолжается: новые массивы геоданных (ч. 1)

В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) статистика залитых геопривязок растет как на дрожжах благодаря дружной работе нашей команды.

20 марта

Новый массив: 146 ручных геопривязок (автор И.Г. Кривокорин)
Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье
ИСТРА добавила +25 по тексту и ещё +1787 геопривязок по паре Коллектор/дата

Новый массив: 25 ручных геопривязок Echinops (автор С.Р. Майоров)
Южный Урал
ИСТРА добавила +64 геопривязки по паре Коллектор/дата

21 марта

Новый массив: 87 ручных геопривязок (автор И.Г. Кривокорин)
Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье
ИСТРА добавила +31 по тексту и еще +634 геопривязки по паре Коллектор/дата.

https://pp.userapi.com/c845417/v845417969/1d7ab3/cXTBII0hr00.jpg

Re: Цифровой Гербарий МГУ

29.03.2019.
Проект "Флора Чувашии" набрал 4000 наблюдений сосудистых растений и уверенно идет на ВТОРОМ месте среди всех регионов России. Все благодаря Сергею Апполонову, - 75% его заслуга!

https://www.inaturalist.org/projects/ch … blic-flora

Re: Цифровой Гербарий МГУ

30.03.2019.
Большой март продолжается: новые массивы геоданных (ч. 2)

В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) статистика залитых геопривязок растет как на дрожжах благодаря дружной работе нашей команды.

21 марта 2019 г.

Новый массив: 163 ручных геопривязки (автор А.П. Серегин)
Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье
ИСТРА добавила +20 по тексту и еще +4631 геопривязок по паре Коллектор/дата.

25 марта 2019 г.

Новый массив: 1591 ручная геопривязка S1 (автор И.Н. Поспелов)
Западная Сибирь (сем. осоковые)
ИСТРА добавила +825 геопривязок по паре Коллектор/дата.

https://pp.userapi.com/c845417/v845417969/1d7abd/NprKv8u7h8E.jpg

Re: Цифровой Гербарий МГУ

31.03.2019.
Большой март продолжается: новые массивы геоданных (ч. 3)

В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) статистика залитых геопривязок растет как на дрожжах благодаря дружной работе нашей команды.

27 марта

Новый массив: 915 ручных геопривязок (актор К.В. Дудова)
Европейская часть
ИСТРА добавила +2 по тексту и +4856 по паре Коллектор/дата.

28 марта

Новый массив: 206 ручных геопривязок (автор И.Г. Кривокорин)
Москва и Московская область, Центральное Нечерноземье, Центральное Черноземье
ИСТРА добавила +31 по тексту и еще +1448 по паре Коллектор/дата.

Статистика Цифрового гербария МГУ на середину 28.03.2019 г.:

Образцов: 974289
Изображений: 968033
Видов: 37782
Геопривязок: 370289
Этикеток + OCR: 153706 + 320340

https://pp.userapi.com/c845417/v845417818/1dc739/R-fdpipQ2Vk.jpg

Re: Цифровой Гербарий МГУ

02.04.2019.
Гигантская заливка текстовых данных на портал Цифрового гербария МГУ: расшифровка 144 000 этикеток

В 2018 году по гранту РНФ № 14-50-00029 наш коммерческий партнер осуществлял ввод колоссального объема этикеток для Цифрового гербария МГУ. В качестве цели ввода этикеточных данных были выбраны образцы из России, собранные 64 самыми плодотворными коллекторами нашего гербария (и их однофамильцами). Это позволило заметно оптимизировать ввод, сосредоточившись на сборах людей, собиравших гербарий массово. Ниже дана статистика введенных этикеток по отдельным коллекторам:

Тихомиров 11246
Смирнов 9481
Жудова 9437
Назаров 7620
Куваев 6731
Шведчикова 6679
Вехов 4457
Сырейщиков 3686
Петунников 3564
Красноборов 2955
Иванова 2897
Носков 2848
Каден 2761
Алексеев 2707
Губанов 2315
Трофимов 2300
Щербаков 2268
Жадовский 2245
Майоров 2218
Игнатов 2115
Соколов 1988
Сухоруков 1968
Говорухин 1902
Павлов 1853
Петров 891+665
Кац 1723
Шауло 1715
Абрамова 1699
Наумова 1687
Шретер 1676
Ломоносова 1646
Амирханов 1568
Малютин 1555
Алехин 1552
Филин 1483
Бронзов 1472
Левицкий 1427
Соколова 1341
Вернандер 1316
Петелин 1315
Тыртиков 1310
Гроссет 1289
Полуянов 1145
Липшиц 1136
Пименов 1079
Новиков 1056
Поспелова 1041
Аверкиев 1039
Кожевников 1024
Зернов 996
Космовский 992
Борисова 958
Караваев 950
Кузнецов 948
Силаева 923
Сукачев 905
Павлова 735
Леонтьев 731
Прозоровский 721
Октябрева 687
Новограбленов 420
Курченко 402
Пешкова 384
Крылова 202

Мы отразили в техническом задании жесткие требования по качеству ввода данных. Для того, чтобы выполнить эти нормативы, компания-партнер предпочла значительно превысить план ввода и передала нам 144 000 сделанных этикеток (т.е. на 4 000 больше заявленного плана).

В течение нескольких месяцев мы проверяли данные на предмет логических ошибок и опечаток, тестировали различные режимы массовой загрузки данных по отдельным полям, разбирали по правильным полям содержимое поля "Прочая текстовая информация".

Вечером 28 марта 2019 г. IT-команда Цифрового гербария МГУ загрузила этот обширный массив на портал https://plant.depo.msu.ru/. Теперь 30% фондов Цифрового гербария МГУ (и 60% образцов сосудистых растений с территории России) можно проискивать по корректно введенным этикеткам, а иностранным коллегам получать автоматический перевод этих данных на родной язык. Система ИСТРА получила незаменимый источник данных для оптимизации циклов автоматической геопривязки.

Статистика до заливки (28.03.2019, 16:00):

Образцов: 974 289
Изображений: 968 033
Видов: 37 782
Геопривязок: 370 289
Этикеток + OCR: 153 706 + 320 340

Статистика после заливки (28.03.2019 19:00):

Образцов: 974 289
Изображений: 968 033
Видов: 37 782
Геопривязок: 370 289
Этикеток + OCR: 297 497 + 261 108


Статистика после заливки и генерального прогона ИСТРЫ (30.03.2019 14:00):

Образцов: 974 289
Изображений: 968 033
Видов: 37 782
Геопривязок: 373 163
Этикеток + OCR: 297 497 + 261 108