Re: Цифровой Гербарий МГУ

Наталья Гамова :

распространения ста модельных видов

Как посмотреть список этих видов?

Нашел )

Отредактировано Юрий Постников (2018-03-23 16:22:00)

Re: Цифровой Гербарий МГУ

24.03.18.
Цифровой гербарий МГУ становится краше

Мы добавили новую функцию: "Фото в природе". Это позволит коллекторам Гербария Московского университета передавать вместе со своими сборами и фотографии тех же растений в природе для публикации вместе со сканами сухих растений. Мы отлаживаем этот модуль. Это долгая работа, поскольку концептуально мы не держали такую возможность в голове на момент создания портала.

В бета-режиме у 189 образцов с острова Врангеля ( https://plant.depo.msu.ru/open/public/s … =0&y=0 ), собранных И.Н. Поспеловым в 2014 году, в карточках появились закладки "Фото в природе"/"Типичные изображения", на которые загружены (строго full-size) фотки тех же самых растений перед сбором. В open-версии эти изображения размещены под сканом, в мобильной версии open-портала - между сканами и метаданными.

Постепенно мы поймем будет ли функция востребована или нам достаточно размещать только ссылки на другие ресурсы с теми же фотографиями.

https://pp.userapi.com/c847124/v847124039/854a/pAkMqE4UoZc.jpg


https://pp.userapi.com/c847124/v847124039/8536/ni7q4T-q6UQ.jpg


https://pp.userapi.com/c847124/v847124039/8540/uBtFDPa4Ng0.jpg

Re: Цифровой Гербарий МГУ

Наталья Гамова :

будет ли функция востребована

Наверняка, будет...  Сбылась вековая мечта ботаников!

Наталья Гамова :

или достаточно размещать только ссылки на другие ресурсы

Сторонний ресурс накрыться может...  Лучше у себя надёжное местечко для хранения снимков выкроить smile

Re: Цифровой Гербарий МГУ

Ох, накрыться может всё что угодно (тьфу-тьфу!..)
Но так-то да - за одним следить хоть проще roll

Re: Цифровой Гербарий МГУ

Облако точек Цифрового гербария МГУ на 26 марта 2018 г.

Привязано 74,938 образцов.
https://pp.userapi.com/c846523/v846523597/7a1e/xDr7zDIV-S4.jpg

Re: Цифровой Гербарий МГУ

К вопросу о том, как можно получить ссылку на скан гербария - на примере Lysimachia punctata

Для полной версии ( https://plant.depo.msu.ru/ )

Запрос пишем или сразу в поле "Род / Вид (лат., рус.)", или открыв "расширенный поиск" https://plant.depo.msu.ru/module/itemsearchpublic - в графе "Вид или видовой эпитет (лат., рус.)" - это как удобно

В табличке, которая выводится на экран с результатами запроса, нажимаем а во втором столбике на значок "картинка" - открывается полноразмерное изображение https://plant.depo.msu.ru/public/scan.j … =MW0469928 (это из первой строки, образец MW0469928 )
Ссылка - просто адресная строка, ничего дополнительно искать не нужно (ну, или работает универсальное - правой кнопкой мыши - копировать URL картинки )

Или в той же таблице выдачи нажать на штрихкод, и в открывшемся всплывающем окне с паспортом образца нажать под превьюшкой на "300 dpi" - тоже откроет полноразмерный оригинал  https://plant.depo.msu.ru/public/scan.j … =MW0469928

Или, получив таблицу результатов по запросу, нажать вверху над ней "галерея" - копировать ссылки с того изображения, что крупное в серёдке галереи  - получается средний размер картинки - https://plant.depo.msu.ru/public/scan.j … ype=MEDIUM
Тот же самый результат - если на изображение из галереи нажать правой кнопкой - "открыть картинку в новой вкладке" - и там взять адресную строку


Для open-версии https://plant.depo.msu.ru/open/public

там тоже можно сразу и русским, и латинским названием при поиске пользоваться - и результаты выдаёт сразу превьюшками - то бывает удобнее для беглого просмотра.

Для lysimachia punctata вот первичный вариант выдачи: https://plant.depo.msu.ru/open/public/s … 20punctata
(там включены и L. verticilaris, - так как ищет по всем комбинациям, а в синонима у L. verticilaris есть комбинация, содержащая часть текста - Lysimachia punctata

А там уже нажимаете на на нужное (картинку, подписанную именно как  L. punctata) - открывается она крупнее - и справа от изображения есть "все образцы этого вида" - откроет только их "чистыми" - https://plant.depo.msu.ru/open/public/s … g=18174453
Это если нужно дать ссылку на всю галерею изображений вида в целом (я такие ставлю сслками на страницы видов тут - для перехода на внешний источник).
Если нужно дать ссылку на отдельное изображение - жмёте нужное - я всё тот же образец возьму для примера - и копируете либо просто адресную строку https://plant.depo.msu.ru/open/public/item/MW0469928
Либо над этой картинкой опять-таки есть ссылка "полное изображение" - https://plant.depo.msu.ru/open/public/i … g?original - это третий вариант открыть страницу полноразмерного оригинала.

В общем, НИКАКИХ специальных действий не нужно вообще - адрес картинки - это просто адресная строка той страницы, где открывается нужное вам отдельное изображение

Re: Цифровой Гербарий МГУ

30.03. Административное деление по координатам: новая функция

В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) новая функция: мы научили систему подтягивать по координатам административно-территориальное деление по имеющимся в системе координатам. Пока функция действует только для образцов с территории России и доступна через вкладку "Место сбора" в русскоязычной версии портала.

Сейчас у нас есть геопривязки примерно для 76 тыс. образцов, причем 62 тыс. из них происходит с территории России. В коллекции мы храним растения по "районам гербария", которые за редким исключением охватывают более двух субъектов Федерации. Система теперь хранит для каждого образца с координатами сведения о регионе и муниципальном районе в карточке. Отладив обмен данными между системой и геомодулем, мы скоро запустим поиск по этим полям.

Эта функция позволит генерировать списки образцов по регионам, районам или группам районов (естественно, туда попадут только образцы с геопривязками), а также всегда иметь актуальную административную привязку, если кому-то снова захочется отрезать от Московской области пару районов в пользу столицы или переименовать Муромский район в городской округ Муром.

На скриншоте пример из Устьянского района Архангельской области.
https://pp.userapi.com/c846520/v846520956/f0b6/zwvX0lnF8Vg.jpg

Re: Цифровой Гербарий МГУ

04.04.18
Большая загрузка: шесть новых массивов

Мы готовимся к массовому вводу этикеток (в виде контракта с коммерческим партнёром), в связи с чем подчищаем хвосты, спешно доделывая и заливая в систему начатые массивы. Итак, в понедельник и вторник мы выложили шесть новых массивов.

1) 705 этикеток с Командорских островов, большинство с геопривязкой

Это большая творческая работа Марии Ивановой, осуществленная по итогам двух экспедиций на Командорские острова под руководством П.А. Волковой. Почти все командорские образцы Цифрового гербария МГУ были, во-первых, найдены, во-вторых, внесены в виде полного текста в БД, а в третьих привязаны к карте вручную. К сожалению, многие старые сборы имеют очень грубую привязку ("остров Медный" или "остров Беринга"). Зато некоторые образцы снабжены отличными фотографиями растений в природе, сделанными Ю.О. Копыловым-Гуськовым.

2) 1870 пар коллектор-дата для района "Чукотка и Камчатка"

Введены А.А. Пискиным и А.А. Ахметжановой. Благодаря большой работе Алексея Лапина, почти все эти образцы были привязаны ИСТРОЙ к координатам.

3) 112 этикеток района S4

Это "побочный продукт" базы данных "Сто растений бассейна Амура". Содержит образцы, которые после точной геопривязки оказались за пределами амурского бассейна. Сделали С.В. Дудов, К.В. Дудова, Н.С. Гамова.

4) 60 этикеток рода Thymus

Массив, на котором мы отлаживали табличный ввод данных. Сделан два года назад. Творчество знатока рода В.М. Васюкова, который еще и определения правильные добавил.

5) 31 этикетка Pulsatilla, кое-что с ручной привязкой

Ввел Юрий Постников из Красноярска, когда проходил у нас практику.

6) 378 фотографий Владимирской области

Это фотографии живых растений, сделанные А.П. Серегиным в 2012 и 2015 гг. ( https://vk.com/vladimir_plant_hunter ). Все фотографии документируют соответствующие гербарные образцы, а потому доступны во вкладке "Фото в природе" в паспорте соответствующего листа

Re: Цифровой Гербарий МГУ

Здорово! Ещё и фото!

Re: Цифровой Гербарий МГУ

Да, понемножку попробуем.

Re: Цифровой Гербарий МГУ

05.04.2018.
Мы ничего не прячем!!!

Братцы, есть предположение, почему самая распространенная причина обращения к физической коллекции Гербария МГУ такова: "А вдруг вы не всё отсканировали?"

Пожилые профессора и доктора наук, член-корры и их помощники трясущимися руками хватаются за наши не очень устойчивые лесенки и лезут на верхние ярусы. И снова, и снова: "А вдруг вы не всё отсканировали? Ведь у Губанова в каталоге он значился!" - неловкое движение, и пачка типов рассыпана с высоты 2 метра.

Дорогие коллеги! Мы действительно отсканировали все фондовые коллекции, не пропустив ни одного образца. Списки прошли через трёхкратную сверку, все обнаруженные пропуски были найдены и исправлены. Каждый образец при этом в руках держало минимум три человека.

Осенью 2018 года мы повесим в систему образцы Западной Европы, Австралии и новые включения за год. Но это не пропуски, а план на последний год проекта.

----------
Хотелось бы сказать, что это шутка про такие истории - но нет, правда.
У нас уже были случаи, когда приходили искать, не доверяя сканам, какие-то Chenopodium с юга Русской равнины, и краснокнижные осоки Московской области.

Re: Цифровой Гербарий МГУ

09.04.18.
Поиск по фотографиям живых растений

Уже 344 образца Цифрового гербария МГУ имеют загруженные фотографии тех же самых растений в природе, сделанные перед сбором. Теперь в окне "Расширенного поиска" можно поставить галочку напротив опции "Искать только с фото в природе".

Пока на портал загружены фотографии трёх авторов: И.Н. Поспелова (остров Врангеля), Ю.О. Копылова-Гуськова (Командорские острова), А.П. Серегина (Владимирская область).

В open-версии фотографии помещаются под сканами в столбик, в боевой базе - в закладке "Фото в природе". Фотографии как и сканы размещаются по лицензии CC-BY 4.0 (см. рекомендованное цитирование в "Полной карточке", раздел "Цитировать для публикации").

https://pp.userapi.com/c831508/v831508328/c50c9/Wo8tTq6HD6Y.jpg

Re: Цифровой Гербарий МГУ

11.04.2018.
Горячие дни: большая заливка больших данных!

С 5 по 10 апреля 2018 года мы загрузили 10 новых массивов. Эта работа завершает цикл больших загрузок текстовых данных и геопривязок накануне летнего массового ввода пар коллектор/дата для всего Гербария МГУ. Вот обзор загруженных массивов и некоторые поучительные истории.

Сейчас в Цифровом гербарии МГУ 88 681 геопривязка и 92 630 этикеток.

1) 1043 этикетки с координатами Н.С. Гамовой (Байкальский заповедник)

Этот массив охватывает включения 2016 года, сканы которых легко были вынуты из системы по фильтру "Этап сканирования". Напротив номера штрихкода мы вносили коллекторский номер (со скана), а потом состыковали в автоматическом режиме с коллекторской xls-таблицей. Около 100 строк, не вставших автоматически, проверили и достыковали вручную. Все сборы с Байкальского заповедника содержат координаты.

2) 167 полных этикеток Камчатки (оператор Бурый)

Наш волонтёр Владимир Бурый, исследующий флору Камчатки, продолжает постепенный ввод полных этикеточных данных из этого региона. Эта загрузка охватила несколько родов злаков.

3) 1615 этикеток района E2 (оператор Мельник)

Ирина Мельник сделала еще один шаг к полному вводу этикеток всех образцов из района E2. Это северо-западная часть России: Ленинградская, Псковская, Новгородская, Тверская, Калининградская области. Многие этикетки получили автоматические геопривязки по ИСТРЕ.

4) 205 этикеток с Урала, район E10 (оператор Шарова)

Дарья Шарова начала полный ввод данных с Урала (кроме Коми, ХМАО и ЯНАО). Это наш район E10. Постепенно к библиотеке текстовых данных добавятся геопривязки.

5) 376 этикеток Белоруссии (оператор Федюшко)

Это долгожданная загрузка, охватывающая район E3a. Дело в том, что в последние годы мы активно включаем коллекции дублетов из Гродненского университета (в основном, сборы О.В. Созинова). Обширные свежие сборы четко и довольно легко переводятся в формат БД, что поможет нам закрыть облаком точек территорию Белоруссии при будущей геопривязке.

6) 18535 пар коллектор-дата района E4 (оператор Борцова)

Видите пятизначную цифру? Это не ошибка. Теперь район E4 (свыше 40 тыс. листов) целиком закрыт информацией об авторе и дате сбора каждого гербарного образца. Благодаря двухмесячным усилиям Анастасии Борцовой почти все сборы из Калужской, Тульской, Рязанской и Владимирской областей в ближайшем будущем по ИСТРЕ получат геопривязки. Этот район во многом уникален. Здесь хранятся идеально этикетированные массовые сборы, начиная с середины 19 века. Так, коллектор Захарьев, бывший корреспондентом В.Я. Цингера, уже в 1862 г. надежно обозначал на своих этикетках место и полную дату сбора. Обширные сборы из Мещеры сделаны под руководством В.Н. Тихомирова в ходе мещёрских экспедиций ботанического сада МГУ в 1966-1998 гг.

7) 580 пар коллектор-дата (не Е4)

Массовая работа по вводу коллекторов района E4 выявила в нем некоторые ошибки индексации материала. Сборы из Московской области (район E4a) оказались проиндексированными операторами сканеров еще три года назад как сборы из района E4. Мы отловили почти 600 таких образцов. Доля ошибочно индексированных образцов составила примерно 2,9%, но теперь порядка в Цифровом гербарии МГУ стало чуть больше.

8) 696 этикеток мхов Московской области без OCR (оператор Малашева)

Мы сообщали о том, что этикетки мхов прошли через процедуру оптического распознавания символов. Около 22 тыс. образцов распознаны не были, поскольку их этикетки не напечатаны, а написаны от руки. Для таких образцов мы начали ручной ввод полнотекстовых данных. Больше всего этикеток не распозналось в районе B6a (Московская область и Москва), с которого мы и начали.

9) 3458 кратких этикеток района S7, из них около 2,5 тыс. с ручными геопривязками (оператор Лапин)

Наш помощник Алексей Лапин продолжает снабжать нас аккуратными геопривязками образцов с Камчатки, Чукотки и Колымы. Постепенно уточняются привязки ранее привязанных образцов. Общее число геопривязок из этого региона достигло 6788 штук.

10) 1697 пар коллектор-дата для S3, с геопривязками (оператор Поспелов)

Известный знаток флоры Таймыра Игорь Поспелов также занимается массовой геопривязкой коллекций, но из другого региона - Красноярского края. Общее число геопривязок из этого региона превысило 9 тыс.! (В т.ч. 5 тыс. напрямую загруженных из базы данных "Флора Таймыра").

Re: Цифровой Гербарий МГУ

13.04.2018.
Долгожданный OCR гербария сосудистых растений запущен

Мы много писали о том, как в Цифровой гербарий МГУ внедряется модуль автоматического распознавания текста. Мы учимся создавать текстовые массивы с изображений этикеток гербарных образцов, а статистику OCR публикуем на главной странице портала ( https://plant.depo.msu.ru/ ).

Обкатка технологии на мхах закончена, и вот в тестовом режиме мы отправили на OCR гербарий сосудистых растений Америки. Массив близок к идеальному: 12 тысяч этикеток, разнообразие языков (английский, русский, испанский, французский), большинство этикеток напечатаны или как минимум содержат печатную шапку. После докрутки списка автозамен, которые съедят неизбежную абракадабру, возникающую в конце и в начале распознанных фрагментов, данные будут опубликованы. Это будет гигантский шаг в деле автоматической индексации нашего массива. Он сделает доступными при поиске по коллектору или географии те образцы, у которых этикетки еще не внесены в базу.

https://pp.userapi.com/c845416/v845416450/26b97/Z2d8QYGUf2A.jpg


https://pp.userapi.com/c844321/v844321450/260b0/RX2SpiLudD0.jpg

Re: Цифровой Гербарий МГУ

А цифры сверять и исправлять вручную?

Re: Цифровой Гербарий МГУ

А так всё же проверяется вручную, так что да.
Главная идея была - оставить те куски, которые более-менее вменяемы и требуют небольшой (относительно) ручной правки, а вот всё, что не распознаётся, давая бессмысленный набор символов - просто выкинуть, т.к. его проще набирать целиком вручную, чем выискивать среди всех этих "крокозябр" крупинки верно распознанного...

Re: Цифровой Гербарий МГУ

Программу распознавания лучше доработать в части распознования такой тройки, а то будет слишком много ошибок.

Re: Цифровой Гербарий МГУ

Да, со шрифтами бывают сложности на старых этикетках - не всё распознаётся пока.

Re: Цифровой Гербарий МГУ

20.04.2018.

7 164 образцов Америки получили OCR

В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) пополнение: мы загрузили результаты OCR для гербария Америки. Процедура оптического распознавания символов оказалась результативной для 58,9% образцов из 12 166 листов, представляющих флору Америки.

Это наш первый опыт внедрения OCR в оцифровку текстовых данных гербария сосудистых растений. Этот массив текстовой информации будет использован для предварительной сортировки массива по странам, отдельным штатам и провинциям, коллекторам, наличию/отсутствию координат и проч. Ну и, конечно, результаты OCR напрямую доступны для поиска в специальном поле ( здесь https://plant.depo.msu.ru/module/planti … abelpublic ).

Наш OCR работает на Tesseract. Спасибо разработчикам!

Re: Цифровой Гербарий МГУ

23.04

pdf презентации "Цифровой гербарий МГУ: зачем ботаникам big data?"лежит на ResearchGate.

https://www.researchgate.net/publicatio … m_big_data

Re: Цифровой Гербарий МГУ

25.04.

Что это за серый прямоугольник? Есть идеи?

Взглянем ближе.

Откроем оригинал.

А ведь здесь только точки.

Ровно 100 000 одинаковых черных точек.

И от них жутко рябит в глазах.

https://pp.userapi.com/c844618/v844618419/32ea1/Bfg0kJte6mw.jpg

у нас в базе данных 100 000 точек на карте! Причем это 100 000 аккуратно выясненных пар координат для 100 000 гербарных образцов, внесенных вручную нашими операторами или привязанных к местности системой ИСТРА ( https://www.msu.ru/science/main_themes/ … istra.html ).

Сегодня большой день: нам потребовалось ровно 8 месяцев (24.08.2017 vs 24.04.2018), чтобы достичь, возможно, самой невероятной величины Цифрового гербария МГУ - мы преодолели рубеж в 100 000 геопривязок.

Олег Платко (ИСТРА), Евгения Селезнёва (E4), Анатолий Кузьмин (E12a), Алексей Лапин (S7), Игорь Поспелов (S3), Маша Иванова (Командоры), Андрей Салмин (all), Ксения Дудова (S4/S6), Сергей Дудов (S4/S6) и многие-многие другие, спасибо Вам! Это большое общее дело.

Re: Цифровой Гербарий МГУ

26.04.

Новые массивы: обзор за неделю

За прошедшую неделю мы загрузили следующие массивы:

- 16084 OCR-транскрипций монгольского гербария сосудистых растений - получилось не очень, поскольку основу монгольской коллекции составляют образцы с блёклыми этикетками, напечатанными на машинках в 1970-80-е гг.

- 5181 этикетка мхов, собранных В.Э. Федосовым, почти все этикетки имеют координаты

- 1818 полных этикеток образцов Крыма (в основном, сборы Н.К. Шведчиковой); на сегодняшний день в крымском гербарии внесено полностью в базу уже две трети этикеток.

- 212 полных этикеток коллектора Люмилы Хорун из Тульской и Рязанской областей - в основном, адвентивные виды;

- 163 геопривязки топ-продуктивных коллекторских дней всех времен и территорий - эта выборка накрыла по ИСТРЕ примерно 5 тыс. образцов;

Статистика на 25 апреля 2018 г.:
- Геопривязок: 107 474
- Этикеток: 101 415
- OCR (только те, что не имеют этикеток): 71 649

Ждём в ближайшие дни новых загрузок текстовых и пространственных данных: Центральная Сибирь (координаты, даты, коллекторы), координаты с монгольских этикеток, этикетки Парагвая.

Re: Цифровой Гербарий МГУ

27.04.

Наш новый геопоиск в стиле simple

Только прямоугольник ничего лишнего.

1. Выбираем на главной https://plant.depo.msu.ru/ "Поиск по этикеткам и OCR".

2. Находим "Геопоиск по координатам", жмем на иконку справа.
https://pp.userapi.com/c840337/v840337946/8432d/kVv30IOvitk.jpg

3. Shift + мышка для выбора прямоугольника на земной поверхности.
https://pp.userapi.com/c840337/v840337946/84337/BdyDMM148pQ.jpg

4. "ОК" и система выдает вам координаты углов в поисковой форме.
https://pp.userapi.com/c840337/v840337946/84341/1ne7YH31fn8.jpg

5. Второй "ОК" и перед Вами табличка попавших в прямоугольник образцов.
https://pp.userapi.com/c840337/v840337946/8434b/y_mqbb0ZMfM.jpg

На скриншотах показано, как взяв в рамочку Московскую область можно получить в поисковой выдачи 8073 образцов, попавших в этот прямоугольник.

Действует ТОЛЬКО для образцов, имеющих точные координаты. Их 100 872 штук (11% от числа сканов).

Re: Цифровой Гербарий МГУ

30.04.
Чемпион-стахановец

Михаил Иванович Назаров, пожалуй, самый плодотворный коллектор Гербария Московского университета. Постепенное наполнение нашей базы данных ( https://plant.depo.msu.ru/ ) сведениями о времени, месте и авторе сбора позволило однозначно выявить, как минимум, максимальную суточную продуктивность людей, которые своими руками создавали Гербарий МГУ.

Назаров в этом плане показывает фантастический пример. У нас уже учтено 128 образцов, которые он собрал в Твери 4.6.1917 г. и по 96 образцов, собранных им близ с. Отмичи Тверской губернии 13.6.1917 г. и 19.6.1917 г. При этом тверской гербарий внесен в базу данных не полностью (на 80%).

Для сравнения: на зональной практике МГУ бригада студентов-почвоведов за 20 дней собирает на десятерых 100 образцов гербария.

https://sun1-1.userapi.com/c840632/v840632105/781d3/gOsNC98AIUo.jpg


https://pp.userapi.com/c844616/v844616586/35c1d/rGqm_I9ZLT4.jpg

Re: Цифровой Гербарий МГУ

Если задаться целью, то можно собрать.