Re: Цифровой Гербарий МГУ

Наталья Гамова :

распространения ста модельных видов

Как посмотреть список этих видов?

Нашел )

Отредактировано Юрий Постников (2018-03-23 16:22:00)

Re: Цифровой Гербарий МГУ

24.03.18.
Цифровой гербарий МГУ становится краше

Мы добавили новую функцию: "Фото в природе". Это позволит коллекторам Гербария Московского университета передавать вместе со своими сборами и фотографии тех же растений в природе для публикации вместе со сканами сухих растений. Мы отлаживаем этот модуль. Это долгая работа, поскольку концептуально мы не держали такую возможность в голове на момент создания портала.

В бета-режиме у 189 образцов с острова Врангеля ( https://plant.depo.msu.ru/open/public/s … =0&y=0 ), собранных И.Н. Поспеловым в 2014 году, в карточках появились закладки "Фото в природе"/"Типичные изображения", на которые загружены (строго full-size) фотки тех же самых растений перед сбором. В open-версии эти изображения размещены под сканом, в мобильной версии open-портала - между сканами и метаданными.

Постепенно мы поймем будет ли функция востребована или нам достаточно размещать только ссылки на другие ресурсы с теми же фотографиями.

https://pp.userapi.com/c847124/v847124039/854a/pAkMqE4UoZc.jpg


https://pp.userapi.com/c847124/v847124039/8536/ni7q4T-q6UQ.jpg


https://pp.userapi.com/c847124/v847124039/8540/uBtFDPa4Ng0.jpg

Re: Цифровой Гербарий МГУ

Наталья Гамова :

будет ли функция востребована

Наверняка, будет...  Сбылась вековая мечта ботаников!

Наталья Гамова :

или достаточно размещать только ссылки на другие ресурсы

Сторонний ресурс накрыться может...  Лучше у себя надёжное местечко для хранения снимков выкроить smile

Re: Цифровой Гербарий МГУ

Ох, накрыться может всё что угодно (тьфу-тьфу!..)
Но так-то да - за одним следить хоть проще roll

Re: Цифровой Гербарий МГУ

Облако точек Цифрового гербария МГУ на 26 марта 2018 г.

Привязано 74,938 образцов.
https://pp.userapi.com/c846523/v846523597/7a1e/xDr7zDIV-S4.jpg

Re: Цифровой Гербарий МГУ

К вопросу о том, как можно получить ссылку на скан гербария - на примере Lysimachia punctata

Для полной версии ( https://plant.depo.msu.ru/ )

Запрос пишем или сразу в поле "Род / Вид (лат., рус.)", или открыв "расширенный поиск" https://plant.depo.msu.ru/module/itemsearchpublic - в графе "Вид или видовой эпитет (лат., рус.)" - это как удобно

В табличке, которая выводится на экран с результатами запроса, нажимаем а во втором столбике на значок "картинка" - открывается полноразмерное изображение https://plant.depo.msu.ru/public/scan.j … =MW0469928 (это из первой строки, образец MW0469928 )
Ссылка - просто адресная строка, ничего дополнительно искать не нужно (ну, или работает универсальное - правой кнопкой мыши - копировать URL картинки )

Или в той же таблице выдачи нажать на штрихкод, и в открывшемся всплывающем окне с паспортом образца нажать под превьюшкой на "300 dpi" - тоже откроет полноразмерный оригинал  https://plant.depo.msu.ru/public/scan.j … =MW0469928

Или, получив таблицу результатов по запросу, нажать вверху над ней "галерея" - копировать ссылки с того изображения, что крупное в серёдке галереи  - получается средний размер картинки - https://plant.depo.msu.ru/public/scan.j … ype=MEDIUM
Тот же самый результат - если на изображение из галереи нажать правой кнопкой - "открыть картинку в новой вкладке" - и там взять адресную строку


Для open-версии https://plant.depo.msu.ru/open/public

там тоже можно сразу и русским, и латинским названием при поиске пользоваться - и результаты выдаёт сразу превьюшками - то бывает удобнее для беглого просмотра.

Для lysimachia punctata вот первичный вариант выдачи: https://plant.depo.msu.ru/open/public/s … 20punctata
(там включены и L. verticilaris, - так как ищет по всем комбинациям, а в синонима у L. verticilaris есть комбинация, содержащая часть текста - Lysimachia punctata

А там уже нажимаете на на нужное (картинку, подписанную именно как  L. punctata) - открывается она крупнее - и справа от изображения есть "все образцы этого вида" - откроет только их "чистыми" - https://plant.depo.msu.ru/open/public/s … g=18174453
Это если нужно дать ссылку на всю галерею изображений вида в целом (я такие ставлю сслками на страницы видов тут - для перехода на внешний источник).
Если нужно дать ссылку на отдельное изображение - жмёте нужное - я всё тот же образец возьму для примера - и копируете либо просто адресную строку https://plant.depo.msu.ru/open/public/item/MW0469928
Либо над этой картинкой опять-таки есть ссылка "полное изображение" - https://plant.depo.msu.ru/open/public/i … g?original - это третий вариант открыть страницу полноразмерного оригинала.

В общем, НИКАКИХ специальных действий не нужно вообще - адрес картинки - это просто адресная строка той страницы, где открывается нужное вам отдельное изображение

Re: Цифровой Гербарий МГУ

30.03. Административное деление по координатам: новая функция

В Цифровом гербарии МГУ ( https://plant.depo.msu.ru/ ) новая функция: мы научили систему подтягивать по координатам административно-территориальное деление по имеющимся в системе координатам. Пока функция действует только для образцов с территории России и доступна через вкладку "Место сбора" в русскоязычной версии портала.

Сейчас у нас есть геопривязки примерно для 76 тыс. образцов, причем 62 тыс. из них происходит с территории России. В коллекции мы храним растения по "районам гербария", которые за редким исключением охватывают более двух субъектов Федерации. Система теперь хранит для каждого образца с координатами сведения о регионе и муниципальном районе в карточке. Отладив обмен данными между системой и геомодулем, мы скоро запустим поиск по этим полям.

Эта функция позволит генерировать списки образцов по регионам, районам или группам районов (естественно, туда попадут только образцы с геопривязками), а также всегда иметь актуальную административную привязку, если кому-то снова захочется отрезать от Московской области пару районов в пользу столицы или переименовать Муромский район в городской округ Муром.

На скриншоте пример из Устьянского района Архангельской области.
https://pp.userapi.com/c846520/v846520956/f0b6/zwvX0lnF8Vg.jpg

Re: Цифровой Гербарий МГУ

04.04.18
Большая загрузка: шесть новых массивов

Мы готовимся к массовому вводу этикеток (в виде контракта с коммерческим партнёром), в связи с чем подчищаем хвосты, спешно доделывая и заливая в систему начатые массивы. Итак, в понедельник и вторник мы выложили шесть новых массивов.

1) 705 этикеток с Командорских островов, большинство с геопривязкой

Это большая творческая работа Марии Ивановой, осуществленная по итогам двух экспедиций на Командорские острова под руководством П.А. Волковой. Почти все командорские образцы Цифрового гербария МГУ были, во-первых, найдены, во-вторых, внесены в виде полного текста в БД, а в третьих привязаны к карте вручную. К сожалению, многие старые сборы имеют очень грубую привязку ("остров Медный" или "остров Беринга"). Зато некоторые образцы снабжены отличными фотографиями растений в природе, сделанными Ю.О. Копыловым-Гуськовым.

2) 1870 пар коллектор-дата для района "Чукотка и Камчатка"

Введены А.А. Пискиным и А.А. Ахметжановой. Благодаря большой работе Алексея Лапина, почти все эти образцы были привязаны ИСТРОЙ к координатам.

3) 112 этикеток района S4

Это "побочный продукт" базы данных "Сто растений бассейна Амура". Содержит образцы, которые после точной геопривязки оказались за пределами амурского бассейна. Сделали С.В. Дудов, К.В. Дудова, Н.С. Гамова.

4) 60 этикеток рода Thymus

Массив, на котором мы отлаживали табличный ввод данных. Сделан два года назад. Творчество знатока рода В.М. Васюкова, который еще и определения правильные добавил.

5) 31 этикетка Pulsatilla, кое-что с ручной привязкой

Ввел Юрий Постников из Красноярска, когда проходил у нас практику.

6) 378 фотографий Владимирской области

Это фотографии живых растений, сделанные А.П. Серегиным в 2012 и 2015 гг. ( https://vk.com/vladimir_plant_hunter ). Все фотографии документируют соответствующие гербарные образцы, а потому доступны во вкладке "Фото в природе" в паспорте соответствующего листа

Re: Цифровой Гербарий МГУ

Здорово! Ещё и фото!

Re: Цифровой Гербарий МГУ

Да, понемножку попробуем.

Re: Цифровой Гербарий МГУ

05.04.2018.
Мы ничего не прячем!!!

Братцы, есть предположение, почему самая распространенная причина обращения к физической коллекции Гербария МГУ такова: "А вдруг вы не всё отсканировали?"

Пожилые профессора и доктора наук, член-корры и их помощники трясущимися руками хватаются за наши не очень устойчивые лесенки и лезут на верхние ярусы. И снова, и снова: "А вдруг вы не всё отсканировали? Ведь у Губанова в каталоге он значился!" - неловкое движение, и пачка типов рассыпана с высоты 2 метра.

Дорогие коллеги! Мы действительно отсканировали все фондовые коллекции, не пропустив ни одного образца. Списки прошли через трёхкратную сверку, все обнаруженные пропуски были найдены и исправлены. Каждый образец при этом в руках держало минимум три человека.

Осенью 2018 года мы повесим в систему образцы Западной Европы, Австралии и новые включения за год. Но это не пропуски, а план на последний год проекта.

----------
Хотелось бы сказать, что это шутка про такие истории - но нет, правда.
У нас уже были случаи, когда приходили искать, не доверяя сканам, какие-то Chenopodium с юга Русской равнины, и краснокнижные осоки Московской области.

Re: Цифровой Гербарий МГУ

09.04.18.
Поиск по фотографиям живых растений

Уже 344 образца Цифрового гербария МГУ имеют загруженные фотографии тех же самых растений в природе, сделанные перед сбором. Теперь в окне "Расширенного поиска" можно поставить галочку напротив опции "Искать только с фото в природе".

Пока на портал загружены фотографии трёх авторов: И.Н. Поспелова (остров Врангеля), Ю.О. Копылова-Гуськова (Командорские острова), А.П. Серегина (Владимирская область).

В open-версии фотографии помещаются под сканами в столбик, в боевой базе - в закладке "Фото в природе". Фотографии как и сканы размещаются по лицензии CC-BY 4.0 (см. рекомендованное цитирование в "Полной карточке", раздел "Цитировать для публикации").

https://pp.userapi.com/c831508/v831508328/c50c9/Wo8tTq6HD6Y.jpg

Re: Цифровой Гербарий МГУ

11.04.2018.
Горячие дни: большая заливка больших данных!

С 5 по 10 апреля 2018 года мы загрузили 10 новых массивов. Эта работа завершает цикл больших загрузок текстовых данных и геопривязок накануне летнего массового ввода пар коллектор/дата для всего Гербария МГУ. Вот обзор загруженных массивов и некоторые поучительные истории.

Сейчас в Цифровом гербарии МГУ 88 681 геопривязка и 92 630 этикеток.

1) 1043 этикетки с координатами Н.С. Гамовой (Байкальский заповедник)

Этот массив охватывает включения 2016 года, сканы которых легко были вынуты из системы по фильтру "Этап сканирования". Напротив номера штрихкода мы вносили коллекторский номер (со скана), а потом состыковали в автоматическом режиме с коллекторской xls-таблицей. Около 100 строк, не вставших автоматически, проверили и достыковали вручную. Все сборы с Байкальского заповедника содержат координаты.

2) 167 полных этикеток Камчатки (оператор Бурый)

Наш волонтёр Владимир Бурый, исследующий флору Камчатки, продолжает постепенный ввод полных этикеточных данных из этого региона. Эта загрузка охватила несколько родов злаков.

3) 1615 этикеток района E2 (оператор Мельник)

Ирина Мельник сделала еще один шаг к полному вводу этикеток всех образцов из района E2. Это северо-западная часть России: Ленинградская, Псковская, Новгородская, Тверская, Калининградская области. Многие этикетки получили автоматические геопривязки по ИСТРЕ.

4) 205 этикеток с Урала, район E10 (оператор Шарова)

Дарья Шарова начала полный ввод данных с Урала (кроме Коми, ХМАО и ЯНАО). Это наш район E10. Постепенно к библиотеке текстовых данных добавятся геопривязки.

5) 376 этикеток Белоруссии (оператор Федюшко)

Это долгожданная загрузка, охватывающая район E3a. Дело в том, что в последние годы мы активно включаем коллекции дублетов из Гродненского университета (в основном, сборы О.В. Созинова). Обширные свежие сборы четко и довольно легко переводятся в формат БД, что поможет нам закрыть облаком точек территорию Белоруссии при будущей геопривязке.

6) 18535 пар коллектор-дата района E4 (оператор Борцова)

Видите пятизначную цифру? Это не ошибка. Теперь район E4 (свыше 40 тыс. листов) целиком закрыт информацией об авторе и дате сбора каждого гербарного образца. Благодаря двухмесячным усилиям Анастасии Борцовой почти все сборы из Калужской, Тульской, Рязанской и Владимирской областей в ближайшем будущем по ИСТРЕ получат геопривязки. Этот район во многом уникален. Здесь хранятся идеально этикетированные массовые сборы, начиная с середины 19 века. Так, коллектор Захарьев, бывший корреспондентом В.Я. Цингера, уже в 1862 г. надежно обозначал на своих этикетках место и полную дату сбора. Обширные сборы из Мещеры сделаны под руководством В.Н. Тихомирова в ходе мещёрских экспедиций ботанического сада МГУ в 1966-1998 гг.

7) 580 пар коллектор-дата (не Е4)

Массовая работа по вводу коллекторов района E4 выявила в нем некоторые ошибки индексации материала. Сборы из Московской области (район E4a) оказались проиндексированными операторами сканеров еще три года назад как сборы из района E4. Мы отловили почти 600 таких образцов. Доля ошибочно индексированных образцов составила примерно 2,9%, но теперь порядка в Цифровом гербарии МГУ стало чуть больше.

8) 696 этикеток мхов Московской области без OCR (оператор Малашева)

Мы сообщали о том, что этикетки мхов прошли через процедуру оптического распознавания символов. Около 22 тыс. образцов распознаны не были, поскольку их этикетки не напечатаны, а написаны от руки. Для таких образцов мы начали ручной ввод полнотекстовых данных. Больше всего этикеток не распозналось в районе B6a (Московская область и Москва), с которого мы и начали.

9) 3458 кратких этикеток района S7, из них около 2,5 тыс. с ручными геопривязками (оператор Лапин)

Наш помощник Алексей Лапин продолжает снабжать нас аккуратными геопривязками образцов с Камчатки, Чукотки и Колымы. Постепенно уточняются привязки ранее привязанных образцов. Общее число геопривязок из этого региона достигло 6788 штук.

10) 1697 пар коллектор-дата для S3, с геопривязками (оператор Поспелов)

Известный знаток флоры Таймыра Игорь Поспелов также занимается массовой геопривязкой коллекций, но из другого региона - Красноярского края. Общее число геопривязок из этого региона превысило 9 тыс.! (В т.ч. 5 тыс. напрямую загруженных из базы данных "Флора Таймыра").

Re: Цифровой Гербарий МГУ

13.04.2018.
Долгожданный OCR гербария сосудистых растений запущен

Мы много писали о том, как в Цифровой гербарий МГУ внедряется модуль автоматического распознавания текста. Мы учимся создавать текстовые массивы с изображений этикеток гербарных образцов, а статистику OCR публикуем на главной странице портала ( https://plant.depo.msu.ru/ ).

Обкатка технологии на мхах закончена, и вот в тестовом режиме мы отправили на OCR гербарий сосудистых растений Америки. Массив близок к идеальному: 12 тысяч этикеток, разнообразие языков (английский, русский, испанский, французский), большинство этикеток напечатаны или как минимум содержат печатную шапку. После докрутки списка автозамен, которые съедят неизбежную абракадабру, возникающую в конце и в начале распознанных фрагментов, данные будут опубликованы. Это будет гигантский шаг в деле автоматической индексации нашего массива. Он сделает доступными при поиске по коллектору или географии те образцы, у которых этикетки еще не внесены в базу.

https://pp.userapi.com/c845416/v845416450/26b97/Z2d8QYGUf2A.jpg


https://pp.userapi.com/c844321/v844321450/260b0/RX2SpiLudD0.jpg

Re: Цифровой Гербарий МГУ

А цифры сверять и исправлять вручную?

Re: Цифровой Гербарий МГУ

А так всё же проверяется вручную, так что да.
Главная идея была - оставить те куски, которые более-менее вменяемы и требуют небольшой (относительно) ручной правки, а вот всё, что не распознаётся, давая бессмысленный набор символов - просто выкинуть, т.к. его проще набирать целиком вручную, чем выискивать среди всех этих "крокозябр" крупинки верно распознанного...

Re: Цифровой Гербарий МГУ

Программу распознавания лучше доработать в части распознования такой тройки, а то будет слишком много ошибок.

Re: Цифровой Гербарий МГУ

Да, со шрифтами бывают сложности на старых этикетках - не всё распознаётся пока.