На очереди испытание японскими текстами.
Немного оффтопик -- я сейчас в Японии, если что, обращайтесь.
Вы не вошли. Пожалуйста, войдите или зарегистрируйтесь.
Форум «Плантариума» » Сообщения от Алексей Шипунов
На очереди испытание японскими текстами.
Немного оффтопик -- я сейчас в Японии, если что, обращайтесь.
Зачем нужен, скажем, китайский. Вот у меня есть три странички подорожников из "Iconographia Cormophytorum Sinicorum". Я запускаю ocrodjvu:
ocrodjvu --in-place -l chi-sim+lat -j 4 iconogr_cormophytorum_sinicorum_1980_plantago.djvu
жду две минуты
выделяю китайское описание Plantago asiatica, загружаю его в Google Translate, и получаю среди прочего (без правки):
===
...
Hairless or pubescent; petiole 5 to 22 cm long. flower
Several grasses, erect, 20-45 cm long, short
Hairy; spikes occupy 1/3 to 1/2 of upper end, with green
White sparse flowers, bracts broadly triangular, rather than calyx lobes
Short, both have green broad keel-like protrusions, calyx has
Short-handled, lobes obovate-elliptic to elliptic, long
2 to 2.5 mm; corolla lobes lanceolate, 1 mm long
Meter. Shade fruit oval, about 3 mm in length, lobed, planted
Child 5_6, rare 7-8, oblong, about L5 mm long,
Black-brown.
...
===
(заглавные буквы надо игнорировать, в китайском их нет).
Понимаю, что 5-6 (7-8) семян авторы считают для этого вида типичным. Очень полезно.
Добавлю. У меня лучше получается распознать целиком DjVu файл, а потом оттуда брать нужные куски распознанного текста. Такой подход лучше тем, что все лежит в одном месте.
Как это делается:
1) Нужно поставить DjView4, последний tesseract (это система распознавания от Google) со всеми языками, и ocrodjvu. Как это все ставить -- можно нагуглить, но если нужна инструкция, напишите.
2) Берем DjVu файл, понимаем какие там языки, запускаем в консоли:
ocrodjvu --in-place -j 4 -l eng file.djvu
и ждем. По умолчанию запускается tesseract, поэтому его указывать не надо. tesseract медленный, но _очень_ качественный, по многим тестам лучше FineReader, и уж куда лучше cuneiform. Кроме того, он развивается, то есть постоянно выходят новые версии (а cuneiform нет).
"-j 4" значит, что распознавать надо в четыре потока (а если в системе процессоров больше, то лучше всегда ставить максимальное значение). Можно комбинировать языки, причем по три или даже четыре! Например, "-l chi-sim+lat+rus" скомбинирует китайский упрощенный (материковый Китай), латиницу и русскую кириллицу. Есть и другие опции, но эти важнее всего.
3) Как только файл готов, открываем его в DjView4, нажимаем F2, выделяем любой фрагмент и по контекстному меню копируем текст в буфер. Что важно, теперь можно в DjVu файле искать (Crtl+F). А можно выделить весь текст, это лучше делать в консоли:
djvutxt file.djvu > file.txt
Получается текстовый файл со всем текстом из книги.
Да, там надо долго, буквально неделю сидеть, тогда что-то получается. Наверное, поэтому раздающих почти нет. А я, к сожалению, раздавать не могу...
Советую обратить внимание на вот эту раздачу на рутрекере: https://rutracker.org/forum/viewtopic.php?t=5754545
Там множество всего полезного! К сожалению, очень редко бывает "полный источник", то есть люди предпочитают скачать и отключиться от раздачи, наверное, потому что очень большой объем. Но если кто-нибудь сможет продержаться на раздаче подольше, то это сильно всем поможет.
Все, теперь "Ботанический журнал" с с первого выпуска и до конца 2009 года отсканирован, обработан и выложен.
Дорогие коллеги!
Очень рад сообщить, что "Ботанический журнал" теперь полностью отсканирован! Но очень нужна помощь в обработке сканов. Было бы прекрасно закончить с этим до праздников, и несмотря на то, что все очень заняты, я надеюсь, что это может у нас получиться.
Если есть возможность взять для обработки один какой-то год (а, может быть, сразу несколько лет), то пожалуйста, напишите мне мейл (не личное сообщение здесь, а именно письмо) на dactylorhiza в gmail.com. Если вы знаете еще кого-нибудь, кто может обрабатывать сканы, пожалуйста, тоже сообщите мне.
Всего доброго,
А. Шипунов
Вы правы, сборы имеются. Причина -- в понимании вида. Исправлю свой ответ Вам выше.
BONAP этот вид не упоминает. Дело еще в том, что в FNA A. cristatum понимается очень широко:
===
... This treatment recognizes two species within the Flora region, a very broadly interpreted Agropyron cristatum, which includes Dewey’s A. cristatum and A. desertorum, and a traditionally interpreted A. fragile. ===
Так что путаница, обычная для заносной флоры.
Все-таки, мне кажется, что мой образец не очень похож на A. desertotum, вот и Майоров на форуме Herba так считает. Есть ли еще какие-то идеи?
Спасибо. Действительно, сходство есть. Близкий вид?
Помогите, пожалуйста, со злаком. Северная Дакота, лето 2017 г. Скорее всего, евразийский занос. Agropyron?
В полном размере http://msubiology.info/shipunov/ph/2017070...14/ycv_2155.jpg
Приложены фотографии гербарного образца (соцветие отдельно).
Я повторю здесь мой сегодняшний призыв:
Уже осень, и, может быть, у вас возникнет возможность сканировать "Ботанический журнал". Сейчас доступны все номера с 1978 по 2006, а вот более ранние годы, к сожалению, только фрагментарно.
Можно сканировать любые отсутствующие выпуски, одиночно или группами. Со своей стороны, я обещаю не ждать до регулярного обновления "Флоры и фауны", а выкладывать присланное настолько быстро, насколько я могу это делать.
Поэтому если вы видите, что какой-то выпуск вам доступен в библиотеке или где-то еще, и его при этом нет в он-лайн архиве -- пожалуйста, отсканируйте и пришлите мне. Можно присылать мне и сырые сканы, можно даже фотографировать страницы (не развороты) и присылать мне фотографии.
Очень хочется довести этот проект до относительного завершения к концу года.
Уже осень, и, может быть, у вас возникнет возможность сканировать "Ботанический журнал". Сейчас доступны все номера с 1978 по 2006, а вот более ранние годы, к сожалению, только фрагментарно.
Можно сканировать любые отсутствующие выпуски, одиночно или группами. Со своей стороны, я обещаю не ждать до регулярного обновления "Флоры и фауны", а выкладывать присланное настолько быстро, насколько я могу это делать.
Поэтому если вы видите, что какой-то выпуск вам доступен в библиотеке или где-то еще, и его при этом нет в он-лайн архиве -- пожалуйста, отсканируйте и пришлите мне. Можно присылать мне и сырые сканы, можно даже фотографировать страницы (не развороты) и присылать мне фотографии.
Очень хочется довести этот проект до относительного завершения к концу года.
Пожалуйста
Тем временем количество номеров в архиве возросло почти втрое.
Если есть желание помочь в этом деле, пишите, пожалуйста, мне на почту.
Уже 134 файла! Если у кого-то есть какие-нибудь отсканированные номера, пожалуйста, напишите мне на почту.
И уже можно начинать прикидывать, какие номера и тома следует сканировать первыми.
Форум «Плантариума» » Сообщения от Алексей Шипунов