Ведущий научный сотрудник Гербария МГУ имени М.В. Ломоносова опубликовал в журнале Taxon результаты работы по созданию «Цифрового гербария МГУ». В рамках проекта «Ноев ковчег» (при поддержке Российского научного фонда) ученые за три года создали крупнейшую в России базу данных растений со всего мира. Уже сейчас «Цифровой гербарий МГУ» доступен всем желающим, а в будущем исследователи собираются обучить нейронную сеть определять правильность идентификации растений, а также создать «Атлас флоры России» и «Чеклист флоры России».

 

Коллекция Гербария МГУ насчитывает свыше миллиона образцов. В 2015 году в рамках проекта «Ноев ковчег» началась масштабная работа по ее переводу в цифровой вид: ученые сканировали образцы засушенных растений и вносили данные с этикеток. За три года сотрудники университета вместе с помощниками и компанией-партнером оцифровали более 900 тысяч записей — 89% коллекции. Помимо отсканированных образцов растений цифровой гербарий включает тексты оригинальных этикеток и географические координаты мест сбора растений. При оцифровке используется как помощь волонтеров, так и автоматические системы, распознающие штрихкоды и помогающие работать с географическими координатами. Так, алгоритм может определять место сбора растения, сопоставляя имя ботаника с датой обнаружения растения или группируя растения по текстовому описанию места на этикетке. Позднее координаты для каждой из таких групп прописываются вручную.

 

Большинство образцов растений Гербария МГУ было собрано на территории России – 634 тысячи. Хорошо представлена флора Украины (30 тысяч), Монголии (27 тысяч), еще 99 тысяч образцов получено из стран Центральной Азии, немало растений в коллекции было собрано в Мали, Вьетнаме и Северной Корее.

 

Материалы «Цифрового гербария МГУ» доступны на его сайте. Изображения получают лицензию CC-BY 4.0, то есть на них не распространяются ограничения, связанные с авторскими правами, при условии прямой ссылки на первоисточник. Отсканированные растения и тексты с этикеток доступны для поисковых систем, на сайте Гербария записи можно сортировать по характеристикам растения, месту его обнаружения и другим критериям.

 

Параллельно с оцифровкой продолжается и активное пополнение коллекций. В 2016 году они выросли на 22 тысячи образцов, в 2017-м – на 19 тысяч. Больше всего в Гербарии появилось растений из Восточной Европы и азиатской части России, Центральной Азии и Кавказа. В 2016 году сотрудники Московского университета описали 16 новых видов растений из разных частей мира.

 

«В ближайшем будущем благодаря технологиям машинного обучения и нейронным сетям мы получим возможность автоматически проверять правильность идентификации коллекций сухих растений. Прошлый год стал поворотным: в 2017 году в мировой печати вышли сразу три публикации, посвященные автоматическому распознаванию растений по сканам. Технологии машинного обучения будут основаны на уже созданных и верифицированных библиотеках с изображениями сухих растений. Гербарий МГУ входит в семерку крупнейших цифровых гербариев мира, и, безусловно, его данные лягут в основу этого необычного футуриса», – рассказал автор статьи, ведущий научный сотрудник биологического факультета МГУ Алексей Серегин.

 

Собранная в рамках проекта база данных гербарных образцов поможет при создании «Атласа флоры России» и «Чеклиста флоры России». Атлас будет содержать сведения о распространении растений на территории страны, для него нужны данные и других российских гербариев, в том числе тех, которые пока не оцифрованы. «Чеклист флоры России» – стандартный перечень всех видов российской флоры, его можно составить на основе «Цифрового гербария МГУ» уже через два-три года. Оба проекта важны для документации и научного анализа разнообразия растений России и сохранения редких видов.