|
Наука - практике
Опыт ОИЯИ в применении глубоких нейросетей в сельском хозяйстве
Решением 137-й сессии Ученого совета ОИЯИ первая премия в разделе "Научно-технические прикладные работы" за 2024 год присуждена работе А.В.Ужинского, Г.А.Ососкова, А.В.Нечаевского "Методы глубокого обучения для решения различных задач в сельском хозяйстве".
В сельском хозяйстве технологии искусственного интеллекта применяются для обнаружения проблем развития и выявления болезней растений, прогнозирования урожайности, картографирования, оптимизации использования ресурсов, а также во множестве других задач.
Объединенный институт ядерных исследований обладает профильными специалистами и отличной ресурсной базой для проведения масштабных исследований в области машинного обучения. С 2017 года в Лаборатории информационных технологий реализуются различные проекты, связанные с применением методов глубокого обучения для решения актуальных задач сельского хозяйства.
В 2017 году группа научных сотрудников ЛИТ выиграла грант Российского фонда фундаментальных исследований на разработку комплексной системы диагностирования болезней растений по их изображениям и текстовому описанию. На тот момент глубокие свёрточные нейронные сети отлично показали себя при решении различных задач классификации изображений. Это стало возможно благодаря тому, что сети научились выделять из изображений значимые параметры, необходимые для эффективной классификации.
К 2017 году идея применения свёрточных нейросетей для диагностирования болезней растений уже была реализована в различных исследованиях. В большинстве случаев для обучения моделей использовалась база PlantVillage, содержащая 54 306 изображений 14 культур и 26 болезней. Первые версии моделей, разработанные в ЛИТ, тоже использовали эту базу. Однако выяснилось, что подобные модели при их тестировании на реальных данных показывают очень плохой результат. Проблема заключалась в том, что изображения PlantVillage собирались в контролируемых условиях: выполнены в одном освещении, с серым задним фоном, имеют схожую сепарацию листа и его расположение. В результате от использования базы PlantVillage пришлось отказаться. Для обучения моделей, которые можно было бы использовать в реальных условиях, нужно было собирать свою базу. Это требовало инструментов каталогизации изображений, кроме того, нужны были удобные интерфейсы для работы с моделями и средства работы с описанием болезней, рекомендациями по их лечению и запросами пользователей. С целью решения этих задач в ЛИТ была разработана многофункциональная платформа распознавания болезней растений Plant Disease Detection Platform (PDDP), которая позднее эволюционировала в проект DoctorP.
На начальном этапе в 2018 году изображения в базу собирались из открытых источников. В первой версии базы было всего 350 изображений для пяти классов листьев винограда. Минимальное количество изображений на класс было чуть более 30.
В то время уже появились такие известные свёрточные нейросетевые архитектуры, как ResNet и MobileNet, обучаемые на очень больших выборках изображений, благодаря чему они показывали всё лучшие и лучшие результаты. Это обусловило также и появление метода переноса обучения, предназначенного именно для условий малых обучающих выборок, когда веса основной части большой базовой сети типа ResNet, отвечающей за выделение значимых параметров, "замораживаются", а веса нескольких выходных слоев "доучиваются" на этой малой выборке, за счет чего можно значительно сократить ресурсы на обучение и получить хороший результат. При использовании переноса обучения необходима база изображений, на которой будет производиться дообучение сети.
Однако применение метода переноса обучения с имевшейся в то время базой изображений не дало нужной точности. Похожие затруднения описывались в различных исследованиях, использующих базы изображений, собранные в полевых условиях. После изучения литературы мы нашли решение в области применения специализированных подходов к обучению: few-shot-learning - обучение с нескольких попыток. Подобно тому как человек опознает кого-то, сравнивая с теми, кого он уже знает, в few-shot-learning подходе вместо классификации выполняется сравнение значимых признаков (embeddings), предварительно получаемых в свёрточных слоях нейросети. Один из примеров few-shot-learning подхода - это сиамские сети. Их обучение строится на подаче в сеть изображений одинаковых или разных классов. В случае использования ContrastiveLoss функции минимизации потерь обучение происходит на парах изображений. Оба изображения пропускаются через сеть для получения их представлений в многомерном пространстве свойств. Если изображения одного класса, веса модели изменяются так, чтобы полученные вектора оказались ближе друг к другу в евклидовом пространстве, а если классы разные, то вектора должны оказаться дальше. Использование ContrastiveLoss позволило добиться точности выше 98%. Такой подход давал лучшие результаты еще и потому, что число создаваемых пар изображений для обучения модели возрастает квадратично, увеличивая объем данных для обучения.
При дальнейшем росте количества изображений и классов болезней в базе и соответствующем расширении облачной платформы используемые решения уже не показывали такой хорошей точности. Проводились различные эксперименты в области подбора оптимальных политик аргументации данных, но значимых результатов они не принесли. Следующим естественным развитием сиамского подхода явился переход к трехчленной функции минимизации потерь - Tripletloss. При таком подходе на вход подаются два изображения одного класса и одно изображение другого класса. Процесс обучения направлен на подбор весов таким образом, чтобы в многомерном пространстве векторы-представления изображений одного класса стали ближе, а разных классов - максимально удалились друг от друга. В результате на 25 классах изображений удалось добиться точности более 97%.
Эксперименты по подбору оптимальной функции минимизации потерь продолжались на всем протяжении исследований. Ориентированные на сиамские сети функции типа Contrastive, Triplet, Quadruplet сменились угловыми функциями SphereFace, ArcFace, CosFace. Угловые функции минимизации потерь так же стремятся разнести вектор представлений различных классов дальше друг от друга, но выполняют это не в евклидовом пространстве, а на условной поверхности псевдосферы. Производились эксперименты и в области подбора оптимальной базовой архитектуры. В различное время использовались такие сети, как ResNet, MobileNet, EfficientNet, ViT, ConvNeXt - как в исходном виде, так и с различными модификациями, например с использованием различных блоков с механизмами внимания (attention mechanism).
Кроме работы с алгоритмами и сетями проводились эксперименты по расширению базы изображений с применением нейросетевых подходов. Ряд экспериментов был связан с использованием генеративно-состязательных сетей (DCGAN, WGAN, WGAN-GP, AWGAN, StyleGAN) для создания новых изображений или для переноса признаков одного класса в другой (CycleGAN). Тем не менее высокая вычислительная сложность и качество синтезированных изображений серьезно ограничивали применение подобных методов. В то же время использование LoRA (Low-rank adaptation) диффузионных моделей типа Stable Diffusion и Kandinsky демонстрирует весьма обнадеживающие результаты.
Параллельно с методами развивалась и сама платформа, в которой сейчас представлена целая коллекция моделей. На первом шаге обработки запроса пользователя применяется общая модель по болезням и вредителям без привязки к видам и культурам (68 классов). Далее - модель, которая определяет вид растения (71 класс), и если для данного вида имеется специализированная модель (27 моделей), то пользователю, в дополнение к общему, будет выдан и частный прогноз. При выдаче результата показываются два наиболее близких класса к загруженному изображению. В большинстве случаев всё это позволяет правильно определить болезнь и получить рекомендации по ее лечению. Для взаимодействия с платформой были разработаны мобильные приложения для iOS и Android, Телеграм-бот и программный интерфейс (API) для доступа к возможностям платформы сторонних сервисов. На текущий момент платформой обработано более двухсот пятидесяти тысяч запросов пользователей.
Кроме задачи классификации для сельского хозяйства большой интерес представляют задачи детекции. Если в первой требуется определить, какая болезнь на изображении, то во второй - координаты положения объектов на изображении и их классы.
В совместном проекте ЛИТ с компанией "Дока - Генные Технологии" разрабатывались механизмы определения различных заболеваний картофеля. Исследования велись сразу по нескольким направлениям. Для определения проблем на полях использовались программно-аппаратные комплексы с камерами высокого разрешения, устанавливаемые на сельхозтехнику. Наибольший интерес вызывают задачи детекции и сегментации. Первая состоит в определении областей изображения, внутри которых находится интересующий объект - растение с признаками болезни. Вторая - выделение областей объектов и определение всех принадлежащих им пикселей.
Примеры изображений с обнаруженными симптомами болезни картофеля
В результате исследований были определены не только наиболее перспективные нейросетевые архитектуры и подходы к обучению моделей, но и апробированы варианты визуализации данных о случаях обнаружения на полях. Другое направление исследований - анализ гиперспектральных изображений для поиска закономерностей, позволяющих выявлять больные растения еще до появления видимых симптомов. Проведенные исследования подтвердили возможность использования различных нейросетевых и статистических алгоритмов для классификации гиперспектральных изображений больного и здорового картофеля различных сортов. В ходе реализации проекта были отработаны подходы, позволяющие обучать различные модели и производить их валидацию, разработаны и апробированы различные варианты предобработки данных и определены наиболее перспективные из них, определены комбинации спектральных каналов, позволяющие получить вегетационный индекс, наиболее ярко показывающий признаки болезни.
Другое интересное направление исследований - автоматизация контроля и учета в тепличных комплексах. Проект осуществляется совместно с Инжиниринговым центром университета "Дубна". В ходе реализации проекта разрабатывается автономная роботизированная платформа, способная передвигаться по различным типам поверхностей, фиксировать интересующие показатели и выполнять съемку на высоте до четырех метров. Результатом работы должен стать цифровой двойник тепличного комплекса, в котором будет показана актуальная информация по количеству растений в ряду и их характеристикам, обнаруженные проблемы, данные по различным показателям (температура, влажность, освещенность) и прочее. Проект сочетает в себе решение различных технических задач по проектированию и разработке элементной базы платформы, робототехнических задач - картирование, локализация, автономное передвижение, выполнение маршрутных заданий, организационных задач - обработка изображений, отображение результата на карте и нейросетевых задач - отслеживание и подсчет, классификация, локализация и идентификация болезней и вредителей.
Слева - работа модели подсчета растений в ряду, справа - полнофункциональный прототип комплекса
В настоящее время разработаны полнофункциональный прототип роботизированной платформы, прототип комплекса контроля и учета и ряд моделей для подсчета растений, оценки их состояния, обнаружения вредителей и признаков различных заболеваний.
Использование искусственного интеллекта и автоматизации в сельском хозяйстве позволяет увеличить урожай и уменьшить издержки. На базе ЛИТ проводятся масштабные исследования, имеющие не только научную, но и практическую значимость. Результатом работ являются как оригинальные методы, алгоритмы и подходы, так и программно-аппаратные комплексы, применяемые в реальных условиях. К работе над проектами активно привлекаются учащиеся различных вузов, в том числе университета "Дубна".
Геннадий ОСОСКОВ, Александр УЖИНСКИЙ
|