10 важных терминов из области AI и ML — специально для DataArt IT NonStop

10 важных терминов из области AI и ML — специально для DataArt IT NonStop
IT NonStop — международная конференция, которую DataArt организует с 2014 года. В этом году она пройдет 18–20 ноября, второй раз полностью онлайн и совершенно бесплатно.

Наряду с Data Science и облачными технологиями, среди главных тем IT NonStop 2021 — искусственный интеллект и машинное обучение. Доклады о подготовке, тренировке и интерпретации моделей, проектировании и настройке основанных на AI приложений представят университеты и технологические компании (Amazon Web Services, Microsoft, NVIDIA, OCADO и т. д.). Часть выступлений ориентированы на опытных экспертов, но и для начинающих специалистов уровня Junior и Trainee, и для тех, чья специальность напрямую не связана с искусственным интеллектом или ML, запланировано достаточно.

В сфере ИИ — собственная специфическая терминология, а некоторые слова, перенесенные сюда из смежных областей, могут заметно менять значение.  Мы выбрали десять понятий, которые точно пригодятся всем, кто интересуется темой, планирует читать статьи и слушать доклады. Речь пойдет об алгоритмах (например, генетических), данных (в частности, озерах и хранилищах, а также намеренном искажении данных), глубоком обучении. Думаем, наш маленький глоссарий поможет новичку подготовиться к конференции IT NonStop 2021 и просто немного подтянуть английский (в конце статьи мы собрали их термины на английском).

Алгоритм (1) обучения — фрагмент кода, набор однозначных инструкций, которые позволяют установить закономерности внутри массива данных и подготовить на их основе модель машинного обучения. Генетические алгоритмы (2) — один из многочисленных видов ML-алгоритмов, эвристический метод, вдохновленный принципами естественного отбора. Чаще всего в машинном обучении такие алгоритмы используют для решения оптимизационных задач при обработке изображений, в робототехнике, разработке игр, прокладке маршрутов, компьютерном творчестве и т. д.

Речь о генетических алгоритмах пойдет, например, в докладах Роберта Енокяна из Армении и Павла Горы из Польши.

Любые проекты машинного обучения зависят от информации, на анализе которой они основаны. Поэтому вопросы хранения и извлечения данных тоже оказываются в сфере интересов AI и ML-специалистов. Data lake, или озеро данных (3) — универсальный репозиторий для аналитики, который позволяет хранить большое количество структурированных, полуструктурированных и никак не структурированных данных. В известном смысле, «плоское озеро» противопоставляют традиционному иерархическому хранилищу данных (4). Существуют и комбинированный тип хранилища — data lakehouse (5), который позволяет обойти многие ограничения, свойственные его прототипам, совмещая гибкость озера с более удобным управлением. Именно поэтому новый тип привлекает большое внимание проектов BI и ML. Еще одно важное понятие — многомерные данные (7) — high dimensional data, под которыми понимают массивы, где количество признаков превышает количество наблюдений.

На IT NonStop 2021 управлению данными будет, в честности, посвящен доклад Виталия Бондаренко из Львова.

В центре выступления Ивайло Станджева из Болгарии — еще одно важное понятие из области управления данными и машинного обучения — отравление данных (6). Это наиболее опасная атака, которой подвергается искусственный интеллект — манипуляция, при которой заложенная на этапе обучения ошибка заставляет модель принимать неверные решения в будущем.

Возвращаясь непосредственно к алгоритмам машинного обучения, обращаем ваше внимание на систему YOLO (You Only Look Once) (8), распознающую объекты в реальном времени. На конференции IT NonStop 2021 Марк Амазаспян из Армении расскажет о настройке подготовленной модели, способной различать реальные объекты от их изображений.

Глубокое машинное обучение (9) — совокупность методов, основанных на обучении общим представлениям, а не алгоритмам под конкретные задачи. Его идея заключается в имитации мыслительного процесса человека, наиболее полное воплощение она находит в архитектуре глубинной нейронной сети (10). Если эта тема кажется вам близкой, обратите внимание на доклад Томаша Стахлевского из Польши. Прямо в процессе вы сможете натренировать собственную нейронную сеть для определения объектов, попавших в объектив камеры.

Глоссарий к тексту

  • Algorithm — алгоритм — метод или набор инструкций, позволяющий подготовить модель машинного обучения.
  • Genetic algorithm — тип алгоритмов, вдохновленный принципами естественного отбора, который обычно применяется для решения оптимизационных задач.
  • Data lake — озеро данных — репозиторий, позволяющий хранить огромный объем неструктурированных данных.
  • Data warehouse — хранилище данных — предметно-ориентированная база данных, предназначенная для подготовки отчётов и бизнес-анализа.
  • Data lakehouse — термин, который обычно не переводят на русский. Комбинированный тип репозитория, сочетающий характеристики озера и хранилища данных.
  • Data poisoning — отравление данных — манипуляция, при которой заложенная на этапе обучения ошибка заставляет модель принимать неверные решения.
  • Нigh dimensional data — многомерные данные, где количество признаков превышает количество наблюдений.
  • YOLO-algorithm, обычно так и называемый YOLO, разработан для распознавания объектов на изображении в реальном времени. 
  • Deep learning — глубокое или глубинное обучение — тип машинного обучения, при котором модель готовится под широкий пул задач, а не для ответа на конкретный вопрос.
  • Deep neural network — глубинная нейросеть — сложная искусственная сеть, состоящая из нескольких слоев и имитирующая нейронные связи человека. 

Конференция IT NonStop, посвященная искусственному интеллекту и машинному обучению, управлению данными и облачным технологиям, пройдет 18–20 ноября. На ней выступят инженеры ведущих IT-компаний, включая Microsoft, NVIDIA, AWS, Ocado.