banner

Блог

Aug 28, 2023

Взвешенный

Том 13 научных докладов, Номер статьи: 14061 (2023) Цитировать эту статью

1507 Доступов

1 Альтметрика

Подробности о метриках

В современной цифровой культуре, основанной на данных, существует острая потребность в оптимизированных решениях, которые существенно сокращают операционные расходы и одновременно повышают производительность. Объем памяти и время обработки, которые можно использовать для обработки огромных объемов данных, подлежат ряду ограничений. Это, несомненно, было бы еще большей проблемой, если бы набор данных содержал избыточную и неинтересную информацию. Например, многие наборы данных содержат ряд неинформативных функций, которые в первую очередь вводят в заблуждение данный алгоритм классификации. Чтобы решить эту проблему, исследователи разрабатывают различные методы выбора признаков (FS), целью которых является удаление ненужной информации из необработанных наборов данных перед их передачей в алгоритм машинного обучения (ML). Алгоритмы метаэвристической оптимизации часто являются хорошим выбором для решения NP-сложных задач, таких как FS. В этом исследовании мы представляем метод FS-обертки, основанный на алгоритме поиска воробья (SSA), типе метаэвристики. SSA — это метод роевого интеллекта (SI), который выделяется своей быстрой сходимостью и повышенной стабильностью. У SSA есть некоторые недостатки, такие как меньшее разнообразие роев и слабая исследовательская способность на поздних итерациях, как и у большинства алгоритмов SI. Итак, используя десять хаотических карт, мы пытаемся улучшить SSA тремя способами: (i) начальное формирование роя; (ii) замена двух случайных величин в SSA; и (iii) фиксация воробьев, пересекающих зону поиска. В результате мы получаем CSSA — хаотичную форму SSA. Обширные сравнения показывают, что CSSA превосходит с точки зрения разнообразия роя и скорости сходимости при решении различных репрезентативных функций из набора тестов Конгресса Института инженеров по электротехнике и электронике (IEEE) по эволюционным вычислениям (CEC). Кроме того, экспериментальный анализ CSSA на восемнадцати междисциплинарных многомасштабных наборах данных машинного обучения из хранилища данных Калифорнийского университета в Ирвине (UCI), а также трех наборах данных многомерных микрочипов показывает, что CSSA превосходит двенадцать современных алгоритмов. в задаче классификации на основе дисциплины FS. Наконец, статистический апостериорный анализ с уровнем значимости 5%, основанный на знаковом ранговом критерии Уилкоксона, ранговом тесте Фридмана и тесте Неменьи, подтверждает значимость CSSA с точки зрения общей пригодности, точности классификации, размера выбранных признаков, времени расчета, трассы сходимости. и стабильность.

Двадцать первый век стал эрой данных, когда анализ и использование данных видны повсюду во всех аспектах жизни, и эти данные часто носят многомерный характер1,2,3,4,5. Однако неизбежно, что эти данные будут содержать значительное количество избыточных и нерелевантных характеристик, что приведет к увеличению вычислительных затрат и риску переобучения при обработке традиционными алгоритмами машинного обучения (ML)6,7,8. В результате, чтобы лучше использовать данные, необходимо разработать эффективные процедуры, такие как выбор признаков (FS), для обработки бесполезных признаков9,10,11. Оболочки, фильтры и встроенные методы FS обычно используются для их дифференциации на основе оценки подмножеств функций12. Подходы на основе оберток полагаются на заранее определенные алгоритмы машинного обучения для получения более высокой точности классификации, но их вычисления очень дороги, поскольку алгоритмы машинного обучения необходимо запускать множество раз13. Напротив, при оценке подмножеств признаков подходы на основе фильтров не используют какие-либо алгоритмы машинного обучения, что снижает вычислительные затраты, но может снизить точность классификации14. Встроенные методы включают FS в обучение модели, учитывая влияние алгоритмической модели и одновременно снижая вычислительную нагрузку; однако эти методы имеют плохую способность к обобщению и значительную вычислительную сложность15.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>

ДЕЛИТЬСЯ