Википедия отдаёт свои данные разработчикам ИИ, чтобы дать отпор ботам-скрейперам
Википедия предоставляет разработчикам ИИ оптимизированный набор данных для обучения моделей, чтобы уменьшить нагрузку от ботов-скрейперов. Доступны структурированные данные на английском и французском языках.

Инициатива Википедии: борьба со скрейпингом данных
Фонд Викимедии, в стремлении снизить нагрузку на серверы, вызванную массовым сбором данных ботами, предложил разработчикам ИИ альтернативное решение. Вместо прямого извлечения информации с платформы, Википедия предоставила специально подготовленный набор данных. Это сотрудничество с платформой Kaggle, принадлежащей Google, позволит разработчикам получить доступ к структурированной информации на английском и французском языках.
Особенности предоставленного набора данных
Данные, оптимизированные для машинного обучения, представлены в удобном для обработки формате. Включают краткие описания статей, данные информационных блоков и разделы, но исключают ссылки и нетекстовые элементы, такие как аудиофайлы. Лицензия на использование данных открыта.
Это решение упрощает доступ к информации для моделирования, тонкой настройки, бенчмаркинга, выравнивания и анализа данных. Разработчики получают структурированный контент в машиночитаемом формате, что значительно облегчает работу.
Kaggle как платформа для доступа к данным Википедии
Википедия надеется, что предоставление данных через Kaggle станет привлекательной альтернативой прямому скрейпингу. Доступ к хорошо структурированным JSON-данным снизит нагрузку на серверы, вызванную массовым сбором информации ботами.
Это сотрудничество выгодно не только Википедии, но и разработчикам. Небольшие компании и независимые специалисты получат удобный доступ к ценным данным. Ранее Википедия уже сотрудничала с Google и Интернет-архивом, но партнерство с Kaggle расширяет доступ к данным для более широкого круга пользователей.
Мнение Kaggle о сотрудничестве
Бренда Флинн, руководитель отдела партнерских отношений Kaggle, отметила важность этого сотрудничества. Kaggle рада способствовать доступности и полезности данных Википедии для сообщества машинного обучения.
Преимущества нового подхода для всех участников
Снижение нагрузки на серверы Википедии
Предоставление оптимизированного набора данных значительно снижает нагрузку на серверы Википедии, вызванную активностью ботов-скрейперов. Это положительно скажется на стабильности работы платформы и обеспечит бесперебойный доступ к информации для всех пользователей.
Новые возможности для исследователей и разработчиков
Удобный доступ к структурированным данным Википедии открывает широкие возможности для исследований и разработок в области искусственного интеллекта. Это может стимулировать создание новых инструментов и приложений, базирующихся на информации из Википедии. Например, можно разработать более эффективные системы поиска информации или инструменты для автоматической верификации фактов.