Главная
Новости
Строительство
Ремонт
Дизайн и интерьер




18.04.2021


18.04.2021


18.04.2021


18.04.2021


18.04.2021





Яндекс.Метрика

Корпус Хамшахри

24.09.2021

Корпус Хамшахри (перс. پیکره همشهری‎) — корпус текстов на персидском языке, основанный на контенте иранской газеты «Хамшахри», одного из первых онлайн-изданий на персидском языке. Первоначально собран и составлен Эхсаном Дарруди из DBRG Group, базирующейся в Тегеранском университете. Позднее группа под руководством Али Ахмада, на основе этого корпуса создала первую базу персидских текстов, пригодную для задач информационного поиска.

Корпус Хамшахри был создан путем сканирования новостных статей с веб-сайта газеты «Хамшахри» и последующей обработки HTML-страниц для создания стандартного текстового корпуса, пригодного для стандартного поиска информации.

Версия 1.0

Эта версия содержала более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, отчеты, редакционные статьи, литература, науки, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (порядка 140 КБ) со средним значением 1,8 КБ.

Корпус доступен в нескольких форматах для загрузки:

  • текст с тегами: 560 МБ
  • В таблицах SQL Server 2000: 712 МБ.

Версия 2.0

Эта версия была запущена 20 октября 2008 года, по сравнению с предыдущей имеет несколько новых функций:

  • Другие новости: 323 616 текстовых историй в 3206 файлах XML (файл на каждый день);
  • Увеличение периода публикаций: с 22 июня 1996 года по 13 мая 2007 года;
  • Больший объём: 1,42 ГБ без сжатия;
  • Стандартная кодировка: Unicode XML;
  • Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает их пригодными для задач поиска изображений;
  • Категоризированные новости: новостные сюжеты были классифицированы полуавтоматически (для задач классификации текста и категоризации).

Корпус доступен для загрузки в формате XML.