Петрозаводский аннотированный корпус текстов (ПАКТ) - корпус аннотированных студенческих текстов на немецком и французском языках.

В качестве аннотаций выступает автоматическая частеречная разметка и ручная разметка ошибок.


Немецкий корпус

Размер корпуса в токенах: 663605

Частеречная разметка:

  • RFTagger, набор тегов STTS

Разметка ошибок:

  • неограниченная область ошибки
  • трехступенчатая степень критичности ошибки
  • 3 варианта возможной причины ошибки
  • 90 типов возможных ошибок

Французский корпус

Размер корпуса в токенах: 297047

Частеречная разметка:

  • CoreNLP, набор тегов Treebank

Разметка ошибок:

  • неограниченная область ошибки
  • трехступенчатая степень критичности ошибки
  • 3 варианта возможной причины ошибки
  • 71 тип возможных ошибок

Дата последнего обновления показателей: 24.11.2024 10:59:11 (UTC+3)


По вопросам использования корпуса, выявленных проблем в работе с корпусом, а также с предложениями по совершенствованию интерфейса корпуса обращайтесь на почтовый адрес: koturova@petrsu.ru (Котюрова Ирина Аврамовна).