Частотные словари сербского и хорватского языков

В статье Сколько слов нужно запомнить, чтобы знать сербский язык я пожаловался, что не могу найти частотные словари сербского языка. Частотный словарь — это список слов языка не по алфавиту, а по убыванию частоты встречаемости.

Илија Петровић прочитал это и прислал несколько частотных словарей и интересных ссылок:

Ја сам за своју личну употребу колико-толико средио листу и издвојио именице и глаголе (погледати привезак!). Намеравао сам средити, издвојити и остале врсте речи, али изгледа да ћу одустати од тога зато што свака граматика или уџбеник садржи заменице, упитне заменице, везнике, речице, ... које, ионако, најчешће, спадају у најучесталије речи. Такође понекад је сложено разврстати поједине врсте речи. Поготово када једна реч спада у више врста речи, па ју онда треба одредити колико је учестала. Настојаћу, барем, издвојити најучесталије прилоге и придеве.

Для скачивания



Ссылки

1) 5 тысяч самых распространенных слов сербохорватского языка: https://en.wiktionary.org/wiki/Wiktionary:Frequency_lists/Serbo-Croatian_wordlist

Список создан автоматически на основе субтитров к художественным фильмам из базы www.opensubtitles.org

2) Несколько десятков наречий (слов) сербохорватского языка: https://hr.wikipedia.org/wiki/Prilozi

3) Большие любительские частотные словари различных языков: https://invokeit.wordpress.com/frequency-word-lists/

В том числе:

  1. сербский кириллица (Serbian Cyrillic — sr-Cyrl)
  2. сербский латиница (Serbian Latin — sr-Latn)
  3. хорватский (Croatian — hr)

Автор пишет, что ему предлагали купить частотные словари каждого языка по £500 (фунтов стерлингов) за каждый, но это показалось слишком дорого. Поэтому частотные словари автор сделал сам и выложил их на всеобщее использование, принимая пожертвования по Paypal.

Я взял оттуда 2 словаря — по сербскому и хорватскому. Оба словаря составлены автоматически путем подсчета количества вхождений каждой словоформы, поэтому слов получилось больше, чем их на самом деле (+ опечатки). Слова идут в столбик в формате "слово — общее количество вхождений в текстах".

Скачать:

  • сербский (латиница): sr-2012-lat.txt (почти 700 тысяч, 9 Мб),
  • хорватский: hr-2012.txt (почти 600 тысяч, около 7.5 Мб).

К сожалению, некоторые буквы открываются в неправильном виде: љto вместо što, moћemo вместо možemo, reжi вместо reći, odliиno вместо odlično. Как это исправить, не знаю (автозамена исправляет некоторые правильные слова).

Как создать собственный частотный словарь

Так же автор invokeit.wordpress.com предлагает скачать программу FrequencyWordsHelper, для которой при запуске нужно указать папку (директорию) и выходной (итоговый) файл для записи результатов работы. FrequencyWordsHelper автоматически просканирует все txt-файлы указанной папки и составит частотный словарь на основе этих данных.

Комментарии