» İstifadə tezliyi. Ön sözlərdən istifadə tezliyi (qaralama) - Hesablama Dilçilik Rus dilində sözlərin tezliyi statistikası

İstifadə tezliyi. Ön sözlərdən istifadə tezliyi (qaralama) - Hesablama Dilçilik Rus dilində sözlərin tezliyi statistikası

Lüğətə müasir rus dilinin ən çox işlənən sözləri (XX əsrin 2-ci yarısı - 21-ci əsrin əvvəlləri) daxil edilib, istifadə tezliyi, mətnlər və janrlar üzrə statistik paylanması, mətnlərin yaranma vaxtı haqqında məlumat verilir. Lüğət 100 milyon söz həcmində Rus Dili Milli Korpusunun mətnləri əsasında hazırlanıb. Rus dilinin tezlik lüğətlərinin tarixi və lüğətin "Rus lüğətinin yeni tezlik lüğəti" nin yaradılması üsulları haqqında daha çox məlumat əldə edə bilərsiniz.

Lüğətin konsepsiyasının işlənib hazırlanması və nəşrə hazırlanması O.N.Lyashevskaya və S.A.Şarov, elektron variantı A.V.Sannikov tərəfindən hazırlanmışdır. Müəlliflər lüğətin yaradılması prinsiplərinin müzakirəsində iştirak edən V. A. Plunqyan, A. Ya. Şaikeviç, E. A. Qrişina, B. P. Kobritsov, E. V. Raxilina, S. O. Savçuk, D. V. Siçinava və digər iştirakçılara minnətdarlıqlarını bildirirlər. Biz O.Uryupina, D. və G. Bronnikovs, B. Kobritsov, həmçinin Yandex MMC-nin əməkdaşları A. Abroskin, N. Grigoriev, A. Sokirko-ya göstərdikləri köməyə görə təşəkkür edirik. müxtəlif mərhələlər materialın toplanması və kompüter emalı.

Lüğətdə sözü necə tapmaq olar?

Lüğətin iki əsas bölməsi əlifba sırası ilə və korpusda ümumi istifadə tezliyinə görə çeşidlənmiş sözlərin siyahısıdır. Bütün sözlər orijinal (ilkin) formada verilir: adlar üçün bu nominativ hal formasıdır (isimlər üçün, bir qayda olaraq, forma tək, sifətlər üçün - kişi cinsinin tam forması), fellər üçün - məsdər forması.

Əlifba sırası ən çox yayılmış 60 min söz formasını ehtiva edir. Haqqında məlumat tapmaq üçün düz söz, bölməsinə keçin, sözün ilk hərfini seçin və cədvəldə axtardığınız sözü tapın. Sözü tez tapmaq üçün axtarış qutusundan da istifadə edə bilərsiniz, məsələn:

Söz: parlaq

Beləliklə, siz yalnız müəyyən bir söz haqqında deyil, eyni şəkildə başlayan və ya bitən sözlər qrupu haqqında da məlumat tapa bilərsiniz. Bunu etmək üçün axtarış qutusunda yazılan hərflər ardıcıllığından sonra (“... ilə başlayan bütün sözlər”) və ya hərflər sətirindən (“... ilə bitən bütün sözlər”) sonra ulduz işarəsindən (*) istifadə edin. məsələn, ilə başlayan bütün sözləri tapmaq istəyirsinizsə yenidən, axtarış qutusuna yazın:

Söz: yenidən*

- ilə bitən bütün sözləri tapmaq istəyirsinizsə enko, axtarış qutusuna yazın:

Söz: *nko

Lemmaların tezliyi siyahısında sözlər müasir rus dilinin korpusunda ümumi istifadə tezliyinə görə sıralanır ədəbi dil. Tezlik siyahısına ən çox yayılmış 20.000 lemma daxildir.

İstədiyiniz söz haqqında məlumat tapmaq üçün bölməyə keçin və cədvəldə axtardığınız sözü tapın. Fərdi sözlər haqqında məlumat axtarmaq üçün pəncərədən istifadə etmək daha yaxşıdır cəld axtarış sözlər.

Korpusda tapa bildiyim halda, mən niyə sözü lüğətdə tapa bilmirəm?

Bu bir neçə səbəbə görə ola bilər. Birincisi, söz aşağı tezlikli ola bilər (məsələn, korpusda yalnız 3 hadisə) və ya yalnız 1950-ci ildən əvvəl yazılmış mətnlərdə istifadə edilə bilər. İkincisi, bir söz dəfələrlə baş verə bilər, ancaq bir və ya iki mətndə: belə lemmalar bilərəkdən lüğətin lüğətindən çıxarıldı. Üçüncüsü, sözün ilkin formasının və ya nitq hissəsinin xüsusiyyətlərinin avtomatik müəyyən edilməsində səhvə yol verildiyini və ya sözün səhvən xüsusi ad kimi verilməsini istisna edə bilmərik. Sayt tezlik lüğətinin "test" versiyasını təqdim edir və biz onun leksik tərkibinin aydınlaşdırılması üzərində işləməyə davam edəcəyik.

Sözün istifadəsi ilə bağlı hansı məlumatları əldə etmək olar?

Lüğətdə sözün korpusda istifadəsi ilə bağlı aşağıdakı məlumatları əldə edə bilərsiniz:

  • lemmanın baş vermələrinin ümumi sayı (ipm vahidlərində ümumi tezlik), bölmələrə, tezlik lüğətlərinə baxın uydurma və digər funksional üslublar; isimlərin, fellərin və digər nitq hissələrinin tezlik lüğətləri
  • sözün tezlik dərəcəsi (yəni, ümumi tezlik siyahısındakı seriya nömrəsi), bölmələrə, isimlərin, fellərin və digər nitq hissələrinin tezlik lüğətlərinə baxın.
  • sözün meydana gəldiyi mətnlərin sayı (sənədlərin sayı), bölməyə baxın;
  • variasiya əmsalı D, isimlərin, fellərin və digər nitq hissələrinin bölmələrinə və tezlik lüğətlərinə baxın
  • müxtəlif onilliklərdə (1950-ci, 1960-cı illər və s.) yaradılmış mətnlərdə sözün işlənməsinin bölgüsü, bölməyə bax;
  • ayrı-ayrı söz formalarının ümumi istifadə tezliyi, söz formalarının əlifba sırası bölməsinə baxın.

    Əhəmiyyətli lüğət lüğətlərində sözün müqayisəli tezliyi haqqında da məlumat əldə etmək olar. ümumi bina və müəyyən funksional üslublu mətnlərin alt korpusunda (bədii ədəbiyyat, publisistika və s.) və ehtimal göstəricisi LL-balı.

    Kəmiyyət göstəriciləri ilə yanaşı, nitq hissəsi sözlə göstərilir. Bu, sözləri yaymaq üçün edilir müxtəlif hissələr eyni orijinal formaya malik nitqlər (müq. bişirmək - isim və fel).

    ipm nədir?

    Ümumi tezlik korpusun milyon sözünə və ya ipm (milyon sözə nüsxə) üçün istifadə sayını xarakterizə edir. Bu, müxtəlif tezlik lüğətlərində və müxtəlif korpuslarda sözün tezliyinin müqayisəsini asanlaşdıran dünya praktikasında ümumi qəbul edilmiş tezlik ölçü vahididir. Fakt budur ki, tezliyin ölçüldüyü mətn nümunələri ölçüdə olduqca fərqli ola bilər. Məsələn, əgər söz güc 400 min sözdən ibarət korpusda 55 dəfə, bir milyon korpusda 364 dəfə və müasir rus dilinin 100 milyon korpusunda 40598 dəfə və NKRYA-nın böyük 135 milyon korpusunda 55673 dəfə baş verir, onda onun ipm-də tezliyi 137,5 olacaqdır. , müvafiq olaraq 364.0, 372.06 və 412.39.

    Tezlik lüğətləri, red. L.N. Zasorina və L. Lenngren, müvafiq olaraq, bir milyon söz istifadəsinin nümunə ölçüsü üzərində qurulmuşdur, biz orada görünən mütləq göstəricilərin də ipm-də verildiyini güman edə bilərik.

    D dəyişkənlik əmsalı nədir?

    A. Juiland (Juilland et al. 1970) tərəfindən təqdim edilən D əmsalı bir çox tezlik lüğətlərində istifadə olunur (L. Lenngrenin rusca lüğəti, Britaniya Milli Korpus lüğəti, Fransız biznes lüğəti). Bu əmsal sözün müxtəlif mətnlərdə necə bərabər paylandığını görməyə imkan verir.

    Əmsal dəyəri 0-dan 100-ə qədər diapazonda müəyyən edilir. Məsələn, söz korpusun demək olar ki, bütün mətnlərində rast gəlinir və onun D qiyməti 100-ə yaxındır. Söz komissurotomiya korpusda 5 dəfə olur, ancaq bir mətndə; onun D dəyəri təxminən 0-dır.

    Hər bir söz üçün D əmsalının göstərilməsi onun ayrı-ayrı mövzu sahələrinə nə dərəcədə spesifik olduğunu qiymətləndirməyə imkan verir. Məsələn, sözlər artıq yetişmişimplant təxminən bərabər tezliyə (0,56 ipm) malikdir, lakin D y əmsalı artıq yetişmiş bərabərdir 90, a implantda 0. Bu o deməkdir ki, birinci söz müxtəlif istiqamətli mətnlərdə bərabər şəkildə baş verir və onun üçün əhəmiyyətlidir böyük rəqəm mövzu sahələrində isə söz implant yalnız “tibb və sağlamlıq” mövzusunda bir neçə mətndə mövcuddur.

    Sözün müxtəlif dövrlərdə istifadə tarixi haqqında nə öyrənə bilərsiniz?

    20-ci əsrin 2-ci yarısının müxtəlif onilliklərində və s.-də söz tezliyinin paylanması haqqında məlumat erkən XXIəsrdə əldə etmək olar. Məsələn, sözün aqibətinin necə olduğunu görmək olar yenidənqurma:

    1980-ci illərdə onun istifadəsində kəskin artım o dövrün ictimai-tarixi reallıqları ilə tam izah oluna bilər; eyni zamanda linqvistik baxımdan bu faktı belə şərh etmək olar: söz yenidənqurma sonrakı illərdə üstünlük təşkil edən yeni məna ilə zənginləşmişdir.

    Niyə xüsusi adlar və abbreviaturalar ayrıca siyahıda vurğulanır?

    Xüsusi adlar lüğətin əsas hissəsindən ayrılır, çünki onlar statistik cəhətdən daha az sabit bir qrup təşkil edir və onların tezliyi əsasən korpusdakı mətnlərin seçimindən və mövzusundan (xüsusən, yer və zamandan) asılıdır. təsvir olunan hadisələrdən). Lengren 1993-də belə bir fikir ifadə olunur ki, tezlik lüğətinə xüsusi adların ümumi əsasda daxil edilməsi istər-istəməz onun vaxtından əvvəl köhnəlməsinə gətirib çıxarır.

    Lüğət bu siyahının nüvə hissəsini əhatə edir və ən çox rast gəlinən 3000 vahidi əhatə edir. Adların, ata adlarının, soyadların, ləqəblərin, ləqəblərin, toponimlərin, təşkilat adlarının və abreviaturaların istifadəsi ilə bağlı məlumatları axtarmaq üçün bölməyə keçin Xüsusi adların və ixtisarların əlifba siyahısı, axtardığınız sözlə başlayan hərfi seçin. və cədvəldə tapın. Siz həmçinin sürətli söz axtarış qutusundan istifadə edə bilərsiniz.

    Sözün fərdi formalarının istifadəsi haqqında məlumatı necə əldə etmək olar?

    Lüğətdə lemmanın (yəni bütün fleksiya formalarında olan sözün) istifadəsi haqqında məlumatlara əlavə olaraq, fərdi söz formalarının necə istifadə edildiyini öyrənə bilərsiniz. Söz formalarının əlifba siyahısı bölməsinə keçin, söz formasının başladığı hərfi seçin və onu cədvəldə tapın. Siz həmçinin sürətli axtarış qutusundan istifadə edə bilərsiniz, məsələn:

    söz forması: uçmaq

    Müəyyən bir hərf ardıcıllığı ilə başlayan (və ya bitən) bütün söz formalarını tapmaq üçün axtarış qutusunda ulduz (*) işarəsindən istifadə edin. Məsələn, ilə başlayan bütün söz formaları yatmaq, yazmaqla tapmaq olar:

    söz forması: yatmaq*

    Sonu ¬ ilə bitən bütün söz formaları –com, yazmaqla tapmaq olar:

    söz forması: *com

    Söz formalarının əlifba sırası 0,1 ipm-dən yuxarı (cəmi 15 minə yaxın) tezliyi olan korpusun bütün söz formalarını əhatə edir və onların ümumi tezliyi haqqında məlumatları ehtiva edir. Omonim söz formaları cədvəldə * işarəsi ilə qeyd olunur.

    "Ən çox yayılmış" sözlər haqqında məlumatı necə tapmaq olar?

    Lüğətimizdən istifadə edərək, ümumi statistik xüsusiyyətlərinə görə fərqlənən söz sinifləri haqqında məlumat tapa bilərsiniz. Bunlar, xüsusən:

  • korpusdan ümumi nümunədə ən çox rast gəlinən sözlər; ümumi nümunə üçün orta tezlikli sözlər və s. (bölməyə baxın);
  • bədii ədəbiyyatın alt korpusunda ən çox rast gəlinən sözlər (Bədii ədəbiyyatın tezliyi lüğətinə baxın);
  • jurnalistika alt korpusunda ən çox rast gəlinən sözlər (bax: Jurnalistikanın Tezlik lüğəti);
  • digər qeyri-bədii ədəbiyyatın alt korpusunda ən çox rast gəlinən sözlər (Bax: “Digər qeyri-bədii ədəbiyyatın tezliyi lüğəti” bölməsinə baxın);
  • şifahi nitq üçün ən xarakterik olan sözlər (Canlı nitqin tezliyi lüğətinə baxın).
  • ən çox görülən isimlər (İsimlərin Tezlik siyahısı bölməsinə baxın);
  • ən çox rast gəlinən fellər (Felin Tez-tez siyahısı bölməsinə baxın);

    və hissə-nitq siniflərinin digər tezlik siyahıları.

    Təklif olunan siniflərə əlavə olaraq, Söz Formalarının Əlifba Siyahısı bölməsindəki Ümumi Əlifba Siyahısı cədvəlindən istifadə edərək digər söz qruplarını müstəqil araşdıra bilərsiniz (məsələn, prefikslə ən çox görülən felləri araşdıra bilərsiniz. yenidən, 200-dən çox mətndə tapılan sözlər və daha çox: siniflərin qruplaşdırılmasının prinsipləri tapşırıqlarınızdan və təsəvvürünüzdən asılıdır).

    Müxtəlif funksional üslublu mətnlərdə tezliyin paylanmasını necə izləmək olar?

    L.N.Zasorinanın tezlik lüğətində sözün dörd növ mətndə istifadəsi haqqında məlumatlar verilir: (I) qəzet və jurnal mətnlərində, (II) dramaturgiya, (III) elmi və publisistik mətnlərdə, (IV) bədii ədəbiyyat. Lüğətimizdə “Funksional üslublara görə lemmaların paylanması” bölməsindən istifadə etməklə oxşar məlumatları əldə edə bilərsiniz.

    Funksional üslubların tezlik lüğətləri bədii ədəbiyyatın, publisistikanın, digər qeyri-bədii ədəbiyyatın və canlı şifahi nitqin altkorpusları əsasında tərtib edilir. L. N. Zasorinanın lüğəti ilə müqayisədə başlıqların tərkibi bir qədər dəyişdirilmişdir: dramaturgiya əvəzinə canlı şifahi nitqin qeydləri və filmin musiqilərinin stenoqramlarından istifadə olunur, elmi ədəbiyyat rəsmi işlərlə yanaşı ayrıca başlıqda vurğulanır, kilsə və digər qeyri-bədii ədəbiyyat.

    Siyahıya bu subkorpusların ən çox rast gəlinən 5000 lemması daxildir. Hər bir lemma üçün nitq hissəsi, subkorpusdakı tezlik və D əmsalı göstərilir.

    Mənalı lüğət (bədii ədəbiyyat və s.) nədir?

    Elə sözlər var ki, funksional üslublardan birində digərlərinə nisbətən daha çox istifadə olunur. Məsələn, canlı şifahi nitq üçün belə sözlərdir burada ümumiyyətləTAMAM. Doğrudan da, elmi-texniki ədəbiyyatda bu sözlərin gündəlik dildə olduğu kimi tez-tez işlədildiyini güman etmək çətindir.

    Mətnlərin hər bir funksional növü üçün ən tipik lemmaların siyahısı mətnlərin bu altkorpusunda və korpusun qalan hissəsində lemmaların tezliyinin müqayisəsi əsasında seçilmişdir. Mənalı lüğət lüğətlərinin hər birinə 500 lemma daxildir.

    Mənalı lüğətdə frq1, frq2 və LL-balı nə deməkdir?

    Frq1 lemmanın bütün korpusda ümumi tezliyidir (ipm vahidlərində), frq2 lemmanın verilmiş subkorpusda tezliyidir (müvafiq olaraq bədii ədəbiyyatın, publisistikanın, digər qeyri-bədii və canlı nitqin alt korpusu), LL. -bal P.Rayson və A.Qarsayd tərəfindən təklif olunan düstura uyğun olaraq frq1 və frq2 əsasında hesablanmış ehtimal nisbətidir (daha ətraflı məlumat üçün lüğətə girişə baxın). LL-balı nə qədər yüksəkdirsə, sözün verilmiş funksional üslub üçün əhəmiyyəti bir o qədər yüksəkdir.

    Ən çox rast gəlinən 100 felin siyahısını necə əldə etmək olar?

    “Ümumi lüğət: Nitq hissələri” bölməsində lemmaların tezlik siyahısı yeddi alt siyahıya bölünür: isimlər, fellər, sifətlər, zərflər və predikatlar, əvəzliklər, rəqəmlər və köməkçi nitq hissələri. Burada hər bir lemma üçün onun ümumi tezliyi və ümumi siyahıdakı dərəcəsi (seriya nömrəsi) göstərilir. Hər siyahıda ən çox rast gəlinən 1000 lemma var.

    Beləliklə, Felin Tezlik Siyahısı alt bölməsinə keçib siyahının yuxarı hissəsindəki ilk 100 feli seçərək ən çox rast gəlinən 100 felin siyahısını əldə edə bilərsiniz. Eynilə, hansı sifətin ən çox rast gəlindiyini öyrənə bilərsiniz (Sifət Adlarının Tezlik Siyahısı bölməsində göstərildiyi kimi, bu sifətdir. yeni) və bir çox başqalarını tapın maraqlı faktlar hissə-nitq dərslərinin tərkibinə dair.

    Köməkçi cədvəllərdən necə istifadə etmək olar?

    Köməkçi cədvəllərə, ilk növbədə, nitq hissəsi siniflərinin tezliyi, eləcə də digər qrammatik kateqoriyalar haqqında məlumatlar daxildir. Bu məlumatlar leksiko-qrammatik qeyri-müəyyənlik aradan qaldırılmış (əl ilə) NCRL alt korpusu əsasında əldə edilmişdir (ölçüsü 6 milyon sözdən çoxdur). Statistikalar böyük söz siniflərinə aid olduğundan, nitq hissələrinin və digər qrammatik kateqoriyaların nisbətinin bütün korpusda eyni olacağına inanmaq üçün əsas var.

    İkincisi, bu bölmədə mətnin leksemlərlə əhatə dairəsi, sözün orta uzunluğu, söz forması və cümlə haqqında məlumat verilir.

    Üçüncüsü, burada rus əlifbasının hərflərinin istifadəsinin tezlik siyahıları, durğu işarələri, həmçinin iki və çox hərf birləşmələri var.

  • Rus dilində hərflərin istifadə tezliyi

    Bilirsinizmi ki, əlifbanın bəzi hərfləri sözlərdə digərlərinə nisbətən daha çox rast gəlinir... Üstəlik, dildə saitlərin tezliyi samitlərdən yüksəkdir.

    Mətn yazmaq üçün istifadə olunan sözlərdə rus əlifbasının hansı hərfləri daha çox və ya ən az yayılmışdır?

    Kəşf və araşdırma ümumi nümunələr statistika ilə məşğul olur. Bu elmi istiqamətin köməyi ilə rus əlifbasındakı hərflərin hər birinin sayını, istifadə olunan sözləri saymaqla, müxtəlif müəlliflərin əsərlərindən bir parça seçməklə yuxarıdakı suala cavab vermək olar. Öz maraqları üçün və cansıxıcılıq üçün hər kəs bunu özü edə bilər. Artıq aparılan bir araşdırmanın statistikasına istinad edəcəyəm ...

    Rus əlifbası kirildir. Mövcud olduğu müddətdə o, bir neçə islahatdan keçmiş, nəticədə 33 hərfdən ibarət müasir rus əlifbası sistemi formalaşmışdır.

    o - 9,28%
    a - 8,66%
    e - 8,10%
    və - 7,45%
    n - 6,35%
    t - 6,30%
    p - 5,53%
    c - 5,45%
    l - 4,32%
    c - 4,19%
    k - 3,47%
    n - 3,35%
    m - 3,29%
    y - 2,90%
    e - 2,56%
    I - 2,22%
    s — 2,11%
    b - 1,90%
    h - 1,81%
    b - 1,51%
    d - 1,41%
    th - 1,31%
    h - 1,27%
    yu - 1,03%
    x - 0,92%
    g - 0,78%
    w - 0,77%
    c - 0,52%
    u - 0,49%
    f - 0,40%
    e - 0,17%
    b - 0,04%

    Ən çox istifadə olunan rus hərfi saitdir " O', burada haqlı olaraq təklif edildiyi kimi. kimi xarakterik nümunələr də var. MÜDAFİƏ QABİLLİLİK(Bir sözlə 7 parça və ekzotik və ya təəccüblü heç nə yoxdur; rus dilinə çox tanışdır). "O" hərfinin yüksək populyarlığı əsasən tam sait kimi qrammatik hadisə ilə bağlıdır. Yəni “soyuq” əvəzinə “soyuq”, “köpük” əvəzinə “şaxta”.

    Və sözlərin əvvəlində samit hərf " P". Bu rəhbərlik də özünə inamlıdır və qeyd-şərtsizdir. Çox güman ki, izahat "P" hərfi ilə çox sayda prefiks verir: re-, pre-, pre-, pre-, pro- və s.

    Hərf tezliyi kriptoanalizin əsasını təşkil edir.

    Gülməli bir php skripti yazdı. Dil üçün Spectator-dakı bütün mətnləri oradan keçdim. Mətnlərdə ümumilikdə 39110 müxtəlif söz formasından istifadə olunub. Neçə fərqli sözlər- müəyyən etmək çətindir. Bu rəqəmə birtəhər yaxınlaşmaq üçün sözün yalnız ilk 5 hərfini götürüb müqayisə etdim. 14373 belə birləşmə ortaya çıxdı. Böyük bir uzantı ilə bunu "Tamaşaçı" lüğəti adlandırmaq olar.

    Sonra sözləri götürüb hərf tezliyinə görə yoxladım. İdeal olaraq, tamlıq üçün bir növ lüğət götürməlisiniz. Mətnləri qovmaq mümkün deyil, yalnız unikal sözlər lazımdır. Mətndə bəzi sözlər digərlərindən daha çox təkrarlanır. Beləliklə, aşağıdakı nəticələr əldə etdik:

    o - 9,28%
    a - 8,66%
    e - 8,10%
    və - 7,45%
    n - 6,35%
    t - 6,30%
    p - 5,53%
    c - 5,45%
    l - 4,32%
    c - 4,19%
    k - 3,47%
    n - 3,35%
    m - 3,29%
    y - 2,90%
    e - 2,56%
    mən - 2,22%
    s - 2,11%
    b - 1,90%
    h - 1,81%
    b - 1,51%
    g - 1,41%
    th - 1,31%
    h - 1,27%
    yu - 1,03%
    x - 0,92%
    w - 0,78%
    w - 0,77%
    c - 0,52%
    u - 0,49%
    f - 0,40%
    e - 0,17%
    b - 0,04%

    “Möcüzələr sahəsi”nə gedənlərə bu cədvəli əzbərləməyi məsləhət görürəm. Və sözləri bu ardıcıllıqla çağırın. Beləliklə, məsələn, belə bir "adi" "b" hərfinin "nadir" "s" hərfindən daha az istifadə edildiyi görünür. Onu da xatırlamaq lazımdır ki, sözdə təkcə saitlər yoxdur. Və əgər bir sait təxmin etmisinizsə, onda samitlər boyunca gəzməyə başlamalısınız. Bundan əlavə, söz samitlər tərəfindən dəqiq təxmin edilir. Müqayisə edin: "** a** və * e" və "cf * vn * t *". Hər iki halda bu, “müqayisə et” sözüdür.

    Və daha bir fikir. İngilis dilini necə öyrəndiniz? Yadınızdadır? E qələm, e qələm, e masa. Nə görürəmsə, oxuyuram. Bəs mənası?.. Normal həyatda “qələm” sözünü nə qədər tez-tez deyirsiniz? Əgər vəzifə mümkün qədər tez və səmərəli danışmağı öyrətməkdirsə, ona uyğun olaraq öyrətmək lazımdır. Dili təhlil edirik, ən çox istifadə olunan sözləri vurğulayırıq. Və onlardan öyrənməyə başlayırıq. Az-çox danışmaq Ingilis dili, cəmi bir yarım min söz kifayətdir.

    Başqa bir oyun: hərflərdən təsadüfi, lakin baş vermə tezliyini nəzərə alaraq sözlər düzəltmək, adi sözlərə bənzəmək. İlk on "təsadüfi" dörd hərfli sözdə "eşşək" çıxdı. Sonrakı əllidə - "rush" və "NATO" sözləri. Ancaq təəssüf ki, "bltt" və ya "nrro" kimi çoxlu dissonant birləşmələr var.

    Beləliklə, növbəti addım. Bütün sözləri iki hərfdən ibarət birləşmələrə ayırdım və onları birləşdirməyə təsadüfi (lakin təkrarların tezliyini nəzərə alaraq) başladım. Böyük miqdarda polad "normal" sözləri ilə nəticələnəcəkdir. Məsələn: "koivdiot", "voabma", "apy", "depoid", "debyako", "orfa", "poesnavy", "ozza", "chenya", "ritoric", "urdeed", "utoichi" , "Stıx", "çəkmələr", "qravda", "ababap", "obarto", "eluet", "larezy", "myni", "bromomer" və hətta "todebyst".

    Hara müraciət etməli... seçimlər var. Məsələn, gözəl korporativ oynaq adların generatoru yazın. Qatıqlar üçün. Məsələn, "memoliso" və ya "utororerto". Və ya - "Burliuk-php" futuristik misraların generatoru: "opeldiy miaton, linoaz okmiaya ... deesopen odeson".

    Və başqa bir seçim var. Sınamaq lazımdır...

    Rus sözlərinin istifadəsi ilə bağlı bəzi statistik məlumatlar:

    • Orta söz uzunluğu 5,28 simvoldur.
    • Orta cümlə uzunluğu 10,38 sözdür.
    • Ən çox rast gəlinən 1000 lemma mətnin 64,0708%-ni əhatə edir.
    • 2000-ci ildə ən çox yayılmış lemmalar mətnin 71,9521%-ni əhatə edir.
    • Ən çox rast gəlinən 3000 lemma mətnin 76,5104%-ni əhatə edir.
    • Ən çox rast gəlinən 5000 lemma mətnin 82,0604%-ni əhatə edir.

    Göndərdikdən sonra bu e-poçtu aldım:


    Salam Dmitri!

    “Dil sizi Kiyevə gətirəcək” məqaləsini və onun proqramınızı təsvir etdiyiniz hissəsini təhlil etdikdən sonra belə bir fikir yarandı.
    Sizin yazdığınız ssenari mənə elə gəlir ki, daha çox “Möcüzələr Meydanı” üçün yox, başqa bir şey üçün nəzərdə tutulub.
    Skriptinizin nəticələrinin ilk ən ağlabatan istifadəsi mobil cihazlar üçün düymələri proqramlaşdırarkən hərflərin sırasını müəyyən etməkdir. Bəli, bəli - bütün bunlar mobil telefonlarda lazımdır.

    Mən onu dalğalarla payladım ()

    Düymələrlə əlavə paylama:
    1. Birinci dalğanın bütün hərfləri 4 düymə ilə birinci sıraya keçir
    2. İkinci dalğanın bütün hərfləri eyni birinci sırada qalan 4 düymədə də var
    3. Qalan iki düymədə üçüncü dalğanın bütün hərfləri oraya gedir
    4. 4.5 və 6 dalğalar ikinci sıraya keçir
    5. 7,8,9 dalğalar üçüncü sıraya keçir, 9-cu dalğa isə tamamilə (görünən çoxlu hərf sayına baxmayaraq) 9-cu düymənin üçüncü sırasına keçir, beləliklə, 10-cu düymə hər cür durğu işarələri altında qalır. işarələr (nöqtə, vergül və s.).

    Düşünürəm ki, hər şey aydındır və ətraflı izahat olmadan. Bununla belə, skriptinizlə (durğu işarələri daxil olmaqla) aşağıdakı məzmunun mətnlərini işlədə bilərsiniz:

    Və sonra statistika qoydu? Mənə elə gəldi? ki, mətnlər müasir nitqimizi mümkün qədər əks etdirir və biz həm danışırıq, həm də sms yazırıq.

    Əvvəlcədən çox sağ olun.

    Beləliklə, hərflərin təkrarlanma tezliyini təhlil etməyin iki yolu var. Metod 1. Mətni götürün, orada unikal (təkrar etməyən) söz formalarını tapın və onları təhlil edin. Metod mətnlər üzərində deyil, rus dilindəki sözlər üzərində statistika qurmaq üçün yaxşıdır. Metod 2. Mətndə unikal sözlər axtarmayın, birbaşa hərflərin təkrarlanma tezliyini saymağa keçin. Biz hərflərin tezliyini rus dilində deyil, rus mətnində alırıq. Klaviatura və başqa şeylər yaratmaq üçün bu xüsusi üsuldan istifadə etməlisiniz: klaviaturada yazılan mətnlərdir.

    Klaviaturalar yalnız hərflərin tezliyini deyil, həm də ən çox yayılmış sözləri (söz formalarını) nəzərə almalıdır. Hansı sözlərin ən çox istifadə edildiyini təxmin etmək o qədər də çətin deyil: bunlar, ilk növbədə, rəsmi nitq hissələri, çünki onların rolu həmişə və hər yerdə xidmət etməkdir və rolu daha az vacib olmayan əvəzliklər: nitqdə hər hansı bir şeyi / şəxsi əvəz etmək (bu, o, o). Yaxşı, əsas fellər (olmaq, demək). Yuxarıda sadalanan mətnlərin təhlilinin nəticələrinə əsasən, mən ən “məşhur” sözləri aldım: “və, yox, nə, o, mən, on, ilə, o, bəyənir, lakin, ona, bu, , lakin, hər şey, onun, idi, belə, onda, dedi, üçün, sən, oh, u, onu, mən, yalnız, üçün, mənim, olardı, bəli, səndən, idi, nə vaxt, dan, üçün, hələ , indi, onlar, dedilər, onsuz da, o, yox, idi, o, ola, yaxşı, yox, əgər, çox, heç nə, burada, özünə, özünə, bu, bəlkə, o, əvvəl, biz, onlar, ya, were, are, than, or, her” və s.

    Klaviaturalara qayıtsaq, aydın olur ki, klaviaturada “deyil”, “nə”, “o”, “on” və digər hərf birləşmələri bir-birinə mümkün qədər yaxın olmalıdır və ya yaxın deyilsə, bəzilərində ən optimal yoldur. Barmaqların klaviaturada dəqiq necə hərəkət etməsi, ən "rahat" mövqeləri tapmaq və ən çox istifadə olunan hərfləri onlarda yerləşdirməklə bağlı araşdırma aparmaq lazımdır, bununla belə, hərf birləşmələri haqqında unutma.

    Problem, həmişə olduğu kimi, eynidir: Unikal Klaviatura yaratmağı bacarsanız belə, artıq qwerty / yutsuken-ə öyrəşmiş milyonlarla insanla nə etmək lazımdır?

    Mobil cihazlara gəlincə... Yəqin ki, məntiqlidir. Ən azı "o", "a", "e" və "and" hərfləri tam olaraq eyni düymədə olmalıdır. Durğu işarələri istifadə tezliyinə görə: , . - ? ! "; :)(

    Problemin qısa ifadəsi

    Müxtəlif janrlı bədii ədəbiyyatdan tutmuş xəbər reportajlarına qədər rus dilində mətnləri olan bir sıra fayllar var. Ön sözlərin digər nitq hissələri ilə istifadəsi ilə bağlı statistika toplamaq lazımdır.

    Vacib Nöqtələr vəzifədə

    1. Bəhanələr arasında təkcə yoxdur saatüçün, lakin məsələn, ön söz kimi istifadə olunan sözlərin sabit birləşmələri müqayisədə və ya rəğmən. Ona görə də mətnləri boşluqlarla sadəcə parçalamaq mümkün deyil.

    2. Çox sayda mətn var, bir neçə GB, ona görə də emal kifayət qədər sürətli olmalıdır, ən azı bir neçə saat ərzində.

    Həll və nəticələrini təsvir edin

    Mətnin emalı ilə bağlı problemlərin həllində mövcud təcrübəni nəzərə alaraq, dəyişdirilmiş "unix-way"dən sadiq qalmaq qərara alındı, yəni emalın bir neçə mərhələyə bölünməsi, hər mərhələdə nəticənin düz mətn olması üçün. Saf unix yolundan fərqli olaraq, mətn xammalının borular vasitəsilə ötürülməsi əvəzinə, biz hər şeyi disk faylları kimi saxlayacağıq. Xoşbəxtlikdən, sabit diskdə bir gigabaytın qiyməti indi azdır.

    Hər bir mərhələ mətn fayllarını oxuyan və silikon ömrünün məhsullarını saxlayan ayrıca, kiçik və sadə bir yardım proqramı kimi həyata keçirilir.

    Bu yanaşmanın əlavə bonusu, kommunalların sadəliyinə əlavə olaraq, həllin artan xarakterindədir - siz birinci mərhələni sazlaya, bütün gigabayt mətni onun vasitəsilə işlədə, sonra ikinci mərhələni israf etmədən sazlamağa başlaya bilərsiniz. birincini təkrarlamaq vaxtıdır.

    Mətni sözlərə bölmək

    Emal ediləcək mənbə mətnlər artıq utf-8 kodlaşdırmasında düz fayllar kimi saxlandığından, biz sıfır mərhələni - sənədləri təhlil etmək, onlardan mətn məzmununu çıxarmaq və sadə mətn faylları kimi saxlamaqla dərhal tokenləşdirmə tapşırığına keçirik.

    Rus dilində bəzi ön sözlərin boşluq, bəzən isə vergüllə ayrılmış bir neçə “sətirdən” ibarət olması sadə fakt olmasaydı, hər şey sadə və darıxdırıcı olardı. Bu cür təfərrüatlı ön sözləri parçalamamaq üçün ilk olaraq API lüğətinə tokenləşdirmə funksiyasını daxil etdim. C#-da tərtibatın sadə və mürəkkəb olmadığı, sözün əsl mənasında yüz sətir olduğu ortaya çıxdı. Budur mənbə. Giriş hissəsini ləğv etsək, lüğəti yükləyirik və onun çıxarılması ilə yekun hissəni çıxarırıqsa, onda hər şey bir neçə onlarla sətirə düşür.

    Bütün bunlar faylları uğurla üyüdür, lakin testlər əhəmiyyətli bir çatışmazlıq göstərdi - çox aşağı sürət. X64 platformasında dəqiqədə təxminən 0,5 MB olduğu ortaya çıxdı. Əlbəttə ki, tokenizer hər cür xüsusi halları nəzərə alır " A.S. Puşkin", lakin orijinal problemin həlli üçün belə dəqiqliyə ehtiyac yoxdur.

    Mümkün sürət üçün bir bələdçi olaraq, statistik fayl emal proqramı Empirika var. Təxminən 2 saat ərzində 22 GB mətnin tezliyini emal edir. İçəridə təfərrüatlı ön sözlər probleminin daha ağıllı bir həlli var, ona görə də əmr satırında -tokenize seçimi ilə aktivləşdirilən yeni skript əlavə etdim. Qaçışın nəticələrinə görə, 900 MB üçün təxminən 500 saniyə, yəni saniyədə təxminən 1,6 MB olduğu ortaya çıxdı.

    Bu 900 MB mətnlə işləməyin nəticəsi təxminən eyni ölçülü, 900 MB-lıq bir fayldır. Hər bir söz ayrı bir sətirdə saxlanılır.

    Ön sözlərdən istifadə tezliyi

    Proqram mətninə ön sözlərin siyahısını çəkmək istəmədiyim üçün əldə etdiyim sol_ListEntries funksiyasından istifadə edərək yenidən C # layihəsi üçün qrammatika lüğəti götürdüm. tam siyahıön sözlər, təxminən 140 ədəd və sonra hər şey əhəmiyyətsizdir. Proqram mətni C# dilində. Yalnız ön söz + söz cütlərini toplayır, lakin genişləndirmək problem olmayacaq.

    Sözləri olan 1 GB mətn faylının işlənməsi cəmi bir neçə dəqiqə çəkir, nəticədə tezlik cədvəli yaranır və biz onu yenidən mətn faylı kimi diskə yükləyirik. Ön söz, ikinci söz və hadisələrin sayı orada nişan simvolu ilə ayrılır:

    PRO BROKEN 3
    PRO 1 xal qazandı
    PRO FORMA 1
    PRO NORM 1
    PRO HUNGRY 1
    HÜQUQİ 9
    TERRASDAN 1
    Lentə baxmayaraq 1
    ÜST YÜKSƏK 14

    Ümumilikdə, ilkin 900 MB mətndən təxminən 600 min cüt əldə edildi.

    Nəticələri təhlil edin və baxın

    Excel və ya Access-də nəticələrlə cədvəli təhlil etmək rahatdır. SQL-ə vərdiş etdiyim üçün məlumatları Access-ə yüklədim.

    Ediləcək ilk şey, ən çox görülən cütləri görmək üçün nəticələri azalan tezlik ardıcıllığı ilə çeşidləməkdir. İşlənmiş mətnin ilkin miqdarı çox kiçikdir, ona görə də nümunə çox təmsil olunmur və yekun nəticələrdən fərqlənə bilər, lakin ilk onluğu təqdim edirik:

    BİZDƏ 29193
    26070 CİLDƏ
    Məndə 25843 var
    24410 CİLDİ HAQQINDA
    Onun 22768-i var
    BU 22502
    20749 SAHƏDƏ
    20545 İLDƏ
    HAQQINDA 18761
    NIM 18411 ilə

    İndi siz elə bir qrafik qura bilərsiniz ki, tezliklər OY oxunda olsun və naxışlar azalan qaydada OX boyunca düzülsün. Bu, uzun quyruq ilə gözlənilən paylanmanı verəcəkdir:

    Bu statistika niyə lazımdır?

    Prosessual API ilə necə işləməyi nümayiş etdirmək üçün iki C# utilitindən istifadə oluna biləcəyindən əlavə, daha bir vacib məqsəd var - tərcüməçiyə və mətnin yenidən qurulması alqoritminə statistik xammal vermək. Cüt sözlərə əlavə olaraq, triqramlar da tələb olunacaq, bunun üçün qeyd olunan yardım proqramlarından ikincisini bir qədər genişləndirmək lazımdır.

    Sizi xəbərdar etmək istəyirəm ki, bu məqalədə təqdim olunan məlumatlar bir qədər köhnəlmişdir. Sonradan SEO standartlarının zamanla necə dəyişdiyini müqayisə etmək üçün onu yenidən yazmadım. haqqında ən son məlumat bu mövzu yeni materiallardan öyrənə bilərsiniz:

    Salam, blog saytının əziz oxucuları. Bugünkü məqalə yenidən axtarış sisteminin optimallaşdırılması () kimi bir mövzuya həsr olunacaq. Əvvəllər biz artıq belə bir konsepsiya ilə bağlı bir çox məsələlərə toxunmuşuq.

    Bu gün mən əvvəllər qeyd olunan bəzi məqamlara aydınlıq gətirməklə yanaşı, on-səhifə SEO haqqında danışmağa davam etmək, həmçinin hələ müzakirə etmədiklərimiz barədə danışmaq istəyirəm. Yaxşı unikal mətnlər yaza bilirsinizsə, lakin eyni zamanda axtarış motorları tərəfindən onların qavranılmasına lazımi diqqət yetirmirsinizsə, o zaman onlar axtarış nəticələrinin yuxarı hissəsinə çıxa bilməyəcəklər. gözəl məqalələrinizin mövzuları.

    Mətnin axtarış sorğusuna uyğunluğuna nə təsir edir

    Və bu çox üzücüdür, çünki bu yolla siz öz layihənizin bütün potensialını dərk etmirsiniz, bu da çox təsir edici ola bilər. Siz başa düşməlisiniz ki, axtarış sistemləri, əksər hallarda, öz imkanlarından kənara çıxa bilməyən və layihənizə insan gözü ilə baxa bilməyən axmaq və sadə proqramlardır.

    Layihənizdə (ziyarətçilər üçün hazırladığınız) yaxşı və lazımlı olanların çoxunu görməyəcəklər. Onlar yalnız bir çox komponentləri nəzərə alaraq mətni təhlil edə bilirlər, lakin hələ də insan qavrayışından çox uzaqdırlar.

    Buna görə də, ən azı bir müddət axtarış robotlarının yerinə girməli və müxtəlif axtarış sorğuları üçün müxtəlif mətnləri sıralayarkən onların nəyə diqqət yetirdiyini başa düşməliyik (). Və bunun üçün haqqında bir fikrə sahib olmaq lazımdır, bunun üçün məqaləni oxumaq lazımdır.

    Adətən səhifənin başlığında, bəzi daxili başlıqlarda açar sözlərdən istifadə etməyə, eləcə də onları məqalə boyu yaymaq üçün mümkün qədər bərabər və təbii şəkildə istifadə etməyə çalışırlar. Bəli, əlbəttə ki, mətndə vurğulanan düymələrdən də istifadə edilə bilər, lakin bundan sonra baş verə biləcək yenidən optimallaşdırma haqqında unutmayın.

    Mətndə açarların meydana gəlməsinin sıxlığı da vacibdir, amma indi bu, arzuolunan bir amil deyil, əksinə, xəbərdarlıqdır - onu aşa bilməzsiniz.

    Sənəddə açar sözün baş vermə sıxlığının dəyəri olduqca sadə şəkildə müəyyən edilir. Əslində, bu, sənəddə baş vermə sayını sənədin sözlə uzunluğuna bölmək yolu ilə müəyyən edilən mətndə istifadə tezliyidir. Əvvəllər saytın məsələdəki mövqeyi birbaşa bundan asılı idi.

    Ancaq yəqin ki, başa düşürsən ki, bütün materialı yalnız düymələrdən tərtib etmək mümkün olmayacaq, çünki oxumaq mümkün olmayacaq, amma Allaha şükür bu lazım deyil. Niyə, soruşursan? Bəli, ona görə ki, mətndə açar sözdən istifadə tezliyinə məhdudiyyət var, ondan sonra bu açar sözü ehtiva edən sorğu üçün sənədin aktuallığı artmayacaq.

    Bunlar. müəyyən bir tezliyə nail olmağımız kifayət edəcək və biz onu mümkün qədər optimallaşdıracağıq. Yoxsa həddindən artıq süzülüb filtrin altına düşürük.

    İki sualı (və bəlkə də üç) həll etmək qalır: açar sözün meydana gəlməsinin maksimum sıxlığı nədir, bundan sonra onu artırmaq, həmçinin tapmaq təhlükəlidir.

    Fakt budur ki, vurğu teqləri ilə vurğulanan və TITLE teqinə əlavə olunan açar sözlər, sadəcə olaraq mətndə baş verən oxşar açar sözlərlə müqayisədə axtarış üçün daha çox çəkiyə malikdir. Amma son vaxtlar webmasterlər bundan istifadə etməyə başladılar və bu faktoru tamamilə spam etdi, bununla əlaqədar onun əhəmiyyəti azaldı və hətta güclülərin sui-istifadəsi səbəbindən bütün saytın qadağan edilməsinə səbəb ola bilər.

    Ancaq TITLE-dəki açarlar hələ də aktualdır, onları orada təkrarlamamaq və bir səhifə başlığına çox itələməyə çalışmamaq daha yaxşıdır. Açar sözlər TITLE-də olarsa, məqalədəki onların sayını əhəmiyyətli dərəcədə azalda bilərik (və buna görə də oxumağı asanlaşdırın və axtarış motorları üçün deyil, insanlar üçün daha uyğun edək), eyni aktuallığa nail olduq, lakin risk olmadan. filtrin altına düşmək.

    Düşünürəm ki, bu sualla hər şey aydındır - vurğu və TITLE teqlərinə nə qədər çox düymə əlavə olunarsa, hər şeyi bir anda itirmək şansı bir o qədər çox olar. Ancaq onlardan ümumiyyətlə istifadə etməsəniz, heç bir şey əldə etməyəcəksiniz. Ən mühüm meyar açar sözlərin mətnə ​​daxil edilməsinin təbiiliyidir. Əgər onlar varsa, amma oxucu onlar haqqında büdrəmirsə, ümumiyyətlə hər şey yaxşıdır.

    İndi bir sənəddə açar sözün istifadəsinin hansı tezliyinin optimal olduğunu anlamaq qalır ki, bu da səhifəni sanksiyalara səbəb olmadan mümkün qədər uyğunlaşdırmağa imkan verir. Əvvəlcə əksər (yəqin ki, hamısı) axtarış motorlarının sıralamaq üçün istifadə etdiyi düsturu xatırlayaq.

    Açardan istifadənin məqbul tezliyini necə təyin etmək olar

    Biz artıq danışmışıq riyazi model yuxarıda qeyd olunan məqalədə. Bu xüsusi axtarış sorğusu üçün onun mahiyyəti bir sadələşdirilmiş formula ilə ifadə olunur: TF*IDF. Burada TF bu sorğunun sənədin mətnində birbaşa baş vermə tezliyidir (onda sözlərin baş vermə tezliyi).

    IDF - bu axtarış motoru (kolleksiyada) tərəfindən indeksləşdirilmiş bütün digər İnternet sənədlərində bu sorğunun baş verməsinin tərs tezliyi (nadirlik).

    Bu formula sənədin axtarış sorğusuna uyğunluğunu (müvafiqliyini) müəyyən etməyə imkan verir. TF*IDF məhsulunun dəyəri nə qədər yüksək olarsa, bu sənəd bir o qədər aktual olacaq və bütün digər şeylər bərabər olduqda bir o qədər yüksək olacaqdır.

    Bunlar. məlum olur ki, verilmiş sorğu üçün sənədin çəkisi (onun yazışmaları) nə qədər çox olarsa, mətndə bu sorğunun açarları bir o qədər tez-tez istifadə olunur və bu açarlar digər İnternet sənədlərində bir o qədər az olur.

    Aydındır ki, biz optimallaşdıracağımız başqa sorğu seçməkdən başqa IDF-yə təsir edə bilmərik. Lakin biz TF-yə təsir edə bilərik və edəcəyik, çünki biz lazım olan istifadəçi sualları üzrə Yandex və Google axtarış nəticələrindən öz payımızı (kiçik deyil) trafik əldə etmək istəyirik.

    Ancaq fakt budur ki, axtarış alqoritmləri mətndə açar sözün istifadə tezliyinin yalnız müəyyən bir həddə qədər artımını nəzərə alan kifayət qədər çətin bir düsturdan istifadə edərək TF dəyərini hesablayır, bundan sonra TF-nin böyüməsinə baxmayaraq, praktiki olaraq dayanır. tezliyi artıracağınız həqiqətdir. Bu bir növ spam əleyhinə filtrdir.

    Nisbətən uzun müddət əvvəl (təxminən 2005-ci ilə qədər) TF dəyəri kifayət qədər sadə bir düsturdan istifadə etməklə hesablanmışdı və əslində açar sözün baş vermə sıxlığına bərabər idi. Bu düsturdan istifadə edərək aktuallığın hesablanmasının nəticələri axtarış motorları tərəfindən tam olaraq bəyənilmədi, çünki onlar spam göndərənlərə müraciət etdilər.

    Sonra TF formulası daha da mürəkkəbləşdi, səhifə ürəkbulanması kimi bir şey meydana çıxdı və bu, təkcə baş vermə tezliyindən deyil, eyni mətndə başqa sözlərin istifadə tezliyindən də asılı olmağa başladı. Açarın ən çox istifadə olunan söz olduğu ortaya çıxsa, TF-nin optimal dəyəri əldə edilə bilər.

    Həmçinin baş vermə faizini saxlamaqla mətn ölçüsünü artırmaqla TF dəyərini artırmaq mümkün idi. Açarların eyni faizi olan məqalə ilə dəsmal nə qədər böyükdürsə, bu sənəd bir o qədər yüksək olacaqdır.

    İndi TF düsturu daha da mürəkkəbləşdi, lakin eyni zamanda, indi biz sıxlığı mətnin oxunmaz hala gətirdiyi nöqtəyə gətirməyə ehtiyac duymuruq. axtarış motorları tətbiq edəcək spam üçün layihəmizi qadağan edin. İndi də qeyri-mütənasib uzun vərəqlər yazmağa ehtiyac yoxdur.

    Eyni ideal sıxlığı qoruyarkən (biz onu müvafiq qrafikdən bir qədər aşağı müəyyən edəcəyik), məqalənin söz ölçüsünü artırmaq yalnız müəyyən uzunluğa çatana qədər onun SERP-dəki mövqeyini yaxşılaşdıracaq. Mükəmməl uzunluğa sahib olduqdan sonra onu daha da artırmaq aktuallığa təsir etməyəcək (daha doğrusu, olacaq, lakin çox, çox az).

    Bu çətin TF (birbaşa giriş tezliyi) əsasında bir qrafik qursanız, bütün bunları aydın görmək olar. Bu qrafikin bir şkalasında TF, digər miqyasda isə mətndə açar sözün baş vermə tezliyinin faizi varsa, nəticədə hiperbol deyilən şey əldə edəcəyik:

    Cədvəl, əlbəttə ki, təxminidir, çünki az adam Yandex və ya Google tərəfindən istifadə olunan həqiqi TF düsturunu bilir. Amma onu keyfiyyətcə müəyyən etmək olar optimal diapazon tezlik harada olmalıdır. Bu, ümumi sözlərin təxminən 2-3 faizini təşkil edir.

    Nəzərə alsanız ki, hələ də bəzi düymələri vurğu teqlərinə və TITLE başlığına əlavə edəcəksiniz, bu, hədd olacaq, bundan sonra sıxlığın daha da artması qadağa ilə nəticələnə bilər. Mətni çoxlu sayda açar sözlərlə doyurmaq və eybəcərləşdirmək artıq sərfəli deyil, çünki müsbətlərdən daha çox mənfi cəhətlər olacaq.

    Təqdimat üçün mətnin uzunluğu kifayət edəcək

    Eyni fərz edilən TF-yə əsaslanaraq, onun dəyərini söz uzunluğuna görə təyin etmək olar. Bu halda, açar sözlərin tezliyini istənilən uzunluq üçün sabit və bərabər, məsələn, optimal diapazondan istənilən dəyərə (2-dən 3 faizə qədər) götürə bilərsiniz.

    Maraqlıdır ki, yuxarıda müzakirə olunan ilə eyni formada bir qrafik alacağıq, yalnız mətnin minlərlə sözdən ibarət uzunluğu absis boyunca düzəldiləcəkdir. Və ondan bir nəticə çıxarmaq mümkün olacaq optimal uzunluq aralığı, bu zaman TF-nin demək olar ki, maksimum dəyərinə artıq çatmışdır.

    Nəticədə, 1000-dən 2000-ə qədər söz aralığında yalan olacağı ortaya çıxır. Daha da artımla, aktuallıq praktiki olaraq artmayacaq və daha qısa uzunluqda olduqca kəskin şəkildə azalacaq.

    Bu. məqalələrinizin alınması üçün belə nəticəyə gələ bilərik yüksək yerlər axtarış nəticələrində mətndə ən azı 2-3% tezliyi olan açar sözlərdən istifadə etməlisiniz. Bu, gəldiyimiz ilk və əsas nəticədir. Yaxşı, ikincisi budur ki, indi Topa düşmək üçün çox həcmli məqalələr yazmağa ehtiyac yoxdur.

    1000 - 2000 sözdən ibarət mərhələni keçmək və ona açar sözlərin 2-3% daxil etmək kifayətdir. bu qədər - bu qədər mükəmməl mətn üçün resept, hətta xarici optimallaşdırmadan istifadə etmədən aşağı tezlikli sorğular üçün yuxarıdakı yer üçün rəqabət edə biləcək (açar sözlər olan lövbərlərlə bu məqaləyə bağlantılar almaq). Baxmayaraq ki, bir az ətrafda dolaşmaq Miralinks , GGL, Rotapost və ya GetGoodLink yaxşıdır, çünki bu, layihənizə kömək edəcəkdir.

    Bir daha xatırladıram ki, yazdığınız mətnin uzunluğunu, eləcə də orada müəyyən açar sözlərdən istifadə tezliyini siz ixtisaslaşdırılmış proqramların köməyi ilə və ya onların təhlilində ixtisaslaşmış onlayn xidmətlərin köməyi ilə öyrənə bilərsiniz. Bu xidmətlərdən biri də İSTİO, danışdığım iş haqqında.

    Yuxarıda dediyim hər şey yüz faiz etibarlı deyil, həqiqətə çox oxşardır. Hər halda, mənim Şəxsi təcrübə bu nəzəriyyəni təsdiqləyir. Lakin Yandex və Google-un alqoritmləri daim dəyişikliklərə məruz qalır və onların inkişafı və ya tərtibatçılarına yaxın olanlar istisna olmaqla, sabahın necə olacağını az adam bilir.

    Sənə uğurlar! Tezliklə blog səhifələri saytında görüşənədək

    Sizi maraqlandıra bilər

    Daxili optimallaşdırma - açar söz seçimi, ürək bulanması yoxlanışı, optimal Başlıq, məzmunun təkrarlanması və aşağı tezliklərdə yenidən əlaqə
    Mətndə və başlıqlarda açar sözlər
    Açar sözlər axtarış motorlarında veb saytın tanıtımına necə təsir edir
    Veb ustaları üçün onlayn xidmətlər - məqalələr yazmaq üçün lazım olan hər şey, onların axtarış motorunun optimallaşdırılması və uğurunun təhlili
    Xərcləri minimuma endirmək üçün linkin təşviqi zamanı məzmunun optimallaşdırılması və saytın mövzusunun nəzərə alınması yolları
    Yandex Wordstat və semantik nüvə - Wordstat.Yandex.ru onlayn xidmətindən statistikadan istifadə edərək sayt üçün açar sözlər seçimi
    Anchor - bu nədir və veb saytın tanıtımında nə qədər vacibdir
    Hansı axtarış motorunun optimallaşdırılması amilləri veb saytın təşviqinə və nə dərəcədə təsir edir
    Saytın müstəqil olaraq təşviqi, təşviqi və optimallaşdırılması
    Dilin morfologiyasının uçotu və həll edilməli olan digər problemlər Axtarış motorları, həmçinin HF, MF və LF sorğuları arasındakı fərq
    Veb sayt etibarı - bu nədir, onu XTools-da necə ölçmək olar, ona nə təsir edir və saytınızın nüfuzunu necə artırmaq olar