Како укротити бот за претрагу: водич за индексирање сајта

Ако је интернет огромна библиотека, претраживачи су његови ултрабрзи запосленици који могу брзо оријентисати читатеља (корисника интернета) у бескрајном океану информација. То им помаже да систематизују фајл картице - своју базу података.

Када корисник унесе кључну фразу, претраживач приказује резултате из ове базе података. То значи да ПС-ови чувају копије докумената на својим серверима и приступају им када корисник пошаље захтев. Да би се представила одређена страница у излазу, она се прво мора додати у базу података (индекс). Дакле, новостворене локације, које претраживачи не знају, не учествују у издању.

Претраживач шаље свог робота (он је паук, он је трагач) у потрази за новим страницама које се појављују на мрежи сваке секунде. Пакет пакета прикупља податке пратећи везе са једне странице на другу и шаље их у базу података. Обрада информација се врши другим механизмима.

Сваки претраживач има свој сет ботова који обављају различите функције. Ево примера неких Иандек робота:

  • Главни робот.
  • Имаге Индекер.
  • Миррорман (детектује огледала сајта).
  • Фастброот Овај појединац живи на често ажурираним страницама. По правилу - вести. Садржај се појављује у проблему скоро одмах након постављања. Када се рангирају у таквим случајевима, узимају се у обзир само неки од фактора, тако да се позиција странице може промијенити након доласка главног робота.

Гоогле такође има сопствени робот за скенирање вести и слика, као и индексера за видео, мобилне сајтове итд.

Брзина индексирања нових сајтова за различите ПС је другачија. Овде нема конкретних рокова, постоји само оквирни временски оквир: за “Иандек” - од једне недеље до месец дана, за Гоогле - од неколико минута до недеље. Да не би чекали недељне индексације, морате радити озбиљно. О томе ће бити речи у чланку.

Прво да сазнамо како да проверимо да ли је сајт индексиран.

Како проверити индексирање локације

Можете провјерити индексирање на три главна начина:

  1. Направите захтев за претрагу користећи специјалне операторе.
  2. Користите алате за вебмастере (Гоогле Сеарцх Цонсоле, Иандек.Вебмастер).
  3. Користите специјализоване услуге или преузмите проширење у прегледачу.

Оператори претраге

Брзо и једноставно, приближан број индексираних страница може се пронаћи помоћу оператора сите. Исти ради у Иандеку и Гооглеу.

Услуге за провјеру индексирања

Бесплатне услуге вам омогућавају да брзо сазнате број страница индексираних од стране Иандек-а и Гоогле-а. Постоји, на пример, веома згодан алат из КССЕО.ин и СЕОГадгет (можете проверити до 30 сајтова одједном).

РДС има читав низ корисних алата за проверу перформанси веб сајта, укључујући и индексиране странице. Можете преузети прикладан плугин за прегледнике (подржани су Цхроме, Мозилла и Опера) или десктоп апликација.

Генерално, плугин је погоднији за професионалне СЕО. Ако сте редован корисник, будите спремни да вас овај алат непрестано нападају непотребним информацијама, увлачећи се у кодове страница, и као резултат тога морате да га конфигуришете или избришете.

Вебмастер панели

Иандек.Вебмастер и Гоогле Сеарцх Цонсоле пружају детаљне информације о индексирању. Тако рећи, из прве руке.

У старој верзији ГСЦ-а такође можете видети статистику скенирања и грешке на које су наишли роботи приликом приступа страницама.

Више о индексним подацима приказаним у панелима вебмастера можете прочитати у одговарајућим одељцима наших упутстава Иандек.Вебмастер и Гоогле Сеарцх Цонсоле.

Како контролисати индексирање

Претраживачи виде сајтове на другачији начин од нас. За разлику од просјечног корисника, претраживачки робот види цијели садржај странице. Ако се не заустави на време, скенираће све странице, без анализе, укључујући и оне које не би требало стављати на јавни приказ.

Треба имати на уму да су ресурси робота ограничени: постоји одређена квота - број страница које паук може заобићи у одређеном времену. Ако ваш сајт има огроман број страница, постоји велика вероватноћа да ће робот потрошити већину својих ресурса на "јунк" странице и оставити важне за будућност.

Према томе, индексирање се може и треба управљати. Да би се то постигло, постоје одређени помоћници алата, које даље разматрамо.

Роботс.ткт

Роботс.ткт је једноставна текстуална датотека (као што можете претпоставити из екстензије), у којој се уз помоћ посебних ријечи и симбола пишу правила која претраживачи разумију.

Директиве које се користе у роботс.ткт:

Директиве

Десцриптион

Усер-агент

Позив роботу.

Аллов

Дозволи индексирање.

Дисаллов

Онемогући индексирање.

Хост

Адреса главног огледала.

Ситемап

Адреса мапе сајта.

Цравл-делаи

Временско кашњење између преузимања страница сајта.

Цлеан-парам

Странице са којима се параметри морају искључити из индекса.

Усер-агент показује на коју тражилицу се примјењују доња правила. Ако је прималац било који претраживач, напишите звјездицу:

Усер-агент: Иандек

Усер-агент: ГооглеБот

Усер-агент: Бингбот

Усер-агент: Слурп (Иахоо! робот за претрагу)

Кориснички агент: *

Најчешће коришћена директива је дисаллов. Само се користи за забрану индексирања страница, датотека или директорија.

Странице које треба забранити укључују:

  1. Оффице датотеке и фасцикле. Админ панел, ЦМС датотеке, кориснички налог, корпа за куповину, итд.
  2. Нискоинформативне помоћне странице које не треба промовирати. На пример, биографије аутора блога.
  3. Различите врсте дуплих главних страница.

О дупликату се детаљније бавимо. Замислите да имате блог страницу са чланком. Овај чланак сте рекламирали на другом ресурсу додавањем УТМ ознаке постојећој УРЛ-у да бисте пратили конверзије. Адреса се мало променила, али и даље води до исте странице - садржај је потпуно исти. Ово је двоструко које треба затворити од индексирања.

За дуплирање страница нису криви само статистички системи. Парови се могу појавити приликом претраживања робе, сортирања, због присуства истог производа у неколико категорија, итд. Чак и сами мотори сајта често стварају велики број различитих дупликата (посебно Вордпресс и Јоомла).

Поред пуних дупликата, постоје и делови. Најбољи пример је главна страница блога са најавама објављивања. Објаве се по правилу узимају из чланака, тако да на тим страницама нема јединственог садржаја. У овом случају, обавештења могу бити јединствено или потпуно уклоњена (као у блогу Тектерра).

Сличне странице (листе чланака, каталози робе, итд.) Такођер имају и навигацију по страницама (пагинација), који листу дијели на неколико страница. О томе шта учинити са овим страницама, Гоогле је детаљно описао у својој помоћи.

Парови могу знатно да штете рангирању. На пример, због њиховог великог броја, претраживач може за одређене захтеве показати потпуно различите странице које сте планирали да промовишете и које су биле наглашене у смислу оптимизације (на пример, постоји страница са побољшаним производима и претраживач показује потпуно другу). Због тога је важно правилно конфигурисати индексирање локације тако да овај проблем не постоји. Само један од начина да се носите са дупликатима је датотека роботс.ткт.

Пример роботс.ткт за један познати блог:

Приликом компајлирања датотеке роботс.ткт, можете се кретати до других локација. Да бисте то урадили, једноставно додајте на крају адресе главне странице сајта интересовања после косе црте "роботс.ткт" .Само запамтите да сајтови имају различите функције, па копирајте директиве врхунских конкурената потпуно и живите мирно неће радити. Чак и ако одлучите да преузмете готов робот.ткт за ваш ЦМС, ипак морате да извршите промене које одговарају вашим потребама.

Погледајмо ликове који се користе у изради правила.

Путања до одређене датотеке или фасцикле специфицирамо кроз косу црту (/). Ако је фасцикла наведена (на пример, / вп-админ /), све датотеке из ове фасцикле ће бити затворене за индексирање. Да бисте навели одређену датотеку, морате у потпуности да наведете њено име и проширење (заједно са директоријумом).

Ако, на пример, морате да забраните индексирање датотека одређеног типа или странице која садржи параметар, можете да користите звездице (*):

Дисаллов: / * опенстат =

Дисаллов: / *? Утм_соурце =

Дисаллов: / * прице =

Дисаллов: / * гцлид = *

На место звездице може бити било који број знакова (и можда уопште није). Икона $ се користи када желите да откажете правило створено иконом *. На пример, имате еда.хтмл страницу и / еда директоријум. Директива "/ * еда" ће онемогућити индексирање и директоријума и странице. Да бисте оставили страницу отворену за роботе, користите директиву "/ еда $".

Такође можете да онемогућите индексирање страница са одређеним параметрима користећи директиву цлеан-парам. Више о томе прочитајте у Иандековој помоћи.

Директиве аллов омогућава индексирање појединачних директоријума, страница или датотека. На пример, морате да затворите сав садржај мапе за отпремање са ПС-а, изузев за један пдф-фајл. Ево како то урадити:

Дисаллов: / вп-цонтент / уплоадс /

Дозволи: /вп-цонтент/уплоадс/боок.пдф

Следећа важна (за Иандек) директиву је хост. Омогућава вам да одредите главно огледало сајта.

Сајт може имати неколико верзија (домена) са потпуно идентичним садржајем. Чак и ако имате само један домен, не би требало да игноришете директиву хоста, то су различите локације, и морате да одредите коју верзију треба приказати у излазу. О томе смо већ детаљно писали у чланку "Како сазнати главно огледало сајта и конфигурирати га уз помоћ преусмјеравања".

Још једна важна директива - ситемап. Овде (ако је доступно) наведите адресу на којој можете пронаћи мапу вашег сајта. Како да га направим и за шта је, хајде да разговарамо касније.

Коначно, директива која се примењује ређе - цравл-делаи. Потребан је у случају када је оптерећење сервера веће од ограничења хостинга. Ово се ретко виђа код добрих домаћина, и без икаквог разлога, није вредно одређивати рокове за преузимање страница. Осим тога, брзина премоснице се може подесити у Иандек.Вебмастер.

Треба напоменути да се претраживачи односе другачије на роботс.ткт. Ако је то за Иандек скуп правила која не треба кршити, онда је Гоогле сагледава као препоруку и може игнорисати неке директиве.

Ћирилични знакови се не могу користити у датотеци роботс.ткт. Стога, ако имате ћирилични домен, користите онлине претвараче.

Након креирања датотеке, потребно је да је поставите у основни директоријум сајта, тј.: Сите.ру/роботс.ткт.

Можете да проверите роботс.ткт за грешке у секцији Алатке на панелу Иандек.Вебмастер:

Стара верзија Гоогле конзоле за претрагу такође има овај алат.

Како затворити сајт из индексирања

Ако из неког разлога треба да сајт нестане са излазних података свих претраживача, то је веома лако урадити:

Кориснички агент: *

Дисаллов: /

Веома је пожељно да се то уради док је сајт у изградњи. Да бисте поново отворили сајт за претраживачке роботе, само уклоните коса црта (главна ствар - не заборавите да то урадите када покренете сајт).

Нофоллов и ноиндек

Да бисте подесили индексирање, користе се и посебни атрибути и хтмл ознаке.

Иандек има сопствену ознаку, са којом можете рећи роботу који део текста не треба индексирати. Најчешће су то званични делови текста који не би требало да буду приказани у исечку или фрагментима који се не би требало узети у обзир приликом процене квалитета странице (не-јединствени садржај).

Проблем је што практично нико осим Иандека не разумије ову ознаку, тако да већина валидатора даје грешке приликом провјере кода. Ово се може поправити лаганом променом изгледа ознака:

текст

Атрибут рел = ”нофоллов” вам омогућава да затворите појединачне везе на страници од индексирања. За разлику од њега, сви претраживачи разумију. Да бисте забранили роботу да одједном прође све линкове на страници, лакше је користити ову мета ознаку :.

Иначе, мега-таг роботи се исплати погледати детаљније. Као и датотека роботс.ткт, она вам омогућава да управљате индексирањем, али флексибилније. Да бисте разумели принцип рада, размотрите упутства за опције:

садржај садржаја и линкови

не индексирајте садржај и линкове

не индексирајте садржај, већ пратите линкове

индексирајте садржај, али не пратите линкове

Ово нису сви примери коришћења мета ознаке робота, пошто постоје и друге директиве поред нофоллов и ноиндек. На пример, ноимагеиндек, који забрањује скенирање слика на страници. Више о овој мета ознаци и њеној апликацији можете прочитати у помоћи Гоогле-а.

Рел = "канонско"

Други начин да се бавите дупликатима је да користите рел = "цаноницал" атрибут. За сваку страницу можете поставити канонску (преферирану) адресу, која ће бити приказана у резултатима претраге. Региструјући атрибут у дупликату кода, "прикачите" га на главну страницу, и неће бити забуне са његовим верзијама. Ако дупло има референтну тежину, преноси се на главну страницу.

Вратимо се на пример пагинације у Вордпресс-у. Уз помоћ Алл ин Оне СЕО плугина можете решити проблем са дупликатима овог типа једним кликом. Да видимо како то ради.

Идемо на главну страницу блога и отворимо, на примјер, другу страницу пагинације.

Сада ћемо погледати изворни код, односно ознаку с рел = "цаноницал" атрибутом у одјељку. У почетку изгледа овако:

Канонична веза је погрешно постављена - она ​​једноставно понавља физичку адресу странице. Ово треба поправити. Идите на општа подешавања плугин-а Алл ин Оне и означите поље "Нема Пагинације за Цаноницал УРЛ-ове"(Онемогући пагинацију за канонске УРЛ-ове).

Након ажурирања поставки, поново погледамо код, сада би требало да буде овако:

И тако - на било којој страници, да ли је то друга или двадесета. Брзо и лако.

Али постоји један проблем. За Гоогле, овај метод није прикладан (о томе је писао сам), а употреба канонског атрибута може негативно утицати на индексирање страница страница. Ако је за блог ово, у принципу, не застрашујуће, онда је боље не експериментисати са страницама производа, већ користити рел = ”прев” и рел = ”нект” атрибуте. Само их "Иандек" игнорише, каже Платон Сцхукин. Генерално, све је двосмислено и ништа није јасно, али то је нормално - ово је СЕО.

Ситемап (ситемап)

Ако роботс.ткт фајл каже роботу које странице да га додирне, онда ситемап, напротив, садржи све линкове које треба индексирати.

Главна предност мапе сајта је да поред листе страница садржи и корисне податке за робота - датум и учесталост ажурирања за сваку страницу и њен приоритет за скенирање.

Датотека ситемап.кмл може се аутоматски генерисати помоћу специјализованих онлајн услуга. На пример, Генситемап (рус) и КСМЛ-Ситемапс (енг). Имају ограничења на броју страница, тако да ако имате велики сајт (више од 1000 страница), мораћете да платите симболичну суму за креирање картице. Завршену датотеку можете добити и помоћу додатка. Најлакши и најпогоднији Вордпресс плугин је Гоогле КСМЛ Ситемапс. Има много различитих поставки, али лако их је разумјети.

Резултат је једноставна и погодна мапа локације у облику таблета. Он постаје доступан одмах након активације додатка.

Ситемап је изузетно користан за индексирање, јер роботи често посвећују велику пажњу старим страницама и игноришу нове. Када постоји мапа сајта, робот види које странице су се промениле, а приликом приступа сајту их прво посећује.

Ако сте креирали ситемап користећи услуге треће стране, готова датотека мора бити преузета и постављена, као што је роботс.ткт, у фасциклу на хостингу где се локација налази. Опет, у коријенској мапи: сите.ру/ситемап.кмл.

Ради лакшег сналажења, препоручује се да датотеку отпремите у посебан одељак Иандек.Вебмастер и Гоогле Сеарцх Цонсоле.

У старој верзији, алат је мало другачији.

У Иандек.Вебмастер-у, можете прегледати садржај мапе сајта за грешке у секцији Алати.

Како убрзати индексирање

Претраживачи ће пре или касније сазнати за ваш сајт, чак и ако не учините ништа за њега. Али вероватно желите да купце и посетиоце добијете што је пре могуће, а не месецима, тако да кашњења са индексирањем нису у реду.

Редовно брзо индексирање је потребно не само за нове, већ и за постојеће локације - за правовремено ажурирање података у претраживању. Замислите да сте одлучили да оптимизујете старе непривлачне заглавља и исјечке да бисте повећали ЦТР у издању. Ако сачекате док робот не преради све странице, можете изгубити много потенцијалних клијената.

Ево још неколико разлога за што брже „храњење“ нових страница роботима:

  • Сајт објављује садржај који брзо губи своју релевантност. Ако су данашње вијести индексиране и које ће бити објављене за тједан дана, каква је њихова корист?
  • О сайте узнали мошенники и следят за обновлениями быстрее любого робота: как только у вас публикуется новый материал, они копируют его себе и благополучно попадают на первые позиции благодаря более быстрому индексированию.
  • На страницах появляются важные изменения. К примеру, у вас изменились цены или ассортимент, а в поиске показываются старые данные. В результате пользователи разочаровываются, растет показатель отказов, а сайт рискует опуститься в поисковой выдаче.

Ускорение индексации - работа комплексная. Каких-то конкретных способов здесь нет, так как каждый сайт индивидуален (как и серверы, на которых они расположены). Но можно воспользоваться общими рекомендациями, которые, как правило, позитивно сказываются на скорости индексирования.

Дозволите нам да укратко наведемо шта се може урадити да би страница била индексирана брже:

  1. Реци роботима шта да индексирају, а шта не индексирају. О роботс.ткт-у, мапи сајта и свим њиховим предностима већ смо рекли. Ако се датотеке компајлирају исправно, ботови ће се брже носити с количином нових информација које су им испуштене.
  2. Пријавите се са Иандек.Вебмастер-ом и Гоогле Сеарцх Цонсоле-ом. Тамо можете не само да прогласите нови сајт, већ и да добијете приступ важним алатима и аналитикама.
  3. Обратите пажњу на сам сајт. Да би роботу (као и корисницима) било лакше да се крећу по сајту, требало би да има јасну и једноставну структуру и лаку навигацију. Ово такође укључује компетентно повезивање, које може помоћи у навигацији по сајту и проналажењу важних страница. Квалитет садржаја може да утиче на брзину индексирања, тако да је боље објављивати јединствене текстове који су корисни.
  4. Објавите на спољним сајтовима. Многи препоручују регистрацију сајтова у услугама социјалног обележавања, директоријуме, “јурњава” на Твиттеру, куповину веза, итд. То ми није помогло у моје време - нова страница је индексирана за месец дана. Али линкови из великих посећених ресурса (где чак и брзина може да живи) заиста могу помоћи. Имали смо много чланака о томе како и гдје објавити: “Гост постављање: како објавити, уметнути линкове и не платити за њега”, “Вањски садржај маркетинг: зашто, што писати о и гдје”, водич за изградњу линкова.
  5. Ажурирајте сајт чешће. Ако нови материјали нису објављени на сајту месецима, робот мења тактику и посећује сајт рјеђе.

Такође можете слати роботе на одређене странице у панелима Иандек.Вебмастерс и Гоогле Сеарцх Цонсоле.

Имајте на уму да појединачне адресе можете додати важнијим да бисте касније пратили њихово индексирање.

Ево још једне корисне ствари: овде можете сазнати да ли је одређени УРЛ индексиран.

У Гоогле-у можете затражити индексирање одређених страница на картици "Погледајте као Гооглебот" (стара верзија).

Ово су можда најосновнији начини да се убрза индексирање. Има и других, али њихова ефикасност је упитна. У већини случајева не би требало да трошите време на њих, само ако је потребно хитно индексирати сајт, и спремни сте да испробате било коју методу. У таквим случајевима, боље је прочитати конкретне случајеве. На пример, како да индексирате сајт у Гоогле-у у року од 24 сата.

Закључак

Индексирање сајта је сложен процес који претраживачи не носе увијек сами. Пошто индексирање директно утиче на рангирање сајта у резултатима претраге, има смисла да преузмете контролу у своје руке и да поједноставите рад претраживачких робота што је више могуће. Да, мораш да попијеш и попуниш много чуњева, али чак и тако непредвидљива звијер као претраживачки бот још увијек може поднијети особу.

Погледајте видео: NYSTV - Midnight Ride Halloween Mystery and Origins w David Carrico and Gary Wayne - Multi Language (Јануар 2020).

Loading...

Оставите Коментар