Аналіз вядучых у свеце файлаў robots.txt

Walled Gardens: сайты, якія забараняюць усім, акрамя Google
Боты паводзіны дрэнна
Вакансіі
# 1 airbnb.com/robots.txt
Атрымаць новыя паведамленні па электроннай пошце!

Файл robots.txt сайта раіць вэб-сканерам свету, якія файлы яны могуць і не могуць загрузіць. Ён дзейнічае як першы вартаўнік Інтэрнэту, у адрозненне ад блакавання адказу - ён дазваляе спыніць запыты на ваш сайт да гэтага. Цікавая рэч у гэтых файлах заключаецца ў тым, што ён выкладае, як вэб-майстры маюць намер аўтаматызаваныя працэсы, каб атрымаць доступ да сваіх вэб-сайтаў. Нягледзячы на тое, што бот проста ігнараваць гэты файл, ён вызначае ідэалізаванае паводзіны таго, як яны павінны дзейнічаць.

Такія файлы вельмі важныя. Таму я падумаў, што загрузіў файл robots.txt з кожнага з лепшых мільёнаў сайтаў на планеце і пагляджу, якія шаблоны я магу знайсці.

Я атрымаў спіс 1 мільён лепшых сайтаў Alexa і напісаў невялікая праграма загрузіць файл robots.txt з кожнага дамена. З усімі загружанымі дадзенымі я правёў кожны файл праз Pythons urllib.robotparser пакет і пачаў глядзець на вынікі.

Walled Gardens: сайты, якія забараняюць усім, акрамя Google

Адзін з маіх хатніх жывёл - гэта сайты, якія дазваляюць GoogleBot праіндэксаваць усе змесціва, але забараняе ўсім. Напрыклад, файл robots.txt Facebook пачынаецца з:

Заўвага: сканаванне Facebook забаронена, калі вы не маеце пісьмовага дазволу. Глядзіце: http://www.facebook.com/apps/site_scraping_tos_terms.php

Гэта крыху крывадушна, таму што сам Facebook заснаваны на старонках профіляў студэнтаў у Гарвардзе - дакладны від дзейнасці, які яны зараз спрабуюць забараніць іншым людзям.

Патрабаванне пісьмовага пагаднення, перш чым дазволіць сканаванне вашага сайта, ляціць у бок ідэалаў адкрытага Інтэрнэту. Гэта перашкаджае навуковым даследаванням і забяспечвае бар'ер для ўступлення ў новыя пошукавыя сістэмы: DuckDuckGo забараняецца сканаваць Facebook, калі Google, напрыклад, не з'яўляецца.

Я пісаў, што, імкнучыся назваць і сорамна сайтаў, якія займаюцца такімі паводзінамі, імкнуўся киксотическим просты сцэнар што правярае дамены, якія дазваляюць Google праіндэксаваць сваю хатнюю старонку - але забараняе ўсім астатнім. Найбольш папулярныя дамены, якія робяць гэта:

Я абмяжоўваўся даменамі, якія знаходзяцца на англійскай мове, каб людзі ведалі гэта, але вы можаце змяніць мову для прагляду міжнародных сайтаў. Я таксама ўключаў, ці дазваляе сайт DuckDuckGo праіндэксаваць сваю хатнюю старонку, з тым каб паказаць, наколькі вялікая колькасць новых пошукавых сістэм у пачатку працы.

Большасць вышэйшых даменаў вышэй - Facebook, LinkedIn, Quora і Yelp - маюць адно агульнае. Яны размяшчаюць змесціва, створанае карыстальнікам, якое больш за ўсё каштуе ў іх уласным бізнесе. Гэтыя дадзеныя з'яўляюцца адным з найбольш каштоўных актываў, якія ёсць у гэтых прадпрыемстваў, і яны не проста збіраюцца выдаць яго бясплатна. Каб быць справядлівым, гэтыя забароны часта прадстаўляюцца з пункту гледжання абароны прыватнасці карыстальнікаў у гэтым паведамленні з CTO Facebook растлумачыць рашэнне аб забароне сканавання ці глыбока ў Robots.txt Quora, дзе яны тлумачаць, чаму забаранілі машыну на шляху назад ,

Далей па спісе і вынікі не так паслядоўныя - напрыклад, мне незразумела, чаму census.gov дазваляе толькі тры асноўныя пошукавыя сістэмы атрымаць доступ да іх зместу, але забараняе DuckDuckGo. Вы маглі б падумаць, што гэтыя дадзеныя будуць належаць амерыканскаму народу, а не проста для Google / Microsoft / Yahoo.

Хоць я не прыхільнік такога роду паводзін, я, безумоўна, магу зразумець імпульс толькі для белых спісаў некаторых сканараў з улікам усіх дрэнных робатаў, якія існуюць там.

Боты паводзіны дрэнна

Я хацеў бы паспрабаваць выявіць найгоршыя сеткавыя сканеры ў Інтэрнэце, выкарыстоўваючы калектыўную думку пра мільёны файлаў robots.txt, якія я загрузіў. Каб высветліць, якія боты з'яўляюцца найгоршымі акцёрамі, я падлічыў, колькі розных даменаў цалкам забаранілі useragent - а потым ацэньвалі useragents, колькі разоў яны былі заблакаваныя:

У гэтым спісе ёсць некалькі розных тыпаў ботаў.

Першая група - гэта сканеры, якія збіраюць дадзеныя для SEO і маркетынгавага аналізу. Фірмовыя дысертацыі хочуць атрымаць максімальна шмат дадзеных для харчавання сваёй аналітыкі - выклікаючы прыкметную нагрузку на многія серверы. Ahrefs нават хваліцца "AhrefsBot - другі самы актыўны гусенічны пасля Googlebot" , таму зразумела, што людзі будуць раздражняцца і блакаваць іх. Majestic (MJ12Bot) пазіцыянуе сябе ў якасці інструмента аналізу канкурэнтаздольнасці, а гэта азначае, што ён скануе ваш сайт, каб даць магчымасць зразумець бізнес-канкурэнтам, але таксама сцвярджае, што ён мае "Індэкс спасылак па велічыні ў свеце" на іх галоўнай старонцы ,

Другая група карыстальнікаў-агентаў - з інструментаў, накіраваных на хуткую загрузку сайта для асабістага выкарыстання ў аўтаномным рэжыме. Інструменты накшталт WebCopier , Webstripper і Тэлепорт усё дазваляе хутка загружаць цэлыя сайты на свой жорсткі дыск. Праблема ў тым, што хутка, усе гэтыя інструменты відавочна забілі сайты, каб іх часта забаранілі.

І, нарэшце, ёсць пошукавыя сістэмы, такія як Baidu (BaiduSpider) і Yandex, якія могуць агрэсіўна праіндэксаваць змест, а толькі абслугоўванне моў / рынкаў, якія не абавязкова прыносяць тону каштоўнасцям для некаторых сайтаў. Асабіста я атрымліваю нелегальную колькасць трафіку ад абодвух, таму не б таксама прапанаваў блакаваць.

Вакансіі

Гэта прыкмета таго часу, калі файлы, прызначаныя для спажывання робатамі, зараз часта ўтрымліваюць аб'явы пра працу, якія шукаюць інжынераў-праграмістаў - асабліва людзей, якія зацікаўлены ў SEO.

Улічваючы, што ў мяне ёсць усе гэтыя дадзеныя тут, я думаў, што было б цікава прадставіць першы (і, напэўна, толькі калі-небудзь) досвед працы, заснаваны выключна на апісаннях, выкіданых з файлаў robots.txt:

Далей>

# 1 airbnb.com/robots.txt

# /////// # // // # // // # // // //// /// /// # // ////// /// # // /// // //// /// /// (// (// /// //// /// //// /// //// # // /// /// // & ////////// /// (////// /////////// ////////// //////// /// # // // // // /// /// /// (// /// /// /// /// /// /// # // (/ // / / /// /// /// (// /// /// /// /// /// /// # // // // ////// /// /// ( // //// //// /// /// /// /// # // // // /////////// /// (// /// /////// /// /// ////////// # / (///// (/ # // //// # // # // /// / // // # ////// ////// # # # Мы думалі, што вы ніколі не зробіце гэта! # Мы спадзяемся, што вы адчуваеце сябе як дома ў гэтым файле ... калі вы не забаронены падтэчкай . # І так як вы тут, прачытайце пра нашу культуру і каманду: https://www.airbnb.com/careers/departments/engineering # Нават ваш робат можа прывесці да працоўнага дня.

У невялікай іроніі, Ahrefs.com які з'яўляецца распрацоўшчыкам другога найбольш забароненага боту, які я выявіў тут, таксама мае рэкламу для SEO чалавека ў іх файл robots.txt , Акрамя таго, pricefalls.com прадпісвае аб'яву аб працы ў іх файл robots.txt са спасылкай "Заўвага: сканаванне цэн на падзенне коштаў забаронена, калі вы не маеце пісьмовага дазволу".

Увесь код для гэтай пасады працуе на GitHub ,

Апублікавана 18 кастрычніка 2017 г.

Атрымаць новыя паведамленні па электроннай пошце!

Калі я пішу новы пост, увядзіце свой адрас электроннай пошты, каб атрымаць ліст: