verlioka Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 Подскажите как устранить, и откуда вообще ноги растут.Есть на сайте товар, для примера телефон Nokia 710, карточка товара одна, варианты цвета - два.В итоге в инструментах веб мастера гугл в дублях title и описания такая информация:/products/nokia_710_lumia_/products/nokia_710_lumia_?variant=1272/products/nokia_710_lumia_?variant=778/products/nokia_710_lumia_?variant=788откуда взялось четыре варианта? как сделать так чтоб не было дублей? Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 как вариант запретить в robots.txt к индексации страницы с урлами содержащими ?variant=* Цитата Ссылка на сообщение Поделиться на другие сайты
calvin Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 Взялось из site.ru/yandex.php, там и изменять...Что там поменять можно?Может лучше в robots.txt запретить индексацию yandex.php? Цитата Ссылка на сообщение Поделиться на другие сайты
SV911 Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 В тех же инструментах веб-мастеров гугл: конфигурация - параметры URL:Для ?variant Действие: Сортирует, Сканирование: Никакие URL Цитата Ссылка на сообщение Поделиться на другие сайты
Enhill Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 Запрещать индексацию в robots - жутко топорное решение.Disallow: /*? Disallow: /*?* Самым правильным будет указание канонической страницы. Достаточно в index.tpl, в теге <head></head> добавить{if $module == 'ProductView'}<link rel="canonical" href="{$config->root_url}/products/{$product->url}" />{/if}Через время, все дубли удаляться из поисковиков. Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 Вот то, что вы предложили для указания в роботс действительно жутко топорноНасчет канонических урл, заюзайте поиск, я выкладывал решение как из сделать Цитата Ссылка на сообщение Поделиться на другие сайты
Enhill Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 Ваше решение более полное, снимаю шляпу. А вот по поводу robots, хотел бы услышать ваш вариант и подискутировать. Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 Писать в роботах то что написанно вами выше - бред вот почему: - запрещаются разные номера страниц в каталоге и в блоге. А ведь страницы 1,2,3,45 у блога и каталога имеют разный контент, значит не являются дублями. Страницы каталога отфильтрованные по одному из параметров - тоже являются уникальными(контент разный)Если хотите через пару часов как доеду до офиса скину свой рабочий роботс, я его многим тут на форуме уже скидывал. Там с подробными комментариями все указанно и настроенно Цитата Ссылка на сообщение Поделиться на другие сайты
Enhill Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 Объясню почему однажды, такой вариант меня устроил: 1) О пагинации в блоге совершенно не задумался, что прискорбно.2) В каждом каталоге на тот момент пагинации не было, из-за малого количества товаров.3) Фильтр надо было закрыть, так как нет пагинации и контент выдавался тот же самый, только разном порядке, что считается дублем.Даже с учетом всего, получилось очень деревянно.Сейчас ситуация поменялась и я буду очень признателен, если дадите взглянуть на ваш роботс. Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 29 января, 2013 Жалоба Поделиться Опубликовано 29 января, 2013 В случае описанным verlioka как раз нужно запретить индексацию страниц с урлами ?variant=* которые берутся с yandex marketВот пример для Яндекса.В нем запрещенны фильтры, сортировки и т.д.При желании их можно открыть.# Привет, Яндекс! User-agent: YandexAllow: /Host: site.ruSitemap: http://site.ru/sitemap.xml# == НАЧИНАЕМ УБИРАТЬ ХЛАМ ИЗ ИНДЕКСА ==# это в принципе не должно попасть в индексDisallow: /sections/404Disallow: /orderDisallow: /userDisallow: /jsDisallow: /captchaDisallow: /SmartyDisallow: /designDisallow: /apiDisallow: /compiledDisallow: /cartDisallow: /resizeDisallow: /password.php# у нас есть мод реврайт, поэтому нафиг и этоDisallow: /?module=*Disallow: /*?module=*Disallow: /*/?module=*# а вот индексировать сортировки, фильтры и брэнды нам не надо, поэтому прикроем все запросы в каталоге, постраничную навигацию откроем позже:Disallow: /catalog/*?*=*Disallow: /products/*?variant=*# == ЗАВЕРШАЕМ УБИРАТЬ ХЛАМ, ==# == НО РАЗРЕШАЕМ ВСЯКИЕ НИШТЯКИ ==# для начала, разрешим индексировать постраничную навигацию в каталогеAllow: /catalog/*?page=* Цитата Ссылка на сообщение Поделиться на другие сайты
Aijai Опубликовано 30 января, 2013 Жалоба Поделиться Опубликовано 30 января, 2013 verlioka в случае если страницы уже проиндексированы - танцы с бубном приведенные выше дадут обратный эффект ожидаемому, поскольку робот на них просто не сможет зайти и убрать из индекса. Используйте meta name="robots" content="noindex, nofollow" в шаблоне, для тех страниц которые считаете не нужными. Цитата Ссылка на сообщение Поделиться на другие сайты
Noxter Опубликовано 30 января, 2013 Жалоба Поделиться Опубликовано 30 января, 2013 Шаблона для таких страниц как бы нет в системе. Цитата Ссылка на сообщение Поделиться на другие сайты
Aijai Опубликовано 30 января, 2013 Жалоба Поделиться Опубликовано 30 января, 2013 Как бы есть index.tpl в котором можно указать условия формирования тела head в котором и формируется на нужных страницах meta name="robots" Цитата Ссылка на сообщение Поделиться на другие сайты
Enhill Опубликовано 30 января, 2013 Жалоба Поделиться Опубликовано 30 января, 2013 JustDavali, спасибо! Aijai, указание canonical страницы - это не танцы с бубном. Это общепринятый стандарт, который позволяет указать поисковику, что дубль это дубль. Вот и вотНе сбивайте человека с толку. Цитата Ссылка на сообщение Поделиться на другие сайты
Aijai Опубликовано 30 января, 2013 Жалоба Поделиться Опубликовано 30 января, 2013 Та делайте как хотите, только учитывайте, что это не вариант, потому, что:Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантомравно как и только rel="next", rel="prev" - не удаляют из ПВ Гугла "ошибки" об одинаковом тайтле и деске страниц пагинаций Цитата Ссылка на сообщение Поделиться на другие сайты
Enhill Опубликовано 30 января, 2013 Жалоба Поделиться Опубликовано 30 января, 2013 Хм.. возможно. Я просто никогда не сталкивался со случаями, когда поисковик игнорировал этот атрибут. В споре рождается истина. Цитата Ссылка на сообщение Поделиться на другие сайты
verlioka Опубликовано 31 января, 2013 Автор Жалоба Поделиться Опубликовано 31 января, 2013 Aijai, совсем не представляю как реализовать с помощью meta. т.е вариантов больше нет? Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 31 января, 2013 Жалоба Поделиться Опубликовано 31 января, 2013 варианты есть всегда.зарегестрируйте сайт в яндекс.вебмастер, там есть инструмент для валидации и проверки robots.txt - редактируйте его и пишите правила для запрета индексации нужных страниц. справка там кстати тоже есть Цитата Ссылка на сообщение Поделиться на другие сайты
verlioka Опубликовано 31 января, 2013 Автор Жалоба Поделиться Опубликовано 31 января, 2013 выше написано, что запрет индексации даст негативный эффект Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 31 января, 2013 Жалоба Поделиться Опубликовано 31 января, 2013 выше написанна ерунда про негативный эффект и эффект обратный ожидаемому.Хотя дело ваше, поступайте как хотите.ну или почитайте справку в панелях вебмастера яндекс или гугль. Цитата Ссылка на сообщение Поделиться на другие сайты
Aijai Опубликовано 31 января, 2013 Жалоба Поделиться Опубликовано 31 января, 2013 выше написанна ерунда про негативный эффект и эффект обратный ожидаемому.мотивируйте пожалуйста Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 31 января, 2013 Жалоба Поделиться Опубликовано 31 января, 2013 verlioka в случае если страницы уже проиндексированы - танцы с бубном приведенные выше дадут обратный эффект ожидаемому, поскольку робот на них просто не сможет зайти и убрать из индекса.вот это бред.если в роботс прописанно Disallow - это не запрещает поисковому роботу заходить на страницу.это запрет индексировать её, т.е. просматривать И ВНОСИТЬ В ПОИСКОВЫЙ ИНДЕКС.т.е. при варианте, что я писал выше:Disallow: /products/*?variant=*мы запрещаем ИНДЕКСИРОВАТЬ страницу/products/nokia_710_lumia_?variant=1272а страница/products/nokia_710_lumia_ - будет проиндексированна.так понятно и аргументированно? Цитата Ссылка на сообщение Поделиться на другие сайты
Aijai Опубликовано 31 января, 2013 Жалоба Поделиться Опубликовано 31 января, 2013 Капец, меня всегда удивляли люди, считающие себя специалистами, кричащие другим "ИДИ ЧИТАЙ", при этом сами ни..... не знающие.Ниже цитата из рекомендаций Гугл:Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам. (Роботы наиболее распространенных поисковых систем выполняют директивы файла robots.txt. Некоторые роботы могут интерпретировать их иначе. Файл robots.txt не является обязательным к исполнению, и некоторые спамеры и другие злоумышленники могут его игнорировать. Поэтому мы рекомендуем защищать конфиденциальную информацию паролем.)Чтобы просмотреть список URL, которые Google не удалось просканировать, перейдите на страницу Заблокированные URL в разделе Состояние в Инструментах для веб-мастеров.Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google. Цитата Ссылка на сообщение Поделиться на другие сайты
JustDavali Опубликовано 31 января, 2013 Жалоба Поделиться Опубликовано 31 января, 2013 Еще раз повторяю для особо тугих и всему удивляющихся при внесении в роботс директивыDisallow: /products/*?variant=*все ранее проиндексированные страницы удалятся из индекса поисковика.т.е. произойдет то, что надо ТС у меня почему-то на одном из клиентских сайтов нет проблем с ссылками на варианты товаров, как раз благодаря тому, что они запрещенны к индексации как описанно выше. Цитата Ссылка на сообщение Поделиться на другие сайты
Aijai Опубликовано 31 января, 2013 Жалоба Поделиться Опубликовано 31 января, 2013 И снова Вы ошибаетесь.По всей видимости Вы составили файл роботс ДО отправки проэкта на индексацию. И именно поэтому там нет проблем с индексацией таких страниц. По заявлению ТС - у него эти страницы уже проиндексированы.Роботс в его случае - их заблокирует без дальнейшей индексации и висеть они в индексе будут в том состоянии в котором они находились до изменения по Вашей рекомендации, даже если они будут физически удалены.Поставьте активную ссылку на заблокированную страницу Вашего клиентского сайта, проиндексируйте ее, затем снимите эту стороннюю ссылку и сами убедитесь Цитата Ссылка на сообщение Поделиться на другие сайты
Рекомендуемые сообщения
Присоединяйтесь к обсуждению
Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.