Дубли страниц

verlioka · 29 января, 2013

Подскажите как устранить, и откуда вообще ноги растут.
Есть на сайте товар, для примера телефон Nokia 710, карточка товара одна, варианты цвета - два.
В итоге в инструментах веб мастера гугл в дублях title и описания такая информация:

/products/nokia_710_lumia_
/products/nokia_710_lumia_?variant=1272
/products/nokia_710_lumia_?variant=778
/products/nokia_710_lumia_?variant=788

откуда взялось четыре варианта? как сделать так чтоб не было дублей?

JustDavali · 29 января, 2013

как вариант запретить в robots.txt к индексации страницы с урлами содержащими ?variant=*

calvin · 29 января, 2013

Взялось из site.ru/yandex.php, там и изменять...

Что там поменять можно?

Может лучше в robots.txt запретить индексацию yandex.php?

SV911 · 29 января, 2013

В тех же инструментах веб-мастеров гугл: конфигурация - параметры URL:
Для ?variant Действие: Сортирует, Сканирование: Никакие URL

Enhill · 29 января, 2013

Запрещать индексацию в robots - жутко топорное решение.

Disallow: /*?
Disallow: /*?*

Самым правильным будет указание канонической страницы. Достаточно в index.tpl, в теге

<head></head>

добавить

{if $module == 'ProductView'}<link rel="canonical" href="{$config->root_url}/products/{$product->url}" />{/if}

Через время, все дубли удаляться из поисковиков.

JustDavali · 29 января, 2013

Вот то, что вы предложили для указания в роботс действительно жутко топорно

Насчет канонических урл, заюзайте поиск, я выкладывал решение как из сделать

Enhill · 29 января, 2013

Ваше решение более полное, снимаю шляпу.

А вот по поводу robots, хотел бы услышать ваш вариант и подискутировать.

JustDavali · 29 января, 2013

Писать в роботах то что написанно вами выше - бред вот почему:
- запрещаются разные номера страниц в каталоге и в блоге. А ведь страницы 1,2,3,45 у блога и каталога имеют разный контент, значит не являются дублями.
Страницы каталога отфильтрованные по одному из параметров - тоже являются уникальными(контент разный)
Если хотите через пару часов как доеду до офиса скину свой рабочий роботс, я его многим тут на форуме уже скидывал. Там с подробными комментариями все указанно и настроенно

Enhill · 29 января, 2013

Объясню почему однажды, такой вариант меня устроил:

1) О пагинации в блоге совершенно не задумался, что прискорбно.
2) В каждом каталоге на тот момент пагинации не было, из-за малого количества товаров.
3) Фильтр надо было закрыть, так как нет пагинации и контент выдавался тот же самый, только разном порядке, что считается дублем.
Даже с учетом всего, получилось очень деревянно.

Сейчас ситуация поменялась и я буду очень признателен, если дадите взглянуть на ваш роботс.

JustDavali · 29 января, 2013

В случае описанным verlioka как раз нужно запретить индексацию страниц с урлами ?variant=* которые берутся с yandex market

Вот пример для Яндекса.
В нем запрещенны фильтры, сортировки и т.д.
При желании их можно открыть.

# Привет, Яндекс! User-agent: YandexAllow: /Host: site.ruSitemap: http://site.ru/sitemap.xml# == НАЧИНАЕМ УБИРАТЬ ХЛАМ ИЗ ИНДЕКСА ==# это в принципе не должно попасть в индексDisallow: /sections/404Disallow: /orderDisallow: /userDisallow: /jsDisallow: /captchaDisallow: /SmartyDisallow: /designDisallow: /apiDisallow: /compiledDisallow: /cartDisallow: /resizeDisallow: /password.php# у нас есть мод реврайт, поэтому нафиг и этоDisallow: /?module=*Disallow: /*?module=*Disallow: /*/?module=*# а вот индексировать сортировки, фильтры и брэнды нам не надо, поэтому прикроем все запросы в каталоге, постраничную навигацию откроем позже:Disallow: /catalog/*?*=*Disallow: /products/*?variant=*# == ЗАВЕРШАЕМ УБИРАТЬ ХЛАМ, ==# == НО РАЗРЕШАЕМ ВСЯКИЕ НИШТЯКИ ==# для начала, разрешим индексировать постраничную навигацию в каталогеAllow: /catalog/*?page=*

Aijai · 30 января, 2013

verlioka в случае если страницы уже проиндексированы - танцы с бубном приведенные выше дадут обратный эффект ожидаемому, поскольку робот на них просто не сможет зайти и убрать из индекса. Используйте meta name="robots" content="noindex, nofollow" в шаблоне, для тех страниц которые считаете не нужными.

Noxter · 30 января, 2013

Шаблона для таких страниц как бы нет в системе.

Aijai · 30 января, 2013

Как бы есть index.tpl в котором можно указать условия формирования тела head в котором и формируется на нужных страницах meta name="robots"

Enhill · 30 января, 2013

JustDavali, спасибо!

Aijai, указание canonical страницы - это не танцы с бубном. Это общепринятый стандарт, который позволяет указать поисковику, что дубль это дубль. Вот и вот
Не сбивайте человека с толку.

Aijai · 30 января, 2013

Та делайте как хотите, только учитывайте, что это не вариант, потому, что:

Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантом

равно как и только rel="next", rel="prev" - не удаляют из ПВ Гугла "ошибки" об одинаковом тайтле и деске страниц пагинаций

Enhill · 30 января, 2013

Хм.. возможно. Я просто никогда не сталкивался со случаями, когда поисковик игнорировал этот атрибут. В споре рождается истина.

verlioka · 31 января, 2013

Aijai, совсем не представляю как реализовать с помощью meta. т.е вариантов больше нет?

JustDavali · 31 января, 2013

варианты есть всегда.
зарегестрируйте сайт в яндекс.вебмастер, там есть инструмент для валидации и проверки robots.txt - редактируйте его и пишите правила для запрета индексации нужных страниц. справка там кстати тоже есть

verlioka · 31 января, 2013

выше написано, что запрет индексации даст негативный эффект

JustDavali · 31 января, 2013

выше написанна ерунда про негативный эффект и эффект обратный ожидаемому.

Хотя дело ваше, поступайте как хотите.
ну или почитайте справку в панелях вебмастера яндекс или гугль.

Aijai · 31 января, 2013

выше написанна ерунда про негативный эффект и эффект обратный ожидаемому.

мотивируйте пожалуйста

JustDavali · 31 января, 2013

verlioka в случае если страницы уже проиндексированы - танцы с бубном приведенные выше дадут обратный эффект ожидаемому, поскольку робот на них просто не сможет зайти и убрать из индекса.

вот это бред.
если в роботс прописанно Disallow - это не запрещает поисковому роботу заходить на страницу.
это запрет индексировать её, т.е. просматривать И ВНОСИТЬ В ПОИСКОВЫЙ ИНДЕКС.
т.е. при варианте, что я писал выше:

Disallow: /products/*?variant=*

мы запрещаем ИНДЕКСИРОВАТЬ страницу
/products/nokia_710_lumia_?variant=1272

а страница
/products/nokia_710_lumia_ - будет проиндексированна.
так понятно и аргументированно?

Aijai · 31 января, 2013

Капец, меня всегда удивляли люди, считающие себя специалистами, кричащие другим "ИДИ ЧИТАЙ", при этом сами ни..... не знающие.

Ниже цитата из рекомендаций Гугл:

Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам. (Роботы наиболее распространенных поисковых систем выполняют директивы файла robots.txt. Некоторые роботы могут интерпретировать их иначе. Файл robots.txt не является обязательным к исполнению, и некоторые спамеры и другие злоумышленники могут его игнорировать. Поэтому мы рекомендуем защищать конфиденциальную информацию паролем.)

Чтобы просмотреть список URL, которые Google не удалось просканировать, перейдите на страницу Заблокированные URL в разделе Состояние в Инструментах для веб-мастеров.

Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

JustDavali · 31 января, 2013

Еще раз повторяю для особо тугих и всему удивляющихся при внесении в роботс директивы
Disallow: /products/*?variant=*
все ранее проиндексированные страницы удалятся из индекса поисковика.
т.е. произойдет то, что надо ТС

у меня почему-то на одном из клиентских сайтов нет проблем с ссылками на варианты товаров, как раз благодаря тому, что они запрещенны к индексации как описанно выше.

Aijai · 31 января, 2013

И снова Вы ошибаетесь.
По всей видимости Вы составили файл роботс ДО отправки проэкта на индексацию. И именно поэтому там нет проблем с индексацией таких страниц.
По заявлению ТС - у него эти страницы уже проиндексированы.
Роботс в его случае - их заблокирует без дальнейшей индексации и висеть они в индексе будут в том состоянии в котором они находились до изменения по Вашей рекомендации, даже если они будут физически удалены.

Поставьте активную ссылку на заблокированную страницу Вашего клиентского сайта, проиндексируйте ее, затем снимите эту стороннюю ссылку и сами убедитесь

Дубли страниц

Рекомендуемые сообщения

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению