Перейти к содержанию
Официальный форум поддержки Simpla

Рекомендуемые сообщения

Подскажите как устранить, и откуда вообще ноги растут.
Есть на сайте товар, для примера телефон Nokia 710, карточка товара одна, варианты цвета - два.
В итоге в инструментах веб мастера гугл в дублях title и описания такая информация:

/products/nokia_710_lumia_
/products/nokia_710_lumia_?variant=1272
/products/nokia_710_lumia_?variant=778
/products/nokia_710_lumia_?variant=788

откуда взялось четыре варианта? как сделать так чтоб не было дублей?

Ссылка на сообщение
Поделиться на другие сайты

В тех же инструментах веб-мастеров гугл: конфигурация - параметры URL:
Для ?variant Действие: Сортирует, Сканирование: Никакие URL

Ссылка на сообщение
Поделиться на другие сайты

Запрещать индексацию в robots - жутко топорное решение.

Disallow: /*?
Disallow: /*?*


Самым правильным будет указание канонической страницы. Достаточно в index.tpl, в теге

<head></head>

добавить

{if $module == 'ProductView'}<link rel="canonical" href="{$config->root_url}/products/{$product->url}" />{/if}


Через время, все дубли удаляться из поисковиков.
Ссылка на сообщение
Поделиться на другие сайты

Вот то, что вы предложили для указания в роботс действительно жутко топорно;)

Насчет канонических урл, заюзайте поиск, я выкладывал решение как из сделать

Ссылка на сообщение
Поделиться на другие сайты

Ваше решение более полное, снимаю шляпу.

А вот по поводу robots, хотел бы услышать ваш вариант и подискутировать.

Ссылка на сообщение
Поделиться на другие сайты

Писать в роботах то что написанно вами выше - бред вот почему:
- запрещаются разные номера страниц в каталоге и в блоге. А ведь страницы 1,2,3,45 у блога и каталога имеют разный контент, значит не являются дублями.
Страницы каталога отфильтрованные по одному из параметров - тоже являются уникальными(контент разный)
Если хотите через пару часов как доеду до офиса скину свой рабочий роботс, я его многим тут на форуме уже скидывал. Там с подробными комментариями все указанно и настроенно

Ссылка на сообщение
Поделиться на другие сайты

Объясню почему однажды, такой вариант меня устроил:

1) О пагинации в блоге совершенно не задумался, что прискорбно.
2) В каждом каталоге на тот момент пагинации не было, из-за малого количества товаров.
3) Фильтр надо было закрыть, так как нет пагинации и контент выдавался тот же самый, только разном порядке, что считается дублем.
Даже с учетом всего, получилось очень деревянно.

Сейчас ситуация поменялась и я буду очень признателен, если дадите взглянуть на ваш роботс.

Ссылка на сообщение
Поделиться на другие сайты

В случае описанным verlioka как раз нужно запретить индексацию страниц с урлами ?variant=* которые берутся с yandex market

Вот пример для Яндекса.
В нем запрещенны фильтры, сортировки и т.д.
При желании их можно открыть.

# Привет, Яндекс! User-agent: YandexAllow: /Host: site.ruSitemap: http://site.ru/sitemap.xml# == НАЧИНАЕМ УБИРАТЬ ХЛАМ ИЗ ИНДЕКСА ==# это в принципе не должно попасть в индексDisallow: /sections/404Disallow: /orderDisallow: /userDisallow: /jsDisallow: /captchaDisallow: /SmartyDisallow: /designDisallow: /apiDisallow: /compiledDisallow: /cartDisallow: /resizeDisallow: /password.php# у нас есть мод реврайт, поэтому нафиг и этоDisallow: /?module=*Disallow: /*?module=*Disallow: /*/?module=*# а вот индексировать сортировки, фильтры и брэнды нам не надо, поэтому прикроем все запросы в каталоге, постраничную навигацию откроем позже:Disallow: /catalog/*?*=*Disallow: /products/*?variant=*# == ЗАВЕРШАЕМ УБИРАТЬ ХЛАМ, ==# == НО РАЗРЕШАЕМ ВСЯКИЕ НИШТЯКИ ==# для начала, разрешим индексировать постраничную навигацию в каталогеAllow: /catalog/*?page=*
Ссылка на сообщение
Поделиться на другие сайты

verlioka в случае если страницы уже проиндексированы - танцы с бубном приведенные выше дадут обратный эффект ожидаемому, поскольку робот на них просто не сможет зайти и убрать из индекса. Используйте meta name="robots" content="noindex, nofollow" в шаблоне, для тех страниц которые считаете не нужными.

Ссылка на сообщение
Поделиться на другие сайты

Как бы есть index.tpl в котором можно указать условия формирования тела head в котором и формируется на нужных страницах meta name="robots"

Ссылка на сообщение
Поделиться на другие сайты

JustDavali, спасибо!

Aijai, указание canonical страницы - это не танцы с бубном. Это общепринятый стандарт, который позволяет указать поисковику, что дубль это дубль. Вот и вот
Не сбивайте человека с толку.

Ссылка на сообщение
Поделиться на другие сайты

Та делайте как хотите, только учитывайте, что это не вариант, потому, что:

Робот считает ссылку с атрибутом rel="canonical" не строгой директивой, а предлагаемым вариантом

равно как и только rel="next", rel="prev" - не удаляют из ПВ Гугла "ошибки" об одинаковом тайтле и деске страниц пагинаций

Ссылка на сообщение
Поделиться на другие сайты

Хм.. возможно. Я просто никогда не сталкивался со случаями, когда поисковик игнорировал этот атрибут. В споре рождается истина.

Ссылка на сообщение
Поделиться на другие сайты

варианты есть всегда.
зарегестрируйте сайт в яндекс.вебмастер, там есть инструмент для валидации и проверки robots.txt - редактируйте его и пишите правила для запрета индексации нужных страниц. справка там кстати тоже есть

Ссылка на сообщение
Поделиться на другие сайты

выше написанна ерунда про негативный эффект и эффект обратный ожидаемому.

Хотя дело ваше, поступайте как хотите.
ну или почитайте справку в панелях вебмастера яндекс или гугль.

Ссылка на сообщение
Поделиться на другие сайты

verlioka в случае если страницы уже проиндексированы - танцы с бубном приведенные выше дадут обратный эффект ожидаемому, поскольку робот на них просто не сможет зайти и убрать из индекса.


вот это бред.
если в роботс прописанно Disallow - это не запрещает поисковому роботу заходить на страницу.
это запрет индексировать её, т.е. просматривать И ВНОСИТЬ В ПОИСКОВЫЙ ИНДЕКС.
т.е. при варианте, что я писал выше:

Disallow: /products/*?variant=*

мы запрещаем ИНДЕКСИРОВАТЬ страницу
/products/nokia_710_lumia_?variant=1272

а страница
/products/nokia_710_lumia_ - будет проиндексированна.
так понятно и аргументированно?
Ссылка на сообщение
Поделиться на другие сайты

Капец, меня всегда удивляли люди, считающие себя специалистами, кричащие другим "ИДИ ЧИТАЙ", при этом сами ни..... не знающие.

Ниже цитата из рекомендаций Гугл:

Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам. (Роботы наиболее распространенных поисковых систем выполняют директивы файла robots.txt. Некоторые роботы могут интерпретировать их иначе. Файл robots.txt не является обязательным к исполнению, и некоторые спамеры и другие злоумышленники могут его игнорировать. Поэтому мы рекомендуем защищать конфиденциальную информацию паролем.)

Чтобы просмотреть список URL, которые Google не удалось просканировать, перейдите на страницу Заблокированные URL в разделе Состояние в Инструментах для веб-мастеров.

Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.
Ссылка на сообщение
Поделиться на другие сайты

Еще раз повторяю для особо тугих и всему удивляющихся при внесении в роботс директивы
Disallow: /products/*?variant=*
все ранее проиндексированные страницы удалятся из индекса поисковика.
т.е. произойдет то, что надо ТС

у меня почему-то на одном из клиентских сайтов нет проблем с ссылками на варианты товаров, как раз благодаря тому, что они запрещенны к индексации как описанно выше.

Ссылка на сообщение
Поделиться на другие сайты

И снова Вы ошибаетесь.
По всей видимости Вы составили файл роботс ДО отправки проэкта на индексацию. И именно поэтому там нет проблем с индексацией таких страниц.
По заявлению ТС - у него эти страницы уже проиндексированы.
Роботс в его случае - их заблокирует без дальнейшей индексации и висеть они в индексе будут в том состоянии в котором они находились до изменения по Вашей рекомендации, даже если они будут физически удалены.

Поставьте активную ссылку на заблокированную страницу Вашего клиентского сайта, проиндексируйте ее, затем снимите эту стороннюю ссылку и сами убедитесь

Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

Загрузка...
×
×
  • Создать...