Возможность копировать объявления с сайтов на своем ресурсе и последствия

Содержание
  1. 11 фишек для извлечения и сохранения данных с сайтов
  2. 1. Скачиваем сайт целиком для просмотра оффлайн
  3. 2. Прикидываем сколько на сайте страниц
  4. 3. Устанавливаем ограничения на скачивание страниц сайта
  5. 4. Скачиваем с сайта файлы определенного типа
  6. 5. Скачиваем только определенные папки
  7. 6. Решаем вопрос с кодировкой
  8. 7. Делаем снимок веб-страницы
  9. Авторское право в интернете: как правильно использовать чужой контент и защищать свой
  10. Использовать фотостоки
  11. Встраивать изображения
  12. Искать в Google
  13. Использовать материалы из общественного достояния
  14. Если контент взяли у вас
  15. Сайт скопировали полностью! Что делать?
  16. Как часто ищут «как скопировать сайт»?
  17. История 1. Сайт скопировали полностью, разместили свои контакты
  18. Шаг первый. Обнаружение
  19. Шаг второй. Письмо в техническую поддержку ПС Яндекс
  20. Шаг третий. Мониторинг индексации и ранжирования сайта-копии
  21. Шаг четвертый. Связаться с хостингом, на котором находится сайт копия
  22. История 2. Сайт скопировали полностью, включая контакты
  23. Выводы
  24. Как защитить свой сайт от копирования?
  25. Почему нельзя копировать статьи с других сайтов
  26. 1. Описание товарных карточек
  27. 2. Новости или статьи
  28. 3. Технические материалы
  29. Как мы боремся с копированием контента, или первая adversarial attack в проде
  30. Проблема
  31. Способы решения проблемы
  32. Adversarial attack
  33. Создание adversarial examples
  34. Тестирование атак
  35. Выход из тупика
  36. Несколько найденных объявлений
  37. Итого

11 фишек для извлечения и сохранения данных с сайтов

Возможность копировать объявления с сайтов на своем ресурсе и последствия

БЕЗ скриптов, макросов, регулярных выражений и командной строки.

Эта статья пригодится студентам, которые хотят скачать все картинки с сайта разом, чтобы потом одним движением вставить их в Power Point и сразу получить готовую презентацию.

Владельцам электронных библиотек, которые собирают новые книги по ресурсам конкурентов.

Просто людям, которые хотят сохранить интересный сайт/страницу в соцсети, опасаясь, что те могут скоро исчезнуть, а также менеджерам, собирающим базы контактов для рассылок.

Есть три основные цели извлечения/сохранения данных с сайта на свой компьютер:

  • Чтобы не пропали;
  • Чтобы использовать чужие картинки, видео, музыку, книги в своих проектах (от школьной презентации до полноценного веб-сайта);
  • Чтобы искать на сайте информацию средствами Spotlight, когда Google не справляется (к примеру поиск изображений по exif-данным или музыки по исполнителю).

Ситуации, когда неожиданно понадобится автоматизированно сохранить какую-ту информацию с сайта, могут случиться с каждым и надо быть к ним готовым. Если вы умеете писать скрипты для работы с утилитами wget/curl, то можете смело закрывать эту статью. А если нет, то сейчас вы узнаете о самых простых приемах сохранения/извлечения данных с сайтов.

1. Скачиваем сайт целиком для просмотра оффлайн

В OS X это можно сделать с помощью приложения HTTrack Website Copier, которая настраивается схожим образом.

Пользоваться Site Sucker очень просто. Открываем программу, выбираем пункт меню File ->New, указываем URL сайта, нажимаем кнопку Download и дожидаемся окончания скачивания.

Чтобы посмотреть сайт надо нажать на кнопку Folder, найти в ней файл index.html (главную страницу) и открыть его в браузере. SiteSucker скачивает только те данные, которые доступны по протоколу HTTP. Если вас интересуют исходники сайта (к примеру, PHP-скрипты), то для этого вам нужно в открытую попросить у его разработчика FTP-доступ.

2. Прикидываем сколько на сайте страниц

Перед тем как браться за скачивание сайта, необходимо приблизительно оценить его размер (не затянется ли процесс на долгие часы). Это можно сделать с помощью Google.

Открываем поисковик и набираем команду site: адрес искомого сайта. После этого нам будет известно количество проиндексированных страниц.

Эта цифра не соответствуют точному количеству страниц сайта, но она указывает на его порядок (сотни? тысячи? сотни тысяч?).

3. Устанавливаем ограничения на скачивание страниц сайта

Если вы обнаружили, что на сайте тысячи страниц, то можно ограничить число уровней глубины скачивания. К примеру, скачивать только те страницы, на которые есть ссылка с главной (уровень 2). Также можно ограничить размер загружаемых файлов, на случай, если владелец хранит на своем ресурсе tiff-файлы по 200 Мб и дистрибутивы Linux (и такое случается).

Сделать это можно в Settings ->Limits.

4. Скачиваем с сайта файлы определенного типа

В Settings ->File Types ->Filters можно указать какие типы файлов разрешено скачивать, либо какие типы файлов запрещено скачивать (Allow Specified Filetypes/Disallow Specifies Filetypes).

Таким образом можно извлечь все картинки с сайта (либо наоборот игнорировать их, чтобы места на диске не занимали), а также видео, аудио, архивы и десятки других типов файлов (они доступны в блоке Custom Types) от документов MS Word до скриптов на Perl.

5. Скачиваем только определенные папки

Если на сайте есть книги, чертежи, карты и прочие уникальные и полезные материалы, то они, как правило, лежат в отдельном каталоге (его можно отследить через адресную строку браузера) и можно настроить SiteSucker так, чтобы скачивать только его. Это делается в Settings ->Paths ->Paths to Include. А если вы хотите наоборот, запретить скачивание каких-то папок, то их адреса надо указать в блоке Paths to Exclude

6. Решаем вопрос с кодировкой

Если вы обнаружили, что скачанные страницы вместо текста содержат кракозябры, там можно попробовать решить эту проблему, поменяв кодировку в Settings ->Advanced ->General.

Если неполадки возникли с русским сайтом, то скорее всего нужно указать кодировку Cyrillic Windows.

Если это не сработает, то попробуйте найти искомую кодировку с помощью декодера Лебедева (в него надо вставлять текст с отображающихся криво веб-страниц).

7. Делаем снимок веб-страницы

Сделать снимок экрана умеет каждый. А знаете ли как сделать снимок веб-страницы целиком? Один из способов — зайти на web-capture.net и ввести там ссылку на нужный сайт. Не торопитесь, для сложных страниц время создания снимка может занимать несколько десятков секунд. Еще это можно провернуть в Google Chrome, а также в других браузерах с помощью дополнения iMacros.

Источник: https://www.iphones.ru/iNotes/575689

Авторское право в интернете: как правильно использовать чужой контент и защищать свой

Возможность копировать объявления с сайтов на своем ресурсе и последствия

У всех картинок, гифок, видео, музыки и текстов, которые вы найдёте в интернете, есть автор. Автору автоматически принадлежат права на созданный им объект, и эти права охраняются законом. Это значит, что нельзя просто взять классную картинку и вставить в свой пост или рассылку — для этого нужно разрешение автора.

Авторское право делится на два вида: имущественное и неимущественное. По неимущественному праву автор решает, как назвать своё произведение и как под ним подписаться, публиковать его или нет. Но нас больше интересует имущественное право — использовать это произведение в своих целях, в том числе для зарабатывания денег.

Если материал будет в рекламе товара, услуги или компании — это коммерческое использование.

То же относится к сайтам с платной подпиской, где нужно заплатить за доступ к содержимому, и к группам в соцсетях, где есть реклама товаров или указаны цены.

В этом случае лучше либо создать свой текст и иллюстрации, либо официально их купить. Всё логично: контент приносит прибыль, поэтому должен быть оплачен.

Некоммерческое использование — это когда контент не приносит деньги. Например, если вы делаете рассылку с обзором лучших смартфонов 2018 года, это не коммерция. А если в эту рассылку добавить кнопки «Купить», которые ведут в магазин, то это уже реклама товаров. Соответственно, коммерческое использование.

При некоммерческом использовании всё немного проще. В фотобанках много изображений, которые можно использовать в некоммерческих целях. Многие авторы, особенно непрофессионалы, разрешают использовать свои работы, если вы просто укажете авторство и дадите ссылку на их сайт.

Если автор узнает, что вы использовали его работу, то как минимум потребует удалить её с ваших ресурсов, а может и подать в суд. Обычно судятся, если контент использовали в коммерческих целях. Чаще всего — с крупными компаниями.

Конечно, обычно авторы не сёрфят в интернете целыми днями в поисках своих украденных работ, но попасться всё равно можно. В итоге платить компенсацию по решению суда выйдет дороже, чем честно купить картинку.

Даже если автор изображения не указан, он всё равно существует, и его произведение защищено авторским правом. Если вы при публикации укажете автора, это всё равно нарушение закона, ведь вы берёте его работу без разрешения.

Всегда нужно проверять, защищена ли картинка авторским правом и на каких условиях можно её использовать. Сделать это можно даже через Google с помощью поиска по картинкам.

  1. Заходим в раздел «Картинки». В строке поиска появится значок фотоаппарата, кликаем по нему.
  1. Получаем окно поиска, куда загружаем картинку либо ссылку на файл.
  1. Оригинал фотографии наверняка будет в хорошем разрешении, так что в результатах поиска выберите большие изображения.
  1. Зайдите на сайты, где лежат эти изображения, и посмотрите, как там указан автор. Теперь остаётся найти его страницу в Сети и посмотреть, есть ли там условия использования работ.

Большую часть контента в Сети можно использовать на заранее определённых условиях. Эти условия прописаны в лицензии — договоре на использование контента. Этот договор открытый, его не нужно заключать и подписывать с двух сторон. Вы просто изучаете условия лицензии и соблюдаете их, когда используете изображения и другие медиаобъекты.

Условия лицензии могут быть размещены на сайте, откуда вы берёте контент. Например, в СМИ часто пишут: «При копировании материалов гиперссылка на источник обязательна». В таком случае вы имеете право скопировать текст, если дополните его активной ссылкой на сайт-источник.

Вот список лицензий, которые используются для обозначения авторских прав и условий использования текстов, видео, фото и музыки:

  • СС (Creative Commons) — для любого контента, включая программное обеспечение.
  • GNU FDL (Free Documentation License) — для документов, энциклопедий, словарей.
  • DSL (Design Science License) — для любого контента, включая программное обеспечение. Её почти перестали использовать с появлением Creative Commons.
  • Free Art License (License Art Libre) — для любых художественных произведений.

Creative Commons — самая популярная лицензия. Ей часто пользуются фотографы и дизайнеры, писатели и программисты. Есть несколько подвидов лицензии с разным набором условий: например, ссылаться на автора, использовать произведение только в неизменном виде или только на некоммерческих условиях и другое. Самая подходящая лицензия — CC0, то есть произведение полностью очищено от авторских прав.

Напишите автору письмо. Расскажите, в каких целях вы собираетесь использовать его творение, и спросите, на каких условиях он вам это разрешит.

Соглашение с автором может быть устным или письменным. Если вы опасаетесь, что автор начнёт предъявлять претензии после публикации, то лучше заключить договор письменно. Так будет легче доказать, что вы опубликовали работу строго в рамках договорённости.

Нужно учесть нюансы:

  • Кому принадлежат имущественные права на объект. Может, автор уже продал их какой-то компании и договариваться нужно с ней.
  • Что именно вы хотите сделать с контентом. Нужно чётко это прописать в договоре. Будете ли вы использовать его в коммерческих или некоммерческих целях, опубликуете оригинал или будете как-то его видоизменять — всё это нужно указать.

Всё те же пункты нужно включить в договор, если вы нанимаете фотографа или дизайнера.

Кафе договорилось с фуд-фотографом о съёмке блюд из меню. Фотограф включил в договор условия: указывать его авторство и использовать готовые фото в неизменном виде. Заказчику показалось, что результат недостаточно аппетитный. Он самостоятельно накрутил контрастность в фоторедакторе, а из получившегося сделал коллаж.

Фотограф увидел опубликованный коллаж и подал на кафе в суд. Он выиграл, потому что условия договора были нарушены.

Это легко, когда в штате есть фотограф или дизайнер. Ещё есть сервисы для создания картинок с готовыми шаблонами для недизайнеров: Canva, Piktochart, BeFunky и множество других. Можно нанять внештатного специалиста — только не забудьте заключить с ним договор и прописать в нём передачу имущественных прав на работы.

Использовать фотостоки

Есть платные и бесплатные. Легко искать нужные изображения, лицензии на виду, выбор относительно большой. Но эти картинки уже наверняка кто-то использовал до вас — например, одни и те же улыбающиеся люди изображают сотрудников на сайтах сотен компаний.

«Улыбающийся сквозь боль Гарольд» и вовсе стал мемом, а начинал с фотостока. Ещё один подвох — фотостоки бывают нелегальными и собирают фотографии без разрешения авторов. Отвечать в итоге придётся вам, так что подстрахуйтесь и проверьте картинку через Google.

Встраивать изображения

Только при некоммерческом использовании. С помощью эмбеда вы не сохраняете картинку к себе, а встраиваете её в код страницы. Таким способом можно брать картинки из Instagram, Getty Images, Tumblr и Flickr. Этот способ можно использовать в рассылках и на сайте.

Магазин «Пудра» в раздел отзывов в письме вставляет эмбеды из Instagram-аккаунтов блогеров

Искать в Google

Забиваем запрос, переходим в раздел «Картинки». Здесь нажимаем на «Инструменты» и выбираем подходящую лицензию из выпадающего списка «Права на использование». Всегда заходите на сайт, где лежит фотография, и проверяйте её происхождение.

Использовать материалы из общественного достояния

В России имущественное авторское право перестаёт действовать через 70 лет после смерти автора. Это касается книг, картин, фильмов. При этом в других странах свои сроки действия авторского права, так что обязательно изучите вопрос перед тем, как брать контент.

С текстами та же история, что и с картинками — без разрешения их использовать нельзя. Броские цитаты из фильма или книги отлично подходят для тем в рассылках, но охраняются авторским правом. Причём как оригинальные названия, так и переведённые.

В теме этого письма явно обыграно название фильма с Леонардо Ди Каприо. По Гражданскому кодексу переводные названия фильмов являются творческим результатом работы переводчика. Правообладатели перевода могут подать иск

Даже если вы возьмёте чужой текст и немного переработаете его, правообладатель имеет право подать жалобу. Он обратится за экспертизой, и специалисты могут подтвердить заимствование текста.

В соцсетях тоже работает авторское право. Оно защищает все картинки, тексты, гифки и видео. Без проблем можно делать репосты — так вы сохраняете авторство контента. А вот публиковать у себя без разрешения и указания автора нельзя, это нарушение закона.

Алгоритм действий, если хотите использовать чужой контент в соцсети, обычный. Найдите автора текста или изображения, посмотрите, указаны ли на его сайте или в аккаунте условия публикации. Если не указаны — свяжитесь с ним и договоритесь.

Заведение рекламирует вечер с кинопоказом в группе «ВКонтакте». В посте — кадры из мультфильма «Тайна Коко», и это нарушает права правообладателей мультфильма

Если контент взяли у вас

Пользователи могут брать ваш контент только для личного некоммерческого использования и обязаны указывать автора и источник заимствования. В противном случае они нарушают закон, и вы можете требовать удаления контента и выплаты компенсации через суд.

Ставьте копирайты на все свои фото и видео, подписывайте авторство. Так будет легче защищать свои интересы в суде.

Для начала соберите доказательства: ссылки и скриншоты ваших страниц и страниц конкурента с аналогичным контентом, оригиналы фото и видео. У вас должно быть всё, чтобы показать — вы разместили материалы раньше конкурента. Идите к нотариусу, чтобы он заверил эти материалы.

Затем попробуйте договориться мирно: напишите владельцам ресурса, что вы собрали «вещдоки», и попросите удалить контент и компенсировать вам как минимум расходы на нотариуса. Если нарушители не соглашаются или не отвечают, можно подавать судебный иск.

Обязательно проконсультируйтесь с юристом. Бывает, что ваши усилия в судебном разбирательстве того не стоят: либо шанс на победу небольшой, либо компенсация будет слишком маленькой.

Источник: https://Lifehacker.ru/avtorskoe-pravo-v-internete/

Сайт скопировали полностью! Что делать?

Возможность копировать объявления с сайтов на своем ресурсе и последствия

Воровством контента в интернете уже никого не удивишь. Бороться с этим бесполезно, остается только создавать скопированный контент заново, чтобы сайт не потерял (или же восстановил) позиции. С определением первоисточника у поисковых систем по-прежнему не очень, несмотря на попытки это исправить.

Мы сегодня рассмотрим случай, когда сайт скопирован полностью: и каталог продукции с ценами, и дизайн, и контакты.

Как часто ищут «как скопировать сайт»?

При подготовке этого материала мы немного изучили статистику запросов wordstat.yandex.ru по теме.

Вот что получили:

а вот еще:

Как видите, желающих скопировать чужой сайт и использовать его достаточно. Пострадавших, которые ищут ответ в интернете, немного меньше.

В этом материале мы расскажем, что можно сделать, если ваш сайт скопировали полностью, на примере двух сайтов наших заказчиков.

История 1. Сайт скопировали полностью, разместили свои контакты

Эта история о том, как мошенники скопировали сайт нашего заказчика и даже на этом заработали.

Шаг первый. Обнаружение

Для решения проблемы нужно для начала ее обнаружить.

В начале июня мы обратили внимание на переход на opexu.com с домена domgbi.ru. При первом же взгляде на сайт стало понятно – полностью скопирован сайт нашего заказчика в тематике «ЖБИ-изделия».

На скриншотах слева – сайт-копия, справа – сайт заказчика.

Изменены только номер телефона и название компании.

При звонке по номеру телефона ответила юридическая компания.

Шаг второй. Письмо в техническую поддержку ПС Яндекс

При любой сомнительной ситуации с сайтом необходимо написать письмо в техническую поддержку Яндекса для возможного прояснения ситуации. Как правило, вы получите стандартный ответ о том, что поисковая система не может влиять на сайты, размещенные в сети интернет. При этом, написать нужно, чтобы зафиксировать проблему и иметь аргументы при дальнейших проблемах с ранжированием.

Мы связались с техподдержкой Яндекса по поводу копирования сайта. Как и ожидали, получили стандартный ответ.

Здравствуйте!

Поисковая система Яндекс автоматически индексирует информацию, размещенную на общедоступных ресурсах сети интернет, и формирует страницы с результатами поиска, которые на текущий момент являются наиболее подходящими для соответствующего запроса пользователя.

Отображая в результатах поиска ссылки на страницы, созданные третьими лицами, которые может посетить любой пользователь, мы не несем ответственности за содержимое этих страниц. Также мы не уполномочены разрешать вопросы о неправомерном копировании статей третьими лицами.

В случае если по какому-то запросу сайт с идентичным, на Ваш взгляд, текстовым контентом находится в результатах поиска выше Вашего, и именно Вы впервые опубликовали этот контент, то Вы можете помочь нам в работе над алгоритмами ранжирования с целью их улучшения в будущем. Для этого надо прислать пример такого запроса в ответ на это письмо. Если же Ваш сайт показывается на более высоких позициях в поиске Яндекса, то присылать пример запроса не нужно, мы не сможем использовать эту информацию в дальнейшей работе.

Шаг третий. Мониторинг индексации и ранжирования сайта-копии

Спустя некоторое время сайт-копия проиндексировался поисковыми системами и начал искаться по некоторым запросам (сработала наша оптимизация, т.к. оптимизированные элементы страницы и контент также были скопированы).

Вскоре к нам обратился заказчик с просьбой о помощи: владельцы сайта-копии выставили счет покупателю на поставку продукции. Покупатель счет оплатил, продукцию не получил. Номера телефонов на сайте перестали отвечать. К нашему заказчику обманутый покупатель обратился, так как совпадал адрес офиса и склада компании. Его мошенники менять на скопированном сайте не стали.

Нужно было срочно что-то предпринимать.

Шаг четвертый. Связаться с хостингом, на котором находится сайт копия

С помощью сервиса nic.ru легко определить, где лежит сайт.

https://www.nic.ru/whois/?domain=domgbi.ru

Видим, что сайт лежит на хостинге hostinger.ru.

Мы связались с технической поддержкой хостинга, подробно описав ситуацию, а также противозаконную деятельность лиц, скопировавших сайт.

Техническая поддержка хостинга отреагировала очень быстро.

Спустя 4 дня мы получили следующий ответ:

На данный момент сайт, который представляет собой полную копию сайта нашего заказчика, заблокирован.

Эта история закончилась хорошо. Попался добросовестный и ответственный хостер, который пошел навстречу.

Компания http://www.hostinger.ru, большое вам спасибо!

История 2. Сайт скопировали полностью, включая контакты

Вторая история также связана с тематикой ЖБИ, как это ни странно. Наш заказчик обратился к нам с просьбой разобраться с сайтом-копией.

Выводы

Каждая ситуация, связанная с копированием сайта, индивидуальна.

Методы борьбы существуют, но при этом гарантии на положительный исход нет.

Если вы обнаружили копию своего сайта – обратитесь к своему подрядчику, который занимается продвижением ресурса, за помощью.

Если вы занимаетесь сайтом сами, вам могут помочь меры из нашей статьи.

Как защитить свой сайт от копирования?

  • Программы, защищающие от копирования. Стали появляться программы и сервисы, защищающие от копирования как контент сайта, так и сайты от скачивания. При этом, есть опасность проблем с индексацией сайта.
  • Использовать на сайте в некоторых разделах абсолютные ссылки (ссылки с адресом домена), чтобы оперативно обнаружить сайт-копию с помощью обратной ссылки.
  • Юридическая защита. Регистрация авторских прав на дизайн сайта, программный код и доменное имя. Это позволит вам обращаться к хостеру и на законных основаниях требовать блокировки сайта-копии.

Источник: https://opexu.com/sayt-skopirovali/

Почему нельзя копировать статьи с других сайтов

Возможность копировать объявления с сайтов на своем ресурсе и последствия

Прошу прощения, дорогие читатели, но таким заголовком я всего лишь хочу привлечь ваше внимание.

На самом же деле в вопросе уникальности контента кроется великое множество нюансов, в которых мы сейчас и будем разбираться.

Итак, в этой статье я постараюсь ответить на такие вопросы: когда можно использовать уникальный и неуникальный контент, какие результаты мы в итоге получим и что нам грозит за это от поисковых систем?

Стоит отметить, что мифов, догадок и фантазий на тему уникальности контента великое множество, и те из них, что хоть как-то подкреплены фактами, имеют право на жизнь. Выскажу свое мнение: уникальность контента важна, но в некоторых случаях она не будет решающим фактором для поисковых систем при ранжировании вашего сайта. Собственно, давайте и рассмотрим эти исключения из общих правил:

1. Описание товарных карточек

Наверное, многие владельцы интернет-магазинов при составлении каталогов продукции задавались вопросом уникализации текста внутри товарной карточки.

Некоторое время назад судьба свела меня с интернет-магазином, ассортимент которого насчитывал несколько тысяч товаров, причем все позиции были уникальными.

Весь тяжкий труд по их описанию выполнял копирайтер, и хотя владельцы магазина называли его сео-гуру оптимизатором, на деле его старания большого результата это не давали сайты конкурентов с контентом, скопированным у производителей данных товаров (а иногда даже у других магазинов), все равно были выше в поиске. Почему? Ответ оказался довольно прост: сайт, а именно страницы товаров, не были оптимизированы: имели неверный title, были лишены description, не разделялись подзаголовками и т. д.

Вывод: крайне вам не советую тратить львиную долю бюджета на создание уникального текста в карточках товаров. Если вы продаете какой-то бренд, то смело копируйте описание продукта с сайта поставщика, а акцент лучше делайте на внутренней оптимизации, качественных картинках, наличии актуальных цен, отзывах, удобном процессе покупки и прочих преимуществах.

Исключение: если ваш товар уникален в своем роде, то, конечно, не стоит брать описание с других сайтов — ведь только вы сможете наиболее полно описать все достоинства этого продукта.

2. Новости или статьи

Можно ли скопировать материал со стороннего ресурса к себе на сайт? Полагаю, да, но только если вы будете придерживаться некоторых правил.

  • Обязательно поставьте ссылку на источник статьи. Так вы, во-первых, проявите уважение к автору, а во-вторых, обезопасите себя от санкций со стороны поисковых систем.
  • Материал должен соответствовать тематике вашего сайта (это вроде бы очевидно), а также быть полезен вашей аудитории.
  • Крайне желательно, помимо перепечатанных материалов, иметь и свои собственные авторские статьи.

Вывод: нет ничего страшного в размещении заимствованной статьи, например, в вашем блоге, но совершенно точно не стоит превращать его в склад никому не интересного копипаста.

3. Технические материалы

Если вы продаете арматуру или что-то подобное, ваш текст скорее всего будет изобиловать цифрами, параметрами, техническими терминами, и его уникальности в 100% будет добиться невероятно сложно. Так что если вы на выходе хотите получить хорошие коммерческие тексты, то не стоит требовать от вашего копирайтера уникальности 95% по Адвего.

Но чтобы не слукавить, признаюсь вам, что в нашем техническом задании на копирайтинг есть пункт про уникальность 100% даже применительно к техническим текстам. И все же в первую очередь мы обращаем внимание на коммерческую составляющую статьи, грамотное вхождение ключевых слов и максимально точный ответ в этом материале на запрос посетителя сайта.

А теперь давайте все-таки вернемся к заголовку нашей статьи и поговорим о том, когда ни в коем случае нельзя копировать чужие тексты. А нельзя этого делать, прежде всего, наполняя страницу «О компании» и другие подобные страницы, содержащие информацию о вашем проекте.

Согласитесь, будет очень странно и нелепо, если, рассказывая клиенту о своих преимуществах, истории, миссии, вы на самом деле просто подсунете ему чужие тексты, а по факту — введете его в заблуждение.

Вместе с тем важно понять, что нельзя рассматривать уникальность текста в отрыве от других показателей, прямо указывающих на качество вашего сайта. Вот небольшая часть из них:

  • правильная структура
  • привлекательный дизайн
  • постоянное обновление информации
  • мета-теги страницы
  • заголовок H1
  • иллюстрации с тегами alt и title
  • структурированный контент с использованием подзаголовков, списков и других элементов.
  • социальные факторы, комментарии и отзывы.

И главное! Попав на страницу вашего сайта, клиент должен удовлетворить свой интерес в полном объеме.

В завершение отвечу на самый популярный вопрос, который мне задавали по данной теме: «А уникальный контент — это сколько? 60% нормально будет?”. Отвечаю: подобно тому, как осетрина, согласно справедливому замечанию персонажа одного известного романа, бывает только первой свежести, контент бывает уникальным только при показателе 100%.

Источник: http://partizzan.ru/pochemu-nelzya-kopirovat-stati-s-drugix-sajtov/

Как мы боремся с копированием контента, или первая adversarial attack в проде

Возможность копировать объявления с сайтов на своем ресурсе и последствия

Привет.

Вы знали, что платформы для размещения объявлений часто копируют контент у конкурентов, чтобы увеличить количество объявлений у себя? Они делают это так: обзванивают продавцов и предлагают им разместиться на своей платформе. А иногда и вовсе копируют объявления без разрешения пользователей. Авито — популярная площадка, и мы часто сталкиваемся с такой недобросовестной конкуренцией. О том, как мы боремся с этим явлением, читайте под катом.

Проблема

Копирование контента с Авито на другие платформы существует в нескольких категориях товаров и услуг. В этой статье речь пойдет только про автомобили. В предыдущем посте я рассказал, о том как мы делали автоматическое скрытие номера на автомобилях.

Но получилось (судя по поисковой выдаче других платформ), что мы запустили эту фичу сразу на трёх сайтах объявлений.

Один из этих сайтов после запуска фичи на время приостановил обзвон наших пользователей с предложениями скопировать объявление на их платформу: контента с логотипом Авито на их площадке стало слишком много, только за ноябрь 2018 года — более 70 000 объявлений. Например, вот так выглядела их поисковая выдача за сутки в Чеченской республике.

Дообучив свой алгоритм скрытия номерных знаков, чтобы он автоматически детектил и закрывал логотип Авито, они возобновили процесс.

С нашей точки зрения копирование контента конкурентов, использование его в коммерческих целях — неэтично и неприемлемо. Мы получаем жалобы от наших пользователей, которые недовольны этим, в нашу поддержку. А вот пример реакции в одном из сторов.

Надо сказать, что запрос согласия людей на копирование объявлений не оправдывает подобные действия. Это нарушение законов «О рекламе» и «О персональных данных», правил Авито, прав на товарные знаки и базу данных объявлений.

Мирно договориться с конкурентом нам не удалось, а оставлять ситуацию как есть мы не хотели.

Способы решения проблемы

Первый способ — юридический. Похожие прецеденты уже были в других странах. Например, известный американский классифайд Craigslist отсудил крупные суммы денег у копирующих с него контент сайтов.

Второй способ решения проблемы копирования — добавление большой вотермарки на изображение так, чтобы её нельзя было обрезать.

Третий способ — технологический. Мы можем затруднить процесс копирования нашего контента. Логично предположить, что скрытием логотипа Авито у конкурентов занимается какая-то модель.

Также известно, что многие модели подвержены «атакам», которые мешают им работать корректно. В этой статье речь пойдёт как раз про них.

Adversarial attack

В идеале adversarial example для сети выглядит как шум, неразличимый человеческим глазом, но для классификатора он добавляет достаточный сигнал отсутствующего на картинке класса. В итоге картинка, например, с пандой, с высокой уверенностью классифицируется как гиббон. Создание adversarial шума возможно не только для сетей классификации картинок, но также для сегментации, детекции.

Интересный пример — недавняя работа от Keen Labs: они обманули автопилот Tesla точками на асфальте и детектор дождя с помощью отображения как раз такого adversarial шума. Также атаки есть для других доменов, например, звука: известная атака на Amazon Alexa и другие ые ассистенты заключалась в проигрывании неразличимых человеческим ухом команд (взломщики предлагали купить что-то на Amazon).

Создание adversarial шума для моделей, анализирующих картинки, возможно благодаря нестандартному использованию градиента, необходимого для обучения модели.

Обычно в методе обратного распространения ошибки с помощью вычисляемого градиента целевой функции изменяются только веса слоёв сети, чтобы она меньше ошибалась на обучающем датасете.

Так же, как для слоёв сети, можно вычислить градиент целевой функции по входному изображению и изменить его. Изменение входного изображения с помощью градиента применялось для разных известных алгоритмов. Помните Deepdream?

Если мы итеративно вычислим градиент целевой функции по входному изображению и добавим этот градиент к нему, в изображении появится больше информации о превалирующем классе из ImageNet: появляется больше мордочек собак, благодаря чему уменьшится значение лосс функции и модель становится уверенней в классе «собака».

Почему в примере именно собаки? Просто в ImageNet из 1000 классов — 120 классов собак. Схожий подход к изменению изображения использовался в алгоритме Style Transfer, известном в основном благодаря приложению Prisma.

Для создания adversarial example тоже можно использовать итеративный метод изменения входного изображения.

У этого метода существует несколько модификаций, но основная идея проста: исходное изображение итеративно сдвигается в направлении градиента лосс функции классификатора J (потому что используется только знак — sign) с шагом α. ‘y’ — класс, который представлен на изображении, чтобы уменьшить уверенность сети в правильном ответе.

Такая атака называется non targeted. Можно подобрать оптимальный шаг и количество итераций, чтобы изменение входного изображения было неотличимо от обычного для человека. Но с точки зрения временных затрат такая атака нам не подходит. 5-10 итераций для одной картинки в проде — это долго.

Альтернативой итеративным методам является метод FGSM.

Это синглшот метод, т.е. для его применения нужно один раз посчитать градиент лосс функции по входному изображению, и adversarial шум для добавления к картинке готов. Такой метод очевидно производительнее. Его можно применить в продакшене.

Создание adversarial examples

Начать мы решили с взлома нашей собственной модели.
Так выглядит картинка, которая уменьшает вероятность нахождения номерного знака для нашей модели.

Видно что у этого метода есть недостаток: изменения, которые он добавляет в картинку, заметны глазу. Также этот метод non targeted, но его можно изменить, чтобы сделать направленную атаку. Тогда модель будет предсказывать место для номерного знака в другом месте. Это метод T-FGSM.

Для того, чтобы этим методом сломать нашу модель, нужно уже чуть заметнее изменить входное изображение.

Пока нельзя сказать, что результаты идеальны, но хотя бы проверена работоспособность методов.

Также мы пробовали готовые библиотеки для взлома сетей Foolbox, CleverHans и ART-IBM, но с их помощью не получилось сломать нашу сеть для детекции. Методы, приведенные там, подходят для классификационных сетей лучше.

Это общая тенденция во взломе сетей: для object detection сделать атаку сложнее, особенно если речь идёт о сложных моделях, например, Mask RCNN.

Тестирование атак

Всё, что пока описывалось, не выходило дальше наших внутренних экспериментов, но надо было придумать, как тестировать атаки на детекторах других платформ подачи объявлений.

Оказывается, при подаче объявлений на одну из платформ детекция номерного знака происходит автоматически, так что можно много раз загружать фото и проверять, как алгоритм детекции справляется с новым adversarial example.

Это отлично! Но…
Ни одна из сработавших на нашей модели атак не сработала при тестировании на другой платформе. Почему так произошло? Это следствие различий в моделях и того, насколько плохо обобщаются adversarial attacks на разные архитектуры сетей. Из-за сложности воспроизведения атак их делят на две группы: white box и black box.

Те атаки, которые мы делали на свою модель, — это был white box. То, что нам нужно — это black box с дополнительными ограничениями на инференс: API нет, всё что можно сделать — это вручную загружать фото и проверять атаки. Если бы был API, то можно было сделать substitute model.

Идея заключается в создании датасета входных изображений и ответов black box модели, на которых можно обучить несколько моделей разных архитектур, так чтобы аппроксимировать black box модель. Тогда можно провести white box атаки на эти модели и они с большей вероятностью сработают на black box. В нашем случае это подразумевает много ручной работы, поэтому такой вариант нам не подошёл.

Выход из тупика

В поисках интересных работ на тему black box атак была найдена статья ShapeShifter: Robust Physical Adversarial Attack on Faster R-CNN Object Detector
Авторы статьи делали атаки на object detection сети self-driving машин с помощью итеративного добавления изображений, отличных от истинного класса, в фон стоп-знака.

Такая атака хорошо заметна человеческому глазу, тем не менее, она успешно ломает работу object detection сети, что нам и требуется. Поэтому мы решили пренебречь желаемой невидимостью атаки в угоду работоспособности.

Мы захотели проверить, насколько модель детекции переобучена, использует ли она информацию об автомобиле, или нужна только плашка Авито?

Для этого создали такое изображение:

Загрузили его как машину на платформу объявлений с black box моделью. Получили:

Значит, можно изменять только плашку Авито, остальная информация во входном изображении не является необходимой для детекции модели black box.
После нескольких попыток возникла идея добавления в плашку Авито adversarial шума, полученного методом FGSM, который ломал нашу собственную модель, но с довольно большим коэффициентом ε. Получилось так:

На машине это выглядит так:

Загрузили фото на платформу с black box моделью. Результат оказался успешным.

Применив этот способ к нескольким другим фотографиям, мы выяснили, что он срабатывает не часто. Тогда после нескольких попыток мы решили сосредоточиться на другой самой заметной части номера — границе.

Известно, что начальные сверточные слои сети имеют активации на простых объектах вроде линий, углов. «Сломав» линию границы, мы сможем помешать сети корректно обнаружить область номера.

Сделать это можно, например, добавив шум в виде белых квадратов случайного размера по всей границе номера.

Загрузив такую картинку на платформу с black box моделью, мы получили успешный adversarial example.

Попробовав этот подход на наборе других картинок, мы выяснили, что black box модель больше не может задетектить плашку Авито (набор собирался вручную, там меньше сотни картинок, и он, разумеется, не репрезентативен, но сделать больше требует много времени).

Интересное наблюдение: атака успешна только при комбинировании шума в буквах Avito и рандомных белых квадратов в рамке, использование этих способов по отдельности не даёт успешного результата.

В итоге мы выкатили этот алгоритм в прод, и вот что из этого вышло :)

Несколько найденных объявлений

Что-то посвежее:

Мы даже попали в рекламу платформы:

Итого

В итоге у нас получилось сделать adversarial attack, которая в нашей имплементации не увеличивает время обработки изображения. Время, которое мы потратили на создание атаки — две недели перед Новым годом.

Если бы не получилось за это время её сделать, то разместили бы вотермарку.

Сейчас adversarial номерной знак отключен, потому что теперь конкурент звонит пользователям, предлагает им самим загружать фотографии в объявление или заменяет фото машины на стоковые из интернета.

Источник: https://habr.com/ru/company/avito/blog/452142/

Юрист поможет
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: