3 - Devhuman

advertisement
Парсинг через RSS
Перед парсингом нужно найти RSS на сайте
Для WordPress RSS лежит сайт/feed
Для Joomla RSS лежит сайт/?format=feed&type=rss
Сервисы для получения рсс страницы http://www.wizardrss.com/
Вот еще но он похуже работает http://fivefilters.org/content-only/
Перед новостями в RSS кроме картинки бывает еще дата публикации, — это нужно проверять
и удалять лишний мусор.
Поддержка прокси
Функционал не обходимый стоит предусмотреть для избежания бана от поисковиков. Чтобы не
запрашивали капчу.
В итоге мы должны получить парсер который автоматически будет брать фразу из заготовленного
списка. Искать эту фразу в поиске яндекса, выбирать случайный сайт из топа, через РСС забирать
текст статьи и публиковать его у нас. Если текста оказалось не достаточно то парсится еще контент
пока не соберется около 4000 символов. На странице публикуется только один тег H1 все
остальные отображаются как подзаголовки H2. Далее по запросу ищется 2-3 картинки но уже не в
яндексе а в гугле или другом поисковике. Уже существуют готовые поисковики картинок можно
использовать их. Далее запускается парсер ютуба и поэтому же ключу подбирается парочка
видео. Все это делается чтобы максимально долго удержать посетителя на сайте и увеличить
поведенческие факторы.
В статью будут автоматически добавляться комментарии их можно парсить из вконтакте
комментарии в группах не индексируются, а значит их можно считать уникальными. Конечно там
достаточно много мусора, но если не парсить все подряд, а использовать более жесткие фильтры
на минимальное количество символов и ответов то получится неплохая подборка живых отзывов.
Публикации будут проходить не массово - парсить все и публиковать, а максимально эмитируя
живое наполнение сайта. Есть скрипт позволяющий опознать зашедшего человека если он
авторизован в ВК. Можно через какое то время писать ему в личку и говорить что вы заходили к
нам на страницу но быстро ушли возможно вы искали … и предложить посмотреть другие
новости. Такие переходы тоже помогут увеличить поведенческие факторы.
Есть еще несколько идей но они в сыром виде и нужно с программистом рассматривать способы
реализации.
Монетезировать планируется через адсен и после проверки в ру зоне адаптация под буржунет.
Высокая цена на доллар позволит неплохо заработать.
Сложный парсер
Исходные данные: список ключевых слов, готовые фразы «цепляющий елемент» и «продающая
формула»
Парсер сканирует выдачу случайно или яндекса / или гугл топ 10 по первому запросу из списка
ключевых слов. Выбирает 2-3 случайные новости и полностью копирует текст новости. В итоге
должно получиться не менее 4000 символов в новости.
Тег h1 должен быть только один. Остальные заголовки помечаются как h2.
Из текста удаляются все ссылки и стоп слова
В них должен срабатывать фильтр минус слов и не пропускать минус слова
Где *- любое значение. (* ru, *.ru, * ру *.ру и так все доменные имена чтобы исключить адрес
чужого сайта.)
Дальше запускается парсер по этому же ключевому слову и ищет 2-3 картинки но случайно или в
яндекс или в гугл. Картинку берет также случайную из первой страницы выдачи на ней как
правило около 150 картинок попадает. Картинка переименовывается по названию ключ фразы и
переводится в транслит пробелы заменяются на «_». При дальнейшей публикации картинки
атрибутам ALT и Title также присваивается значение ключевой фразы.
Следующим отрабатывает парсер по яндекс видео или ютуб. По ютубу есть уже готовый парсер.
Парсится также видео по ключ фразе и берется 1-2 видео случайно из топ 10-20.
Если в нем нет минус слов. Где *- любое значение. (* ru, *.ru, * ру *.ру и так все доменные имена
чтобы исключить адрес чужого сайта.)
Дальше делает случайную выборку из топ 10 и
Парсер коментариев вконтакте:
Все комментарии в вк не индексируются, значит, они помогут увеличить процент уникального
текста на сайте. Да и человеческий текст создаст иллюзию живого сайта.
Парсим группы вк по тому же ключевому запросу. И забираем все длинные коментарии
пользователей. Также можно забирать переписки между пользователями. Также убирать минус
слова.
Сложная генерация метатегов.
Формула для продающих заголовков:
Выгода – Предложение – Ограничение. Покажите человеку сиюминутную выгоду, подкрепите ее
торговым предложением и ограничьте срок для принятия решения.
Предложение- это наша ключевая фраза. А вот с выгодой и ограничением сложней.
Такие элементы придется заготовить заранее я думаю у копирайтера заказать. 2-3 т фраз чтобы с
запасом было.
Цепляющий элемент:
Это универсальное слово или словосочетание. [Решено], [Найдено], Успей, Важно!, Тут.
Словоформа:
Использовать словоформу значит использовать любую форму слова оставляя неизменным только
корень. (Ед., множественное число, склонение по падежам все кроме корня)
Прямое вхождение:
Это означает что необходимо использовать ключевую фразу по которой мы парсили выдачу в том
виде в каком она есть. Без изменений.
Не прямое, словоморфное вхождение с синонимами:
Это значит, что в ключевой фразе нужно менять слова (сохраняя корень) и можно менять их
местами, а также изменить фразу с частичным использованием синонимов.
Хвост:
Хвосты будем парсить из дескрипшенов выдачи по текущему ключу. Но не тойже новости откуда
брали контент. По сути это любое предложение удовлетворяющее следующим правилам:
Общая длина итогового тайтла не должна превышать 15 слов (с учетом союзов предлогов и т.п.)
или (100 символов с пробелами)
Но без учета троеточия, если будет взято предложение заканчивающееся …
Троеточия тоже парсятся в тайтл.
Наша ключивая фраза
купить детское постельное белье
Составляем Title:
Title - это основное описание статьи. По нему ПС определяет, в каких запросах сайт будет
участвовать в поиске. В Title не должны повторяться одинаковые слова, а структура должна
придерживаться простой формулы: Длина: от 7 до 15 слов вместе с союзами.
<Нет повторов>, <7-15 слов>
Цепляющий элемент + прямое вхождение основного ключа + хвост для людей + вплетаем
продающую формулу в конце или в начале.
Пример:
Акция 50% только 3 дня. Успей купить детское постельное белье в кроватку все размеры.
Составляем Descriptions:
Длина Descriptions составляет от 15 до 25 слов (не более 250 символов)
Не прямое словоморфное вхождение ключа или синонима + случайная продающая формула +
хвост для людей.
Пример:
Детская постель из 100% натуральных материалов, ограниченное предложение. Каждого
покупателя ждет маленький подарок в кроватку!
Составляем тег H1:
Этот тег может частично повторяться с Title, но поскольку он будет виден на сайте, лучше его
адаптировать под сам сайт и убрать явную видимость фразы под ключ.
Цепляющий элемент + словоморфное вхождение ключа + Продающая формула из Title
Пример:
Прямо сейчас. Покупаем детское постельное белье. Акция 50% только 3 дня.
Составляем тег H2:
В категориях тег стоит убрать, потому что множество похожих тегов и отсутствие текстового
контента будет означать переспам ключей. В лучшем случае это приведет к снижению веса всех
тегов, а в худшем - можно получить писсимизацию в выдаче за переоптимизацию.
В нутри новости тег h2 использовать нужно обязательно. С помощью этого тега выделяются
подзаголовки в самом тексте.
Длина составляет от 3 до 10 слов.
Непрямое слово морфное вхождение разбавленного ключа или синоним.
Поскольку мы будем сливать две статьи с разных сайтов то все теги h1 и h2 у нас будут помечены
как h2.
Требования к тексту:
Заходя на сайт, первые 2-3 секунды посетитель сканирует страницу «по диагонали». И от этого
зависит, останется ли человек на сайте или закроет его. Чтобы привлечь посетителя, контент
должен быть хорошо структурирован и грамотно разбавлен картинками хорошего качества.
Списки, перечисления, подзаголовки, таблицы, абзацы – все это атрибуты красиво оформленной
статьи.
Есть софт http://zebroid.ru/documentation/text-processing/text-decoration который сам может так
украсить текст. Полезный функционал часть можно взять на вооружение. Чтобы парсер добавлял
сам.
Не плохо бы проверять итоговую статью на тошноту http://pr-cy.ru/analysis_content/
И если тошнота выше 6 стоит поудалять самые частотные слова.
ALT атрибут описания у картинок.
Alt – это описание картинки. Alt, Title, как и название картинки должно быть = ключу по которому
мы парсим статью.
Работа с текстом
После того как парсер собрал всю нужную информацию собранная информация должна
структурироваться в статью Фотки можно заливать на сайт или на фото хостинг http://1pic.org/
(нужно тестить будет ли большая разница) только нужно инициировать переход по фото раз в год
чтобы фотки не удалялись.
Сам текст нужно преображать:
Я так и не нашел какой либо более менее рабочей програмки для украшения текста перед
публикацией. Неплохо было бы найти способ красиво структурировать статью добавить абзацы
подпункты и перечисления.
Дальше случайным образом выбираются абзацы для скриншота но не первый и не последний.
Абзац не должен быть возле фотки. Длину абзаца надо бы просчитать в символах и указать
диапазон от 4 и до 7 строк.
Чтобы тебе было понятней приведу пример:
Вот процитированное сообщение оно красиво оформлено в рамочку но при всем этом оно
является текстом и его можно выделить.
А нужно чтобы в статье абзац выбранный по правилам выделялся рамочкой или тегом цитата и
делался скрин этой области а текст заменялся картинкой. В итоге мы должны получить картинку с
текстом в место самого текста.
Дополнения для сайта :
На сайте http://vilingstore.net/Arhitektura-doma-pamyatniki-zamki-c18/Nacionalnyy-Dvorec-KelushLissabon-i197644 реализован авто плей видео с ютуба даже если его останавливать оно опять
стартует. Неплохо бы сделать такое.
Download