Anton Nossik (dolboeb) wrote,
Anton Nossik
dolboeb

This journal has been placed in memorial status. New entries cannot be posted to it.

Category:

ЛЖепоиск с 2000 года, и как его улучшить

Группа товарищей, предводительствуемая Кукуцом, вчера запустила полнотекстовый поиск по русскоязычным архивам ЖЖ с 2000 по 2015 год. Исходным массивом для этого поиска послужила база объёмом в 1,4ТБ текста, накопленная Яндексом для его сервиса «Поиск по блогам», но с 2015 года в этом сервисе не используемая. Большое спасибо неленивым товарищам за этот полезный и удобный инструмент. Подробности о проекте — в его FAQ.

В ограничении поиска октябрём 2015 года нет никаких религиозных соображений. Одни практические. Прикрутить поиск по существующей базе записей — задача посильная, и команда добровольцев с нею успешно справилась. Замутить с нуля поискового робота, который индексировал бы все новые аккаунты, записи и комментарии, ежесекундно добавляемые в ЖЖ — ощутимая трата сил и денег, несоразмерная с ресурсами и возможностями текущей команды добровольцев (кстати, поддержать проект рублём можно здесь).

Другое дело, что любой запрос, полученный поисковой системой LJSear.ch, можно было бы превратить в гиперссылку для передачи сторонним поисковикам. Так с прошлого тысячелетия поступает Яндекс, который в конце каждой страницы своей выдачи предлагает пользователю «поискать то же самое» в Bing, Google и Mail.Ru. Но Яндекс, повинуясь звериным законам капитализьма, эту полезную фичу с каждым годом всё сильнее придушает, и применительно к блогам она сегодня у него не работает вообще, из-за несовместимости синтаксиса запросов у разных поисковиков. А ЛЖепоиск, будучи проектом некоммерческим, вполне мог бы взять на себя элементарное упражнение по динамическому переводу между языками Яндекса и Гугла. Благо все аргументы поиска, которые используются для уточения запросов к ЖЖ, известны и неизменны. То, что на языке Яндекса звучит как author:dolboeb, в Гугле обозначается как site:dolboeb.livejournal.com (без деления на персональные блоги и сообщества). Начало временного интервала, которое у Яндекса from_date_full, у Гугла — cd_min. Окончание — to_date_full и cd_max соответственно. Так что запрос вида
https://ljsear.ch/search?q=apple&author=dolboeb&dateFrom=946760400&dateTo=1443646800
будет выглядеть в Яндексе как
https://yandex.ru/search/?text=apple%20author%3Adolboeb&from_date_full=01.01.2000&to_date_full=01.10.2015
а в Гугле та же строка кодируется так:
https://www.google.ru/search?cd_min=01.01.2000&cd_max=01.10.2015&q=apple+site:dolboeb.livejournal.com
Скрипт, который на лету превращал бы любой запрос к ЛЖепоиску в гиперссылки на выдачу Гугла и Яндекса по тем же самым словам, авторам и временным промежуткам, не должен занимать больше двух строк на любом языке программирования. Одна строка для Яндекса, другая — для Гугла. И проблема поиска по датам поздней 31 октября 2015 года решится раз и навсегда, легко и непринужденно.
Tags: google, livejournal, жж, поиск, яндекс
Subscribe

Recent Posts from This Journal

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 21 comments