Пошукова система

Ідея, час якої настав

У продовж останніх років одною з найважливіших задач сайтобудування є задача популяризації сайту.
Існують різні підходи до вирішення даної задачі. Проте, для більшості з них характерним є боротьба за покращання позиції сайту в пошукових системах. Дана задача вимагає досить компексного аналізу сайту на всіх етапах розв'язання. Причому аналізу достатньо специфічного – аналізу не стільки “внутрішнього”, коли аналізується вміст, структура чи журнали сайту, а “зовнішнього”, коли аналізується ставлення WWW до сайту.

Google Bombing. 3 роки за образу Президента Польщі

3 роки ув'язнення загрожує поляку, який використав технологію розкрутки сайту за допомогою зовнішніх посилань з метою образи Президента Польщі. Він успішно досягнув того, що за одним лайливим польським словом офіційний сайт Президента Польщі кілька місяців займав перше місце на Гуглі.
Такий вид "оптимізації" не є чимось новим, і має навіть власний термін - Google Bombing. І ніби (за деякою інформацією з тематичних форумів) Google якось пробує від нього захиститися, але видно, поки що не дуже успішно. Новим тут є притягнення чоловіка до кримінальної відповідальності за такі дії. Звичайно, така справа нова для правосуддя, тому не виключено, що жорсткої кари не буде, проте сам факт такого "бомбування" встановлено достеменно.
Детальніше про справу можна почитати тут http://wiadomosci.gazeta.pl/Wiadomosci/1,80269,4477719.html

Google Labeler. ШІ для ШІ версія друга.

Ось тут Штучний інтелект для штучного інтелекту на нашому сайті Сергієм Адамчуком уже піднімалося питання того, що штучний інтелект потребує не раз зовнішньої підтримки, яка приходить у формі залучення рядових користувачів Інтернету до виконання рутинно-інтелектуальних дій. Такий собі "Штучний інтелект для штучного інтелекту". У першу чергу це стосується задач розпізнавання графічних образів.
Звичайно, такий підхід вимагає мотивації користувачів. А платити ніхто не хоче. І тоді замість матеріальної мотивації використовується, скажемо так, слабкість людського духу.
Мені відомі випадки, коли такі задачі доручалися людям взамін за доступ до порно ресурсів. Тобто для входу в закриту зону сайту з порноконтентом користувач повинен був розпізнати капчу або щось подібне, яка насправді не була оригінальною капчою порносайту, а зображенням з якогось сайту, де вона була бар'єром на шляху бота. Коли користувач правильно розпізнавав капчу, бот виконував свою "чорну" справу, а користувач добирався до такого бажаного контенту.
Але виявляється, хіть не єдина людська слабкість, що дає можливість запрягти людину у таку специфічну діяльність. Азарт - ось наступна вада людини, що стала використувуватися у подібних задачах.
Проте, на цей раз, азарт користувачів використовують не якісь безіменні хакери чи бездушні боти, а, як це не дивно, сам Google. Як це відбувається і для чого? Якщо вам цікаво подивитися, то вам сюди - http://images.google.com/imagelabeler/

Мета-таг unavailable_after. Новий стандарт від Google

Google знову задає новий стандарт для пошукових систем.
Після появи ряду нових технологій та розширень, зокрема технології sitemap, це вже стає доброю традицією.
На цей раз Google пропонує певний контроль за часом зберігання сторінки в кеші пошукової системи. З цією метою він уводить новий мета-таг unavailable_after.
Суть нововедення наступна. Даним тегом Веб-майстер може зазначити, доки дана сторінка зберігатиме актуальність і відповідно, доки її доцільно зберігати в БД пошукової системи.
Ось приклад такого визначення

Як відзначають аналітики на тематичних блогах і форумах, особливо цінним даний таг є для електронних магазинів, де таким чином можна описувати актуальність розміщених пропозицій (щоби вони потім не уводили в оману у результатах пошуку Google), та для різного роду видань, у яких є безкоштовні та платні розділи. Наприклад, цей таг може стати у пригоді, якщо планується переміщення матеріалу з безкоштовної в платну зону.

Google Desktop для платформи Linux

Приємна новина для користувачів Лінукса на робочих станціях. Google випустив у світ свій популярний пошук по локальному комп'ютеру Google Desktop для платформи Linux. Раніше свою популярність Google Desktop набував на машинах з Windows.
Такий крок знову ж свідчить про підтримкою Google платформи Linux, проте сам Google Desktop до відкритого ПЗ не відноситься.
Розробники стверджують, що підтримуються версії Debian 4.0, Fedora Core 6, Ubuntu 6.10, Novell Suse 10.1 та Red Hat 5. Графічний інтерфейс працює під KDE та GNOME.
Лежить даний програмний продукт тут http://desktop.google.com/linux

Google просто вбиває на місці. Цензура повертається

А почалося все із проекту StopBadware.org власником якого є Berkman Center for Internet and Society (входить у склад Гарвардської школи права) і Internet Institute (Оксфордський університет), а також компанії Google, Sun Microsystems и Lenovo. Суть проету полягає у виявленні шкідливого ПЗ в інтернет. Коли користувач, в результаті пошуку, отримав у Google перелік сайтів, то декотрі з них можуть бути помічені як небезпечні. І додатково юзеру з’являється повідомлення про те, що відвідини цього сайту може спричинити шкоду вашому комп’ютеру. Адреса сайту не блокується, але щоб туди попасти в браузері адресу потрібно набирати руцями. От і посипався шквал протестів на Google Groups, за те що алгоритм виявлення цих сайтів є не ефективний. Занадто часто звичайні сайти помічались як небезпечні. Google Groups проблему коментувати відмовилась, проте зголосився StopBadware.org . Хлопці пообіцяли переглянути свої рішення. Дослівно це прозвучало десь так. "Ми розуміємо на скільки це може бути неприємно і часто власники сайтів самі і не знають, що їх сайт містить чи якось пов’язаний із шкідливим ПЗ". Якщо хтось попав в цю категорію, пишіть заявки за адресою appeals@stopbadware.org .

Пошук по патентах від Google

Google продовжує розширювати множину своїх пошуково-інформаційних сервісів. На цей раз представлено пошук по патентах Сполучених Штатів Америки. В базі 7 мільйонів патентів, це всі патенти країни за 200 років. Адреса служби - http://www.google.com/patents
Окрім звичайного текстового пошуку передбачений розширений пошук за заголовками, кодами, датою та класифікаційними ознаками.

Приклад успішної цензури в Інтернет. Китай та Google

Достатньо успішно уряд Китаю здійснює цензуру "китайського" Інтернет.
Крім всіх інших засобів використовують фільтрацію інформації на рівні пошуківців.
Китайський сервіс Google надає корістувачам не просто інші а інколи сильно цензуровані результати.

Приклади:
1 підпало під цензуру
http://opennet.net/google_china/search.php?se=google.com&q1=&q2=site%3Anews.bbc.co.uk
2 не підпало під цензуру (напевно)
http://opennet.net/google_china/search.php?se=google.com&q1=china&q2=

джерело - Приклад успішної цензури в Інтернет. Китай та Google

Технологія AJAX та пошукові системи

Технологія AJAX стрімко увірвалася в типовий набір технологій формування Веб-сторінок і зараз набуває ще більшої популярності.
Вперше користувачі близько познайомилися з AJAX в новій пошті Google Mail (Gmail) і були вражені високою інтерактивністю Веб-сторінок та їхньою “легкістю” під час змін. Фактично, по інтерактивності такі сторінки вже більше співмірні з локальними програмами “офісного” класу ніж з традиційними HTML-сторінками.
Я не буду зараз вдаватися в деталі технології (це тема для окремого матеріалу, і сподіваюся, що такий матеріал в нас на сайті ще зявиться), відмічу коротко що суть технології наступна. Браузер, окрім статичного HTML разом зі сторінкою підтягує досить хитрий JavaScript код, який постійно тримає звязок зі сервером, отримує потрібні інструкції зі сервера, і відповідно до них модифікує код сторінки (сторінка видозмінюється).
Детальніше про технологію можна почитати наприклад тут http://en.wikipedia.org/wiki/Ajax_%28programming%29
У цій статті мова дещо про інше. Річ у тім, що окрім броузерів сторінки сайту “переглядають” і роботи пошукових систем. А для них звичайно AJAX не значить нічого, і замість AJAX-сторінок вони бачать пусте місце, або стартовий статичний HMTL-код сторінки.
Тут і виникає певна проблема. Попри всю зручність і ефектність сайт виконаний по технології AJAX може для пошукової системи бути пустим місцем. Тобто відвідувачі на сайт з пошуківців потрапляти не будуть. А таку розкіш можуть дозволити далеко не всі власники сайтів.
Коли я вперше познайомився з AJAX, моя думка щодо технології з наведеної вище причини була цілком негативною.
Проте, при детальнішому розгляді стає зрозуміло, що не все так погано. Більше того, використання AJAX для деяких типів сайтів за певних умов може стати навіть корисним з точки зору позиціонування в пошукових системах.

Google Earth і партизани

Британські та американські військові вважають, що однією причин неперервного та ефективного спротиву з боку іракських партизанів є Google Earth.
Google Earth – це один з сервісів Google, який дозволяє мати доступ до карт-фотографій місцевості, зроблених з супутника.

На думку Біла Світмана (Bill Sweetman), котрий є експертом по бойових системах, детальні дані про місцевість, котрі надає сервіс Google Earth та системи GPS дозволяють повстанцям ефективно знаходити, ідентифікувати і вражати цілі на території військових баз США та Великобританії.
Супутникові знимки дозволяють наводити ракети, вести мінометний вогонь, а також вказувати терористам-смертникам шлях до цілі.

Якоб Нільсен: “Пошукові системи – пиявки на тілі Вебу”

Невелика стаття провідного фахівця з юзабіліті Веб-сайтів Якоба Нільсена Search Engines as Leeches on the Web уже встигла трохи наробити шуму.
Як і багато інших теоретиків та практиків Веб-технологій, Якоб Нільсен звернув увагу на те, що пошукові системи часто позбавляють користувача потреби заходити на сайт, з якого отримано інформацію.
Нільсен стверджує, що має місце тенденція до зміни характеру запитів користувачів до пошукових машин в напрямку конкретизації. Як наслідок, часто користувач задовольняє свою інформаційну потребу, просто переглядаючи результати пошуку. Важко сказати, наскільки правий Нільсен, але слід мати на увазі, що він має серйозну аналітичну службу, яка досліджує поведінку людей у Вебі.
Відзначу також, що деякі аналогічні проблеми взаємодії пошукових машин та інших сайтів уже обговорювалися на ІТ-Аналітика (зокрема ось тут - Пошукові системи та інтелектуальна власність )
У своїй статті Нільсен фактично декларує необхідність виходу сайтів з під залежності від пошукових систем.
У завершальній частині статті автор пропонує власникам сайтів ряд механізмів, які мають допомогти звільнитися від такої залежності. Це зокрема наступні засоби:

Кращі ІТ-продукти 2005 року

PC World опублікував список кращих продуктів сфери ІТ за 2005 рік. Список серйозний :), і справді містить багато назв, які є проривом в галузі.
Перше місце належить броузеру Firefox
2-ге - елетронному поштампту Google Mail
3-тє - операційка Mac OS v10
у першій десятці також помітні Skype (сервіс розмов через Інтернет) та смартфон Treo 650 (до речі, якщо вони зроблять комплексне рішення по мобільній IP-телефонії, хто зна чи не воно стоятиме на горі списку в кінці 2006?)
Ще один смартфон - BlackBerry - на 43 місці.
Кидається в очі практична відсутність у списку Microsoft. Підозрюю, що за цим може критися певна тенденційність авторів списку. Хоча справді, нічого проривного Майкрософт цього року ніби й не випускала.

Google Base - новий сервіс від Google

Google запустив в роботу новий сервіс – Google Base http://base.google.com
Основне призначення сервісу – онлайн база даних понять кількох різних категорій.
У чомусь цей сервіс мені нагадав Енциклопецію Яндекса.
Особливістю Google Base є можливість поповнення бази даних користувачами. Сервіс інтегровано з іншими службами Google. Якість пошуку так собі – вочевидь залежить від предмету пошуку. Так, по товарах пошук гарний, а по слову Lviv http://base.google.com/base/search?q=lviv&btnG=Search+Base&nd=0&scoring=r&us=0
– не дуже, єдиною світлиною, асоційованою зі Львовом виявилася знимка спина Максима Антоневича, адміна УАРНету і якоїсь пані з ним. Не зовсім зрозуміло, чому ця світлина туди потрапила.

Microsoft формує власну інтернет-бібліотеку

Microsoft іде шляхом Google і планує зреалізувати власний проект цифрової бібліотеки в мережі Інтернет. За основу будуть взяті матеріали з Британської бібліотеки. Початкові обсяги ресурсу - 100 тисяч книг загальним обсягом 25 мільйонів сторінок.
Проте, наразі не відомо як саме вирішуватиме Microsoft проблеми з власниками прав на тексти книг, а також як саме і на яких умовах будуть дані матеріали виставлятися в Мережі.

Письменники проти Google. Авторські війни

Продовжуються конфлікти між власниками авторських прав та пошуковими машинами. На цей раз конфлікт виник навколо служби Google Print, яка забезпечує пошук по оцифрованих текстах бібліотечних ресурсів.
Хоча пошук здійснюється по всьому тексту, для перегляду користувачу доступно лише невеликий кавалок книги.
Проте, і це викликає заперечення в авторів книг та інших власників авторських прав (зокрема видавництв). Вони вважають, що Google завдає прямої шкоди, вільно поширюючи комерційні тексти.
Проти Google подано судовий позов організацією The Authors Guild, яка об’єднює біля 8 тисяч американських авторів.

Пошук по акронімах

З'явився спеціалізований пошуковий сервіс для пошуку акронімів та абревіатур. Адреса - http://www.acronyma.com/
Пишуть, що їхня база понад 450 тисяч термінів.

Google припинив трансляцію PageRank

Уже пару днів Google припинив публічну трансляцію рангу сторінок, зокрема не відображається PageRank у популярному Google Toolbar та його клонах, не видається PageRank також і на публічних сервісах.

Це може значити одне з двох
1 - виникла якась технічна проблема (наприклад упав відповідний сервер Гугла)
2 - Гугл свідомо припинив трасляцію PageRank. Цілком можливо - як засіб проти свідомої торгівлі даним показником (посиланнями з зі сторінок з високим PageRank). Явище торгівлі PageRank почало набувати системного характеру, можна було говорити про уже частково сформований ринок з цінами, попитом, пропозицію та торговими точками.
Візначу також, що уже досить давно Яндекс був припинив трансляцію показника ВИЦ - аналога PageRank.

Акселератор від Google

Гугл випустив чергову цяцьку - на цей раз це програма акселератор, яка вствновлюється на комп'ютер користувача як проксі-сервер. Призначення - оптимізація трафіку користувача з метою покращення швидкодії.
Механізм - проміжне кешування та компресія сторінок на спеціальних серверах Гугла. Тобто сторінки до вашого броузера доставлятимуться не напряму зі сайту, а через сервери Гугла.
Для мене загадка - чому це не можна було зробити як звичайні проксі, а потрібно ще спеціальне ПЗ? Гугл усе більше починає нагадувати Майкрософт - принаймні в області ігнорування стандартів та традицій.
Акселератор відкриває для себе спеціальний порт 9100 (не забудьте налаштувати файрвол) та висить як окремий сервіс.
Приватність даних що йдуть через сервери Гугла забезпечуються відповідними зобов'язаннями Гугла, який не виключає аналізу вашого трафіку (а виключає можливість передачі приватної інформації в треті руки).
Хто хоче експериментувати з акселератором - прошу сюди http://webaccelerator.google.com
Навіщо це все Гуглу (адже витрати немаленькі) ? А глобальний моніторинг трафіку в Інтернеті з можливістю оптимізації пошуку та виявлення пошукового спаму? А фіксація підозрілого трафіку (приватність приватністю, але співпрацю з спецслужбами ще ніхто не відміняв)? А привязка до внутрішніх стандартів, далеких від стандарів галузевих, з можливістю подальшої монополізації різноманітних Інтернет-сервісів? Кілька цікавих матеріалів та думок по даній темі:

Структура сторінки - погляд Гугла

http://www.google.com/support/adsense/bin/static.py?page=tips.html
Цікаве дослідження Гугла щодо структури сторінки та зон уваги на ній. Дослідження зроблено в контексті визначення оптимального (по прибуткам) місця реклами на сторінці

linkdomain - пошук усіх посилань на сайт від Yahoo

Частою проблемою перед власником сайту є визначення усіх зовнішніх посилань на сайт. Знати хто і як, в якому контексті, посилається на сайт вкрай важливо та корисно.
Базовим методом розв'язання цієї задачі є використання спеціальних запитів до пошукових машин. Часто використовується запит link:yoursite або подібні в пошуковій машині Google.
Проте виникають дві суттєві проблеми
1. Запит повертає посилання лише на конкретну сторінку сайту, а не на всі сторінки. Це суттєве обмеження для сайтів з великою кількістю інформаційних сторінок (зокрема форумів, блогів, сайтів новин)
2. Запит повертає і внутрішньосайтові посилання. Що засмічує результат зайвою інформацією. Це суттєво для сайтів з великою кількістю сторінок та розгалуженою інформаційною структурою (приклади ті самі).
Тут може допомогти Yahoo та наступний синтаксис запитів до нього:
linkdomain:it.ridne.net -link:http://it.ridne.net -link:http://www.it.ridne.net -site:it.ridne.net

1-квітневий "жарт" Яндекса - халява за чужий рахунок

Увесь рунет кипятком від радості обливався з приводу жарту Яндекса, який імітував вивід сайту на перше місце у видачі. Особливо дана мулька була популярна серед оптимізаторів.
Радості неміряно - свій сайт на перше місце по крутому слову на Яндекс вивести.
Навіть у нас на Форумі таким захоплювалися. Форум і Яндекс - Інтернет та мережі - Львів. Форум Рідного Міста
А ніхто не задумався, що Яндекс за один день набив собі базу сайтів, над якими працюють оптимізатори?
І що він тепер буде з тою базою робити?
Якщо дурні - то викинуть і забудуть. Якщо мудрі - то отримають серйозний матеріал для аналізу та моніторингу.
Гарний жарт - і людям радість і собі користь. Правда, чи буде користь саме тим, кому радість - сумніваюся

Пошукові системи та інтелектуальна власність

Усе частіше пошукові системи та інші системи агрегації інформації з інтернету стають об’єктами переслідування за порушення інтелектуальної власності.
На цей раз “під обстріл” знову попав Гугл – Франс Прес подало в суд позов сумою 17 млн доларів на Гугл за порушення копірайту при републікації на своїй службі Google News новин агенства. http://news.com.com/2100-1030_3-5626341.html
Нагадаю, що дана служба автоматично агрегує новини з різноманітних джерел, рангує їх, і найважливіші виводить на чільні сторінки та забезпечує можливість тематичного пошуку по новинах.
Основними напрямками, по яких виникають проблеми глобальних сервісів з копірайтом є:

  • Результати пошуку по “брендах”

  • Контекстна реклама по “брендах”

  • Видача та кешування інформації, що захищена копірайтом

Як людина переглядає сторінку Google

Проценти користувачів які переглянули відповідні позиції результатів пошуку на Гугл, перша сторінка:

* Rank 1 - 100%
* Rank 2 - 100%
* Rank 3 - 100%
* Rank 4 - 85%
* Rank 5 - 60%
* Rank 6 - 50%
* Rank 7 - 50%
* Rank 8 - 30%
* Rank 9 - 30%
* Rank 10 - 20%
Проценти користувачів які переглянули відповідні позиції комерційної реклами на Гугл, перша сторінка:

* Sponsored listing 1 - 50%
* Sponsored listing 2 - 40%
* Sponsored listing 3 - 30%
* Sponsored listing 4 - 20%
* Sponsored listing 5 - 10%
* Sponsored listing 6 - 10%
* Sponsored listing 7 - 10%
* Sponsored listing 8 - 10%
та відповідна ілюстрація screen shot of the triangle.

Порівняння двох програм для локального пошуку

У звязку з катастрофічним ростом об'єму інформації на персональному комп'ютері вирішив поекспериментувати з ПЗ для локального пошуку.
Спробував спочатку Google Desktop Search а потім Kopernic Desktop Search.
Висновок очевидний - перевага на боці Коперніка. За Гуглом - тільки голосна назва фірми-виробника.
Дивіться самі:

Продовжується використання пошуківців шкідливим ПЗ

Намітилися прогнозована тенденція до активного використання глобальних пошукових машин (таких як Гугл) шкідливим ПЗ, в першу чергу хробаками, які шукають жертв для атаки
Тепер цим займається нова версія хробака MyDoom
New MyDoom worm uses search engines to spread: Internet News: The Industry Standard

В своїй діяльності вірус користає послугами Google, Lycos, Yahoo

Гугл відмовляється виконувати деякі запити

Гугл відмовляється виконувати деякі спеціальні запити, зокрема allinurl для деяких типів сторінок (наприклад php). У відповідь він повідомляє, що імовірно комп'ютер інфіковано вірусом або спайваре.

Імовірно, це відголосок недавньої історії з масовим взламом PHPBB форумів (> Хробак, який нищить phpBBфоруми | Журнал "Інформаційні технології. Аналітичні матеріали". ), або захист від подібних дій на майбутнє

Приклад запиту -

http
://www.google.com.ua/search?hl=uk&q=allinurl%3Amisto.ridne.net%2Findex.php&btnG=%D0%9F%D0%BE%D1%88%D1%83%D0%BA&meta=

Текст відмови

... but we can't process your request right now. A commputer virus or spyware application is sending us automated requests, and it appears that your computer or network has been infected.

We'll restore your access as quickly as possible, so try again soon. In the meantime, you might want to run a virus checker or spyware remover to make sure that your computer is free of viruses and other spurious software.

Нове значення атрибуту REL гіпертекстового посилання від Google

Тепер Google зайнявся вдосконаленням мови HTML – додав до списку можливих значень атрибуту rel тегу А значення nofollow (зі самим списком допустимих значень можна ознайомитися тут - Basic HTML data types ).

Google Scholar - науковий пошук

Google Scholar - пошукова система від Google, яка здійснює пошук у тематичних матеріалах. Орієнтована на науковців та студентів.

Новий сервіс читання новин RSS

RSS розшифровується, як Really Simple Syndication, перекладається дещо беззмістовно.... справді проста синдикація.

Прикольна ця штучка тим, що будь-хто може легко публікувати свої новини у вебі у простенькому форматі (підмножина XML), через веб. Тому і самі клієнти RSS надзвичайно прості. Також маючи новини у форматі RSS легко їх викласти на вашу домашню сторінку.

Якщо поставите собі такого клієнта, можете спробувати почитати з блоґу новин ІТ, його RSS адерса: http://newsua.blogspot.com/atom.xml

Інформація про RSS в каталозі Yandex
http://yaca.yandex.ru/yca/cat/Computers/Internet/Web_Development/rss/

Новини у форматі RSS від Yandex'a
http://yaca.yandex.ru/yca/cat/Computers/Internet/Web_Development/rss/

Переклад Google на українську

Гугл бере активну участь у перекладі своїх продуктів на інші мови.
Вже давно перекладено основну пошукову машину та основні сервіси на українську. На даний момент триває українізації Google Toolbar.

Причому кожен користувач може зробити свій як завгодно малий чи великий вклад у цю справу.
Кожен доброволець інтерактивно одержує маленьку порцію тексту для перекладу, та короткий опис про те, де з'являється цей текст. Таким чином паралельно може працювати над перекладом довільна кількість користувачів. Навіть якщо ви перекладете хоча б одну фразу - ви все одно зробите немалий вклад.

Крім перекладу нових текстів можна вносити корективи у існуючі, тобто, якщо ви десь зауважите у продуктах Google неточність - ви завжди зможете самі виправити це.

Syndicate content