Пошукова система

Система, що здійснює пошук в Інтернет

Ідея, час якої настав

У продовж останніх років одною з найважливіших задач сайтобудування є задача популяризації сайту.
Існують різні підходи до вирішення даної задачі. Проте, для більшості з них характерним є боротьба за покращання позиції сайту в пошукових системах. Дана задача вимагає досить компексного аналізу сайту на всіх етапах розв'язання. Причому аналізу достатньо специфічного – аналізу не стільки “внутрішнього”, коли аналізується вміст, структура чи журнали сайту, а “зовнішнього”, коли аналізується ставлення WWW до сайту.

Google Bombing. 3 роки за образу Президента Польщі

3 роки ув'язнення загрожує поляку, який використав технологію розкрутки сайту за допомогою зовнішніх посилань з метою образи Президента Польщі. Він успішно досягнув того, що за одним лайливим польським словом офіційний сайт Президента Польщі кілька місяців займав перше місце на Гуглі.
Такий вид "оптимізації" не є чимось новим, і має навіть власний термін - Google Bombing. І ніби (за деякою інформацією з тематичних форумів) Google якось пробує від нього захиститися, але видно, поки що не дуже успішно. Новим тут є притягнення чоловіка до кримінальної відповідальності за такі дії. Звичайно, така справа нова для правосуддя, тому не виключено, що жорсткої кари не буде, проте сам факт такого "бомбування" встановлено достеменно.
Детальніше про справу можна почитати тут http://wiadomosci.gazeta.pl/Wiadomosci/1,80269,4477719.html

Google Labeler. ШІ для ШІ версія друга.

Ось тут Штучний інтелект для штучного інтелекту на нашому сайті Сергієм Адамчуком уже піднімалося питання того, що штучний інтелект потребує не раз зовнішньої підтримки, яка приходить у формі залучення рядових користувачів Інтернету до виконання рутинно-інтелектуальних дій. Такий собі "Штучний інтелект для штучного інтелекту". У першу чергу це стосується задач розпізнавання графічних образів.
Звичайно, такий підхід вимагає мотивації користувачів. А платити ніхто не хоче. І тоді замість матеріальної мотивації використовується, скажемо так, слабкість людського духу.
Мені відомі випадки, коли такі задачі доручалися людям взамін за доступ до порно ресурсів. Тобто для входу в закриту зону сайту з порноконтентом користувач повинен був розпізнати капчу або щось подібне, яка насправді не була оригінальною капчою порносайту, а зображенням з якогось сайту, де вона була бар'єром на шляху бота. Коли користувач правильно розпізнавав капчу, бот виконував свою "чорну" справу, а користувач добирався до такого бажаного контенту.
Але виявляється, хіть не єдина людська слабкість, що дає можливість запрягти людину у таку специфічну діяльність. Азарт - ось наступна вада людини, що стала використувуватися у подібних задачах.
Проте, на цей раз, азарт користувачів використовують не якісь безіменні хакери чи бездушні боти, а, як це не дивно, сам Google. Як це відбувається і для чого? Якщо вам цікаво подивитися, то вам сюди - http://images.google.com/imagelabeler/

Мета-таг unavailable_after. Новий стандарт від Google

Google знову задає новий стандарт для пошукових систем.
Після появи ряду нових технологій та розширень, зокрема технології sitemap, це вже стає доброю традицією.
На цей раз Google пропонує певний контроль за часом зберігання сторінки в кеші пошукової системи. З цією метою він уводить новий мета-таг unavailable_after.
Суть нововедення наступна. Даним тегом Веб-майстер може зазначити, доки дана сторінка зберігатиме актуальність і відповідно, доки її доцільно зберігати в БД пошукової системи.
Ось приклад такого визначення

Як відзначають аналітики на тематичних блогах і форумах, особливо цінним даний таг є для електронних магазинів, де таким чином можна описувати актуальність розміщених пропозицій (щоби вони потім не уводили в оману у результатах пошуку Google), та для різного роду видань, у яких є безкоштовні та платні розділи. Наприклад, цей таг може стати у пригоді, якщо планується переміщення матеріалу з безкоштовної в платну зону.

Google Desktop для платформи Linux

Приємна новина для користувачів Лінукса на робочих станціях. Google випустив у світ свій популярний пошук по локальному комп'ютеру Google Desktop для платформи Linux. Раніше свою популярність Google Desktop набував на машинах з Windows.
Такий крок знову ж свідчить про підтримкою Google платформи Linux, проте сам Google Desktop до відкритого ПЗ не відноситься.
Розробники стверджують, що підтримуються версії Debian 4.0, Fedora Core 6, Ubuntu 6.10, Novell Suse 10.1 та Red Hat 5. Графічний інтерфейс працює під KDE та GNOME.
Лежить даний програмний продукт тут http://desktop.google.com/linux

Google просто вбиває на місці. Цензура повертається

А почалося все із проекту StopBadware.org власником якого є Berkman Center for Internet and Society (входить у склад Гарвардської школи права) і Internet Institute (Оксфордський університет), а також компанії Google, Sun Microsystems и Lenovo. Суть проету полягає у виявленні шкідливого ПЗ в інтернет. Коли користувач, в результаті пошуку, отримав у Google перелік сайтів, то декотрі з них можуть бути помічені як небезпечні. І додатково юзеру з’являється повідомлення про те, що відвідини цього сайту може спричинити шкоду вашому комп’ютеру. Адреса сайту не блокується, але щоб туди попасти в браузері адресу потрібно набирати руцями. От і посипався шквал протестів на Google Groups, за те що алгоритм виявлення цих сайтів є не ефективний. Занадто часто звичайні сайти помічались як небезпечні. Google Groups проблему коментувати відмовилась, проте зголосився StopBadware.org . Хлопці пообіцяли переглянути свої рішення. Дослівно це прозвучало десь так. "Ми розуміємо на скільки це може бути неприємно і часто власники сайтів самі і не знають, що їх сайт містить чи якось пов’язаний із шкідливим ПЗ". Якщо хтось попав в цю категорію, пишіть заявки за адресою appeals@stopbadware.org .

Пошук по патентах від Google

Google продовжує розширювати множину своїх пошуково-інформаційних сервісів. На цей раз представлено пошук по патентах Сполучених Штатів Америки. В базі 7 мільйонів патентів, це всі патенти країни за 200 років. Адреса служби - http://www.google.com/patents
Окрім звичайного текстового пошуку передбачений розширений пошук за заголовками, кодами, датою та класифікаційними ознаками.

Приклад успішної цензури в Інтернет. Китай та Google

Достатньо успішно уряд Китаю здійснює цензуру "китайського" Інтернет.
Крім всіх інших засобів використовують фільтрацію інформації на рівні пошуківців.
Китайський сервіс Google надає корістувачам не просто інші а інколи сильно цензуровані результати.

Приклади:
1 підпало під цензуру
http://opennet.net/google_china/search.php?se=google.com&q1=&q2=site%3Anews.bbc.co.uk
2 не підпало під цензуру (напевно)
http://opennet.net/google_china/search.php?se=google.com&q1=china&q2=

джерело - Приклад успішної цензури в Інтернет. Китай та Google

Технологія AJAX та пошукові системи

Технологія AJAX стрімко увірвалася в типовий набір технологій формування Веб-сторінок і зараз набуває ще більшої популярності.
Вперше користувачі близько познайомилися з AJAX в новій пошті Google Mail (Gmail) і були вражені високою інтерактивністю Веб-сторінок та їхньою “легкістю” під час змін. Фактично, по інтерактивності такі сторінки вже більше співмірні з локальними програмами “офісного” класу ніж з традиційними HTML-сторінками.
Я не буду зараз вдаватися в деталі технології (це тема для окремого матеріалу, і сподіваюся, що такий матеріал в нас на сайті ще зявиться), відмічу коротко що суть технології наступна. Браузер, окрім статичного HTML разом зі сторінкою підтягує досить хитрий JavaScript код, який постійно тримає звязок зі сервером, отримує потрібні інструкції зі сервера, і відповідно до них модифікує код сторінки (сторінка видозмінюється).
Детальніше про технологію можна почитати наприклад тут http://en.wikipedia.org/wiki/Ajax_%28programming%29
У цій статті мова дещо про інше. Річ у тім, що окрім броузерів сторінки сайту “переглядають” і роботи пошукових систем. А для них звичайно AJAX не значить нічого, і замість AJAX-сторінок вони бачать пусте місце, або стартовий статичний HMTL-код сторінки.
Тут і виникає певна проблема. Попри всю зручність і ефектність сайт виконаний по технології AJAX може для пошукової системи бути пустим місцем. Тобто відвідувачі на сайт з пошуківців потрапляти не будуть. А таку розкіш можуть дозволити далеко не всі власники сайтів.
Коли я вперше познайомився з AJAX, моя думка щодо технології з наведеної вище причини була цілком негативною.
Проте, при детальнішому розгляді стає зрозуміло, що не все так погано. Більше того, використання AJAX для деяких типів сайтів за певних умов може стати навіть корисним з точки зору позиціонування в пошукових системах.

Google Earth і партизани

Британські та американські військові вважають, що однією причин неперервного та ефективного спротиву з боку іракських партизанів є Google Earth.
Google Earth – це один з сервісів Google, який дозволяє мати доступ до карт-фотографій місцевості, зроблених з супутника.
На думку Біла Світмана (Bill Sweetman), котрий є експертом по бойових системах, детальні дані про місцевість, котрі надає сервіс Google Earth та системи GPS дозволяють повстанцям ефективно знаходити, ідентифікувати і вражати цілі на території військових баз США та Великобританії.
Супутникові знимки дозволяють наводити ракети, вести мінометний вогонь, а також вказувати терористам-смертникам шлях до цілі.

Якоб Нільсен: “Пошукові системи – пиявки на тілі Вебу”

Невелика стаття провідного фахівця з юзабіліті Веб-сайтів Якоба Нільсена Search Engines as Leeches on the Web уже встигла трохи наробити шуму.
Як і багато інших теоретиків та практиків Веб-технологій, Якоб Нільсен звернув увагу на те, що пошукові системи часто позбавляють користувача потреби заходити на сайт, з якого отримано інформацію.
Нільсен стверджує, що має місце тенденція до зміни характеру запитів користувачів до пошукових машин в напрямку конкретизації. Як наслідок, часто користувач задовольняє свою інформаційну потребу, просто переглядаючи результати пошуку. Важко сказати, наскільки правий Нільсен, але слід мати на увазі, що він має серйозну аналітичну службу, яка досліджує поведінку людей у Вебі.
Відзначу також, що деякі аналогічні проблеми взаємодії пошукових машин та інших сайтів уже обговорювалися на ІТ-Аналітика (зокрема ось тут - Пошукові системи та інтелектуальна власність )
У своїй статті Нільсен фактично декларує необхідність виходу сайтів з під залежності від пошукових систем.
У завершальній частині статті автор пропонує власникам сайтів ряд механізмів, які мають допомогти звільнитися від такої залежності. Це зокрема наступні засоби:

Кращі ІТ-продукти 2005 року

PC World опублікував список кращих продуктів сфери ІТ за 2005 рік. Список серйозний :), і справді містить багато назв, які є проривом в галузі.
Перше місце належить броузеру Firefox
2-ге - елетронному поштампту Google Mail
3-тє - операційка Mac OS v10
у першій десятці також помітні Skype (сервіс розмов через Інтернет) та смартфон Treo 650 (до речі, якщо вони зроблять комплексне рішення по мобільній IP-телефонії, хто зна чи не воно стоятиме на горі списку в кінці 2006?)
Ще один смартфон - BlackBerry - на 43 місці.
Кидається в очі практична відсутність у списку Microsoft. Підозрюю, що за цим може критися певна тенденційність авторів списку. Хоча справді, нічого проривного Майкрософт цього року ніби й не випускала.

Google Base - новий сервіс від Google

Google запустив в роботу новий сервіс – Google Base http://base.google.com
Основне призначення сервісу – онлайн база даних понять кількох різних категорій.
У чомусь цей сервіс мені нагадав Енциклопецію Яндекса.
Особливістю Google Base є можливість поповнення бази даних користувачами. Сервіс інтегровано з іншими службами Google. Якість пошуку так собі – вочевидь залежить від предмету пошуку. Так, по товарах пошук гарний, а по слову Lviv http://base.google.com/base/search?q=lviv&btnG=Search+Base&nd=0&scoring=r&us=0
– не дуже, єдиною світлиною, асоційованою зі Львовом виявилася знимка спина Максима Антоневича, адміна УАРНету і якоїсь пані з ним. Не зовсім зрозуміло, чому ця світлина туди потрапила.

Microsoft формує власну інтернет-бібліотеку

Microsoft іде шляхом Google і планує зреалізувати власний проект цифрової бібліотеки в мережі Інтернет. За основу будуть взяті матеріали з Британської бібліотеки. Початкові обсяги ресурсу - 100 тисяч книг загальним обсягом 25 мільйонів сторінок.
Проте, наразі не відомо як саме вирішуватиме Microsoft проблеми з власниками прав на тексти книг, а також як саме і на яких умовах будуть дані матеріали виставлятися в Мережі.

Письменники проти Google. Авторські війни

Продовжуються конфлікти між власниками авторських прав та пошуковими машинами. На цей раз конфлікт виник навколо служби Google Print, яка забезпечує пошук по оцифрованих текстах бібліотечних ресурсів.
Хоча пошук здійснюється по всьому тексту, для перегляду користувачу доступно лише невеликий кавалок книги.
Проте, і це викликає заперечення в авторів книг та інших власників авторських прав (зокрема видавництв). Вони вважають, що Google завдає прямої шкоди, вільно поширюючи комерційні тексти.
Проти Google подано судовий позов організацією The Authors Guild, яка об’єднює біля 8 тисяч американських авторів.

Пошук по акронімах

З'явився спеціалізований пошуковий сервіс для пошуку акронімів та абревіатур. Адреса - http://www.acronyma.com/
Пишуть, що їхня база понад 450 тисяч термінів.

Google припинив трансляцію PageRank

Уже пару днів Google припинив публічну трансляцію рангу сторінок, зокрема не відображається PageRank у популярному Google Toolbar та його клонах, не видається PageRank також і на публічних сервісах.

Це може значити одне з двох
1 - виникла якась технічна проблема (наприклад упав відповідний сервер Гугла)
2 - Гугл свідомо припинив трасляцію PageRank. Цілком можливо - як засіб проти свідомої торгівлі даним показником (посиланнями з зі сторінок з високим PageRank). Явище торгівлі PageRank почало набувати системного характеру, можна було говорити про уже частково сформований ринок з цінами, попитом, пропозицію та торговими точками.
Візначу також, що уже досить давно Яндекс був припинив трансляцію показника ВИЦ - аналога PageRank.

Акселератор від Google

Гугл випустив чергову цяцьку - на цей раз це програма акселератор, яка вствновлюється на комп'ютер користувача як проксі-сервер. Призначення - оптимізація трафіку користувача з метою покращення швидкодії.
Механізм - проміжне кешування та компресія сторінок на спеціальних серверах Гугла. Тобто сторінки до вашого броузера доставлятимуться не напряму зі сайту, а через сервери Гугла.
Для мене загадка - чому це не можна було зробити як звичайні проксі, а потрібно ще спеціальне ПЗ? Гугл усе більше починає нагадувати Майкрософт - принаймні в області ігнорування стандартів та традицій.
Акселератор відкриває для себе спеціальний порт 9100 (не забудьте налаштувати файрвол) та висить як окремий сервіс.
Приватність даних що йдуть через сервери Гугла забезпечуються відповідними зобов'язаннями Гугла, який не виключає аналізу вашого трафіку (а виключає можливість передачі приватної інформації в треті руки).
Хто хоче експериментувати з акселератором - прошу сюди http://webaccelerator.google.com
Навіщо це все Гуглу (адже витрати немаленькі) ? А глобальний моніторинг трафіку в Інтернеті з можливістю оптимізації пошуку та виявлення пошукового спаму? А фіксація підозрілого трафіку (приватність приватністю, але співпрацю з спецслужбами ще ніхто не відміняв)? А привязка до внутрішніх стандартів, далеких від стандарів галузевих, з можливістю подальшої монополізації різноманітних Інтернет-сервісів? Кілька цікавих матеріалів та думок по даній темі:

Структура сторінки - погляд Гугла

http://www.google.com/support/adsense/bin/static.py?page=tips.html
Цікаве дослідження Гугла щодо структури сторінки та зон уваги на ній. Дослідження зроблено в контексті визначення оптимального (по прибуткам) місця реклами на сторінці

linkdomain - пошук усіх посилань на сайт від Yahoo

Частою проблемою перед власником сайту є визначення усіх зовнішніх посилань на сайт. Знати хто і як, в якому контексті, посилається на сайт вкрай важливо та корисно.
Базовим методом розв'язання цієї задачі є використання спеціальних запитів до пошукових машин. Часто використовується запит link:yoursite або подібні в пошуковій машині Google.
Проте виникають дві суттєві проблеми
1. Запит повертає посилання лише на конкретну сторінку сайту, а не на всі сторінки. Це суттєве обмеження для сайтів з великою кількістю інформаційних сторінок (зокрема форумів, блогів, сайтів новин)
2. Запит повертає і внутрішньосайтові посилання. Що засмічує результат зайвою інформацією. Це суттєво для сайтів з великою кількістю сторінок та розгалуженою інформаційною структурою (приклади ті самі).
Тут може допомогти Yahoo та наступний синтаксис запитів до нього:
linkdomain:it.ridne.net -link:http://it.ridne.net -link:http://www.it.ridne.net -site:it.ridne.net

Syndicate content

© Інформаційні технології. Аналітика , Рідна Мережа