Блог Білоцерковець Марини Володимирівни: Учням групи 24ок!

Основи роботи в Інтернет

Тема: Робота з пошуковими системами

Теоретичні відомості

Пошукова система — онлайн-служба, яка надає можливість пошуку інформації на сайтах в Інтернеті, а також (можливо) у групах обговорення та ftp-серверах. Індексація в пошукових системах сайтів здійснюється пошуковим роботом. Основними критеріями якості роботи пошукової системи є релевантність, повнота бази, врахування морфології мови.

Популярні пошукові системи

Англомовні і міжнародні

A9
AskJeeves
FileByType
Google
MSN
Yahoo! і пошукові системи, що належать цій компанії:

Overture
Inktomi
AltaVista
Alltheweb FAST-Engine

Естонські

www.ee
neti.ee

Німецькі

Wseeker.com
Abacho.de
de.Ez2find.com

Російські

Aport
Mail.Ru
Rambler
Яндекс
nigma.ru

Українські

META (meta)

Французькі

fr.Ez2Find.com
Francite
Locace
Nomade

Спеціалізовані пошукові системи

Пошук файлів

Filesearch.ru
GlobalFileSearch

Пошук наукової інформації

Scirus
Google Scholar

Пошук освітньої інформації

ReSearch

     Дивіться також
     Українські пошукові системи http://lucl.lucl.kiev.ua/start/poshuk_ukr.html
     Nigma http://nigma.ru/
     Про пошукову систему Nigma http://nigma.ru/index_menu.php?action=click_menu&menu_element =description

Google (Рис.1) - лідер пошукових машин Інтернет. Наразі Гугл щоденно реєструє близько 50 млн. пошукових запитів та індексує більше 8 мільярдів веб-сторінок. Google може знаходити інформацію 101 мовою. Google наприкінці серпня 2004 року складалась з 132 тис. машин, розташованих в різних точках планети. Інтерфейс Google містить досить складну мову запитів, що дозволяє обмежити область пошуку окремими доменами, мовами, типами файлів тощо. Наприклад, пошук «intitle:Google site:wikipedia.org» видасть всі статті Вікіпедії всіма мовами, в заголовку яких зустрічається слово «Google».

Рис.1.

Дивіться також

     Google Матеріал з Вікіпедії — вільної енциклопедії  http://uk.wikipedia.org/wiki/Google
     Сайт Google українською мовою http://www.google.com.ua/
     Неофіційний блог Google українською http://googleholic.kiev.ua/
     Google Матеріал з Вікіпедії — вільної енциклопедії http://ru.wikipedia.org/wiki/Google
     Офіційний сайт http://www.google.com/
     Блог Google на російській мові http://googlerussiablog.blogspot.com/
     Про компанію http://www.google.ru/intl/ru/corporate/index.html
     Інтерактивна часова шкала історії Google http://www.google.ru/intl/ru/corporate/index.html
     Архітектура Google http://www.insight-it.ru/net/scalability/arkhitektura-google/

Яndex (Рис. 2.) — найбільша та найвідоміша російська пошукова система. За статистикою, кількість відвідувачів головної сторінки, у день складає біля 4—5 млн. Назва походить від англ. index (yandex — yet another indexer (рос. «еще один индексатор» або «Языковой идекс»). Сайт компанії почав прюцювати восени 1997 року. Відмінністю Яндекса можна вважати алгоритм його пошуку — він сконструйований на морфологічній системі російської мови. Крім стандартних файлів HTML шукає також у файлах формату PDF (Adobe Acrobat), RTF (Rich Text Format), DOC (Microsoft Word), XLS (Microsoft Excel), PPT (Microsoft Power Point), SWF (Macromedia Flash), а також індексує формат RSS.

     Дивіться також
     Яндекс http://yandex.ua/
     Сервіси Яндексу http://yandex.ua/all_services.html
     Компанія Яндекс http://company.yandex.ru/
     Походження слова „Яндекс” http://company.yandex.ru/about/slovo_yandex.xml

Рис. 2.

Рамблер (Рис. 3)
Всі пошукові системи Інтернету, і Рамблер в тому числі, складаються з трьох базових компонентів:

Веб-павук (web spider);
Індексатор;
Пошукова машина

     Web spider являє собою програму, що обходить сторінки із заданими URL, завантажує їх у базу даних, а потім архівує і перекладає в сховище один раз на добу. Робот розміщується на декількох машинах, кожна з яких виконує своє завдання. Так, робот на одній машині може качати нові сторінки, які ще не відомі пошуковій системі, а на іншій - сторінки, які були завантажені не менше місяця, але й не більше року тому. При цьому всі машини використовують одне й те саме сховище.
     При необхідності, роботу можна розподілити іншим способом: наприклад, розбивши список URL на N частин і роздавши їх N машинам. Паралельна робота веб-павука на декількох машинах дозволяє легко витримувати додаткове навантаження: при збільшенні кількості сторінок, які потрібно обійти роботу, достатньо просто розподілити завдання на більшу кількість машин. Дані, які збирає web spider, розміщуються в індексної базі.
     Індексатор - це програма, яка займається обробкою сторінок, завантажених за допомогою веб-павука. Її завдання - "прочитати" всі документи, витягти з них слова і розмістити їх в спеціальну базу даних - індекс. Інформація, що знаходиться у сховищі в стислому вигляді, поділяється на кілька частин. Ці частини поступово розподіляються між машинами, на яких запущено програму-індексатор. Як тільки індексатор на одній з машин закінчує обробку чергової частини сторінок, він звертається за наступною порцією. У результаті на першому етапі формується багато маленьких індексних баз, кожна з яких містить інформацію про деякої частини Інтернету, а вся обробка даних здійснюється паралельно, тому прискорення процесу індексації досягається за допомогою додавання машин в систему.
     Після того, як вся інформація оброблена, починається об'єднання (злиття) результатів, а також розміщення заміток: звідки узятий той чи інший документ. Завдяки тому, що часткові індексні бази і основна база, до якої звертається Пошукова машина, мають однаковий формат, процедура злиття є простою та швидкою операцією, що не вимагає жодних додаткових модифікацій часткових індексів. Основна база бере участь в аналізі як одна з частин нового індексу. Так, якщо об'єднуються N нових частин, то в аналізі бере участь N +1 фрагмент (N нових + основна база попередньої редакції). Крім того, єдиний формат дозволяє проводити тестування часткових баз ще до об'єднання їх з основною і виявляти помилки на більш ранньому етапі.
     Спеціальна програма складає таблиці перенумераціі документів бази та об'єднує вміст всіх частин. Серед сторінок з однаковими адресами вибирається найбільш свіжа версія, якщо при завантаженні веб-адрес (URL) останньою інформацією була помилка 404 (запитувана сторінка не існує), вона тимчасово видаляється з індексної бази. Паралельно здійснюється склейка дублів: сторінки, які мають однаковий зміст, але різні URL, об'єднуються в один документ.
     Збирання єдиної бази з часткових індексних баз являє собою простий і швидкий процес. Зіставлення сторінок не вимагає ніякої інтелектуальної обробки і відбувається зі швидкістю читання даних з диска. Якщо інформації, яка генерується на машинах-індексаторах, виходить занадто багато, то процедура "зливання" частин проходить у декілька етапів. Спочатку часткові індекси об'єднуються в декілька проміжних баз, а потім проміжні бази перетинаються з основною базою попередньої редакції. Таких етапів може бути скільки завгодно. Проміжні бази можуть зливатися в інші проміжні бази, а вже потім об'єднуватися остаточно. Поетапна робота незначно уповільнює формування єдиного індексу і не відбивається на якості результатів.
     Пошукова машина - забезпечує точність і коректність обробки даних. Від її особливостей залежить, наскільки швидко і точно користувач знайде те, що його цікавить. Коли користувач вводить свій запит, пошукова машина шукає відповідь у своїй індексної базі і виводить результати у відповідності зі своїм алгоритмом пошуку.

Рис. 3.

     Дивіться також
     Рамблер http://rambler.ru/
     Общие сведения о работе поисковой системы Рамблер http://help.rambler.ru/article.html?s=151&id=521

META — український пошуковий портал. Використовує пошукову систему власної розробки з українською, російською та англійською мовами пошуку. Зона пошуку — українські та дотичні до України сайти, а саме : сайти в домені UA та під доменах (com.ua kiev.ua тощо); українська мова сайту; хостинг на IP українських провайдерів; основна тематика сайту (будь-якою мовою) дотична до України.

Рис.4.

     Дивіться також
     META Матеріал з Вікіпедії — вільної енциклопедії  http://uk.wikipedia.org/wiki/META
     META http://meta.ua/

Блог Білоцерковець Марини Володимирівни

Сторінки

пʼятниця, 5 травня 2017 р.

Учням групи 24ок!

Немає коментарів:

Дописати коментар

Сторінки

пʼятниця, 5 травня 2017 р.

Учням групи 24ок!

Немає коментарів:

Дописати коментар

пʼятниця, 5 травня 2017 р.