چطور موتورهای جستجو کار می‌کنند؟

هر اندازه حکمت قوی گردد، شهوت ضعیف شود . [امام علی علیه السلام]

جوان امروز

دوشنبه 85 آذر 20 , ساعت 9:13 عصر

وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می‌شود، کاربران در واقع نتیجه کار بخش‌های متفاوت موتور جستجوگر را می‌بینند.

موتور جستجوگر قبلاً پایگاه داده‌اش را آماده کرده است و این گونه نیست که درست در همان لحظه‌ی جستجو، تمام وب را بگردد.

بسیاری از خود می‌پرسند که چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایت‌های وب را بگردد و میلیون‌ها صفحه را در نتایج جستجوی خود ارایه کند؟

گوگل و هیچ موتور جستجوی دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخ‌گویی به جستجوهای کاربران، تنها در پایگاه داده‌ای که در اختیار دارند به جستجو می‌پردازند و نه در وب! موتور جستجوگر به کمک بخش‌های متفاوت خود، اطلاعات مورد نیاز را قبلاً جمع‌آوری، تجزیه و تحلیل می‌کند، آنرا در پایگاه داده‌اش ذخیره می‌نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می‌گردد. بخش‌های مجزای یک موتور جستجوگر عبارتند از:
Spider یا عنکبوت
Crawler یا خزنده
Indexer یا بایگانی کننده
Database یا پایگاه داده
Ranker یا سیستم رتبه‌بندی

الف: Spider (عنکبوت)
اسپایدر یا روبوت (Robot) نرم افزاری است که کار جمع‌آوری اطلاعات مورد نیاز یک موتور جستجو را بر عهده دارد. اسپایدر به صفحات مختلف سر می‌زند، محتوای آنها را می‌خواند، لینک‌ها را دنبال می‌کند، اطلاعات مورد نیاز را جمع‌آوری می‌کند و آنرا در اختیار سایر بخش‌های موتور جستجوگر قرار می‌دهد. کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید می‌کنند، اسپایدر هم درست این کار را انجام می‌دهد با این تفاوت که اسپایدر کدهای HTML صفحات را می‌بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را.

اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می‌گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، می‌توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است. یکی از فعالیت‌های اصلی که در SEM انجام می‌شود تحلیل آمار همین دید و بازدیدها است.

اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عده‌ای از آنها به سایت‌های مختلف مراجعه می‌کنند و فقط به بررسی فعال بودن لینک‌های آنها می‌پردازند و یا به دنبال آدرس ایمیل (E-mail) می‌گردند.

ب: Crawler (خزنده)
کراولر، نرم‌افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می‌کند. کراولر مشخص می‌کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می‌گیرد که کدام یک از لینک‌های صفحه‌ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی‌ها را دنبال کند و یا هیچ کدام را دنبال نکند.

کراولر، ممکن است قبلاً برنامه‌ریزی شده باشد که آدرس‌های خاصی را طبق برنامه در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک‌های یک صفحه به این بستگی دارد که موتور جستجو چه حجمی از اطلاعات یک سایت را می‌تواند (یا می‌خواهد) در پایگاه داده‌اش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.

شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجو اطلاعات سایت شما را با خود ببرند، می‌توانید آنها را از بعضی صفحات سایت‌تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می‌کند و از حقوق دسترسی خود اطلاع می‌یابد. تنظیم میزان دسترسی موتورهای جستجو به محتوای یک سایت توسط پروتکل Robots انجام می‌شود. به عمل کراولر، خزش (Crawling) می‌گویند.