wait please
شکیبا باشید
صفحه اصلی آرشیو اخبار و مقالات طراحی سایت معماری کلی موتورهای جستجو

معماری کلی موتورهای جستجو

معماری کلی موتورهای جستجو

موتورهای جستجو . متعدد و استراتژیهای آنها متفاوت است و برخی از آنها به دلایل تجاری و امنیتی سعی می کنند الگوریتم های درونی شان را پنهان نگاه دارند . ابتدا اجزای این معماری را معرفی می کنیم و سپس در بخش های جداگانه جزئیات عملیاتی آنها را بررسی خواهیم کرد.

موتورهای جستجو . متعدد و استراتژیهای آنها متفاوت است و برخی از آنها به دلایل تجاری و امنیتی سعی می کنند الگوریتم های درونی شان را پنهان نگاه دارند . ابتدا اجزای این معماری را معرفی می کنیم و سپس در بخش های جداگانه جزئیات عملیاتی آنها را بررسی خواهیم کرد.

درون کاو : تمام موتورهای جستجو به ماجولی عملیاتی به نام «درون کاو» متکی هستند که پهنه وسیع وب را بطور زمان بندی شده پیمایش می کنند و به جمع آوری صفحات بی شمار ذخیره شده در گوشه و کنار وب می پردازند. درون کاو از تعداد قابل توجهی برنامه کوچک تشکیل شده که هر کدام با هسته یک وب سایت خاص(یعنی صفحه شروع آن) آغاز می کنند و پس از دریافت آن صفحه و تحویل به « انباره صفحات » بر اساس لینک های درون صفحه جاری. صفحات پیوند خورده را نیز به همین روال استخراج و ذخیره میکنند.اینن برنامه های کوچک درون کاوی خود را تحت کنترل ماجول کنترل درون کاو آغاز و بر اساس استراتژی این ماجول کنترلی به پایان می برند.

کنترل درون کاو : این ماجول موظف است که مجموعه برنامه های درون کاوی را با تحویل یو.ار.ال مورد نظر راه اندازی کرده و بکار درون کاوی بگمارد. ماجول «کنترل درون کاو» تعیین می کند که پس از دریافت صفحه جاری کدامین صفحه باید ملاقات و دریافت شود چرا که یک صفحه واحد به صفحات متعددی لینک دارد. تزریق لینکهایی که باید به ترتیب ملاقات شوند بر عهده «کنترل درون کاو» است و در طرف مقابل ماجول درون کاو موظف است تمام آدرسها یا به عبارتی یو.ار.ال های موجود را از درون صفحات دریافتی استخراج و آنها را برای تصمیم گیری در اختیار ماجول «کنترل درون کاو» بگذارد.

انباره صفحات : صفحاتی که توسط ماجول «درون کاو» از گستره جهانی وب استخراج می شوند در یک بانک اطلاعاتی به نام «انباره صفحات» ذخیره می شوند تا به منظور شاخص دهی و تحلیل محتوایی در اختیار دیگر ماجول ها قرار بگیرند.
تفاوت موتورهای جستجوی مختلف در الگوریتم کنترل درون کاو نمود بیشتری پیدا می کند. در برخی از این الگوریتم ها عملیات جستجو و استخراج صفحات وب به صورت غیر منقطع آنقدر ادامه می یابد تا هیچ صفحه ملاقات نشده ای باقی نماند. در این الگوریتم ها ملاقات و استخراج صفحات از یک وب سایت با آدرس خاص آغاز و به تمام آدرسهای دیگری نیز که در این صفحات درج شده اند ادامه می یابد.در برخی دیگر از الگوریتمها عملیات ملاقات و استخراج صفحات یک وب سایت با آدرس خاص به وب سایتهای با «پسوند نام حوزه» متفاوت ادامه نخواهد یافت. در گونه دیگری از الگوریتمهای کنترل درون کاو ملاقات و استخراج صفحات بین حوزه های سطح بالا محدود می ماند. به عبارت بهتر وقتی فرایند استخراج صفحات حوزه دات کام در حال انجام است ملاقات صفحات حوزه دیگر حتی با وجود لینکهایی که در صفحات دات کام به آنها داده شده است در دستور کار قرار نمی گیرد.

ماجول شاخص دهی : این ماجول یکایک صفحات موجود در انباره صفحات را مرور کرده و کلمات موجود در آنها را پس از استخراج به همراه یو.ار.ال مربوطه در یک جدول بسیار عظیم درج می کند. نتیجه این ماجول جدولی است که مشخص میکند هر کلمه در کدام صفحه و با چه آدرسی و در کجای صفحه ظاهر شده است.
یکی دیگر از خروجی های ماجول شاخص دهی بانک اطلاعاتی «شاخص ساختاری»است. این بانک اطلاعاتی چگونگی پیوند خوردن صفحات به یکدیگر رامنعکس می کند . به عبارت دقیقتر گراف حاصل از صفحات و لینک هایی که در آنها به یکدیگر داده شده در این شاخص ساختاری درج شده است. بدیهی است که این گراف منعکس کننده مسیری که ماجول دونکاو بر اساس آن صفحات وب را ملاقات و استخراج کرده نیز هست.

موتور پرس و جو : این ماجول موظف است در خواست های جستجو را از کاربران دریافت و آنها را در قالبی مناسب جهت شروع فرایند جستجو سازماندهی کند. بدیهی است که اغلب کاربران جستجوی موضوع مورد نظر خود را با یک یا دو کلمه کلیدی آغاز می کنند و طبعا نتیجه جستجو مجموعه بسیار بزرگی از آدرسها خواهد بود. آغاز این مجموعه باید به نحو مناسبی رتبه دهی شود تا آیتم های مهم تر و بسیار مرتبط با درخواست کاربر در صدر نتایج جستجو قرار بگیرد. موتور پرس و جو به شدت با شاخص های ایجاد شده و همچنین انباره صفحات متکی است.

ماجول رتبه بندی : این ماجول موظف است نتایج حاصل از جستجوی کلمات کلمات کلیدی کاربر را به نحوی رتبه دهی کند تا مرتبط ترین آیتم در صدر نتایج قرار بگیرد. هر چه این ماجول هوشمندانه تر و دقیق تر جواب ها را فیلتر و رتبه دهی کند رضایت کاربران را بیشتر فراهم خواهد کرد.

منبع : هایپرکلابز