ورود کاربران VIP سرزمین دانلود، مرجع دانلود و آموزش رایگان نرم افزار

منوی سایت

جستجوی اینترنتی

تازه های این بخش :

چگونگی جستجوی صحیح اطلاعات در محیط اینترنت

(مربوط به موضوع جستجوی اینترنتی)

چگونگی جستجوی صحیح اطلاعات در محیط اینترنت

 


اغلب کسانی که با شبکه اینترنت کار می کنند، زمان زیادی را به جستجو بر روی شبکه می گذرانند. یافتن یک فرد، یک محصول، یک شرکت و بسیاری موارد دیگر می توانند هدف کاربر از جستجو بر روی شبکه باشند. شما نیز اگر تا به حال به جستجو بر روی اینترنت پرداخته باشید، متوجه شده اید که با توجه به حجم بسیار زیاد اطلاعات موجود بر روی شبکه یافتن اطلاعات مفید و مناسب کار ساده ای نیست. در واقع هرگاه به دنبال اطلاعاتی می گردید با دو سؤال مهم روبه رو هستند:

● چگونه جستجو کنیم ؟

● کجا جستجوکنیم ؟

درصورتی که بتوانید به این دو سؤال پاسخ مناسب و روشنی بدهید، به راحتی خواهید توانست اطلاعات مورد نظر خود را بر روی شبکه بیابید.

● چگونه جستجو کنیم ؟

جستجو کردن نیز مانند هر کار دیگری آداب و رسوم خاص خود را دارد. در واقع اکثر سایت هایی که امکان جستجو را برای شما فراهم می آورند، الگوی یکسان و استانداری را برای دریافت عبارت پرس وجو از شما دارند. شما می توانید با به کار بردن این الگوها و استفاده از نحوه نگارش صحیح عبارات جستجو، اطلاعات صحیح را به دست آورید و اپراتورهای زیر، اپراتورهای استانداردی هستند که در اکثر سایت هایی که امکان جستجو را فراهم آورده اند، قابل استفاده می باشند.

● AND : هنگامی که شما به دنبال صفحاتی می باشید که حاوی چند کلمه یا عبارت معین باشند از این اپراتور استفاده کنید. به طور مثال زمانی که به دنبال اطلاعاتی در مورد اینترنت و امنیت هستند عبارت Internet And Security را مورد استفاده قرار دهید.

● OR : زمانی که وجود حداقل یکی از چند کلمه یا عبارات معین در صفحات، مورد نظر شما باشد، اپراتور OR را در بین این کلمات به کار گیرید. به طور مثال Internet Or Security، صفحات سایت هایی را در اختیار شما قرار خواهد داد که دارای اطلاعاتی در مورد اینترنت، امنیت یا هر دو باشند.

● + : این اپراتور به عنوان پیشوند قبل از کلمات مورد نظر به کار می رود. در واقع کلماتی که پیش از آنها این اپراتور گذارده شدند، لزوما در نتایج جستجو وجود خواهند داشت. Internet+Security صفحات و سایت هایی را در نتایج حاصله از جستجو بر می گرداند که لزوما دارای لغت امنیت هستند، اما اینترنت می تواند در آنها وجود داشته یا نداشته باشد.

● " " : هرگاه به دنبال یک عبارت هستید و می خواهید کلمات به همان شکل و ترتیب در متن سایت های نتایج جستجو یافت شوند، از این اپراتور استفاده کنید، به طور مثال زمانی که به دنبال اطلاعاتی در مورد امنیت شبکه های کامپیوتری هستید باید عبارت “Network Security” را وارد نمایید. در صورتی که به جای این عبارت از +Network+Security استفاده نمایید، اگر درصفحه ای کلمه Security در ابتدای آن و Network در جای دیگری ذکر شده باشد، این صفحه نیز به عنوان نتیجه جستجو در اختیار شما قرار خواهد گرفت در حالی که حاوی اطلاعات مورد نظر شما نیست.

 

● () : در صورتی که بخواهید عبارات جستجوی پیچیده تری را ایجاد نمایید، می توانید از پرانتز استفاده کنید. به طور مثال اگر به دنبال مشکلات نرم افزاری یا سخت افزاری هستید، می توانید از عبارت (Software Or Hardware) Problems استفاده نمایید.

تعداد این اپراتورها در موتورهای جستجو بیشتر است اما به دلیل کاربرد کم سایر موارد و طولانی شدن مطلب، از ذکر اونها صرف نظر میکنیم. دوستان علاقه مند می توانند در منابع آموزشی اینترنت اطلاعات کاملی بدست آورند.

● کجا جستجو کنیم ؟

حال که توانستیم عبارت مناسب برای جستجو را بسازیم، باید این عبارت را در یک سایت جستجو نماییم تا به نتایج مورد نظر دست یابیم. یکی از سایت های بسیار متداول برای جستجو Google است. اگر با استفاده از این سایت به نتایج دلخواه خود نرسیدید، استفاده از سایت هایی مانند Yahoo و Altavista توصیه می شود.

در صورتی که به دنبال موضوعی کمیاب هستید و با استفاده از دو مجموعه فوق نتوانستید به جواب مناسب دست یابید، از سایت هایی مانند Mamma و Meta Crawler استفاده نمایید. این دو سایت از مجموعه ای هستند که اصطلاحا به آنها موتور فرا جستجو (Meta Search Engine) گفته می شود و زمانی که شما بر روی یکی از اعضای این گروه سایت ها جستجو می کنید، پرس و جو به سایت های جستجوی دیگر فرستاده می شود و پاسخ های گرفته شده از مجموعه لیست ها به صورت یک لیست در اختیار شما قرار می گیرد.


این مطلب مربوط به موضوع جستجوی اینترنتی میباشد.
(مربوط به موضوع جستجوی اینترنتی)

چرا اسپم ها در لیست نتایج موتور های جستجو قرار می گیرند؟

 

 


Spam کردن، استفاده از تکنیک های نامناسب برای یافتن جایگاه بهتر در نتایج جست وجو می باشد. بعضی مدیران سایت از این تاکتیک ها برای گمراه کردن موتور جست وجو استفاده می کنند و به صفحات بی ربط، جایگاهی بالا در نتایج اختصاص می دهند تا وب سایت مورد نظر در لیست های بالاتری از نظر جستجو قرار بگیرد.

اگر شما به خوبی از معنای Spam آگاه نباشید، ممکن است سایت شما توسط موتورهای جست وجو شاخص بندی نشود و حتی تحت تحریم قرار گیرد؛ لذا اگر به موفقیت سایت خود عـلاقه مندید، باید به عوامل و تاکتیک هایی که از نظر موتورهای جست وجو Spam تلقی می شوند، دقت کنید و از آنها اجتناب کنید.

● 10 تکنیک برای Spam کردن یک موتور جست وجو:

متن غیرقابل مشاهده: پنهان کردن کلمات کلیدی با استفاده از نوشتن کلمات با رنگی هم سان یا مشابه با رنگ زمینه، از روش های معمول Spam کردن می باشد. ممکن است در صورت استفاده از جدول یا یک تصویر زمینه با رنگی غیر از زمینه اصلی این امر بدون قصد قبلی اتفاق بیفتد.

انباشتگی کلمات کلیدی: این نیز یکی دیگر از تکنیک های معمول برای Spam کردن است. معمولا این تکنیک با ستون غیرقابل مشاهده همراهند اما در بعضی موارد کلمات کلیدی چندین و چند بار در انتهای صفحه و با قلمی ریز تکرار می شوند.

Spam کردن: استفاده از تکنیک های نامناسب برای یافتن جایگاه بهتر در نتایج جست وجو می باشد. بعضی مدیران سایت از این تاکتیک ها برای گمراه کردن موتور جست وجو استفاده می کنند و به صفحات بی ربط، جایگاهی بالا در نتایج اختصاص می دهند.ا

کلمات کلیدی بی ربط: هیچگاه از کلمات کلیدی نامربوط به محتوای سایت استفاده نکنید. ممکن است با این روش، تعــدادی بازدید کننده که به دنبال آن کلمات هستند را به سایت خود بکشانید، اما آن افراد نیز با دیدن سایت شما متوجه خواهند شد که سایت شما دارای اطلاعات مرتبط با آن کلمه نیست و سایت شما را ترک می کنند.

● برچسب های پنهان: استفاده از کلمات کلیدی در برچسب های پنهان HTML مانند برچسب توضیحات (comment tag)، برچسب سبک (style tag)، برچسب های http equiv، برچسب هــای ارزش پنهان (hidden valve tag)، برچسب های alt، برچسب های قلم (font tag)، برچسب های نویسنده (author tag) برچسب های option، برچسب های noframe و پیوندهای مخفی می توانند به عنوان Spam کردن محسوب شوند و توسط بعضی موتورهای جست وجو قدغن شوند.

● صفحات مشابه و همانند: نسخه برداری از روی یک صفحه یا صفحه درگاه و ذخیره آن با نام های مختلف و ثبت آنها نیز یک روش Spam است و توسط اکثر موتورهای جست وجو تشخیص داده می شود.

● مبادله کد: بهینه سازی یک صفحه برای یافتن جایگاه مناسب در جست وجو و جایگزین آن با یک صفحه دیگر در زمانی که یک بار موفقی را انجام دادید نیز یک روش دیگر است. این روش و تکنیک برای دست یافتن به یک جایگاه مناسب و برای یک مدت طولانی موفق نخواهد بود.

● Redirect کردن: بعضی افراد صفحات Spam شده را تنها برای موتورهای جست وجو تولید می کنند؛ در واقع زمانی که یک بازدیدکننده، به آن صفحه مراجعه می کند با استفاده ازبرچسب های refresh،CGI،Java،Javascript یا سایر تکنیک ها، وی را به صفحه اول راهنمایی می کنند. در واقع با این کار، سعی در پنهان کردن صفحات spam خود دارند که این تکنیک نیز مناسب نیست.

● Link farms: بسیاری از موتورهای جست وجو، استفاده از link farms یا تولیدکنندگان پیوندهای دوجانبه را به عنوان Spam تلقی می کنند. بسیاری از موتورهای جست وجو، سایت هایی که در برنامه های معاوضه پیوند شرکت می کنند را تحریم می کنند.

● بدون محتوا: سایت هایی که محتوای واحد و مشخصی برای کاربران موتورهای جست وجو ندارند نیز Spam تلقی می شوند. محتوای غیرمجاز، محتوای تکراری و سایت های دارای انبوهی از پیوندهای وابسته نیز از طرف موتورهای جستوجو و بخصوص فهرست به عنوان Spam شناخته می شوند.

● ثبت مکرر: هر موتور جست وجو محدودیت های خود را در تعداد صفحات قابل ثبت و مدت زمان بین تکرار ثبت دارد. یک صفحه را بیش از یک بار در ماه در یک موتور جست وجو ثبت نکنید و هر روز نیز تعداد زیادی از صفحات را به ثبت نرسانید. هرگز صفحات درگاه را در فهرست ها ثبت نکنید.

● جریمه های Spam کردن موتور جست وجو:
تمامی موتورهای جست وجو در مورد Spam حساس و دارای محدودیت نیستند. بعضی لم ها که مورد قبول یک موتور جست وجو هستند، برای یک موتور جست وجوی دیگر Spam تلقی می شوند. بعضی موتورها از شاخص بندی صفحاتی که دارای Spam هستند اجتناب می کنند؛ بعضی دیگر این گونه صفحات را شاخص بندی می کنند، اما درجه پایینی به آنها اختصاص می دهند. بعضی دیگر نیز سایت را کاملا تحت تحریم قرار می دهند.

بر روی بعضی موتورهای جست وجو، صفحاتی یافت می شوند که دارای جایگاه مناسب و درجه بالایی هستند و از تکنیک های مذکور در این مقاله نیز استفاده می کنند. این صفحات معمولا قدیمی هستند و چندین سال عمر دارند. اگر این صفحات در حال حاضر ثبت شوند، یا درجه پایینی کسب می کنند و یا موتورهای جست وجو از ثبت آنها جلوگیری به عمل می آورند. حتی اگر در حال حاضر بعضی تکنیک ها در بعضی موتورها قابل استفاده و کارآمد هستند، مطمئنا همیشه این روال پابرجا نخواهد بود.

موتورهای جست وجو می کوشند تا مناسب ترین نتایج را برای کاربرانشان فراهم کنند، اما Spam شاخص های آنها را با اطلاعات گمراه کننده و نامناسبشان به هم می ریزد. اشتباه نکنید، موتورهای جست وجو هنگامی که Spam را یک مشکل بزرگ ببینند با آن مقابله می کنند. در آن صورت اگر سایت شما از این تکنیک ها استفاده کرده باشد، ممکن است توسط موتورهای جست وجو تحت تحریم قرار گیرید.

● سلاح مخفی شما صفحات درگاه (doorway):
صفحات درگاه، صفحات وبی هستند که تنها با یک هدف طراحی می شوند. رسیدن به یک درجه و جایگاه بالا در یک موتور جست وجو مشخص برای یک عبارت یا کلمه کلیدی معلوم.

موتورهای جست وجو همگی به یک گونه عمل نمی کنند، و صفحات یکسان مورد علاقه تمامی موتورهای جست وجو نیستند. بعضی مواقع شما صفحه موردنظر خود را به راحتی و با درجه بالایی در یک موتور جست وجو می یابید، اما در یک موتور جست وجوی دیگر اصلا آن صفحه را پیدا نمی کنید. در چنین شرایطی با ساختن چند صفحه درگاهی که با توجه به کار و علاقه آن موتور جست وجوی خاص طراحی می شوند، می توان این مشکل را حل کرد.

به عبارت دیگر صفحات درگاهی صفحاتی هستند که به یک موتور جست وجو دلیل دیگری ارائه می کنند تا موتور از سایت شما بازدید کند. اگر روبات موتور جستوجو اطلاعات صفحات درگاهی شما را بخواند و آن اطلاعات مورد علاقه آن باشد، سایت شما با گرفتن جایگاه بهتری در نتایج آن موتور جست وجو جایزه داشتن صفحات درگاهی مناسب را دریافت می کند.

● صفحات درگاه و spamming:
در گذشته صفحات درگاهی دارای محتوای واقعی نبودند. در واقع محتوای این صفحات تنها تعدادی کلمه کلیدی، یک تصویر و یک پیوند به صفحه اصلی سایت بود. اغلب مردم از نرم افزار صفحه درگاهی استفاده می کردند تا به طور خودکار صدها درگاه تولید کنند و همگی را ثبت نمایند. گهگاه شما می توانید درگاه هایی این چنین را در بعضی موتورهای جست وجو بیابید.

اما آیا تولید صفحات درگاه مانند فوق واقعا یک تاکتیک بهینه سازی یک موتور جست وجوی کار است؟

بعضی مردم ادعا می کنند که چنین صفحات درگاهی هنوز کارآمد است. علیرغم این ادعا موتورهای جست وجو ثبت هزاران تک صفحه، صفحات درگاهی با محتوای کمارزش و بدون محتوای واحد را ادامه نخواهند داد. کسانی که به طور مداوم مشغول Spam کردن موتورهای جست وجو با درگاه های بی ارزش هستند نه تنها به موتورهای جست وجو و کاربران آنها صدمه می زنند، بلکه در واقع در حال صدمه زدن به خود نیز هستند. به جمله زیر که در رابطه با صفحات درگاهی توسط Altavista بیان شده است توجه کنید:

”تلاش برای پرکردن شاخص Altavista با صفحات گمراه کننده، ارزش شاخص همه افراد را پایین می آورد. ما اجازه ثبت URL را به مشتریانی که شاخص را Spam می کنند نمی دهیم و تمامی صفحات این گونه را از شاخص خارج خواهیم نمود.“

اگر شما بر روی یک موتور جست وجو، جست وجو کنید و ببینید که یک سایت به صورت تکراری در نتایج ذکر شده است، به راحتی درمی یابید که چرا این گونه صفحات را Spam می نامند. بنابراین وسوسه نشوید که از صفحات درگاه بدون محتوای مناسب و ارزشمند استفاده کنید. به مرور زمان موتورهای جست وجوی بیشتری از شاخص بندی شدن چنین صفحات درگاهی جلوگیری به عمل خواهند آورد و سایت هایی که از چنین صفحاتی استفاده می کنند تحت تحریم موتورهای جست وجو قرار خواهند گرفت.

صفحات درگاه، صفحات وبی هستند که تنها با یک هدف طراحی می شوند. رسیدن به یک درجه و جایگاه بالا در یک موتور جست وجو مشخص برای یک عبارت یا کلمه کلیدی معلوم.

● راه مناسب استفاده از صفحات درگاه:
اگر صفحات درگاه به شکل مناسبی مورد استفاده قرار بگیرند، موتورهای جست وجو آنها را به عنوان Spam درنظر خواهند گرفت. اگر صفحات درگاه با محتوای ارزشمند مورد استفاده قرار بگیرند، می توانند در بالا بردن دقت شاخص موتور جست وجو نقش خوبی ایفا نمایند و یافتن محتوای مربوط را برای جوینده تسهیل نمایند.

اگر بخواهید صفحات درگاه مناسبی بسازید، باید به گونه ای طراحی کنید که این صفحات دارای تعداد مناسبی از کلمات و عبارات کلیدی در جای مناسب از صفحه باشند تا بر روی یک موتور جست وجوی خاص به خوبی درجه بندی شوند.

صفحات درگاه شما باید همیشه در تمامی سایت به صورت یکپارچه آمیخته شوند و اطلاعات، عکس ها و پیوندهای همانند سایر صفحات سایت به بازدیدکنندگان ارائه نمایند.

صفحات درگاه خوب، دقیقا همانند سایر صفحات هستند اما به گونه ای طراحی شده اند که با فرمول درجه بندی یکتای یک موتور جست وجوی خاص مطابقت کنند.

در این جا چند نکته را برمی شماریم که به خاطرسپردن آنها شما را در ساختن درگاه های خوب یاری خواهد کرد:

تلاش خود را متمرکز کنید. واقعا نیاز نیست که برای تمامی موتورهای جست وجوی اصلی، صفحات درگاه بسازید. تلاش خود را بر روی موتورهای جست وجویی متمرکز کنید که صفحات وب عادی شما را دوست ندارند و در واقع جایگاه مناسبی در نتایج جستوجو به سایت شما اختصاص نمی دهند. (اگر هیچ یک از موتورهای جست وجو صفحات عادی شما را نمی پسندند، بهتر است به جای کار بر روی تعداد زیادی صفحات درگاه، به طراحی مجدد صفحات عادی و اصلی خود بپردازید!)

از فهرست ها دوری کنید. فهرست های اصلی مانند Looksmart, ODP, Yahoo تنها به شما اجازه می دهند که صفحات عادی و معمولا تنها صفحه اصلی سایت خود را ثبت نمایید. سعی نکنید هیچ صفحه درگاهی را در آنها به ثبت برسانید.

برای ساختن صفحات درگاه برای یک موتور جست وجوی خاص، شما به اطلاعاتی اضافی در مورد آن موتور جست وجو نیاز خواهید داشت. تحلیل سایر سایت های با درجه بالا برروی آن موتور جست وجو می تواند شما را در تشخیص سلیقه و علاقه آن موتور جست وجو یاری نماید.

صفحات درگاه کار را تنها از یک یا دو کلمه کلیدی در هر صفحه استفاده می کنند. اگر از تعداد کلمات بیشتری استفاده کنید، اثر صفحات شما رقیق و کمرنگ می شود. سعی کنید که هر یک از درگاه های سایت را به صورت خاص بر روی کلمه کلیدی یا عبارتی متمرکز کنید که به دنبال جایگاه بهتری در نتایج موتور جست وجو برای آن هستید.

سادگی را حفظ کنید. صفحات درگاه کوچک بهتر عمل می کنند. معمولا اندازه ایده آل برای این صفحات، بین 200 تا 300 کلمه است. از استفاده از Javascript و سایر effectهای تفننی اجتناب نمایید.

موتورهای جست وجو را با الگوریتم های واحدی درجه بندی می کنند، اما هیچ دو موتور جست وجویی از الگوریتم های یکسانی استفاده نمی کنند؛ به همین دلیل است که گاه لازم است شما صفحات درگاهی ایجاد کنید که با توجه به الگوریتم موتورهای جست وجوی مختلف ساخته شده اند.


این مطلب مربوط به موضوع جستجوی اینترنتی میباشد.
(مربوط به موضوع جستجوی اینترنتی)

آشنایی با عملکرد موتورهای جستجوی اینترنتی ( Internet Search Engines )

 


نکته جالبی که در مورد اینترنت و بارزترین جزء لاینفک آن یعنی شکبه جهانی وب مطرح می باشد این است که هزاران میلیون صفحه در شبکه منتظرند تا اطلاعاتی را در سوژه های مختلف به کاربران در سراسر دنیا ارائه دهند. از سوی دیگر هزاران و شاید میلیون ها صفحه وب نیز وجود داردکه به علت نام گذاری نادرست و نا مشخص توسط نویسنده آنها روی سرورها بلا استفاده باقی می مانند.در حال حاضر تمام کاربران اینترنت برای پیدا کردن مقاله ، مطلب ، تصویر ومواردی از این قبیل از جستجوگرهای اینترنتی ( Internet Search Engines ) استفاده می کنید.

جستجوگرها سایت های خاصی در وب می باشند که به منظور یافتن اطلاعات ذخیره شده در سایت های دیگر ، به مردم سرویس می دهند. با اینکه جستجو گر های اینترنتی هر کدام به روش های مختلفی کار می کنند اما تمام آنها سه وظیفه اصلی دارند که به شرح زیر می باشند:

● موتورهای جستجو بر مبنای یک سری کلمات خاص به عملیات جستجو و همچنین انتخاب قسمت هایی از اینترنت اقدام می نمایند.

● فهرستی از کلمات یافته شده را به همراه محل آنها نگهداری می کنند.

● همچنین به کاربران اینترنتی اجازه می دهند تا کلمات و یا مشتقاتی از آن کلمات یافته شده را جستجو کنند.

این موتورهای جستجوگر چند صد میلیون صفحه وب و اسناد مختلف را در داخل فهرست خود نگهداری می کنند همچنین در یک روز به بیش از ده ها میلیون درخواست پاسخ می دهند. در این مقاله قصد داریم تا شما را با نحوه کار موتورهای جستجوگر آشنا سازیم و خواهید دید که چگونه این موتورها قسمت های مختلفی را به صورت منظم کنار هم قرار می دهند تا به اطلاعات مورد نیازتان دست یابید.پس با آموزش این مقاله در سایت سرزمین دانلود با ما همراه باشید:

● جستجو در اینترنت:
قبل از اینکه شبکه وب به عنوان بارز ترین قسمت اینترنت و به صورت امروزی مطرح باشد برای یافتن اطلاعات در شبکه اینترنت ، چندین موتور جستجوگر وجود داشت که از مهمترین آنها می توان به برنامه هایی مانند Gopher , Archie اشاره کرد. این برنامه ها فایل های ذخیره شده در سرور های متصل به اینترنت را لیست می کردند که مقدار قابل توجهی از زمان دستیابی به برنامه ها و اسناد را کوتاه می کرد. در اواخر دهه 1980 از برنامه هایی مانند gopher , archie , veronica بیشتر استفاده می شد. اما امروزه اکثر کاربران اینترنتی جستجوی خود را در شبکه وب انجام می دهند در نتیجه ما نیز در این مقاله در مورد اینگونه موتورهای جستجو صحبت خواهیم کرد.

قبل از اینکه یک جستجوگر بتواند آدرس فایل و یا سند مورد نظر شما را اعلام نماید ابتدا باید لیستی از آنها را بیابد. موتورهای جستجوگر برای یافتن اطلاعات از بین صدها میلیون صفحه در وب موجود از روبات های نرم افزاری به نام اسپایدر ( Spider ) استفاده می کنند تا نتیجه یافت شده را به صورت لیست در آورد. اسپایدرها برای تهیه لیست کلمات ، می باید از تمامی صفحات دیدن کند و طی آن پروسه ای را به نام Web Crawling به انجام می رسانند.

اما سوال که در اینجا مطرح می گردد اینست که چگونه هر اسپایدر در شبکه وب شروع به گشتن زنی می کند؟

آنها از سرورهای کاربردی تر و صفحات متداول شروع می کنند و کلمات و لینک های سایت ها را برای شما فهرست می کند. این سیستم به سرعت در شبکه حرکت می کند و به سایر بخش های شبکه گسترش می یابد. جستجوگر Google به عنوان یکی از موتور های جستجوگر آکادمیک به حساب می آید.

سرگی برین (Sergey Brin ) و لارنس پیچ (Lawrence Page ) که گوگل را ایجاد کردنه اند می گویندآنها برای تهیه لیست اولیه خود از چندین اسپایدر ( معمولا 3 اسپایدر ) استفاده می کنند که هر یک از این اسپایدر ها همزمان با سیصد صفحه وب ارتباط برقرار می کند. برای رسیدن به آخرین درجه از کارایی ، چهار عدد اسپایدر می توانند تعداد چند صد صفحه وب را در یک ثانیه جستجو کنند. تمامی این کارها با سرعت و به منظور تهیه اطلاعات مورد نیاز اسپایدرها صورت می گیرند. اسپایدر گوگل در حین جستجو صفحه HTML دو نکته زیر را مورد توجه قرار می دهد:

● کلمات داخل صفحه

● محل پیدا شدن یک کلمه

امکان جستجو در بین کلمات مشابه به عملیات اسپایدرها سرعت بیشتری می بخشد و همچنین به کاربران اجازه می دهد تا به شیوه موثرتری به جستجو بپردازند به عنوان مثال برخی از اسپایدارها ردیفی از شامل صد لغت رایج موجود در تیترها ، سرتیترها ولینک ها وهمچنین هر یک از لغات موجود در بیست سطر نخست یک متن را در فهرست خود نگه می دارند.

سیستم های دیگر مانند AltaVista به روش دیگری عمل می کنند آنها هر یک از کلمات را به همراه حروف a ، the و an و حتی کلمات بی معنی موجود در یک صفحه را فهرست می کنند

Meta Ttags به طراحان و صاحبان صفحات وب اجازه می دهد تا برای تعریف و مشخص کردن محتویات صفحات خود از کلمات کلیدی که مرتبط با مطالب داخل آن صفحه است استفاده کنند .

به عنوان مثال شما می توانید صفحه ای که شامل مطالبی در زمینه نقاط تاریخی ایران است بسازید و در قسمت متا تگ آن از کلمات کلیدی مثل تخت جمشید ، پرسپولیس ، ارگ بم ، سی و سه پل و مواردی از این قبیل استفاده کنید در این صورت متا تگ ها ، ماشین های جستجوگر را در انتخاب معنای صحیح لغات راهنمایی می کنند. اما متا تگ ها همیشه مورد اعتماد نیستند چرا که برخی از طراحان و صاحبان صفحات یک وب سایت با بی احتیاطی تگ هایی را وارد لیست خود می کنند که دارای موضوعات رایج و هیچ ارتباطی با متن صفحات وب ندارند برای جلوگیری از وقوع چنین حالتی ، اسپایدرها ارتباطی را بین متا تگ ها و متن صفحات بر قرار می سازند و همچنین تگ هایی را که ارتباطی با لغات درون صفحات ندارند را قبول نمی کنند.

به محض اینکه اسپایدرها کار جستجو و یافتن اطلاعات موجود در وب را به پایان می رسانند موتورهای جستجوگر باید اطلاعات را با روشی مناسب نگهداری کنند. در فرآیند جمع آوری اطلاعات برای نمایش به کاربر ، دو جزء کلیدی دخالت دارد:

● نگهداری اطلاعات.

● روش ایندکس یا فهرست کردن اطلاعات.

در ساده ترین حالت ممکن ، یک موتور جستجوگر می تواند کلمه وآدرس (URL) آن را نگهداری نماید. در واقع این حالت برای یک موتور جستجوگر محدودیت ایجاد می کند چرا که هیچ روشی برای جدا کردن کلمات اصلی از کلمات فرعی وجود نخواهد داشت و یا اینکه تشخیص دهد کلمه ای یک بار یا چندین بار در صفحه تکرار شده است به عبارت دیگر روش خاصی وجود ندارد تا لیستی که پس از جستجو نشان می دهد را بررسی و امتیاز بندی نماید.

برای رسیدن به نتایج بهتر ، بیشتر موتورهای جستجوگر بیش از یک لغت و آدرس را نگهداری می کنند. یک موتور جستجوگر تعداد دفعات تکرار لغات موجود در یک صفحه را ثبت می کند. همچنین لغات را با توجه به اولویت مکان آنها معین می کنند. جدا از اینکه قسمت هایی از اطلاعات جانبی توسط موتورهای مرورگر ذخیره می شوند ، دیتاها نیز برای اشغال فضای کمتر به صورت کد در می آیند. به عنوان مثال موتور جستجوی گوگل برای ذخیره سازی اطلاعات درجه بندی شده فضایی را به اندازه 2 بایت یعنی 16 بیت اختصاص می دهد که در این فضا اطلاعاتی نگهداری می کند.

ایندکس کردن یک هدف را دنبال می کند : دستیابی به اطلاعات در سریع ترین حالت ممکن.

برای ساخت یک فهرست ، یکی از روش های موثر ، روش ساخت Hash Table می باشد. در این روش فرمولی به کاربرده می شود که به کمک آن برای هر کلمه ای یک ارزش عددی در نظر گرفته می شود. فرمول مذکور به منظور توزیع متعادل اعداد پیش فرض به کار برده می شود. توزیع عددی کلمات کاملا با توزیع کلمات بر حسب حروف الفبا متفاوت است و این تنها کلید موفقیت جدول Hash می باشد.

در زبان انگلیسی ، حروف زیادی در ابتدای لغات استفاده می شوند در حالی که برخی دیگر کمتر. مثلا در فرهنگ لغات انگلیسی قسمت مربوط به حرف M قطورتر از حرف X می باشد. این نا برابری به این معنا می باشد که برای یافتن لغات متداول نسبت به یافتن لغاتی که به مراتب کاربرد کمتری دارند ، مدت زمان بیشتری باید صرف کرد. عملیاتHashing ( ترتیب بندی لغات براساس اعداد ) باعث ایجاد تعادل می گردد و سرعت جستجوی بخش های ورودی را کاهش می دهد. همچنین فهرست را از سیستم ورودی جدا می سازد. جدول Hash شامل اعداد مجزایی می باشد که هر یک از آنها به اطلاعات فعلی دلالت می کند و به موثرترین روشی ممکن ذخیره می شوند.

● جستجو:
جستجو در یک ایندکس بر اساس در خواستی می باشد که کاربر آن را به یک موتور جستجو ارسال می نماید. این درخواست می تواند بسیار ساده مانند یک کلمه باشد. اما اگر بخواهید در خواست کامل تری را به موتور جستجوگر بفرستید می باید از عملگرهای بولین (Boolean ) استفاده کنید تا بتوانید دامنه درخواست خود را توسعه دهید.

رایج ترین عملگرهای بولین عبارتند از :

● AND : توسط این عملگر می توانید چندین واژه را همزمان جستجو کنید البته به خاطر داشته باشید که برخی از موتورهای جستجوگر از عملگر + به جای AND نیز استفاده می کنند. با این عملگر نتیجه جستجو شامل همه کلماتی است که بین آنها این عملگر وجود دارد.

● OR : با تایپ این عملگر موتور جستجوگر تمام صفحاتی که حتی یکی از واژه ها را درون خود داشته باشد نمایش می دهد یعنی نتیجه شامل هر کدام از کلمات که باشد نمایش داده می شود.

● NOT : اگر بعد از عملگر NOT کلمه و یا واژه ای را تایپ کنید ، در این صورت موتور جستجوگر صفحاتی که دارای آن واژه باشد را نمایش نمی دهد البته به خاطر داشته باشید که در برخی از مرورگرها از علامت ( علامت منفی ) به جای عملگر NOT استفاده می شود.

● Quotation Marks : کلماتی که درون" " آورده می شوند ( به عنوان مثال "RAM" ) در حین جستجو به عنوان یک عبارت به حساب می آیند و جستجوگر در داخل سند دقیقا به دنبال عبارت داخل گیومه می گردد.


● آینده جستجوگرها:
جستجوهایی که به کمک عملگرهای بولین انجام می شوند به جستجوهای Literal یا لفظی موسوم اند. جستجوگرها دقیقا کلمه یا عباراتی را جستجو می کنند که در قسمت جستجو وارد شده است. اگر کلمه ای دارای معنای مختلفی باشد در نتیجه عملیات با مشکل مواجه می شود. به طور مثال لغت Bed را در نظر بگیرید. لغت مذکور دارای چندین معنای متفاوت می باشد از جمله محل خوابیدن ، محل کاشتن گل ها ، فضای ذخیره سازی یک واگن باری ، بستر رودخانه که ماهی ها در آنجا تخم می گذارند.

حال اگر به دنبال یکی از معانی Bed باشید و بخواهید صفحات وبی را جستجو کنید که دارای لغت Bed با معنای مورد نظرتان باشد و موتور جستجوگر صفحات دیگری را جستجو نکند در این قسمت باید از جستجوی لفظی استفاده کنید که در این نوع جستجو ، موتور صفحاتی را که دارای معانی ناخواسته باشد را کنار می گذارد.

در حال حاضر افراد زیادی برای رسیدن به نتایج بهتر در زمینه کارایی مرورگرها مشغول به فعالیت می باشند اما عده ای نیز در زمینهNatural Language Queries فعالیت می کنند.در روش Natural Language به راحتی می توانید در خواست خود را بدون نیاز به عملگرهای بولین و یا واژه های پیچیده جستجو کنید. سایت Askjeeves.com یکی از علمی ترین سایت ها می باشد که در خواست شما را به صورت کلمات کلیدی تجزیه می کند و سپس آنها را در سایت هایی که بوجود آورده به کار می برد.با روند رو به رشد جستجو گرهای اینترنتی در آینده ای نزدیک شاهد پیشرفت های بزرگی در این زمینه خواهیم بود.


این مطلب مربوط به موضوع جستجوی اینترنتی میباشد.
سرزمین دانلود، مرجع دانلود و آموزش نرم افزار

سرزمین دانلود را دنبال کنید !

عضویت در خبرنامه سرزمین دانلود

با وارد کردن ایمیل خود و سپس تایید آن، جدیدترین مطالب و نرم افزار ها برای شما ارسال می شود:



------------------------------------------