آبجی
25th November 2009, 02:56 PM
موتورهاي جستجو به دو دسته کلي تقسيم ميشوند. موتورهاي جستجوي پيمايشي و فهرستهاي تکميل دستي. هر کدام از آنها براي تکميل فهرست خود از روشهاي متفاوتي استفاده ميکنند که هر يک را بطور جداگانه مورد بررسي قرار ميدهيم:
موتورهاي جستجوي پيمايشي يا Crawler-Based Search Enginesموتورهاي جستجوي پيمايشي مانند Google ليست خود را بصورت خودکار تشکيل ميدهند. آنها وب را پيمايش کرده و سپس کاربران آنچه را که ميخواهند از ميانشان جستجو ميکنند. اگر شما در صفحه وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آنها را به خودي خود مييابند و سپس اين تغييرات ليست خواهند شد. عنوان، متن و ديگر عناصر صفحه، همگي شامل اين ليست خواهند بود.
فهرستهاي تکميل دستي يا Human-Powered Directoriesيک فهرست تکميل دستي مانند يک Open Directory مثل Dmoz وابسته به کاربراني است که آنرا تکميل ميکنند. شما صفحه مورد نظر را به همراه توضيحي مختصر در فهرست ثبت ميکنيد يا اين کار توسط ويراستارهايي که براي آن فهرست در نظر گرفته شده انجام ميشود.عمل جستجو در اين حالت تنها بر روي توضيحات ثبت شده صورت ميگيرد و در صورت تغيير روي صفحه وب، روي فهرست تغييري بوجود نخواهد آورد. چيزهايي که براي بهبود يک فهرستبندي در يک موتور جستجو مفيد هستند، تاثيري بر بهبود فهرستبندي يک دايرکتوري ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه دادهاي با محتواي خوب شانس بيشتري به نسبت يک سايت با پايگاه داده ضعيف دارد.
موتورهاي جستجوي ترکيبي با نتايج مختلطبه موتورهايي اطلاق ميشود که هر دو حالت را در کنار هم نمايش ميدهند. غالبا، يک موتور جستوي ترکيبي در صورت نمايش نتيجه جستجو از هر يک از دستههاي فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار ميدهد. مثلا موتور جستجوي MSN بيشتر نتايج حاصل از فهرستهاي تکميل دستي را نشان ميدهد اما در کنار آن نيم نگاهي هم به نتايج حاصل از جستجوي پيمايشي دارد.
بررسي يک موتور جستجوي پيمايشيموتورهاي جستجوي پيمايشي شامل سه عنصر اصلي هستند. اولي در اصطلاح عنکبوت (Spider) است که پيمايشگر (Crawler) هم ناميده ميشود. پيمايشگر همينکه به يک صفحه ميرسد، آنرا ميخواند و سپس لينکهاي آن به صفحات ديگر را دنبال مينمايد. اين چيزيست که براي يک سايت پيمايششده (Crawled) اتفاق افتاده است. پيمايشگر با يک روال منظم، مثلا يک يا دو بار در ماه به سايت مراجعه ميکند تا تغييرات موجود در آنرا بيابد. هر چيزي که پيمايشگر بيابد به عنصر دوم يک موتور جستجو يعني فهرست انتقال پيدا مي کند. فهرست اغلب به کاتالوگي بزرگ اطلاق ميشود که شامل ليستي از آنچه است که پيمايشگر يافته است. مانند کتاب عظيمي که فهرستي را از آنچه که پيمايشگرها از صفحات وب يافتهاند، شامل شده است. هرگاه سايتي دچار تغيير شود، اين فهرست نيز به روز خواهد شد.از زماني که تغييري در صفحهاي از سايت ايجاد شده تا هنگاميکه آن تغيير در فهرست موتور جستجو ثبت شود مدت زماني طول خواهد کشيد. پس ممکن است که يک سايت پيمايششده باشد اما فهرستشده نباشد. تا زمانيکه اين فهرستبندي براي آن تغيير ثبت نشده باشد، نميتوان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرمافزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامهاي اطلاق ميشود که بصورت هوشمندانهاي دادههاي موجود در فهرست را دستهبندي کرده و آنها را بر اساس اهميت طبقهبندي ميکند تا نتيجه جستجو با کلمههاي درخواست شده هر چه بيشتر منطبق و مربوط باشد.
چگونه موتورهاي جستجو صفحات وب را رتبهبندي ميکنند؟وقتي شما از موتورهاي جستجوي پيمايشي چيزي را براي جستجو درخواست مينماييد، تقريبا بلافاصله اين جستجو از ميان ميليونها صفحه صورت گرفته و مرتب ميشود بطوريکه مربوطترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتري را احراز نمايد.البته بايد در نظر داشته باشيد که موتورهاي جستجو همواره نتايج درستي را به شما ارائه نخواهند داد و مسلما صفحات نامربوطي را هم در نتيجه جستجو دريافت ميکنيد و گاهي اوقات مجبور هستيد که جستجوي دقيقتري را براي آنچه که ميخواهيد انجام دهيد اما موتورهاي جستجو کار حيرتانگيز ديگري نيز انجام ميدهند.فرض کنيد که شما به يک کتابدار مراجعه مي کنيد و از وي درباره «سفر» کتابي مي خواهيد. او براي اينکه جواب درستي به شما بدهد و کتاب مفيدي را به شما ارائه نمايد با پرسيدن سوؤالاتي از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهاي جستجو همچنين توانايي ندارند اما به نوعي آنها را شبيهسازي ميکنند.
پس موتورهاي جستجوي پيمايشي چگونه به جواب مورد نظرتان از ميان ميليونها صفحه وب ميرسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده ميشود. الگوريتمهاي مورد نظر براي هر موتور جستجويي خاص و تقريبا سري هستند اما به هر حال از قوانين زير پيروي ميکنند:
مکان و تکراريکي از قوانين اصلي در الگوريتمهاي رتبهبندي موقعيت و تعداد تکرار کلماتي است که در صفحه مورد استفاده قرار گرفتهاند که بطور خلاصه روش مکان-تکرار (Location/Frequency Methode) ناميده ميشود.کتابدار مذکور را به خاطر ميآورِد؟ لازم است که او کتابهاي در رابطه با کلمه «سفر» را طبق درخواست شما بيابد. او در وحله اول احساس ميکند که شما به دنبال کتابهايي هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهاي جستجو هم دقيقا همان کار را انجام ميدهند. آنها هم صفحاتي را برايتان ليست ميکنند که در برچسب Title موجود در کد HTML حاوي کلمه «سفر» باشند.موتورهاي جستجو همچنين به دنبال کلمه مورد نظر در بالاي صفحات و يا در ابتداي پاراگرافها هستند.
آنها فرض ميکنند که صفحاتي که حاوي آن کلمه در بالاي خود و يا در ابتداي پاراگرافها و عناوين باشند به نتيجه مورد نظر شما مربوطتر هستند.تکرار يا Frequency عامل بزرگ و مهم ديگري است که موتورهاي جستجو از طريق آن صفحات مربوط را شناسايي مينمايند. موتورهاي جستجو صفحات را تجزيه کرده و با توجه به تکرار کلمهاي در صفحه متوجه ميشوند که آن کلمه نسبت به ديگر کلمات اهميت بيشتري در آن صفحه دارد و آن صفحه را در درجه بالاتري نسبت به صفحات ديگر قرار ميدهند.
موتورهاي جستجوي پيمايشي يا Crawler-Based Search Enginesموتورهاي جستجوي پيمايشي مانند Google ليست خود را بصورت خودکار تشکيل ميدهند. آنها وب را پيمايش کرده و سپس کاربران آنچه را که ميخواهند از ميانشان جستجو ميکنند. اگر شما در صفحه وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آنها را به خودي خود مييابند و سپس اين تغييرات ليست خواهند شد. عنوان، متن و ديگر عناصر صفحه، همگي شامل اين ليست خواهند بود.
فهرستهاي تکميل دستي يا Human-Powered Directoriesيک فهرست تکميل دستي مانند يک Open Directory مثل Dmoz وابسته به کاربراني است که آنرا تکميل ميکنند. شما صفحه مورد نظر را به همراه توضيحي مختصر در فهرست ثبت ميکنيد يا اين کار توسط ويراستارهايي که براي آن فهرست در نظر گرفته شده انجام ميشود.عمل جستجو در اين حالت تنها بر روي توضيحات ثبت شده صورت ميگيرد و در صورت تغيير روي صفحه وب، روي فهرست تغييري بوجود نخواهد آورد. چيزهايي که براي بهبود يک فهرستبندي در يک موتور جستجو مفيد هستند، تاثيري بر بهبود فهرستبندي يک دايرکتوري ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه دادهاي با محتواي خوب شانس بيشتري به نسبت يک سايت با پايگاه داده ضعيف دارد.
موتورهاي جستجوي ترکيبي با نتايج مختلطبه موتورهايي اطلاق ميشود که هر دو حالت را در کنار هم نمايش ميدهند. غالبا، يک موتور جستوي ترکيبي در صورت نمايش نتيجه جستجو از هر يک از دستههاي فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار ميدهد. مثلا موتور جستجوي MSN بيشتر نتايج حاصل از فهرستهاي تکميل دستي را نشان ميدهد اما در کنار آن نيم نگاهي هم به نتايج حاصل از جستجوي پيمايشي دارد.
بررسي يک موتور جستجوي پيمايشيموتورهاي جستجوي پيمايشي شامل سه عنصر اصلي هستند. اولي در اصطلاح عنکبوت (Spider) است که پيمايشگر (Crawler) هم ناميده ميشود. پيمايشگر همينکه به يک صفحه ميرسد، آنرا ميخواند و سپس لينکهاي آن به صفحات ديگر را دنبال مينمايد. اين چيزيست که براي يک سايت پيمايششده (Crawled) اتفاق افتاده است. پيمايشگر با يک روال منظم، مثلا يک يا دو بار در ماه به سايت مراجعه ميکند تا تغييرات موجود در آنرا بيابد. هر چيزي که پيمايشگر بيابد به عنصر دوم يک موتور جستجو يعني فهرست انتقال پيدا مي کند. فهرست اغلب به کاتالوگي بزرگ اطلاق ميشود که شامل ليستي از آنچه است که پيمايشگر يافته است. مانند کتاب عظيمي که فهرستي را از آنچه که پيمايشگرها از صفحات وب يافتهاند، شامل شده است. هرگاه سايتي دچار تغيير شود، اين فهرست نيز به روز خواهد شد.از زماني که تغييري در صفحهاي از سايت ايجاد شده تا هنگاميکه آن تغيير در فهرست موتور جستجو ثبت شود مدت زماني طول خواهد کشيد. پس ممکن است که يک سايت پيمايششده باشد اما فهرستشده نباشد. تا زمانيکه اين فهرستبندي براي آن تغيير ثبت نشده باشد، نميتوان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرمافزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامهاي اطلاق ميشود که بصورت هوشمندانهاي دادههاي موجود در فهرست را دستهبندي کرده و آنها را بر اساس اهميت طبقهبندي ميکند تا نتيجه جستجو با کلمههاي درخواست شده هر چه بيشتر منطبق و مربوط باشد.
چگونه موتورهاي جستجو صفحات وب را رتبهبندي ميکنند؟وقتي شما از موتورهاي جستجوي پيمايشي چيزي را براي جستجو درخواست مينماييد، تقريبا بلافاصله اين جستجو از ميان ميليونها صفحه صورت گرفته و مرتب ميشود بطوريکه مربوطترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتري را احراز نمايد.البته بايد در نظر داشته باشيد که موتورهاي جستجو همواره نتايج درستي را به شما ارائه نخواهند داد و مسلما صفحات نامربوطي را هم در نتيجه جستجو دريافت ميکنيد و گاهي اوقات مجبور هستيد که جستجوي دقيقتري را براي آنچه که ميخواهيد انجام دهيد اما موتورهاي جستجو کار حيرتانگيز ديگري نيز انجام ميدهند.فرض کنيد که شما به يک کتابدار مراجعه مي کنيد و از وي درباره «سفر» کتابي مي خواهيد. او براي اينکه جواب درستي به شما بدهد و کتاب مفيدي را به شما ارائه نمايد با پرسيدن سوؤالاتي از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهاي جستجو همچنين توانايي ندارند اما به نوعي آنها را شبيهسازي ميکنند.
پس موتورهاي جستجوي پيمايشي چگونه به جواب مورد نظرتان از ميان ميليونها صفحه وب ميرسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده ميشود. الگوريتمهاي مورد نظر براي هر موتور جستجويي خاص و تقريبا سري هستند اما به هر حال از قوانين زير پيروي ميکنند:
مکان و تکراريکي از قوانين اصلي در الگوريتمهاي رتبهبندي موقعيت و تعداد تکرار کلماتي است که در صفحه مورد استفاده قرار گرفتهاند که بطور خلاصه روش مکان-تکرار (Location/Frequency Methode) ناميده ميشود.کتابدار مذکور را به خاطر ميآورِد؟ لازم است که او کتابهاي در رابطه با کلمه «سفر» را طبق درخواست شما بيابد. او در وحله اول احساس ميکند که شما به دنبال کتابهايي هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهاي جستجو هم دقيقا همان کار را انجام ميدهند. آنها هم صفحاتي را برايتان ليست ميکنند که در برچسب Title موجود در کد HTML حاوي کلمه «سفر» باشند.موتورهاي جستجو همچنين به دنبال کلمه مورد نظر در بالاي صفحات و يا در ابتداي پاراگرافها هستند.
آنها فرض ميکنند که صفحاتي که حاوي آن کلمه در بالاي خود و يا در ابتداي پاراگرافها و عناوين باشند به نتيجه مورد نظر شما مربوطتر هستند.تکرار يا Frequency عامل بزرگ و مهم ديگري است که موتورهاي جستجو از طريق آن صفحات مربوط را شناسايي مينمايند. موتورهاي جستجو صفحات را تجزيه کرده و با توجه به تکرار کلمهاي در صفحه متوجه ميشوند که آن کلمه نسبت به ديگر کلمات اهميت بيشتري در آن صفحه دارد و آن صفحه را در درجه بالاتري نسبت به صفحات ديگر قرار ميدهند.