|
|
|
جست وجوگري بهتر از
گوگل
|
|
|
سيداحمد لواساني اينترنت بدون امكان جست وجو، بسياري از مفهوم و كاربرد امروزي خود رااز دست مي دهد. ميزان توجه و نياز به جست وجو را مي توان در اين واقعيت ديد كه سايت هاي جست وجوگر جزو پرطرفدارترين سايت هاي اينترنتي هستند. با اين حال معمولاً همه كاربران هنگام استفاده از جست وجوگرها احساس مي كنند كه نتايج دلخواه آنها نيست. علت نيز به ساختار كلي اينترنت برمي گردد كه داراي چنين ساختاري است. مطلب زير كه توسط خبرگزاري آسوشيتدپرس جمع آوري شده است، مروري است بر حركتهايي كه براي بهينه كردن جست وجو در اينترنت در حال انجام است. با وجود تمام محاسني كه جست وجوگرهاي اينترنتي دارند، ولي يك ايراد نسبتاً بزرگ هم دارند. معمولاً وقتي موضوعي را جست وجو مي كنيم، اطلاعات خيلي زيادي دريافت مي كنيم و معمولاً درصد بسيار زيادي از اطلاعاتي كه ارائه مي شود ربطي به موضوعي كه به دنبال آن هستيم ندارد. نرم افزارهايي درحال ظهور است كه نتايج جست وجو را بررسي كرده و به صورت خودكار آنها را دسته بندي كرده و به صورتي به كاربر ارائه مي كند كه با يك نگاه مي توان حجم اطلاعات بيشتري در مقايسه با روش رايج ارائه متني نتايج جست وجوها دريافت كرد. يكي از چنين نرم افزارهايي شركت Vivisimo است كه نتايج جست وجو را دسته بندي كرده و به كاربر ارائه مي دهد. به گفته رائول والدزپرز، يكي ازپايه گذاران اين شركت: ما حياتي مجدد به روشهاي موجود براي جست وجو مي بخشيم. اين شركت كه در پيتسبورگ مستقر است، توانسته نرم افزار ويويسيمو را به شركتها و آژانسهاي اطلاعاتي بفروشد. در سايت Vivisimo.com نيز كاربران مي توانند به جست وجوي رايگان اطلاعات در اينترنت بپردازند. ولدزپرز، شركتش را اين گونه توصيف مي كند: اگر ما فرض كنيم كه اينترنت كتابفروشي بزرگي است كه همه كتابها به صورت نامرتب روي هم قرارگرفته اند، ويويسيمو مثل يك كتابدار فوق العاده سريع است كه مي تواند در يك لحظه كتابها را به صورت معني داري منظم كند. مي توان به اين روش به عنوان يك سيستم قرن بيست و يكمي نگاه كرد كه براي مقابله با حجم بسيار زياد اطلاعات طراحي شده است. نكته قابل توجه راجع به اين نرم افزار آن است كه برخلاف سيستم كتابخانه اي، اين نرم افزار اطلاعات را داخل دسته بندي هاي از قبل مشخص شده نمي ريزد. بلكه نرم افزار در هر موقعيت، بسته به شرايط و در نظر گرفتن تركيبي از پردازش هاي زباني و آماري، اين كار را انجام مي دهد. بدين ترتيب استفاده از اين روش به راحتي براي سايرزبانها نيز امكانپذير خواهد بود. نرم افزار ديگري نيز به نام Grokker از چنين روشي استفاده مي كند. اين نرم افزار نه تنها نتايج را به دسته بندي هاي مختلف تقسيم بندي مي كند، بلكه هر دسته بندي را به صورت يك دايره رنگي نشان مي دهد. در داخل هر دايره، زيرمجموعه هايي وجود دارند كه مي توان روي آنها كليك كرد و وارد حوزه مشخص تري از جست وجوها شد. ممكن است كاربران در برخورد اول با چنين نرم افزارهايي، چند لحظه اي طول بكشد تا به آن عادت كنند، ولي قدرت اين ساختارغيرخطي به سرعت برايش مشخص مي شود. يكي از نكاتي كه در جست وجو درسايت هايي مثل گوگل به چشم مي خورد الگوريتم رده بندي سايتها است. يكي از مواردي كه در رده بندي ها اهميت زيادي دارد تعداد linkهايي است كه ساير سايت ها به يك سايت بخصوصي داده اند و يكي ازروشهايي كه يك سايت بخصوص مي تواند يك جست وجوگر را فريب داده و رده بندي خود را به صورت مصنوعي افزايش دهد، همين استفاده از link دادن هاي مصنوعي بين سايت ها و يا حتي داخل خود سايت است. براي مشخص شدن ايراداتي كه سايت هاي جست وجوگري مثل گوگل دارند و قابليت هايي كه سايت هاي جديد ارائه مي كنند، مثالي مي زنيم؛ فرض كنيد كه يك توريست خارجي قصد مسافرت به ايران را داشته باشد و قبل از عزيمت بخواهد كه اطلاعاتي راجع به پرسپوليس داشته باشد. خب، وارد گوگل مي شود و به عنوان كلمه كليدي perspolis را وارد مي كند و انتظار دارد كه اكثر اطلاعات ارائه شده درارتباط نزديك با موضوع مورد نظرش باشند. با اين حال نگاهي به چند صفحه اول نتايجي كه گوگل ارائه مي كند، نشان مي دهد كه اكثر اطلاعات ارائه شده مربوطه به تيم پرسپوليس است و در هر صفحه حداكثر يك سايت هم مرتبط با اثر باستاني پرسپوليس ارائه شده است. اين همان اشكال بزرگ در چنين جست وجوگرهايي است. اين جست وجوگرها به محبوبيت يك سايت (ميزان مراجعه، ميزان linkها و…) نگاه مي كنند و براساس آن به رده بندي مي پردازند. با اين حال جست وجوي چنين موضوعي در سايت هايي كه مورد بحث هستند، دسته بندي هايي را ارائه مي كند كه طبيعتاً يكشان تيم پرسپوليس، يكي اثر باستاني و موارد ديگر خواهند بود. بنابراين كاربر با يك نگاه مي تواند به دسته بندي مورد نظر خود برسد. اطلاعاتي كه در سايت هايي مثل گوگل درميان هزاران سايت ديگر مدفون شده اند. گراكسيس، شركت پانزده نفره اي است كه نرم افزار گراكر را سال گذشته عرضه كرد و نسخه دوم را هم در ماه پيش ارائه كرده است. اين شركت قصد جايگزيني گوگل را ندارد. گراكر خود به تنهايي يك جست وجوگر نيست، اين نرم افزار تنها نتايج حاصله از يك جست وجوگر را بررسي كرده و نمايش مي دهد. به عنوان مثال ، نسخه جديد گراكر مي تواند فايل هاي موجود روي كامپيوتر را بررسي و دسته بندي كند. اين دسته بندي براساس محتويات آنها خواهد بود و نه پوشه هايي كه اين فايل درآن قرار گرفته اند. اين نرم افزار از نتايج شش جست وجوگر استفاده مي كند: Yahoo، MSN، Altavista، Wisenut، Teoma و FAST. در ماههاي آينده، گراكر قصد دارد نرم افزارهاي جانبي توليد كند كه بتواند با بانكهاي اطلاعاتي ديگر نيز همخواني داشته باشد. از آن جمله مي توان به كتابخانه كنگره، سايت هاي خبري و خود گوگل. آر. جي پيتمن، مديرعامل شركت كاليفرنيايي گراكسيز مي گويد كه ما حالا قابليت آن را داريم كه همه چيز را دسته بندي كنيم. نرم افزار اين شركت روي ويندوز ۲۰۰۰ يا XP اجرا مي شود. پيتمن اضافه مي كند كه گوگل و گراكسيز در حال بررسي بازار هستند و محصول را براي محك زدن آن عرضه مي كنند. بعد از بررسي نتايج است كه ممكن است محصولي كامل و به صورت مشترك عرضه كنند. سخنگوي گوگل در مورد اين همكاري حاضر به ارائه توضيح نشد. اين شركت همچنين راجع به استفاده خود سايت گوگل از محصولاتي مثل ويويسيمو و يا گروكر براي دسته بندي اطلاعات در هنگام جست وجو توضيحي ارائه نكرد. يكي ديگر از كارهايي كه دراين زمينه انجام شده است ، توسط شركت تاچ گراف ارائه شده است . اين شركت نيز نرم افزار جانبي ارائه كرده است كه linkها را به صورت يك تار عنكبوتي مرتبط با هم نشان مي دهد، روشي كه براي ساختار وب بسيار مناسب است. علاوه بر بسياري شركتها كه از چنين ابزارهايي در بانكهاي اطلاعاتي داخلي خود استفاده مي كنند، برخي سايت هاي جست وجو گر نيز درحال امتحان روشهايي وراي ارائه سنتي اطلاعات هستند. مثلاً Teoma، كه بخشي از شركت Ask jeeves است ، راههايي را براي محدودكردن جست وجو در اينترنت فراهم مي آورد. به عنوان مثال، اگر شما به دنبال web مي گرديد، مي توانيد بدون اضافه كردن كلمه كليدي جديدي، مشخص كنيد كه منظورتان تارعنكبوت است ويا شبكه جهاني اينترنت. پيتمن ، مديرعامل گروكر، معتقد است كه جست وجو دراينترنت مي بايست پيشرفت كند. نمي شود كه به اميد گوگل بود كه مشتي اطلاعات را تحويل ما بدهد. كاربران انتظار پيشرفت ونتايج بهتر دارند.
|
|
|
|
|
|
پرسش و پاسخ
|
|
|
|
|
Botت ها و Agentها چه هستند؟
بطور مختصر bot نرم افزاري است كه درميان انبوه داده ها، اطلاعات موردنظر را استخراج مي كند. botمختصرشده كلمه robot است. كلمه robot خود از زبان چك گرفته شده است كه به معني كار مي باشد. ايده روبات به عنوان يك ماشين انسان نما، اولين بار به وسيله كارل كاپك در نمايشنامه اي درسال ۱۹۲۱ مطرح شد. آيزاك آسيموف با نوشتن سلسله داستانهاي علمي تخيلي دراين زمينه، آن را جهاني كرد.
ولي روي وب، روباتها معني جديدي پيدا كرده اند: از آنجايي كه همه سرورهاي وب به هم متصل هستند، نرم افزارهاي bot راه مناسبي براي جست وجوي اطلاعات روي وب مي باشند. براي مثال موتورهاي جست وجو گر روباتها را مأمور مي كنند تا از يك سرور به سرور ديگر بخزند (crawl) و ليست عظيمي از آدرسهاي اينترنتي را كه قلب هرموتور جست وجوگري است را تهيه كنند.
در فرهنگ اينترنت كلمه botبا agent ( به معني مأمور) مترادف است ونشاندهنده آن است كه اين نوع نرم افزارها را به مأموريتي مي فرستند تا اطلاعاتي را پيدا كرده و گزارش بدهد. بعضي botها فقط در محل خاصي فعاليت مي كنند، مثلاً نرم افزار botموجود در Microsoft Frontpage تنها مسؤول اتوماسيون صفحه وب طراحي شده در آن محيط است.
Botها پتانسيل زياد دراستخراج داده ها دارند. از آنجايي كه استخراج داده مستلزم يك سلسله از جست وجوها است ، استفاده از botها دراين زمينه ، صرفه جويي زيادي به همراه خواهد داشت. آنها هنگام جست وجو اصرار زيادي مي ورزند (با مراجعات مكرر) و حتي مي توانند با گذشت زمان الگوها و روشهاي جديد جست وجو را ياد بگيرند. اينگونه botهاي باهوش يا agentتهاي هوشمند توانايي تصميم گيري براساس تجربه هاي گذشته خود را پيدا مي كنند.
Botها به وسيله اينترنت اختراع نشده اند. نرم افزارهاي روباتيك اولين بار به شكل نرم افزار شبيه سازي Eliza ظهور كرد. اليزا يكي از اولين انواع نمايشي هوش مصنوعي براي آشنايي عموم با فرآيند آن بود. اليزا يك برنامه كامپيوتري است كه مي تواند با انسان وارد مكالمه شود. اليزا از كاربر سؤال مي پرسد وبا استفاده از جواب وي، سؤال بعدي را مي سازد. هوش مصنوعي يكي از علوم پيشرفته كامپيوتري است كه هدف آن طراحي نرم افزاري با توانايي پردازش اطلاعات بدون نياز به هدايت انسان است.
گاهي صاحبان وب سايت ها به botها به ديد يك مزاحم نگاه مي كنند. چرا كه مثلاً يك روبات عنكبوتي ممكن است اطلاعاتي را عمومي كند كه صاحب سايت ترجيح مي داده فعلاً مخفي بماند. دليل ديگر سوءشهرت botها آن است كه گاهي يك bot با جست وجوي مكررش يد يك وب سايت، سرعت آن را كند مي كند. براي همين طراحان botها، مخصوصاً آنهايي كه براي موتورهاي جست وجو به جمع آوري اطلاعات مي پردازند، استانداردهايي براي اين كار پيش بيني كرده اند.
agentها اولين بار به وسيله ارتش آمريكا و براي جست وجو ميان انبوه اطلاعات موجود در پايگاههاي داده ها استفاده شده است. بعداز آن، مثل خود اينترنت، به صورت آكادميك در دانشگاهها مورداستفاده قرار گرفت وبالاخره در تجارت واستخراج اطلاعات اقتصادي وبورس مورداستفاده قرار گرفت. دراينترنت نيز اولين استفاده از botها توسط ارتش آمريكا صورت گرفت.
خوانندگان محترم مي توانند سؤالات خود را در زمينه هاي مختلف كامپيوتري واينترنتي به آدرس iranfriday@iraninstitute.org ارسال كرده وجواب خود را درهمين ستون، روزهاي يكشنبه ويا جمعه دنبال كنند.
|
|
|
|
|
|