دسته بندی | فنی و مهندسی |
فرمت فایل | doc |
حجم فایل | 47 کیلو بایت |
تعداد صفحات فایل | 23 |
مقاله ساپورت بازیابی اطلاعات درمورد ساخت و استفاده آنتولوژی در 23 صفحه ورد قابل ویرایش
ساپورت بازیابی اطلاعات در مورد استفاده وساخت آنتولوژی (antology)
چکیده:
بازیابی اطلاعات میتواند به ساخت آنتولوژیها و کاربرد مؤثر و مفید آنها، کمک کند. ما از استخراج واژة اصلی مبتنی بر ترکیب و تجانس (Collocation)، جهت ارائه مفاهیم جدید، استفاده و در مورد ارائة ارتباط وسیع جهت اتوماتیک سازی جمعیت آنتولوژی با مثال، مطالعه میکنیم. ما، متدهای خود را در تنظیم پروژة کتابخانة دیجیتال، با استفاده از متدولوژی ارزیابی اطلاعات، ارزیابی میکنیم. در یک تنظیم مشابه، در مورد متدهای بازیابی مطالعه میکنیم که ساپورت جهتیابی ارائه شده توسط روابط معنایی و لغوی موجود در اغلب آنتولوژیها را جهت کمک به کاربران در بررسی آنتولوژی تکمیل میکنند.
مقدمه:
متدهای جستجو، جهت یابی و سازماندهی اطلاعات اینترنت رایج امروز، دهههای تحقیق دوره بازیابی اطلاعات را پایه و مبنا قرار میدهند. این متدها مبنی بر قوانین آماری کنترل کنندة استفاده انسان از زبان، نه تنها در بازیابی سند و مدرک، بلکه در امورغنیتر به لحاظ معنایی مثل پاسخگویی به پرسش، مورد استفاده قرار میگیرند. یک شکل Semantic Web این است که بسیار شبیه به Web است که ما امروزه میشناسیم و انتظار داریم که اسناد مدارک، سرشار از منافع قابل فهم باشند. این تفسیرها را در مورد اسناد وعبارات قابل توجیهی که در جستجوی معانی مضمون اسناد ومدارک هستند، ارائه خواهند داد. ما توضیح میدهیم که صورتهای صرفی IR چگونه میتوانند در این امر، با کمک آرشیتکتهای آنتولوژی غیرمعمولی، مؤثر باشند. تکنیکهای IR میتوانند به تعریف، تشخیص و بررسی ثبات و تداوم آنتولوژی کمک کنند. هشت مرحله میتوانند در پروسه ایجاد آنتولوژی متمایز شوند.
1- تعیین محدودة آنتولوژی
2- توجه به استفادة مجدد از قسمتهای مربوط به آنتولوژی موجود
3- بر شماری و ذکر کلیة مفاهیمی که میخواهید
4- تعریف و تشخیص تاکونومی این مفاهیم
5- تعریف و تشخیص ویژگیهای مفاهیم
6- تعریف و تشخیص جنبههایی از مفاهیم مثل اصول و ارزشهای مورد نیاز وغیره
7- تعریف و تشخیص نمونهها
8- بررسی ثبات و تداوم آنتولوژی
ما، از میان این مراحل، مراحل 3 و7 را با تکنیکهای مبتنی بر IR بررسی کرده و معتقدیم که این مراحل میتوانند به طور مفیدی با استفاده از تکنولوژی بازیابی قابل دسترس امروزی، انجام شوند. مرحلة 4 برای اتوماتیک سازی، مناسب است، در عین حال، مسئله حلشدهای به شمار نمی رود و مرحله 8 در مورد متدهای استدلال سمبولیک به گونهای که مثلاً در PACER و FACT اجرا میشوند، بهترین گزینه است. تکنیکهای IR ، علاوه بر اینکه جهت کمک به سازندگان آنتولوژی مورد استفاده قرار میگیرند، میتوانند در جستجو، مرورگری و ارائه موارد غیرمترقبه نیز به کاربران کمک کنند. مردم تمایل دارند که از Semantic Web شرکتها جهت جستجوی اسناد و مدارک، بلکه جهت جستجوی اطلاعاتی در مورد روابط معنایی خاص، مثلاً در تنظیم کتابخانه های دیجیتال، استفاده کنند. بنابراین، روشهایی را جهت «بازیابی در یک سلسله مراتب مفهومی» ارائه میدهیم، که در آنها به جستجوی واقعی هماهنگی به نحوییکه توسط اغلب ابزارهای جهتیابی و ویراستارهای آنتولوژی ارائه میشود. ممکن است مناسب و کافی نباشد. پیشرفتهای گذشته، با ایجاد آلگوریتمهای بازیابی سند و مدرک مفید امروزی جهت ایجاد و بهکارگیری زیرساختار Semantic web، مستقیماً منجر به ایجاد پیشرفتهایی در آینده میشوند. اما دلیل متدولوژیکی بیشتری برای نزدیک تر که من اقدامات Semantic web در IR به هم داریم، جامعه IR بر اهمیت ارزیابی، تأکید کرده است. با ظهور کنفرانسهای بازیافت متن (IRC)، ارزیابی آزمایشی امور مربوطه به بازیابی، به پیشرفت چشمگیری رسیده که منجر به پیشرفت سریع در امور ارزیابی شده، شده است. منافع مشابهی با اقدامات ارزیابی مربوط به بازیایب و اقدامات مربوط به امور پردازش زبان غنیتر به لحاظ معنایی، وجود دارند. جامعه Semantic web، از تأکید شدیدتر بر ارزیابی و اموری که میتوانند ارزیابی شوند، سود میبرد. با خوردن غذای سگ خود، ارزیابی تجربی در مورد کلیه امور مورد بررسی در این مقاله انجام میدهیم.
بخش 2، تنظیمی را بررسی میکند که کلیة امور در آن رخ میدهند. پروژه Language Links و (Lolali )Logic ، به هدف فراهم آوری امکان دستیابی مبتنی بر آنتولوژی به یک کتاب راهنمای الکترونیکی در فصل مشترک و واسط زبانشناسی و منطق. در بخش 3، اتوماتیک سازی مرحله 3 و ارزیابی آنرا، توصیف میکنیم. در بخش 4، در مورد اتوماتیک سازی مرحله 7 و ارزیابی آن، صحبت میکنیم در بخش 5، جستجو در سلسله مراتب مفهوم LaLaLi را ارزیابی میکنیم. در بخش 6، نتیجه گیری میکنیم.
2- LoLaLi:
کارما، و آزمایشات مربوط به آن، در تنظیم پرونده کتابخانه دیجیتال، انجام شدند. پروژه LoLaLi ، متدهایی را جهت گسترش مزمت قدیمی کتابهای راهنمایی علمی با ابزارهای الکترونیکی ، ارائه میدهد. این ابزارها به خوانندگان کمک می کنند که به مضمون و محتوای کتاب راهنما دست یابند و این ابزارها، یافتن اطلاعات مربوطه را آسانتر میسازند.
طبق این مطالعه ، پروژه Handbook of Logic and Language در فصل 20 ص 1200 تمرکز دارد، مانند آزمایشات از منابع Latex استفاده کردیم. پروژه LoLaLi، از سلسله مراتب مهم word net جهت فراهم آوری امکان دستیابی به کتاب راهنما استفاده میکند. سلسله مراتب مفهوم، غالباً جهت جهت یابی از طریق ترکیبها و تجانسها اسناد در مدارک، مورد استفاده قرار میگیرند. آنها برای سازماندهی، نمایش دهی و ارائه اطلاعات متعدد،مفید واقع میشوند، و کاربرانی در جستجوی یک hypertext هستند و دارای الگوهای مرورگری سلسله مراتبی هستند، بهتر از کاربران دارای مسیرهای مرورگری متوالی، این کار را انجام میدهند. از اینرو، معماریهای مربوط به کتابهای راهنمای الکترونیکی باید الگوهای سلسله مراتبی را توجیه کننده یک سلسله مراتب مفهومی، روش مناسبی برای انجام این کار باشد. سلسله مراتب مهم LoLaLi با دست و توسط متخصصین این رشته که اخیراً حدود 600 مفهوم را جمع آوری، سازماندهی و مرتبط ساختهاند، ایجاد میشود و یک سرویس دهنده مبتنی بر secame ، اطلاعات سلسله مراتبی را ذخیره میکند که از طریق یک مجموعه از نوشتهجات و Protégé هدفمند، ویرایش و به روز رسانی میشود. ما در بخش 3، توضیح میدهیم که تکنیکهای اصلی IR، چگونه میتوانند به نویسندگان در تعیین و انتخاب مفاهیمی جهت تحول در سلسله مراتب، کمک کنند.
هر مفهوم در سلسله مراتب LoLaLi، با یک توضیح و تفسیر، حاشیه نویسی میشود که به طور خلاصه، آنرا توصیف میکنند. بعلاوه، مفاهیم دارای توصیفات طولانیتری هستند و آنها هم توسط نویسندگان، ارائه میشوند. سلسله مراتب، از یک مفهوم TOP با چهار شعبة اصلی در زیر آن تشکیل میشود : علم کامپیوتر، ریاضیات، زبانشناسی و فلسفه که توسط روابط زیر موضوع، فوق موضوع (Subtopic-supertopic) ، سازماندهی و تنظیم میشوند. این روابط، تایپ می شوند و تایپها عبارتند از “per-of”,”is-a” هستند. سلسله مراتب در LoLaLi، بیشتر یک نمودار است یا یک قالب دقیق و واضح شکل 1 . روابط غیرسلسله مراتبی نیز در نظر گرفته شده و به منظور اهداف جهت یابی مورد استفاده قرار میگیرند؛ این روابط مشتمل بر Sibing(همشیره و خواهر)، “معانی دیگر” و “مفاهیم مربوطه” می باشند. مفاهیم موجود در سلسله مراتب LoLaLi نیز به منابع خارجی ارتباط دارند. مورد اصلی در میان این روابطHand book of Logicians lenguage میباشد، مثالهای دیگر مشتمل بر روابط با ابزارهای مستقیم (on line) مربوطه میباشند روابط با Handbook ، مفهومی را در سلسله مراتب، به عنوان منبع وبخشهای مربوطه موجود در Hand bookرا به عنوان هدف، اتخاذ میکنند. در بخش 4، ما توضیحمیدهیم که چگونه تکنیکهای IR به بررسی این امر کمک میکنند.
در حال حاضر ، کابران میتوانند به شکل “آسانی”سلسله مراتب دست یابند از نتایج مطالعة یک کاربر، جهت یابی در راستای روابط معنایی فوق اینکه، با تسهیلات جستجوی کامل شده است که کاربران را مجاز میسازد مفاهیم موجود در سلسله مراتب را به شیوهای اختیاری، بیابند. دربخش 5، ما تکنیکهای اصلی IR را ارزیابی و توصیف
میکنیم.
5- جستجو در آنتولوژی
پس از بخش 3 و4 ، که هدفشان، ساپورت IR در مورد ساخت آنتولوژی بود، مسیر را عوض کرده وبه بررسی ساپورت کاربران نهایی می پردازیم که به منظور اهداف جهت یابی به آنتولوژی ها دستیابی دارند. پروسه مرورگری از طریق آنتولوژی جهت یافتن یک مفهوم ، می تواند تصور مناسبی در مورد چگونگی سازماندهی آنتولوژی و چگونگی ارتباط مفاهیم، به کاربر ارائه دهد، اما این پروسه همچنین میتواند پروسه مشکل و سختی باشد. مثالهای مربوط به عدم موفقیت مرورگری در پروسه دستیابی به اطلاعات، مشخص هستند. و مشتمل بر مواردی می باشند که ممکن است در سلسله مراتب موجود نباشند. در چنین مواردی، تکنیکهای IR میتوانند این نیاز به اطلاعات را بررسی کنند. IR به جای تبعیت زا روابط معنایی در یک آنتولوژی به دستیابی تصادفی بر یک آنتولوژی و تفسیر انعطاف پذیر نیاز اطلاعاتی کاربر اشاره میکند.
امری که ما در این بخش بررسی می کنیم به شرح زیر است، یافتن مفاهیم مربوط به یک پرسش معین در سلسله مراتب مفهومی، به عبارت دیگر، نیازهای اطلاعاتی کاربران، با استفاده از واژههای اصلی اختیاری و انتخابی تنظیم میشوند، در حالیکه “اسناد و مدارک” ،مفاهیم موجود در سلسله مراتب LoLaLi میباشند.
1-5- تحت یک سرپوش (Under the Hand)
ما در زمان سعی جهت بازیافت مفاهیم مربوط از یک آنتولوژی ، باید با چند مسئله سروکار داشته باشیم، از پرسشهای تمایل دارند که بسیار کوتاه باشند. تعداد واژههای اصلی درهر موضوع ، می توانند برابر با تعداد پرسشهای محرک جستجوی وب، به طور میانگین دو واژه اصلی در هر موضوع، باشند.2/ اسناد ومدارک نیز بسیار کوتاه هستند. حتی اگر توصیف وسیعی در مورد مفاهیم داشته باشیم، اسناد و مدارک بازیافت شده، در مقایسه با مجموعههای آزمایش استاندارد، کوتاه هستند. 3/ مجموعه اسناد و مدارک کوچک میباشد. این امر، بدین معناست که ممکن است یادآوری ،مسئله مهمی باشد. بازیابی در برابر سلسله مراتب LoLaLi ، یک کار بسیار دقیق است اما دارای شرایط و نیازهای یادآوری می باشد.