طرح پایگاه متون زبان و ادب فارسی
مصطفی موسوی متون زبان و ادب فارسی حاصل کوششهای طاقتفرسا، شور و شوق و نبوغ دانشمندان، فرهیختگان و ادیبان ایران بزرگ، در طول قرون، به عنوان میراثی گرانبها به ما رسیدهاست. میراثی که به تصدیق همگان به لحاظ غنا و عظمت و عمق و وسعت در ادبیات جهان بینظیر است و سهم ایران و ایرانی را در پیشرفت علم، تمدن، فرهنگ و انسانیت ممتاز گردانیدهاست. این میراث عظیم چنان که باید و شاید در دسترس فارسیزبانان و علاقهمندانِ این فرهنگ غنی، نیست. بسیاری از آنها با همت و کوشش محققان ارجمند در سده ی اخیر چاپ و منتشر شده و بسیاری دیگر هنوز در انتظار چاپ است. تنوع و فراوانی آثار چاپ شده و تولید و توزیع اندکشمار آنها و عدم امکان گردآوری تمامی آنها حتی در کتابخانههای بزرگ، سبب شدهاست که کتابخانهای را در این سرزمین پهناور نتوان سراغ کرد که تمامی این آثار را در خود جای داده باشد. پراکندگی این آثار در کتابخانههای مختلف اعم از خصوصی و عمومی و بزرگ و کوچک مانع بزرگی بر سر راه پژوهش محققان، دانشجویان و دانشآموختگان ماست و وقت بسیاری را از ایشان به هدر میدهد. اکنون، در آغاز قرن بیست و یکم، با پیشرفت تکنولوژی این امکان فراهم آمدهاست که کتابخانهای بزرگ را بتوان در حجمی بسیار اندک به اندازهی یک کف دست جای داد و در کوتاهترین زمان و با دقتی به کمال، به جست و جو در آنها پرداخت و فهرستها و گزارشهای گونهگون و مورد نیاز را در اختیار اهل تحقیق و مطالعه قرارداد. کاری که دیگران پیش از ما به انجام رسانیدهاند. از سایتهای اینترنتی متعددی که در اروپا و امریکا ایجاد شده، بگذریم، پایگاه متون میراث مکتوب عربی با بیش از یک میلیون صفحه متن، به نام "الوراق" مدتی است که مورد
استفادهی پژوهشگران آشنا به رایانه است.
دیدنِ این پایگاه بزرگ متون در شبکهی اینترنت[i] که آثار عربی بسیاری
از دانشمندان ایرانی همچون طبری، بیرونی، رازی، ابن
سینا و … را نیز در خود جای داده از سویی مایهی سرور
و شادمانی است و از سویی دیگر مایهی تاسف که چرا چنین
پایگاهی از متون فارسی تا کنون فراهم نشدهاست.
نگارنده که به مناسبتی نزدیک به هشت سال پیش سرگرم
طراحی نرمافزار تحلیلِ متن فارسی بود، به پیشنهاد یکی
از دوستان، طرح پایگاه متون زبان و ادب فارسی را با هدف
تحلیل متن پیگیری کرد و چون اجرای طرح هزینهی
سنگینی داشت، کار از مرحلهی طراحی و تهیهی نرمافزار
یا به عبارت بهتر تکمیل همان نرمافزار تحلیلِ متن یادشده،
فراتر نرفت تا این که در سال 1377 گروه فرهنگ نویسی
فرهنگستان زبان و ادب فارسی برای تهیهی فرهنگ جامع
زبان فارسی ایجاد چنین پایگاهی را در دستور کار خود
قرار داد و با حد اقل دو سال بحث و بررسی به نتایج
مطلوبی رسید اما متاسفانه در مرحله ی اجرا به دلایل
اداری، کار متوقف شد.
پس از گذشت یک سال و منتفیشدن اقدام فرهنگستان د
ر این خصوص، نگارنده در سال 1380 طرح ایجاد پایگاه متون
را به شورای گسترش زبان و ادب فارسی وزارت فرهنگ
و ارشاد اسلامی عرضه نمود. نظر موافق مدیر محترم
شورای گسترش و پیگیری جدی ایشان خوشبختانه به
نتیجه رسید و
در پی موافقت وزیر محترم فرهنگ و ارشاد اسلامی و
تصویب طرح، کار از تیرماه 1381 به سفارش شورای
گسترش زبان و ادب فارسی آغاز شد.
بنا بر طرح مصوب قرار است که تمامی کتابهای چاپشده
به زبان فارسی - در هر زمینه و موضوعی - که تاریخ
تالیف آنها پیش از 1300 هجری شمسی باشد،[ii] در این
پایگاه وارد شود اما به دلیل زیاد بودن حجم اطلاعاتی که
باید وارد نرمافزار شود (بیش از پانصد هزار صفحه)،
ورود اطلاعات در چندین مرحله و به صورت دورهای یا
قرن به قرن انجام میشود و کتابهایی انتخاب میشوند که
در دسترس هستند و فعلا در این مرحله برای جست و جوی
کتابهای مشمولِ طرح که احیانا در کشورهای دیگر چاپ
شدهاند و از آنها اطلاعی در دست نیست اقدامی نخواهد شد.
با توجه به موارد مذکور و نیز برای طراحی، تولید و
آزمایش نرمافزار مورد نظر و رفع اشکالات احتمالیِ آن،
در مرحله ی نخست تنها کتابهایی که تا نیمه ی قرن پنجم
هجری قمری تألیف شدهاند انتخاب شد که بالغ بر 20000
صفحه میشود. این حجم برای آزمایش نرمافزار و نیز
روشن شدن جزئیات، مناسب به نظر میرسید. انتخاب این
کتابها (بهترین چاپ)، با توجه به نظر استادان زبان و ادب
فارسی (مشاوران طرح) صورت گرفتهاست. فهرست این
کتابها در پایان خواهد آمد.
اکنون که مرحلهی نخست طرح رو به اتمام است گزارشی
از کار انجامشده و ویژگی های نرمافزار تولیدشده جهت
آگاهی و اظهار نظر پژوهشگران و دوستداران زبان و ادب
فارسی تقدیم میشود:
این پایگاه که علاوه بر استفادهی عام، برای استفادهی
پژوهشگران زبان فارسی، ادبیات، تاریخ و دیگر رشتههای
علوم انسانی ایجاد خواهدشد میبایست در نهایت امر،
پژوهش در زمینههای گوناگون فرهنگی به ویژه حوزههای
زبانشناسی، دستور زبان، تاریخ زبان فارسی،
سبکشناسی، نقد ادبی، فرهنگ نویسی (بهویژه فرهنگ
تاریخی زبان فارسی)، آموزش زبان، واژهگزینی و تحقیقات
ادبی را به نحو قابل توجهی تسهیل کند و ضریب اطمینان
تحلیلها و استنتاجها را حتیالمقدور افزایش دهد.
بنا بر این، نرمافزار مورد نظر به گونهای طراحی
شدهاست که علاوه
بر امکان استفاده ی عمومی از آن، قابل استفادهی
پژوهشگران باشد. برای تامین این منظور موارد زیر مورد
توجه بودهاست:
1. ورود اطلاعات؛ در مرحله ی ورود اطلاعات، در متن
هیچگونه تغییری داده نشدهاست. حتی غلطهای چاپی به
همان صورت باقی ماندهاند. شمارهی صفحات نیز مطابق با متن
اصلی است و تنها متن کتابها تایپ شدهاند و زیرنویسها
، نسخهبدلها، مقدمهی مصحح و ... تایپ نشدهاند.
این تصمیم ضمن این که برای صرفهجویی در وقت گرفته شده، به
دلیل محدودیت در حروف یا به اصطلاح "کاراکترها"ی
موجود در نرمافزار بودهاست. مثلا برای "ف" با دو نقطه، "ب"
که بالای آن نیز نقطه داشته یا "ئـ " که زیر آن نقطه داشته باشد
، "س" با سه نقطه در زیر آن و ... کاراکتری موجود نیست
و اگر برنامهنویسان طراحی هم بکنند از نظر مرتب کردن
کلمات (یعنی تعیین جای این نشانههای جدید درجدول
کاراکترها برای سورتینگ) و تهیه ی فهرستهای مورد
نظر از حوزه ی واژگان متن، برنامه مختل خواهد شد.
البته در آینده اگر این مشکلات برطرف شود امکان افزودن
بخشهای حذفشده وجود خواهد داشت.
برای هر کتاب شناسنامهای ایجاد شده که اطلاعات زیر را
در بر دارد: نام کتاب، موضوع، نویسنده، مترجم، مصحح
، تاریخ تألیف، محل تألیف، نوع اثر (نظم، نثر، داستانی،
علمی و ...)، محل چاپ، ناشر و تاریخ چاپ که در نهایت
می توان این اطلاعات را جست و جو کرد و نیز
فهرستهای لازم از آن تهیه نمود.
2. اطمینان از صحت اطلاعات وارد شده؛ اطمینان از
درستی و صحت متنی که در نرمافزار مورد استفاده قرار
می گیرد اهمیت بسیار زیادی دارد. ویژگی عمده و امتیاز
این نرمافزار نسبت به کتاب و کتابخانههای معهود، در جست
و جوهای آسان و سریعی است که می توان در آن انجام داد
و نیز در گزارشها و فهرستهای متنوعی که میتوان از
متون تهیه کرد؛ بنا بر این اگر اطمینانی به صحت متن وجود
نداشته باشد، صحت گزارشها و نتیجه ی جست و جوها نیز
مخدوش بوده و عملا نرمافزار پایگاه متون به کاری نخواهد
آمد. برای تامین این منظور، از هر کتاب 2 نسخه تهیه شد و
نسخهها جداگانه به دو گروه تایپیست واگذارشد که آنها را
در محیط واژه پرداز موردنظر با دستورالعمل ویژهای تایپ
نمایند. پس از ورود اطلاعات، دو متن تایپ شده در رایانه،
وارد محیط نرمافزاری شد که برای مقابله ی این دو متن
تهیه شدهاست؛ به عبارت دیگر نمونهخوانی ماشینی
صورت گرفتهاست. نرمافزار مورد نظر موارد اختلاف دو
متن را تعیین میکرد و کارشناس زبان و ادبیات فارسی با
استفاده
از کتاب، شکل غلط را حذف و عبارت درست را ابقا
میکرد
یا کلمات و عبارات زاید را حذف و احیانا کلمات و عبارات
جاافتاده را تایپ میکرد. در ابتدا نیز حجم اطلاعات وارد
شدهی دو متنِ تایپشده و شمارهی صفحات با هم و متن
اصلی مطابقت داده شد و اگر در متونِ تایپشده، افتادگی در
حد پاراگراف و صفحه بود، تشخیص دادهشد
.پس از ویرایش و آمادهسازی متن، مرحلهای دیگر برای
تصحیح اطلاعات
در نظر گرفته شدهاست به این ترتیب که متنِ آمادهی ورود
در نرمافزار نهایی، ابتدا در نرمافزاری وارد میشود که
برای جلوگیری از ورود کلماتی که در زبان وجود ندارد،
تهیه شدهاست. کارشناس در این مرحله هر کلمه را فقط یک
بار تایید میکند و آن کلمه وارد بانک کلمات نرمافزار می
شود. پس از آن در موارد مشابه، نرمافزار آن کلمه را
درست و در حوزه ی واژگان زبان فارسی تشخیص میدهد
و وارد پایگاه متون میکند. به این ترتیب کلماتی که در زبان
وجود ندارد و احیانا هر دو تایپیست مانند هم تایپ کردهاند و
طبعا نمونهخوانی ماشینی هم در این موارد بی فایده است،
تصحیح میشود.
یک بار هم به وسیله ی نرمافزار، متن تبدیل به فهرست
کلماتی می شود که بسامدِ آنها جلوی آنها درج شدهاست،
کلماتی که یک بار یا دوبار و سه بار در متن به کار رفتهاند
بازبینی میشوند زیرا کلماتی که بسامدِ اندکی دارند احتمال
اینکه غلط باشند بیشتر است. متن تصحیح شده که باید همانند
کتاب اصلی باشد در نرمافزار ذخیره میشود.
مرحلهای دیگر برای تصحیح وجود دارد که بعدا ذکر خواهد
شد.
3. از کتاب ذخیرهشده در نرمافزار، یک نمونه ی چاپی تهیه
و برای ویرایش و آمادهسازی متن به کارشناسان زبان و
ادب فارسی سپرده میشود.
ویرایش و آماده سازی متن شامل موارد زیر است:
1. تصحیح غلطهای چاپی و غیر چاپی (به ویژه با استفاده
از یادداشتهای کارشناسان مرحلهی 6 و مقالاتِ نقدِ متون
مورد نظر که تا زمان اجرای این طرح به چاپ رسیده،
گردآوری شده و کارشناسی شدهاست.)
غلطهای غیر چاپی که شامل بدخوانی و تشخیص نادرست
مصحح و... میشود با حفظ هر دو عبارت اصلی (غلط)
و تصحیح ناقد (شکل صحیح) و با تایید استادان مشاور
طرح، جای یکی در متن و دیگری در حاشیه تعیین می شود.
2. تنظیم فاصلهها (در این برنامه، رایانه هر حرف یا
مجموعه ی حروف را که بین آنها فاصله نباشد یک کلمه
تشخیص می دهد. یعنی دو طرف هر کلمه باید یک فاصله
داشتهباشد.) بنا بر این باید این کار با دقت و حوصله انجام
شود.
اجزایی از کلمه که به لحاظ نحوی مستقلند مانند ضمایر
متصل، یای نکره، الف ندا و... (پی چسبها) که توسط
کارشناسان کدگذاری شدهاند ( ← بند 6)، در نرمافزار قابل
شناساییاند و طبعا قابل جست و جو و... .
3. نشانهگذاری: نقطه، نشانه ی پرسش، دو نقطه، نشانه ی
تعجب و ... . این کار عملا یعنی تعیین جملات و بعد تعیین
هویت جملات و در نتیجه تسهیل جست و جو و
فهرستگیریهای گونهگون. در این صورت ما قادر خواهیم
بود تمام جملات پرسشی و ... را از متن انتخاب کنیم، به
دلخواه مرتب کنیم و در آنها به جست و جو بپردازیم.
دو نقطه ( : ) نشانهی گفت و گو است و با تعیین آن میتوان
فقط در گفت و گوهای یک متن به جست و جو پرداخت یا
از آنها فهرستهایی به دلخواه تهیه کرد.
(در متون منظوم و نیز منثور، بیت یک واحد به شمار می
آید (و نیز مصراع، البته اگر تک بود) و جملات داخلِ آن
با نقطه تعیین نمیشود ولی نشانههای پرسش، تعجب، امر،
گفت و گو و ... را خواهد داشت.)
4 . حرکتگذاری کلمات در متن فارسی: به جهت ایجاد
امکان جست و جوی دقیق و نیز امکان فهرستگیری و
ایجاد تمایز بین کلمات مشابه در املا و متفاوت در تلفظ و
معنا ، این کلمات حرکتگذاری می شوند. کلماتی مانند:
"بر، کند " که چهارگونه خوانده میشوند، یا کلماتی مانند: "
بین، شوید، جو، حکم، خرد، درد" که سه گونه خوانده
میشوند،[iii] در صورتی که بدون حرکت ثبت شوند، با
توجه به حجم بسیار زیاد متون (بالغ بر پانصد هزار صفحه)
، عملا کار جست و جو و فهرستگیری ها بیفایده می شود
. رفع مشکلات جست و جو برای کاربری که در مورد کلمات
مشابه حضور ذهن ندارد نیز در نرمافزار پیشبینی
شدهاست بدین صورت که هر گاه کاربر کلمهای را برای
جست و جو
و گزارشگیری تعیین کرد، اگر آن کلمه مشابه داشته باشد،
کلمات مشابه با حرکتهای لازم در صفحه ی نمایشگر
ظاهر می شود تا کاربر بتواند فقط کلمه ی مورد نظر یا همه
ی کلمات یا هر تعداد از آنها را که خواست به دلخواه
انتخاب نماید تا از نرمافزار گزارش صحیح و دلخواه خود را
دریافت کند.[iv]
5. تصحیح رسم الخط و یکدستسازی در موارد خاص
برای تسهیل در امر جست و جو. رسمالخط متون کهن
فارسی در نسخههای چاپی نیز بسیار متفاوت است.
این تفاوتها تا جایی که در کار جست و جو خللی ایجاد نکند
ایرادی ندارد و ضروری است که به جهت حفظ اصالت متن
حتیالامکان حفظ شود اما در این متون "خانهای" را به
صورت "خانه یی"، "خانهئی" و "خانه ی" نیز نوشتهاند،
برای جست و جوی این کلمه باید چهار بار جست و جو
صورت گیرد یا هر چهار گونه برای جست و جو انتخاب
شود. فهرست حاصل جست و جو نیز بیجهت طولانی
خواهدشد و بخصوص اگر موردی باشد که گونهها از نظر
ترتیب الفبایی تفاوت فاحش داشتهباشند، بررسی گزارش
دشوار خواهد شد. در مورد مذکور برای حفظ اصالت متن
(تا حد ممکن)، با توجه به تلفظ، دو گونهی "خانهای" و
"خانهیی" انتخاب و به ترتیب جایگزین "خانهئی" و "خانه
ی" شد. یا کلماتی از قبیل "درین، برین، ازین، دران، بران،
ازان" ، به شکل کاملِ آن و با فاصله: "در این، بر این، از
این، در آن، بر آن، از آن" تبدیل شد که حتی اگر در شعر
هم باشد خللی ایجاد نخواهد کرد. این تغییر ضمنا مانع از
بدخوانی و نیز تسهیل در جست و جو خواهد شد. مثلا
"برین" به معنی "برترین" با "برین" به معنی "رویِ این"
یکی نمیشود.
پس از انجام این موارد روی کاغذ و اِعمال اصلاحات در
فایلهای ذخیره شده، یک نمونهی چاپی دیگر از متن نهایی
تهیه میشود و در اختیار گروه بازبینی نهایی قرار میگیرد.
[v] سپس اصلاحات نهایی در متون ذخیره شده اِعمال
میشود و متنها برای اِعمال کدگذاری (بند 6) وارد
نرمافزار میشوند. (همهی اصلاحات موارد پنجگانه در کپیِ
فایلهای اصلی اِعمال میشود و نسخهای از فایلهای اصلی
"برابر با اصل کتابها" جداگانه ذخیره و نگهداری میشود
تا در صورت لزوم دسترسی به فایلهای اصلی ممکن
باشد.)
6 . کدگذاری کلمات و عبارات به منظور ایجاد محیطی
مناسب در متون برای جست و جوهای تخصصی
پژوهشگران و استادان و نیز تهیه ی بانکهای مورد نیاز
اقشار مختلف کاربران:
1 – 6 . تعیین عبارات عربی (آیات قرآنی، احادیث، سخنان
بزرگان، امثال و حکم، مصراع، شعر)
2 – 6 . تعیین عبارات غیر فارسی و عربی "زبانها و
لهجهها" (سخنان بزرگان، امثال و حکم، مصراع، شعر)
3 – 6 . تعیین عبارات فارسی: مصراع و شعر در متون
نثر، ترجمه ی آیات قرآنی، ترجمه ی احادیث، سخنان
بزرگان، امثال و حکم، هر کدام با کد جداگانه
4 – 6 . کدگذاری یای نکره، الف ندا و ضمایر منفصل و
متصل (منظور از ضمیر متصل در این طرح، هر ضمیری
است که به کلمهای چسبیده باشد مانند "و" در "کو" (= که
او) ؛ این کار برای تسهیل و دقت هر چه بیشتر در جست و
جو و تهیه ی آمارهای واژگانی و ... انجام شدهاست.
5 – 6 . کدگذاری فعل. تمام فعلهای هر متن روی کاغذ
کدگذاری شدهاست. پس از ورود اطلاعات (متون) بانکی از
افعال کلیهی متون موجود در نرمافزار، تهیه میشود.
در این بانکِ افعال که قاعدتا به تدریج کاملتر میشود و
شامل تمام ساختهای افعال اعم از زمانی و غیر زمانی
خواهدشد، ساختهای گونهگون هر فعل ذیل مصدر خود
قرار میگیرد و در جست و جو نیز به آن مربوط میشود،
مثلا اگر کاربر "رفتن" را در یک متن جست و جو کند،
تمام ساختهای فعلی "رفتن" را (در صورت لزوم در
جمله) با قید شماره ی صفحه و نام کتاب میتواند ببیند و به
هر صورت که خواست (کپی و پرینت) در اختیار
داشتهباشد. این امکان اساسا برای تامین نیاز فرهنگنویسان
ایجاد شدهاست یعنی معادلِ فیشنویسی روی کاغذ است که
ذیل مدخل، شاهد را مینویسند.
در مورد فعلها چون شکل مصدری فعل، در فرهنگ
مدخل میشود، امکان تطبیق آن با ساختهای فعلی در رایانه
به طور معمول وجود ندارد و رایانه نمیتواند
ارتباط "برود، رفتهبود، میروم، برو و..." را با
"رفتن" تشخیص دهد. این کار، یعنی کدگذاری افعال، کلمات مشابه
با آنها را - که فعل نیستند – نیز از آنها متمایز میکند
و برای تسهیل در جست و جو مفید است. مثلا "بْرد" (فعل)
و "بْرد" (نوعی پارچه)، "برید" (فعل امر) و "برید" (پْست)،
"بهشت" (گذاشت) و "بهشت" (جنّت) از این طریق از
هم متمایز میشوند.
- تعیین هویتهای دیگر نیز ممکن است اما به جهت
وقتگیر بودن، در این مرحله از آنها صرفنظر شده ولی
توجه شدهاست که امکانات آن در نرمافزار فراهم باشد که
در صورت لزوم بعدها بتوان کدهای لازم دیگری را برای
هویتهای دیگر افزود. هویتهایی از قبیل اسم، صفت
، صفت برتر، صفت برترین، صفت عددی، تمییز عدد یا
واحد شمارش، قید، صوت، جمع مکسر، اسم جمع، کلمات
پرسشی، نام اشخاص، نام مکانها، نام کتابها و... .[vi]
موارد پنجگانه ی فوق (بند 6) روی همان دو نسخهی متن
اصلی کتابها (که برای تایپ تهیه شدهبود)
انجام گرفتهاست
و در متونِ آمادهسازی شده (بندهای 1 تا 5) و وارد شده در
نرمافزار، اِعمال میشود. این مرحله یعنی اِعمالِ کدگذاری
های انجام شدهی روی کاغذ در نرمافزار که توسط
کارشناسان زبان و ادبیات فارسی صورت میگیرد، آخرین
مرحله ی تصحیح (پیش از عرضه ی نرمافزار) نیز خواهد
بود بدین صورت که کارشناسان مذکور در مطابقه ی متن
اصلی و کلمات و عبارات کدگذاری شدهی آن با متن موجود
در نرمافزار، خواه ناخواه با غلطها و افتادگیهای احتمالی
مواجه خواهند شد - که احیانا هر دو تایپیست مانند هم عمل
کردهاند[vii] - و به تصحیح آنها اقدام خواهند کرد.
امکانات نرم افزار
1 . قابلیت ایجاد بانک واژگان از همه ی متون ذخیرهشده
در نرمافزار یا متون انتخابی و مرتب کردن آنها به
روشهای زیر:
الف) فهرست کردن الفبایی کل واژگان متن یا متون
انتخابی بر اساس آغاز واژه همراه با درج شماره ی بسامد
آن در مجموعه ی مورد جست و جو به 2 صورت : از "الف"
تا "ی" و از "ی" تا "الف" به هر منظوری مثلا تعیین
مدخلهای یک فرهنگِ عام یا خاص، بزرگ یا کوچک
و... ، در اختیار داشتن تمام کلمات زبان از آغاز تا 1300
برای واژهگزینی و نامگذاری در موارد عام و خاص،
علمی و غیر علمی.
ب) فهرست کردن الفبایی کل واژگان متن یا متون انتخابی بر
اساس پایان واژه همراه با درج شماره ی بسامد آن در
مجموعه ی مورد جست و جو به 2 صورت : از "الف" تا "ی" و از
"ی" تا "الف" به منظورهای مختلف مثلا شناختن پسوندهای
زبان فارسی.
ج) فهرست بسامدی کل واژگان متن یا متون انتخابی به 2
صورت صعودی و نزولی (از کم بسامدترین به پر
بسامدترین
و برعکس) که کاربردهای بسیاری خواهد داشت مثلا
انتخاب پربسامدترین واژگان در زبان فارسی با رعایت
مسائل مربوط، برای تالیف کتابهای آموزش زبان فارسی
به کودکان، نوجوانان، جوانان، کمسوادان، غیر
فارسیزبانان و نیز تعیین مدخلهای فرهنگهای یکزبانه
یا دوزبانه برای گروههای یادشده.
2 . امکان شمارش کل کلمات هر متن یا همهی متون انتخابی
و شمارش کلمات (با حذف بسامد آنها) برای تعیین حوزه ی
کمی واژگان هر متن و در نهایت واژگان زبان فارسی در
هر دوره یا از آغاز تا 1300 هجری به منظور تحلیل و
بررسیهای زبانی و...
مثلا تعیین تفاوت دو کتاب در نسبت حوزهی واژگان (بدون
بسامد) به کل واژگانِ متن و بررسی تفاوتهای دیگری که
میتوان آنها را ناشی از این تفاوت تلقی کرد.
3 . امکان مشاهده، کپی و تهیهی پرینت از بیت یا جملهای
که واژهی مورد جست و جو در آن به کار رفته با درج
شماره ی صفحه و نام متن یا کدی که برای آن در نظر
گرفته شدهاست.
4 . امکان مرتبسازی بیتها یا جملهها ی حاوی واژه ی
مورد جست و جو به طرق مختلف و مورد نیاز پژوهشگر،
مثلا مرتبسازی به ترتیب تاریخ تألیف متون از قدیم به
جدید و برعکس، الفبایی، نظم یا نثر بودن شواهد و … .
5 . امکان وصل شدن از جمله در فهرست جملهها (بند 4)
به همان جمله در متن اصلی و ادامه ی جست و جو.
6 . امکان انتخاب یک واژه از درون متن اصلی برای
مشاهده ی موارد دیگرِ کاربردِ آن (ادامه ی جست و جو)
در همان متن و دیگر متون انتخابی کاربر.
7 . امکان جست و جو بر اساس ساخت پایه ی مصدر
برای فعلها که از این طریق مثلا می توان دریافت که
در متن مورد نظر چه ساختهایی از یک مصدر وجود
دارد و بررسی تحولات ساختها در تاریخ زبان فارسی
؛ و مهمتر از آن در اختیار داشتن شواهد برای هر مصدر
که عموما به
شکل فعل در جمله به کار می رود و تسهیل و تسریع در کار
فرهنگ نویسی.
8 . امکان تبدیل متن به ابیات و جملات متوالی
(هر جمله از ابتدای سطر آغاز شود) و امکان مرتبکردن
این جملات یا ابیات به صورت الفبایی بنا بر آغاز جمله یا
بیت و پایان جمله[viii] یا بیت. این امکان در مورد ابیات
کاربرد خیلی روشنی دارد؛ با ترتیب الفبایی به سادگی ابیات
مشابه در متون مختلف را میتوان کنار هم دید و تاریخ
اولین بار ثبت بیت در متون را دریافت و احیانا نسبتهای
مشکوک را تشخیص داد و به گوینده ی واقعی بیت رسید.
از سوی دیگر تفاوتهای ضبط بیت در متون مختلف و
یافتن قدیمترین کاربرد آن در تصحیح متون (نسخههای
خطی) نیز مفید خواهد بود و میتوان تصور کرد ارتباط این
مرتبسازی را با مقولههای سبکشناسی، تاریخ زبان
فارسی، فرهنگ تاریخی زبان فارسی و نیز تاریخ اندیشه
در زبان فارسی[ix] و... . در مورد جملات نیز مرتبسازی
کم و بیش فوایدی خواهد داشت مانند بررسی نسبت وجود
عناصر دستوری در آغاز یا پایان جملات در سبکهای
مختلف، دورههای مختلف، موضوعات مختلف،
انواع مختلف ادبی (حماسی، غنایی، تعلیمی و ...).
9 . امکان جست و جوی جملات پرسشی، تعجبی و امری
در کلیهی متون یا متون انتخابیِ پژوهشگر و امکان
مرتبکردن یافتهها به صورت الفبایی بنا بر آغاز جمله یا
بیت و نیز پایان جمله یا بیت یا بنا بر تاریخ تالیف متون.
10 . امکان جست و جوی "گفت و گو" های کلیهی متون
یا متون انتخابی پژوهشگر و امکان مرتبسازی فهرست
به دست آمده بنا بر ترتیب تاریخ تالیف متون یا ترتیب
الفبایی.
11 . امکان وارد کردن معنی لغات. میتوان بعدها از این
امکان استفاده کرد و پس از وارد کردن معنی لغات بدون
هیچ کار اضافهای، این لغتها و معنی ها را با مثال و
شاهدشان به صورت یک فرهنگ، در نرمافزار در اختیار
داشت.
امکانات دیگر
با توجه به بند 6 ویرایش و آمادهسازی متن، پس از کامل
شدن اطلاعات واردشده (حدود هزار عنوان کتاب[x] در
بیش از پانصد هزار صفحه) مجموعههای باارزش زیر را
نیز در اختیار خواهیم داشت که به راحتی قابل تبدیل به
کتاب و لوحهای فشردهی مجزا نیز خواهند بود:
فرهنگ جامع امثال و حکم فارسی
فرهنگ جامع سخنان بزرگان (به فارسی)
مجموعه ی ترجمهی احادیث
فرهنگ اقوال عربی در متون فارسی
فرهنگ احادیث عربی به کار رفته در متون فارسی
فرهنگ جامع اشعار (و مصراعهای) عربی به کار رفته در متون فارسی
فرهنگ امثال و حکم عربی به کار رفته در متون فارسی
فرهنگ جامع اشعار فارسی به کار رفته در متون نثر فارسی (که بسیاری از آنها در هیچ دیوانی یافت نمیشود.)
و همگی با درج تفاوتها و ضبطهای مختلف آنها و… و ناگفته پیداست که با تولید این اثر چه امکانات وسیعی برای پژوهشهای زبانی، ادبی، تاریخی، اجتماعی و... ایجاد خواهد شد و ضمن بینیاز ساختن ما از کارهای پراکنده و بهناچار ناقص در این زمینهها سبب میشود که پس از این دیگر عمر شریف محققان این سرزمین صرف
امور وقتگیری از این دست نگردد و دوران پژوهشهای
اساسی کارگشا و نقد و تحلیل آغاز شود و شاهد تحقیقات
علمی جدیتری در علوم انسانی بخصوص در حوزهی زبان
و ادبیات فارسی باشیم.[xi]
اکنون با توجه به این که بانیِ طرح، شورای گسترش زبان
فارسی، ادامه ی طرح در مراحل بعدی و حمایت از آن را
در توان یا در حوزه ی وظایف خود نمیبیند[xii] انتظار
میرود مسئولان نهادهایی که به نحوی سازمان خود را
مربوط به این طرح میبینند به این امر توجه نمایند.
به سرانجام رساندن این طرح که مورد تایید شفاهی و کتبی
استادان طراز اول ادبیات و زبانشناسی این مرز و بوم است
و هم با اشراف و راهنمایی ایشان آغاز شده و تا کنون ادامه
یافتهاست،[xiii] باعث سربلندی و افتخار، رشد فرهنگی،
علمی و ادبی جامعه، حفظ میراث مکتوب، توسعه، تثبیت و
تعمیق فرهنگ ایرانی – اسلامی و معرفی آن به جهانیان با
رایجترین و آسانترین وسیلهی ممکن
(لوح فشرده، اینترنت)، گسترش زبان و ادب فارسی در
جهان، بازیابی هویت
فرهنگی - تاریخی، معرفی بزرگان ایران اسلامی در طول
تاریخ، کمک قابل توجه به مراکز و نهادهای پژوهشی کشور
و جلوگیری از اتلاف وقت پژوهشگران، جلوگیری از
اتلاف سرمایه و صرفهجویی در هزینههای پژوهشی و...
خواهد بود و هر نهاد یا فردی که عهدهدار به انجامرساندن
این طرح شود بی شک نام خویش را جاودان کردهاست.
همین جا باید تصریح کنم که به عنوان طراح و مجری
مرحلهی نخست این طرح، مطمئنم هر کسِ دیگری که
ادامه ی این کار را به عهده بگیرد از آنجا که بهتنهایی
کاری
از پیش نخواهد برد و ناگزیر باید از راهنمایی و مشورت
استادان و اهل فن استفاده کند، نتیجه یکی خواهد بود و من
هم تجربهی ناچیز خود را با کمال میل در اختیار خواهم
گذاشت. به گمان من ادامهی این طرح نیاز به ایجاد یک بنیاد
علمی دارد که بتواند با استفاده از امکانات و نیروی انسانی و
علمی جامعه ی دانشگاهی این کار را سامان دهد و به
همه ی جوانب آن بپردازد. طبیعتا ادامه ی این طرح به تالیف
فرهنگ جامع زبان فارسی، فرهنگهای تخصصی،
کتابهای آموزش زبان فارسی، تحقیقات بنیادی زبانشناسی
و ... منجر خواهد شد که هر کدام خود طرحی مفصل و
گستردهاند. نهادهایی مانند وزارت علوم، وزارت ارشاد،
بنیاد ایرانشناسی و بخصوص دانشگاه، فرهنگستان،
پژوهشگاه علوم انسانی و دیگر نهادهای عهدهدار
فرهنگنویسی که درگیر این نوع مسائل هستند، بهترین
گزینهها برای ادامه ی این طرح میتوانند باشند.
امر خطیری است و حساسیت بسیار می طلبد، امیدوارم که توانستهباشم
در این گزارش حق مطلب را ادا کنم.
یکم آذرماه 1382
فهرست متون قرن چهارم تا نیمهی قرن پنجم هجری
1. آثار منظوم رودکی
2. تاریخ سیستان (قسمت اول)
3. ترجمه ی السواد الاعظم
4. تاریخنامه ی طبری
5. ترجمه ی تفسیر طبری
6. ترجمه ی رساله ی حی بن یقظان
7. ترجمه ی قرآن موزه ی پارس
8. تفسیر قرآن پاک
9. تفسیر قرآن کمبریج
10. تفسیری بر عشری از قرآن مجید
11. حدود العالم من المشرق الی المغرب
12. اشعار پراکنده ی قدیمترین شعرای فارسی
13. دانشنامه ی علایی
14. دانشنامه ی میسری
15. اشعار باباطاهر همدانی
16. دیوان دقیقی طوسی
17. دیوان عسجدی مروزی
18. دیوان عنصری بلخی
19. دیوان فرخی سیستانی
20. دیوان منوچهری دامغانی
21. رگشناسی یا رساله در نبض
22. زین الاخبار گردیزی
23. اشعار کسایی مروزی
24. سخنان منظوم منسوب به ابوسعید
25. (شرح احوال و) اشعار شاعران بی دیوان
26. شاهنامه ی فردوسی
27. کشف المحجوب سجستانی
28. لسان التنزیل
29. مقدمه ی شاهنامه ی منثور ابومنصوری
30. وامق و عذرا (عنصری)
31. ویس و رامین
32. هدایه المتعلمین فی الطب
33. ترجمه ی آهنگین از دو جزء قرآن مجید
34. الابنیه عن حقائق الادویه
35. رساله ی جودیه
36. کنوز المعزمین
37. معیار العقول
38. تاریخ بلعمی
39. التنویر
40. پندنامه ی ماتریدی
41. التفهیم لاوائل صناعه التنجیم
42. بازنامه ی نسوی
43. بخشی از تفسیری کهن
44. بخشی از تفسیری کهن به پارسی
45. تاریخ بیهقی *********************** [i] . کتابخانهی الوراق با نشانی WWW.ALWARAQ.COM
[ii] . از آنجا که طرح "پایگاه دادههای زبان فارسی" در پژوهشگاه علوم انسانی به مدیریت آقای دکتر مصطفی عاصی شامل متون تالیف شده پس از 1300 میشود، برای پرهیز از دوباره کاری و صرف هزینهی مجدد، متونِ پس ازاین تاریخ از این طرح کنار گذاشته شد.
[iii] . فهرستی از این کلمات (مشابه در املا و متفاوت در تلفظ و معنی: تا کنون 250 مورد) و (مشابه در املا و تلفظ و متفاوت در معنی: تاکنون 90 مورد) تهیه شده که بهتدریج کامل میشود. برای کاربرد این فهرست ← زیرنویس بعد.
[iv] . به این موارد گونههای اسم نیز افزوده میشود. مثلا با انتخاب "انوشیروان" برای جست و جو، تمام گونههای دیگر این نام که در متون موجود است (انوشروان، انوشهروان، نوشروان، نوشیروان، نوشینروان و...) در صفحهی نمایشگر ظاهر میشود تا کاربر ضمن اشراف بر گونههای دیگر این نام، جست و جوی خود را کامل و با دقت به انجام برساند.
[v] . این گروه کارشناسان متخصص زبان و ادب فارسی (فارغالتحصیلان دورههای کارشناسی ارشد و دکتری) هستند.
[vi] . اینجا باید از کوشش، دقت نظر و همدلیهای مهندسانِ "گروه تحقیق در عملیات" که مسئولیت برنامهنویسی و پشتیبانی فنی این نرمافزار را بر عهده دارند صمیمانه تشکر کنم که در ایجاد این امکانات بسیار مساعدت کردهاند.
[vii] . طبیعی است که در مواردی دو تایپیست مانند هم اشتباه کنند، مانند مواردی که در دو سطر متوالی یا با فاصله کلمات مشابهی باشد و هنگام تایپ، چشم از روی سطر نخست به سطر مشابه بعدی بلغزد و یک یا چند سطر جا بیفتد.
[viii] . منظور از جمله در این طرح، در حال حاضر لزوما به معنی دستوری جمله نیست بلکه جمله تا جایی که مقصود مورد نظر کاملا بیان شود ادامه خواهد داشت، یعنی کامل بودنِ شاهد برای واژگانِ فرهنگ مد نظر بودهاست. البته امکان تعیین جملهی دستوری نیز وجود دارد که در صورت لزوم، در مراحل بعد میتوان بدان پرداخت.
[ix] . تذکر جناب آقای دکتر صدری افشار که مضمون
"خاک مرا کوزهگران کوزه کنند" را مثال زدند که پیش از خیام،
فرخی هم گفتهاست و با امکانات این پایگاه در این موارد میتوان
به نتایج
قطعیتری رسید.
[x] . تا کنون نزدیک به 900 عنوان کتاب شناسایی و فهرست
شدهاست و برآورد میشود که این رقم با توجه به محدودهای که
پیش از این تعیین شد، از 1000 عنوان بیشتر نشود.
[xi] . در باب مسائل حقوقی این طرح نیز راه کارهایی اندیشیده
شدهاست که حقوق مادی و معنوی مصححان محترمی که کتابشان
در این طرح مورد استفاده قرار میگیرد، محفوظ بماند.
نپرداختن بدان در این مقاله به این جهت است که نحوهی عرضهی
این نرمافزار که در این مورد تعیینکننده است، هنوز معلوم نیست.
[xii] . مرحلهی نخست طرح نیز تا کنون به دلیل نبود امکانات به
اتمام نرسیدهاست. اگر امکانات فراهم شود این مرحله حداکثر تا دو
ماه دیگر به پایان خواهد رسید ولی با ادامهی وضع کنونی شاید بیش از ده ماه طول بکشد. (مشکل اصلی کمبود رایانه است)
[xiii] . استادان محترم عبارتند از:
دکتر حسن انوری، دکتر تقی پورنامداریان، دکتر علیمحمد
حقشناس، دکتر حسین سامعی، دکتر محمدرضا شفیعی کدکنی،
دکترعلیاشرف صادقی، دکتر پریوش صفا و دکتر مصطفی
عاصی. با تشکر از حمایتها و راهنماییهای بیدریغشان
بخصوص آقای دکتر سامعی که با دقت و حوصلهی فراوان
و توجه به جزئیات، نکات مهمی را یادآوری کردند.
|