کتابخانه اینترنتی  چاپ
تاریخ : شنبه 29 دی‌ماه سال 1386
 
 

کتابخانه اینترنتی

 

 
 
مصطفی موسوی 
   
 
 
 
  برگرفته از: کتاب هفته شماره 143 
 
 
 
 
طرح پایگاه متون زبان و ادب فارسی
 
 
 

مصطفی موسوی
متون زبان و ادب فارسی حاصل کوشش‌های طاقت‌فرسا، شور و شوق و نبوغ دانشمندان، فرهیختگان و ادیبان ایران بزرگ، در طول قرون‌، به عنوان میراثی گران‌بها به ما رسیده‌است. میراثی که به تصدیق همگان به لحاظ غنا و عظمت و عمق و وسعت در ادبیات جهان بی‌نظیر است و سهم ایران و ایرانی را در پیشرفت علم، تمدن، فرهنگ و انسانیت ممتاز گردانیده‌است. این میراث عظیم چنان که باید و شاید در دسترس فارسی‌زبانان و علاقه‌مندانِ این فرهنگ غنی، نیست. بسیاری از آن‌ها با همت و کوشش محققان ارجمند در سده ‌‌ی اخیر چاپ و منتشر شده‌ و بسیاری دیگر هنوز در انتظار چاپ است. تنوع و فراوانی آثار چاپ شده و تولید و توزیع اندک‌شمار آن‌ها و عدم امکان گردآوری تمامی آن‌ها حتی در کتابخانه‌ها‌ی بزرگ، سبب شده‌است که کتابخانه‌ای را در این سرزمین پهناور نتوان سراغ کرد که تمامی این آثار را در خود جای داده باشد. پراکندگی این آثار در کتابخانه‌های مختلف اعم از خصوصی و عمومی و بزرگ و کوچک مانع بزرگی بر سر راه پژوهش محققان، دانشجویان و دانش‌آموختگان ماست و وقت‌ بسیاری را از ایشان به هدر می‌دهد. اکنون، در آغاز قرن بیست و یکم، با پیشرفت تکنولوژی این امکان فراهم آمده‌است که کتابخانه‌ای بزرگ را بتوان در حجمی بسیار اندک به اندازه‌ی یک کف دست جای داد و در کوتاه‌ترین زمان و با دقتی به کمال، به جست و جو در آن‌ها پرداخت و فهرست‌‌ها و گزارش‌های گونه‌گون و مورد نیاز را در اختیار اهل تحقیق و مطالعه قرارداد. کاری که دیگران پیش از ما به انجام رسانیده‌اند. از سایت‌های اینترنتی متعددی که در اروپا و امریکا ایجاد شده، بگذریم، پایگاه متون میراث مکتوب عربی با بیش از یک میلیون صفحه متن، به نام "الوراق" مدتی است که مورد
 
 استفاده‌ی پژوهش‌گران آشنا به رایانه است.
 
 دیدنِ این پایگاه بزرگ متون در شبکه‌ی اینترنت[i] که آثار عربی بسیاری
 
 
 از دانشمندان ایرانی همچون طبری، بیرونی، رازی، ابن
 
سینا و … را نیز در خود جای داده از سویی مایه‌ی سرور
 
و شادمانی است و از سویی دیگر مایه‌ی تاسف که چرا چنین
 
پایگاهی از متون فارسی تا کنون فراهم نشده‌است.
 


نگارنده که به مناسبتی نزدیک به هشت سال پیش سرگرم
 
طراحی نرم‌افزار تحلیلِ متن فارسی بود، به پیشنهاد یکی
 
 
 
 از دوستان، طرح پایگاه متون زبان و ادب فارسی را با هدف
 
تحلیل متن پی‌گیری کرد و چون اجرای طرح هزینه‌ی
 
سنگینی داشت، کار از مرحله‌ی طراحی و تهیه‌ی نرم‌افزار
 
 یا به عبارت بهتر تکمیل همان نرم‌افزار تحلیلِ متن یادشده،
 
 فراتر نرفت تا این که در سال 1377 گروه فرهنگ نویسی
 
فرهنگستان زبان و ادب فارسی برای تهیه‌ی فرهنگ جامع
 
 زبان فارسی ایجاد چنین پایگاهی را در دستور کار خود
 
 قرار داد و با حد اقل دو سال بحث و بررسی به نتایج
 
 مطلوبی رسید اما متاسفانه در مرحله ‌ی اجرا به دلایل
 
اداری، کار متوقف شد.

پس از گذشت یک سال و منتفی‌شدن اقدام فرهنگستان د
 
ر این خصوص، نگارنده در سال 1380 طرح ایجاد پایگاه متون
 
 را به شورای گسترش زبان و ادب فارسی وزارت فرهنگ
 
 
 
 و ارشاد اسلامی عرضه نمود. نظر موافق مدیر محترم
 
 شورای گسترش و پی‌گیری جدی ایشان خوشبختانه به
 
 نتیجه رسید و
 
 در پی موافقت وزیر محترم فرهنگ و ارشاد اسلامی و
 
تصویب طرح، کار از تیرماه 1381 به سفارش شورای
 
گسترش زبان و ادب فارسی آغاز شد.



بنا بر طرح مصوب قرار است که تمامی کتاب‌های چاپ‌شده
 
 به زبان فارسی - در هر زمینه و موضوعی - که تاریخ
 
تالیف آن‌ها پیش از 1300 هجری شمسی باشد،[ii] در این
 
 
 پایگاه وارد شود اما به دلیل زیاد بودن حجم اطلاعاتی که
 
باید وارد نرم‌افزار شود (بیش از پانصد هزار صفحه)،
 
 ورود اطلاعات در چندین مرحله و به صورت دوره‌ای یا
 
 قرن به قرن انجام می‌شود و کتاب‌هایی انتخاب می‌شوند که
 
در دسترس هستند و فعلا در این مرحله برای جست و جوی
 
کتاب‌های مشمولِ طرح که احیانا در کشورهای دیگر چاپ
 
شده‌اند و از آن‌ها اطلاعی در دست نیست اقدامی نخواهد شد.

با توجه به موارد مذکور و نیز برای طراحی، تولید و
 
 آزمایش نرم‌افزار مورد نظر و رفع اشکالات احتمالیِ آن،
 
 در مرحله ‌ی نخست تنها کتاب‌هایی که تا نیمه ‌ی قرن پنجم
 
هجری قمری تألیف شده‌اند انتخاب شد که بالغ بر 20000
 
صفحه می‌شود. این حجم برای آزمایش نرم‌افزار و نیز
 
 روشن شدن جزئیات، مناسب به نظر می‌رسید. انتخاب این
 
کتاب‌ها (بهترین چاپ)، با توجه به نظر استادان زبان و ادب
 
 فارسی (مشاوران طرح) صورت گرفته‌است. فهرست این
 
کتاب‌ها در پایان خواهد آمد.

اکنون که مرحله‌ی نخست طرح رو به اتمام است گزارشی
 
 از کار انجام‌شده و ویژگی‌ های نرم‌افزار تولیدشده جهت
 
آگاهی و اظهار نظر پژوهش‌گران و دوستداران زبان و ادب
 
فارسی تقدیم می‌شود:

این پایگاه که علاوه بر استفاده‌ی عام، برای استفاده‌ی
 
پژوهش‌گران زبان فارسی، ادبیات، تاریخ و دیگر رشته‌های
 
علوم انسانی ایجاد خواهدشد می‌بایست در نهایت امر،
 
پژوهش در زمینه‌های گوناگون فرهنگی به ویژه حوزه‌ها‌ی
 
 زبان‌شناسی، دستور زبان، تاریخ زبان فارسی،
 
سبک‌شناسی، نقد ادبی، فرهنگ نویسی (به‌ویژه فرهنگ
 
تاریخی زبان فارسی)، آموزش زبان، واژه‌گزینی و تحقیقات
 
 ادبی را به نحو قابل توجهی تسهیل کند و ضریب اطمینان
 
تحلیل‌ها و استنتاج‌ها را حتی‌المقدور افزایش دهد.
 
 بنا بر این، نرم‌افزار مورد نظر به گونه‌ای طراحی
 
 شده‌است که علاوه
 
بر امکان استفاده ‌ی عمومی از آن، قابل استفاده‌ی
 
پژوهش‌گران باشد. برای تامین این منظور موارد زیر مورد
 
توجه بوده‌‌است:

1. ورود اطلاعات؛ در مرحله ‌ی ورود اطلاعات، در متن
 
هیچ‌گونه تغییری داده نشده‌است. حتی غلط‌ها‌ی چاپی به
 
همان صورت باقی مانده‌اند. شماره‌ی صفحات نیز مطابق با متن
 
 اصلی است و تنها متن کتاب‌ها تایپ شده‌اند و زیرنویس‌ها
 
، نسخه‌بدل‌ها، مقدمه‌ی مصحح و ... تایپ نشده‌اند.
 
این تصمیم ضمن این که برای صرفه‌جویی در وقت گرفته شده، به
 
 دلیل محدودیت در حروف یا به اصطلاح "کاراکترها"ی
 
موجود در نرم‌افزار بوده‌است. مثلا برای "ف" با دو نقطه، "ب"
 
 که بالای آن نیز نقطه داشته یا "ئـ " که زیر آن نقطه داشته باشد
 
، "س" با سه نقطه در زیر آن و ... کاراکتری موجود نیست
 
و اگر برنامه‌نویسان طراحی هم بکنند از نظر مرتب کردن
 
 کلمات (یعنی تعیین جای این نشانه‌های جدید درجدول
 
 کاراکترها برای سورتینگ) و تهیه ‌ی فهرست‌های مورد
 
نظر از حوزه ‌ی واژگان متن، برنامه مختل خواهد شد.
 
البته در آینده اگر این مشکلات برطرف شود امکان افزودن
 
بخش‌های حذف‌شده وجود خواهد داشت.

برای هر کتاب شناسنامه‌ای ایجاد ‌شده که اطلاعات زیر را
 
در بر دارد: نام کتاب، موضوع، نویسنده، مترجم، مصحح
 
، تاریخ تألیف، محل تألیف، نوع اثر (نظم، نثر، داستانی،
 
 علمی و ...)، محل چاپ، ناشر و تاریخ چاپ که در نهایت
 
می ‌توان این اطلاعات را جست و جو کرد و نیز
 
فهرست‌های لازم از آن تهیه نمود.

2. اطمینان از صحت اطلاعات وارد شده؛ اطمینان از
 
درستی و صحت متنی که در نرم‌افزار مورد استفاده قرار
 
می ‌گیرد اهمیت بسیار زیادی دارد. ویژگی عمده و امتیاز
 
 
 
این نرم‌افزار نسبت به کتاب و کتابخانه‌های معهود، در جست
 
 و جوهای آسان و سریعی است که می ‌توان در آن انجام داد
 
و نیز در گزارش‌ها و فهرست‌های متنوعی که می‌توان از
 
 متون تهیه کرد؛ بنا بر این اگر اطمینانی به صحت متن وجود
 
 نداشته باشد، صحت گزارش‌ها و نتیجه ‌ی جست و جوها نیز
 
 مخدوش بوده و عملا نرم‌افزار پایگاه متون به کاری نخواهد
 
 آمد. برای تامین این منظور، از هر کتاب 2 نسخه تهیه شد و
 
 نسخه‌ها جداگانه به دو گروه تایپیست واگذارشد که آن‌ها را
 
 در محیط واژه ‌پرداز موردنظر با دستور‌العمل ویژه‌ای تایپ
 
نمایند. پس از ورود اطلاعات، دو متن تایپ شده در رایانه،
 
 
 وارد محیط نرم‌افزاری شد که برای مقابله ‌ی این دو متن
 
 تهیه شده‌است؛ به عبارت دیگر نمونه‌خوانی ماشینی
 
 صورت ‌گرفته‌است. نرم‌افزار مورد نظر موارد اختلاف دو
 
 متن را تعیین می‌کرد و کارشناس زبان و ادبیات فارسی با
 
استفاده
 
 از کتاب، شکل غلط را حذف و عبارت درست را ابقا
می‌کرد
 
 
 
 یا کلمات و عبارات زاید را حذف و احیانا کلمات و عبارات
 
جاافتاده را تایپ می‌کرد. در ابتدا نیز حجم اطلاعات وارد
 
شده‌ی دو متنِ تایپ‌شده و شماره‌ی صفحات با هم و متن
 
اصلی مطابقت داده ‌شد و اگر در متونِ تایپ‌شده، افتادگی در
 
 حد پاراگراف و صفحه بود، تشخیص داده‌شد
 
.پس از ویرایش و آماده‌سازی متن، مرحله‌ای دیگر برای
 
 تصحیح اطلاعات
 
در نظر گرفته شده‌است به این ترتیب که متنِ آماده‌ی ورود
 
در نرم‌افزار نهایی، ابتدا در نرم‌افزاری وارد می‌شود که
 
برای جلوگیری از ورود کلماتی که در زبان وجود ندارد،
 
تهیه شده‌است. کارشناس در این مرحله هر کلمه را فقط یک
 
 بار تایید می‌کند و آن کلمه وارد بانک کلمات نرم‌افزار می
 
 ‌شود. پس از آن در موارد مشابه، نرم‌افزار آن کلمه را
 
درست و در حوزه ‌ی واژگان زبان فارسی تشخیص می‌دهد
 
 و وارد پایگاه متون می‌کند. به این ترتیب کلماتی که در زبان
 
 وجود ندارد و احیانا هر دو تایپیست مانند هم تایپ کرده‌اند و
 
 طبعا نمونه‌خوانی ماشینی هم در این موارد بی فایده است،
 
 تصحیح می‌شود.

یک بار هم به وسیله ‌ی نرم‌افزار، متن تبدیل به فهرست
 
کلماتی می ‌شود که بسامدِ آن‌ها جلوی آن‌ها درج شده‌است،
 
 کلماتی که یک بار یا دوبار و سه بار در متن به کار رفته‌اند
 
 بازبینی می‌شوند زیرا کلماتی که بسامدِ اندکی دارند احتمال
 
 این‌که غلط باشند بیشتر است. متن تصحیح شده‌ که باید همانند
 
 کتاب اصلی باشد در نرم‌افزار ذخیره می‌شود.

مرحله‌ای دیگر برای تصحیح وجود دارد که بعدا ذکر خواهد
 
 شد.

3. از کتاب ذخیره‌شده در نرم‌افزار، یک نمونه ‌ی چاپی تهیه
 
 و برای ویرایش و آماده‌سازی متن به کارشناسان زبان و
 
 ادب فارسی سپرده می‌شود.

ویرایش و آماده سازی متن شامل موارد زیر است:
 

1. تصحیح غلط‌های چاپی و غیر چاپی (به ویژه با استفاده
 
از یادداشت‌های کارشناسان مرحله‌ی 6 و مقالاتِ نقدِ متون
 
 مورد نظر که تا زمان اجرای این طرح به چاپ رسیده،
 
 گردآوری شده‌ و کارشناسی شده‌است.)

غلط‌های غیر چاپی که شامل بدخوانی و تشخیص نادرست
 
 مصحح و... می‌شود با حفظ هر دو عبارت اصلی (غلط)
 
و تصحیح ناقد (شکل صحیح) و با تایید استادان مشاور
 
طرح، جای یکی در متن و دیگری در حاشیه تعیین می شود.

2. تنظیم فاصله‌ها (در این برنامه، رایانه هر حرف یا
 
 مجموعه ‌ی حروف را که بین آن‌ها فاصله نباشد یک کلمه
 
 تشخیص می ‌دهد. یعنی دو طرف هر کلمه‌ باید یک فاصله
 
داشته‌باشد.) بنا بر این باید این کار با دقت و حوصله انجام
 
شود.

اجزایی از کلمه که به لحاظ نحوی مستقلند مانند ضمایر
 
 متصل، یای نکره، الف ندا و... (پی ‌چسب‌ها) که توسط
 
 کارشناسان کدگذاری شده‌اند ( ← بند 6)، در نرم‌افزار قابل
 
 شناسایی‌اند و طبعا قابل جست و جو و... .

3. نشانه‌گذاری: نقطه، نشانه ‌ی پرسش، دو نقطه، نشانه ‌ی
 
 تعجب و ... . این کار عملا یعنی تعیین جملات و بعد تعیین
 
هویت جملات و در نتیجه تسهیل جست و جو و
 
فهرست‌گیری‌های گونه‌گون. در این صورت ما قادر خواهیم
 
بود تمام جملات پرسشی و ... را از متن انتخاب کنیم، به
 
دلخواه مرتب کنیم و در آن‌ها به جست و جو بپردازیم.
 
 دو نقطه ( : ) نشانه‌ی گفت و گو است و با تعیین آن می‌توان
 
فقط در گفت و گوهای یک متن به جست و جو پرداخت یا
 
از آن‌ها فهرست‌هایی به دلخواه تهیه کرد.

(در متون منظوم و نیز منثور، بیت یک واحد به شمار می
 
 ‌آید (و نیز مصراع، البته اگر تک بود) و جملات داخلِ آن
 
 با نقطه تعیین نمی‌شود ولی نشانه‌های پرسش، تعجب، امر،
 
 گفت و گو و ... را خواهد داشت.)
 


4 . حرکت‌گذاری کلمات در متن فارسی: به جهت ایجاد
 
امکان جست و جوی دقیق و نیز امکان فهرست‌گیری و
 
 ایجاد تمایز بین کلمات مشابه در املا و متفاوت در تلفظ و
 
معنا ، این کلمات حرکت‌گذاری می ‌شوند. کلماتی مانند:
 
"بر، کند " که چهارگونه خوانده می‌شوند، یا کلماتی مانند: "
 
بین، شوید، جو، حکم، خرد، درد" که سه گونه خوانده
 
می‌شوند،[iii] در صورتی که بدون حرکت ثبت شوند، با
 
 
توجه به حجم بسیار زیاد متون (بالغ بر پانصد هزار صفحه)
 
، عملا کار جست و جو و فهرست‌گیری ‌ها بی‌فایده می ‌شود
 
. رفع مشکلات جست و جو برای کاربری که در مورد کلمات
 
 مشابه حضور ذهن ندارد نیز در نرم‌افزار پیش‌بینی
 
 شده‌است بدین صورت که هر گاه کاربر کلمه‌ای را برای
 
 جست و جو
 
 و گزارش‌گیری تعیین کرد، اگر آن کلمه مشابه داشته باشد،
 
 کلمات مشابه با حرکت‌های لازم در صفحه ‌ی نمایش‌گر
 
ظاهر می ‌شود تا کاربر بتواند فقط کلمه ‌ی مورد نظر یا همه
 
‌ی کلمات یا هر تعداد از آن‌ها را که خواست به دلخواه
 
انتخاب نماید تا از نرم‌افزار گزارش صحیح و دلخواه خود را
 
 دریافت کند.[iv]

5. تصحیح رسم الخط و یکدست‌سازی در موارد خاص
 
برای تسهیل در امر جست و جو. رسم‌الخط متون کهن
 
فارسی در نسخه‌های چاپی نیز بسیار متفاوت است.
 
این تفاوت‌ها تا جایی که در کار جست و جو خللی ایجاد نکند
 
ایرادی ندارد و ضروری است که به جهت حفظ اصالت متن
 
 حتی‌الامکان حفظ شود اما در این متون "خانه‌ای" را به
 
 صورت "خانه‌ یی"، "خانه‌ئی" و "خانه ی" نیز نوشته‌اند،
 
برای جست و جوی این کلمه باید چهار بار جست و جو
 
صورت گیرد یا هر چهار گونه برای جست و جو انتخاب
 
شود. فهرست حاصل جست و جو نیز بی‌جهت طولانی
 
 خواهد‌شد و بخصوص اگر موردی باشد که گونه‌ها از نظر
 
 ترتیب الفبایی تفاوت فاحش داشته‌باشند، بررسی گزارش
 
 دشوار خواهد شد. در مورد مذکور برای حفظ اصالت متن
 
 (تا حد ممکن)، با توجه به تلفظ، دو گونه‌ی "خانه‌ای" و
 
 
 
 "خانه‌یی" انتخاب و به ترتیب جایگزین "خانه‌ئی" و "خانه
 
 ی" شد. یا کلماتی از قبیل "درین، برین، ازین، دران، بران،
 
ازان" ، به شکل کاملِ آن و با فاصله:‌ "در این، بر این، از
 
 
 
این، در آن، بر آن، از آن" تبدیل شد که حتی اگر در شعر
 
 هم باشد خللی ایجاد نخواهد کرد. این تغییر ضمنا مانع از
 
بدخوانی و نیز تسهیل در جست و جو خواهد شد. مثلا
 
"برین" به معنی "برترین" با "برین" به معنی "رویِ این"
 
یکی نمی‌شود.

پس از انجام این موارد روی کاغذ و اِعمال اصلاحات در
 
فایل‌های ذخیره شده، یک نمونه‌ی چاپی دیگر از متن نهایی
 
 تهیه می‌شود و در اختیار گروه بازبینی نهایی قرار می‌گیرد.
 
[v] سپس اصلاحات نهایی در متون ذخیره شده اِعمال
 
می‌شود و متن‌ها برای اِعمال کدگذاری (بند 6) وارد
 
نرم‌افزار می‌شوند. (همه‌ی اصلاحات موارد پنجگانه در کپیِ
 
 فایل‌های اصلی اِعمال می‌شود و نسخه‌ای از فایل‌های اصلی
 
 "برابر با اصل کتاب‌ها" جداگانه ذخیره و نگهداری می‌شود
 
تا در صورت لزوم دسترسی به فایل‌های اصلی ممکن
 
باشد.)



6 . کدگذاری کلمات و عبارات به منظور ایجاد محیطی
 
مناسب در متون برای جست و جوهای تخصصی
 
پژوهش‌گران و استادان و نیز تهیه ‌ی بانک‌های مورد نیاز
 
اقشار مختلف کاربران:

1 – 6 . تعیین عبارات عربی (آیات قرآنی، احادیث، سخنان
 
 بزرگان، امثال و حکم، مصراع، شعر)

2 – 6 . تعیین عبارات غیر فارسی و عربی "زبان‌ها و
 
لهجه‌ها" (سخنان بزرگان، امثال و حکم، مصراع، شعر)
 


3 – 6 . تعیین عبارات فارسی: مصراع و شعر در متون
 
 نثر، ترجمه ‌ی آیات قرآنی، ترجمه ‌ی احادیث، سخنان
 
 بزرگان، امثال و حکم، هر کدام با کد جداگانه

4 – 6 . کدگذاری یای نکره، الف ندا و ضمایر منفصل و
 
 متصل (منظور از ضمیر متصل در این طرح، هر ضمیری
 
 است که به کلمه‌ای چسبیده باشد مانند "و" در "کو" (= که
 
او) ؛ این کار برای تسهیل و دقت هر چه بیشتر در جست و
 
جو و تهیه ‌ی آمارهای واژگانی و ... انجام شده‌است.

5 – 6 . کدگذاری فعل. تمام فعل‌های هر متن روی کاغذ
 
 کدگذاری شده‌است. پس از ورود اطلاعات (متون) بانکی از
 
افعال کلیه‌ی متون موجود در نرم‌افزار، تهیه می‌شود.
 
 در این بانکِ افعال که قاعدتا به تدریج کامل‌تر می‌شود و
 
شامل تمام ساخت‌های افعال اعم از زمانی و غیر زمانی
 
 خواهد‌شد، ساخت‌های گونه‌گون هر فعل ذیل مصدر خود
 
 قرار می‌گیرد و در جست و جو نیز به آن مربوط می‌شود،
 
مثلا اگر کاربر "رفتن" را در یک متن جست و جو کند،
 
 تمام ساخت‌های فعلی "رفتن" را (در صورت لزوم در
 
جمله) با قید شماره ‌ی صفحه و نام کتاب می‌تواند ببیند و به
 
هر صورت که خواست (کپی و پرینت) در اختیار
 
داشته‌باشد. این امکان اساسا برای تامین نیاز فرهنگ‌نویسان
 
 ایجاد شده‌است یعنی معادلِ فیش‌نویسی روی کاغذ است که
 
ذیل مدخل، شاهد را می‌نویسند.
 
 در مورد فعل‌ها چون شکل مصدری فعل، در فرهنگ
 
مدخل می‌شود، امکان تطبیق آن با ساخت‌های فعلی در رایانه
 
 به طور معمول وجود ندارد و رایانه نمی‌تواند
 
 ارتباط "برود، رفته‌بود، می‌روم، برو و..." را با
 
"رفتن" تشخیص دهد. این کار، یعنی کدگذاری افعال، کلمات مشابه
 
 با آن‌ها را - که فعل نیستند – نیز از آن‌ها متمایز می‌کند
 
 و برای تسهیل در جست و جو مفید است. مثلا "بْرد" (فعل)
 
و "بْرد" (نوعی پارچه)، "برید" (فعل امر) و "برید" (پْست)،
 
 "بهشت" (گذاشت) و "بهشت" (جنّت) از این طریق از
 
 هم متمایز می‌شوند.

- تعیین هویت‌های دیگر نیز ممکن است اما به جهت
 
وقت‌گیر بودن، در این مرحله از آن‌ها صرف‌نظر شده ولی
 
 توجه شده‌است که امکانات آن در نرم‌افزار فراهم باشد که
 
 در صورت لزوم بعدها بتوان کدهای لازم دیگری را برای
 
هویت‌های دیگر افزود. هویت‌هایی از قبیل اسم، صفت
 
، صفت برتر، صفت برترین، صفت عددی، تمییز عدد یا
 
واحد شمارش، قید، صوت، جمع مکسر، اسم جمع، کلمات
 
 پرسشی، نام اشخاص، نام مکان‌ها، نام کتاب‌ها و... .[vi]

موارد پنج‌گانه ‌ی فوق (بند 6) روی همان دو نسخه‌ی متن
 
 اصلی کتاب‌ها (که برای تایپ تهیه شده‌بود)
 
انجام گرفته‌است
 
 و در متونِ آماده‌سازی شده (بند‌های 1 تا 5) و وارد شده در
 
 نرم‌افزار، اِعمال می‌شود. این مرحله یعنی اِعمالِ کدگذاری
 
 ‌های انجام شده‌ی روی کاغذ در نرم‌افزار که توسط
 
کارشناسان زبان و ادبیات فارسی صورت می‌گیرد، آخرین
 
مرحله ‌ی تصحیح (پیش از عرضه ‌ی نرم‌افزار) نیز خواهد
 
 بود بدین صورت که کارشناسان مذکور در مطابقه‌ ی متن
 
اصلی و کلمات و عبارات کدگذاری شده‌ی آن با متن موجود
 
 در نرم‌افزار، خواه ناخواه با غلط‌ها و افتادگی‌های احتمالی
 
 مواجه خواهند شد - که احیانا هر دو تایپیست مانند هم عمل
 
 کرده‌اند[vii] - و به تصحیح آن‌ها اقدام خواهند کرد.


امکانات نرم افزار


1 . قابلیت ایجاد بانک واژگان از همه ‌ی متون ذخیره‌شده
 
 
 در نرم‌افزار یا متون انتخابی و مرتب کردن آن‌ها به
 
روش‌های زیر:



الف) فهرست کردن الفبایی کل واژگان متن یا متون
 
انتخابی بر اساس آغاز واژه همراه با درج شماره ‌ی بسامد
 
 آن در مجموعه ‌ی مورد جست و جو به 2 صورت : از "الف"
 
تا "ی" و از "ی" تا "الف" به هر منظوری مثلا تعیین
 
 مدخل‌های یک فرهنگِ عام یا خاص، بزرگ یا کوچک
 
 و... ، در اختیار داشتن تمام کلمات زبان از آغاز تا 1300
 
برای واژه‌گزینی و نام‌گذاری در موارد عام و خاص،
 
 علمی و غیر علمی.

ب) فهرست کردن الفبایی کل واژگان متن یا متون انتخابی بر
 
اساس پایان واژه همراه با درج شماره ‌ی بسامد آن در
 
 مجموعه ‌ی مورد جست و جو به 2 صورت : از "الف" تا "ی" و از
 
"ی" تا "الف" به منظورهای مختلف مثلا شناختن پسوندهای
 
 زبان فارسی.

ج) فهرست بسامدی کل واژگان متن یا متون انتخابی به 2
 
 صورت صعودی و نزولی (از کم بسامدترین به پر
 
 بسامدترین
 
 و برعکس) که کاربردهای بسیاری خواهد داشت مثلا
 
انتخاب پربسامدترین واژگان در زبان فارسی با رعایت
 
مسائل مربوط، برای تالیف کتاب‌های آموزش زبان فارسی
 
 به کودکان، نوجوانان، جوانان، کم‌سوادان، غیر
 
فارسی‌زبانان و نیز تعیین مدخل‌های فرهنگ‌های یک‌زبانه
 
 یا دوزبانه برای گروه‌های یادشده.

2 . امکان شمارش کل کلمات هر متن یا همه‌ی متون انتخابی
 
و شمارش کلمات (با حذف بسامد آن‌ها) برای تعیین حوزه ‌ی
 
کمی واژگان هر متن و در نهایت واژگان زبان فارسی در
 
 هر دوره یا از آغاز تا 1300 هجری به منظور تحلیل و
 
 بررسی‌های زبانی و...
 
 مثلا تعیین تفاوت دو کتاب در نسبت حوزه‌ی واژگان (بدون
 
 بسامد) به کل واژگانِ متن و بررسی تفاوت‌های دیگری که
 
 می‌توان آن‌ها را ناشی از این تفاوت تلقی کرد.

3 . امکان مشاهده‌، کپی و تهیه‌ی پرینت از بیت یا جمله‌ای
 
 که واژه‌ی مورد جست و جو در آن به کار رفته با درج
 
شماره ‌ی صفحه و نام متن یا کدی که برای آن در نظر
 
گرفته ‌شده‌است.

4 . امکان مرتب‌سازی بیت‌ها یا جمله‌ها ‌‌‌‌‌ی حاوی واژه ‌ی
 
 مورد جست و جو به طرق مختلف و مورد نیاز پژوهش‌گر،
 
 مثلا مرتب‌سازی به ترتیب تاریخ تألیف متون از قدیم به
 
 جدید و برعکس، الفبایی، نظم یا نثر بودن شواهد و … .

5 . امکان وصل شدن از جمله در فهرست جمله‌ها (بند 4)
 
به همان جمله در متن اصلی و ادامه ‌ی جست و جو.

6 . امکان انتخاب یک واژه از درون متن اصلی برای
 
 
 مشاهده ‌ی موارد دیگرِ کاربردِ آن (ادامه ‌ی جست و جو)
 
 
در همان متن و دیگر متون انتخابی کاربر.

7 . امکان جست و جو بر اساس ساخت پایه ‌ی مصدر
 
 
 برای فعل‌ها که از این طریق مثلا می ‌توان دریافت که
 
 
 در متن مورد نظر چه ساخت‌هایی از یک مصدر وجود
 
 
 دارد و بررسی تحولات ساخت‌ها در تاریخ زبان فارسی
 
 
؛ و مهم‌تر از آن در اختیار داشتن شواهد برای هر مصدر
 
 
 که عموما به
 
شکل فعل در جمله به کار می ‌رود و تسهیل و تسریع در کار
 
فرهنگ نویسی.


8 . امکان تبدیل متن به ابیات و جملات متوالی
 
 
 (هر جمله از ابتدای سطر آغاز شود) و امکان مرتب‌کردن
 
این جملات یا ابیات به صورت الفبایی بنا بر آغاز جمله یا
 
بیت و پایان جمله[viii] یا بیت. این امکان در مورد ابیات
 
کاربرد خیلی روشنی دارد؛ با ترتیب الفبایی به سادگی ابیات
 
 
 مشابه در متون مختلف را می‌توان کنار هم دید و تاریخ
 
 اولین بار ثبت بیت در متون را دریافت و احیانا نسبت‌های
 
 مشکوک را تشخیص داد و به گوینده ‌ی واقعی بیت رسید.
 
از سوی دیگر تفاوت‌های ضبط بیت در متون مختلف و
 
یافتن قدیم‌ترین کاربرد آن در تصحیح متون (نسخه‌های
 
 
خطی) نیز مفید خواهد بود و می‌توان تصور کرد ارتباط این
 
مرتب‌سازی را با مقوله‌های سبک‌شناسی، تاریخ زبان
 
فارسی، فرهنگ تاریخی زبان فارسی و نیز تاریخ اندیشه
 
 
 در زبان فارسی[ix] و... . در مورد جملات نیز مرتب‌سازی
 
 
 کم و بیش فوایدی خواهد داشت مانند بررسی نسبت وجود
 
عناصر دستوری در آغاز یا پایان جملات در سبک‌های
 
مختلف، دوره‌های مختلف، موضوعات مختلف،
 
 انواع مختلف ادبی (حماسی، غنایی، تعلیمی و ...).
 


9 . امکان جست و جوی جملات پرسشی، تعجبی و امری
 
 در کلیه‌ی متون یا متون انتخابیِ پژوهش‌گر و امکان
 
مرتب‌کردن یافته‌ها به صورت الفبایی بنا بر آغاز جمله یا
 
 بیت و نیز پایان جمله یا بیت یا بنا بر تاریخ تالیف متون.

10 . امکان جست و جوی "گفت و گو" های کلیه‌ی متون
 
 یا متون انتخابی پژوهش‌گر و امکان مرتب‌سازی فهرست
 
 به دست آمده بنا بر ترتیب تاریخ تالیف متون یا ترتیب
 
الفبایی.

11 . امکان وارد کردن معنی لغات. می‌توان بعدها از این
 
 امکان استفاده کرد و پس از وارد کردن معنی لغات بدون
 
 هیچ کار اضافه‌ای، این لغت‌ها و معنی ‌ها را با مثال و
 
شاهدشان به صورت یک فرهنگ، در نرم‌افزار در اختیار
 
 داشت.



امکانات دیگر
 

با توجه به بند 6 ویرایش و آماده‌سازی متن، پس از کامل
 
 شدن اطلاعات وارد‌شده (حدود هزار عنوان کتاب[x] در
 
 بیش از پانصد هزار صفحه) مجموعه‌های باارزش زیر را
 
 نیز در اختیار خواهیم داشت که به راحتی قابل تبدیل به
 
 کتاب و لوح‌‌های فشرده‌ی مجزا نیز خواهند بود:

فرهنگ جامع امثال و حکم فارسی

فرهنگ جامع سخنان بزرگان (به فارسی)

مجموعه ‌ی ترجمه‌ی احادیث

فرهنگ اقوال عربی در متون فارسی

فرهنگ احادیث عربی به کار رفته در متون فارسی

فرهنگ جامع اشعار (و مصراع‌های) عربی به کار رفته در متون فارسی

فرهنگ امثال و حکم عربی به کار رفته در متون فارسی

فرهنگ جامع اشعار فارسی به کار رفته در متون نثر فارسی (که بسیاری از آن‌ها در هیچ دیوانی یافت نمی‌شود.)

و همگی با درج تفاوت‌ها و ضبط‌های مختلف آن‌ها و… و ناگفته پیداست که با تولید این اثر چه امکانات وسیعی برای پژوهش‌های زبانی، ادبی، تاریخی، اجتماعی و... ایجاد خواهد شد و ضمن بی‌نیاز ساختن ما از کارهای پراکنده و به‌ناچار ناقص در این زمینه‌ها سبب می‌شود که پس از این دیگر عمر شریف محققان این سرزمین صرف
 
امور وقت‌گیری از این دست نگردد و دوران پژوهش‌های
 
 اساسی کارگشا و نقد و تحلیل آغاز شود و شاهد تحقیقات
 
علمی جدی‌تری در علوم انسانی بخصوص در حوزه‌ی زبان
 
 و ادبیات فارسی باشیم.[xi]

اکنون با توجه به این که بانیِ طرح، شورای گسترش زبان
 
 فارسی، ادامه ‌ی طرح در مراحل بعدی و حمایت از آن را
 
در توان یا در حوزه ‌ی وظایف خود نمی‌بیند[xii] انتظار
 
 می‌رود مسئولان نهاد‌هایی که به نحوی سازمان خود را
 
مربوط به این طرح می‌بینند به این امر توجه نمایند.
 
 به سرانجام رساندن این طرح که مورد تایید شفاهی و کتبی
 
 
 استادان طراز اول ادبیات و زبان‌شناسی این مرز و بوم است
 
 و هم با اشراف و راهنمایی ایشان آغاز شده و تا کنون ادامه
 
یافته‌است،[xiii] باعث سربلندی و افتخار، رشد فرهنگی،
 
 علمی و ادبی جامعه، حفظ میراث مکتوب، توسعه، تثبیت و
 
 تعمیق فرهنگ ایرانی – اسلامی و معرفی آن به جهانیان با
 
 رایج‌ترین و آسان‌ترین وسیله‌ی ممکن
 
(لوح فشرده، اینترنت)، گسترش زبان و ادب فارسی در
 
جهان، بازیابی هویت
 
 فرهنگی - تاریخی، معرفی بزرگان ایران اسلامی در طول
 
 تاریخ، کمک قابل توجه به مراکز و نهادهای پژوهشی کشور
 
 و جلوگیری از اتلاف وقت پژوهش‌گران، جلوگیری از
 
اتلاف سرمایه‌ و صرفه‌جویی در هزینه‌های پژوهشی و...
 
خواهد بود و هر نهاد یا فردی که عهده‌دار به انجام‌رساندن
 
 این طرح شود بی‌ شک نام خویش را جاودان کرده‌است.
 
همین جا باید تصریح کنم که به عنوان طراح و مجری
 
 مرحله‌ی نخست این طرح، مطمئنم هر کسِ دیگری که
 
 ادامه ‌ی این کار را به عهده بگیرد از آن‌جا که به‌تنهایی
 
 کاری
 
از پیش نخواهد برد و ناگزیر باید از راهنمایی و مشورت
 
استادان و اهل فن استفاده کند، نتیجه یکی خواهد بود و من
 
هم تجربه‌ی ناچیز خود را با کمال میل در اختیار خواهم
 
گذاشت. به گمان من ادامه‌ی این طرح نیاز به ایجاد یک بنیاد
 
 علمی دارد که بتواند با استفاده از امکانات و نیروی انسانی و
 
 علمی جامعه ‌ی دانشگاهی این کار را سامان دهد و به
 
همه ‌ی جوانب آن بپردازد. طبیعتا ادامه ‌ی این طرح به تالیف
 
فرهنگ جامع زبان فارسی، فرهنگ‌های تخصصی،
 
کتاب‌های آموزش زبان فارسی، تحقیقات بنیادی زبان‌شناسی
 
 و ... منجر خواهد شد که هر کدام خود طرحی مفصل و
 
 گسترده‌اند. نهادهایی مانند وزارت علوم، وزارت ارشاد،
 
بنیاد ایران‌شناسی و بخصوص دانشگاه، فرهنگستان،
 
 پژوهشگاه علوم انسانی و دیگر نهادهای عهده‌دار
 
فرهنگ‌نویسی که درگیر این نوع مسائل هستند، بهترین
 
گزینه‌ها برای ادامه ‌ی این طرح می‌توانند باشند.
 
 
 امر خطیری است و حساسیت بسیار می ‌طلبد، امیدوارم که توانسته‌باشم
 
 در این گزارش حق مطلب را ادا کنم.


یکم آذرماه 1382

فهرست متون قرن چهارم تا نیمه‌ی قرن پنجم هجری





1. آثار منظوم رودکی

2. تاریخ سیستان (قسمت اول)

3. ترجمه ی السواد الاعظم

4. تاریخنامه ی طبری

5. ترجمه ی تفسیر طبری

6. ترجمه ی رساله ی حی بن یقظان

7. ترجمه ی قرآن موزه ی پارس

8. تفسیر قرآن پاک

9. تفسیر قرآن کمبریج

10. تفسیری بر عشری از قرآن مجید

11. حدود العالم من المشرق الی المغرب

12. اشعار پراکنده ی قدیمترین شعرای فارسی

13. دانشنامه ی علایی

14. دانشنامه ی میسری

15. اشعار باباطاهر همدانی

16. دیوان دقیقی طوسی

17. دیوان عسجدی مروزی

18. دیوان عنصری بلخی

19. دیوان فرخی سیستانی

20. دیوان منوچهری دامغانی

21. رگ‌شناسی یا رساله در نبض

22. زین الاخبار گردیزی

23. اشعار کسایی مروزی

24. سخنان منظوم منسوب به ابوسعید

25. (شرح احوال و) اشعار شاعران بی دیوان

26. شاهنامه ی فردوسی

27. کشف المحجوب سجستانی

28. لسان التنزیل

29. مقدمه ی شاهنامه ی منثور ابومنصوری

30. وامق و عذرا (عنصری)

31. ویس و رامین

32. هدایه المتعلمین فی الطب

33. ترجمه ی آهنگین از دو جزء قرآن مجید

34. الابنیه عن حقائق الادویه

35. رساله ی جودیه

36. کنوز المعزمین

37. معیار العقول

38. تاریخ بلعمی

39. التنویر

40. پندنامه ی ماتریدی

41. التفهیم لاوائل صناعه التنجیم

42. بازنامه ی نسوی

43. بخشی از تفسیری کهن

44. بخشی از تفسیری کهن به پارسی

45. تاریخ بیهقی
***********************
[i] . کتابخانه‌ی الوراق با نشانی WWW.ALWARAQ.COM

[ii] . از آن‌جا که طرح "پایگاه داده‌‌های زبان فارسی" در پژوهشگاه علوم انسانی به مدیریت آقای دکتر مصطفی عاصی شامل متون تالیف شده پس از 1300 می‌شود، برای پرهیز از دوباره ‌کاری و صرف هزینه‌ی مجدد، متونِ پس ازاین تاریخ از این طرح کنار گذاشته ‌شد.

[iii] . فهرستی از این کلمات (مشابه در املا و متفاوت در تلفظ و معنی: تا کنون 250 مورد) و (مشابه در املا و تلفظ و متفاوت در معنی: تاکنون 90 مورد) تهیه شده که به‌تدریج کامل می‌شود. برای کاربرد این فهرست ← زیرنویس بعد.

[iv] . به این موارد گونه‌های اسم نیز افزوده می‌شود. مثلا با انتخاب "انوشیروان" برای جست و جو، تمام گونه‌های دیگر این نام که در متون موجود است (انوشروان، انوشه‌روان، نوشروان، نوشیروان، نوشین‌روان و...) در صفحه‌ی نمایش‌گر ظاهر می‌شود تا کاربر ضمن اشراف بر گونه‌های دیگر این نام، جست و جوی خود را کامل و با دقت به انجام برساند.

[v] . این گروه کارشناسان متخصص زبان و ادب فارسی (فارغ‌التحصیلان دوره‌های کارشناسی ارشد و دکتری) هستند.

[vi] . این‌جا باید از کوشش، دقت نظر و همدلی‌های مهندسانِ "گروه تحقیق در عملیات" که مسئولیت برنامه‌نویسی و پشتیبانی فنی این نرم‌افزار را بر عهده دارند صمیمانه تشکر کنم که در ایجاد این امکانات بسیار مساعدت کرده‌اند.

[vii] . طبیعی است که در مواردی دو تایپیست مانند هم اشتباه کنند، مانند مواردی که در دو سطر متوالی یا با فاصله کلمات مشابهی ‌باشد و هنگام تایپ، چشم از روی سطر نخست به سطر مشابه بعدی بلغزد و یک یا چند سطر جا بیفتد.

[viii] . منظور از جمله در این طرح، در حال حاضر لزوما به معنی دستوری جمله نیست بلکه جمله تا جایی که مقصود مورد نظر کاملا بیان شود ادامه خواهد داشت، یعنی کامل بودنِ شاهد برای واژگانِ فرهنگ مد نظر بوده‌است. البته امکان تعیین جمله‌ی دستوری نیز وجود دارد که در صورت لزوم، در مراحل بعد می‌توان بدان پرداخت.

[ix] . تذکر جناب آقای دکتر صدری افشار که مضمون
 
 "خاک مرا کوزه‌گران کوزه کنند" را مثال زدند که پیش از خیام،
 
فرخی هم گفته‌است و با امکانات این پایگاه در این موارد می‌توان
 
 به نتایج
 
 قطعی‌تری رسید.

[x] . تا کنون نزدیک به 900 عنوان کتاب شناسایی و فهرست
 
شده‌است و برآورد می‌شود که این رقم با توجه به محدوده‌ای که
 
 پیش از این تعیین شد، از 1000 عنوان بیشتر نشود.

[xi] . در باب مسائل حقوقی این طرح نیز راه ‌کارهایی اندیشیده
 
 شده‌است که حقوق مادی و معنوی مصححان محترمی که کتابشان
 
 در این طرح مورد استفاده قرار می‌گیرد، محفوظ بماند.
 
 نپرداختن بدان در این مقاله به این جهت است که نحوه‌ی عرضه‌ی
 
 این نرم‌افزار که در این مورد تعیین‌کننده است، هنوز معلوم نیست.

[xii] . مرحله‌ی نخست طرح نیز تا کنون به دلیل نبود امکانات به
 
اتمام نرسیده‌است. اگر امکانات فراهم شود این مرحله حداکثر تا دو
 
ماه دیگر به پایان خواهد رسید ولی با ادامه‌ی وضع کنونی شاید بیش از ده ماه طول بکشد. (مشکل اصلی کمبود رایانه است)

[xiii] . استادان محترم عبارتند از:
 
دکتر حسن انوری، دکتر تقی پورنامداریان، دکتر علی‌‌محمد
 
حق‌شناس، دکتر حسین سامعی، دکتر محمدرضا شفیعی کدکنی،
 
دکترعلی‌اشرف صادقی، دکتر پریوش صفا و دکتر مصطفی
 
عاصی. با تشکر از حمایت‌ها و راهنمایی‌های بی‌دریغشان
 
 
 بخصوص آقای دکتر سامعی که با دقت و حوصله‌ی فراوان
 
 و توجه به جزئیات، نکات مهمی را یادآوری کردند.