গুগল অনুবাদ, হাস্যকর নয় মোটেই
বিশ্বের ৬০ কোটি ইন্টারনেট ব্যবহারকারীদের ২৭.৩% হচ্ছে ইংরেজী ভাষী (সূত্র) আর ২২.৬% হচ্ছে চৈনিক ভাষী। অন্যান্য ভাষাভাষীরা অনেক পিছিয়ে (স্প্যানিশ ৭.৮%, জাপানী ৫%, পর্তুগীজ ৪.৩%, জার্মান ৩.৮%, আরবী ৩.৩%) - বাংলা, হিন্দিভাষী বিশাল জনগোষ্ঠী ইন্টারনেটে তাদের ভাষায় কথা বলে তুলনামূলকভাবে কম। রয়েছে আরও অসামঞ্জস্যতা - ৩১৩ বিলিয়ন ওয়েবপেইজের ৬৮.৪% ইংরেজী ভাষায় তার পরে মাত্র ৫.৯% জাপানি ভাষায় আর ৫.৮% জার্মান ভাষায় (সূত্র)। ২২.৬% চৈনিক ভাষী ব্যবহারকারী ওয়েব কন্টেন্টের মাত্র ৩.৯% তৈরি করে।
এই সব পরিসংখ্যান একটি কথা বলে - আমরা বিশ্বকে জানি বা দেখি ইংরেজী ভাষীদের দৃষ্টিতে - হবেই না কেন বিশ্বের ৬২.৫৫% সংবাদপত্র/ম্যাগাজিন, ২২% বই, ৪৫% জার্নাল, ৩৫% ছবি ও ভিডিও ইংরেজী ভাষায়। কিন্তু এটি একে অপরকে বোঝার ক্ষেত্রে সমস্যার সৃষ্টি করছে নানা স্টেরিওটাইপ তৈরির মাধ্যমে। আমরা ব্রাজিলের কোন ব্লগারের বক্তব্য জানতে পারব না যদি না কেউ অনুবাদ করে দেয় তার ব্লগ। তেমনি বাংলা ব্লগারের লেখা একজন ব্রাজিলিয় পড়তে পারে না।
বিশ্ব সমাজকে এগিয়ে নিতে গেলে তাই অনুবাদ একটি গুরুত্বপূর্ণ মাধ্যম। অনুবাদের কার্যকরী টুলটি সেক্ষেত্রে একটি জরুরী উদ্ভাবন। কিন্তু বাস্তবিক ক্ষেত্রে মেশিন ট্রান্সলেশন কি পর্যায়ে আছে? এক ক্লিকে অনুবাদের ব্যবস্থাটি এখনও নিখুঁত নয়। তার চেয়ে বড় কথা হল মেশিন সব অনুবাদ করে দেবে এই ধারনাটি কম্পিউটার কবিতা লিখবে এরই সমার্থক।
অনুবাদ একটি শিল্প। একজন অনুবাদকের দুই ভাষা ও সংস্কৃতি সম্পর্কে ধারণা থাকা লাগে, পাঠকদের কথা চিন্তা করতে হয় - তবেই সে সঠিক অর্থ ফুটিয়ে তুলতে পারে। আমাদের অনেকেরই জানা নেই যে অনুবাদ একটি ১৮-২০ বিলিয়ন ডলার ইন্ডাস্ট্রি। বিশ্বাস হচ্ছে না? ছবির সাবটাইটেল একটি বড় অনুবাদের জায়গা। এরপর ধরুন ইউরোপিয়ান ইউনিয়নের অনেক প্রকাশনা নিয়ম অনুযায়ী সদস্য দেশগুলোর ২৩টি ভাষায় অনূদিত হয়। অনেক পেশাদারী অনুবাদের প্রতিষ্ঠান রয়েছে এসব ক্ষেত্রে কর্মরত। তাদের কাজের সুবিধার জন্যে নানা সফট্ওয়্যারের উদ্ভব হয়েছে - যেমন প্রোপাইটরী সিসট্রান, ট্রাডোস ইত্যাদি - বা ওপেন সোর্স - যেমন লিঙ্গোটেক, লুসি সফটওয়্যার, আপেরিটিয়াম ইত্যাদি। এইসব সফট্ওয়্যারের মূল মন্ত্র হচ্ছে একই বাক্যের অনুবাদ যাতে দুইবার না করতে হয়। সেজন্যে তারা সাহায্য নেয় ট্রান্সলেশন মেমোরির। মেশিন অনুবাদে যেই ভাষায় সবচেয়ে বেশী কন্টেন্ট পাওয়া যায় সেই ভাষায় অনুবাদ সবচেয়ে বোধগম্যভাবে হয়। কিন্তু এইসব ট্রান্সলেশন মেমোরি বিনামূল্যের নয় - বাজারে বিক্রি হয়। তবে যেই সফ্টওয়্যার ব্যবহার করা হোক মানুষ কর্তৃক মান নিয়ন্ত্রণই সফল বাণিজ্যিক অনুবাদের চাবিকাঠী।
অনুবাদকে তার ব্যয়বহুল ইন্ডাস্ট্রির কবল থেকে মুক্ত করে সার্বজনীন করার লক্ষ্যে ওপেন ট্রান্সলেশন ধারনার উদ্ভব ঘটে। এখানে ক্রাউড সোর্সিং এবং স্বেচ্ছাসেবী অনুবাদের মাধ্যমে মেশিন ট্রান্সলেশন টুলস ব্যবহার করা হয়। গুগলের ট্রান্সলেটর টুলকিট এমন একটি ওপেন ট্রান্সলেশন টুল যেখানে স্বেচ্ছাসেবীরা নিত্য নতুন অনুবাদ সৃষ্টি করে চলেছে এবং সবার জন্যে উন্মুক্ত ট্রান্সলেশন মেমোরি রিপোজিটরি তৈরি করছে।
টেড তাদের ভিডিও অনুবাদের জন্যে অর্ধ মিলিয়ন ডলার খরচ করেছে। তাদের পেশাদারী সংস্থা দিয়ে করা কিছু বাংলা অনুবাদ দেখে যারপরনাই বিরক্ত হয়েছিলাম এবং তাদের একজনকে বলেছিলাম গ্লোবাল ভয়েসেস বাংলা সংস্করণে স্বেচ্ছাসেবীদের দ্বারা এর থেকে অনেক উঁচু মানের কাজ হয়। তাদের সমস্যা ছিল কাজটি বুঝে নিয়েছিল অবাঙ্গালী কেউ - তাই যা ইচ্ছা বুঝিয়ে দিয়েছিল অনুবাদ সংস্থা। টেড এর পরে কমিউনিটি বেইজড ওপেন ট্রান্সলেশন মডেল চালু করে যা সাফল্য পায়।
বাংলা বা তামিলের মত বহু ব্যবহৃত ভাষার জন্যে কার্যকরী মেশিন ট্রান্সলেশন টুলস এতদিন তৈরি না হওয়ার পেছনে রয়েছে পর্যাপ্ত উদ্যোগ ও অর্থের অভাব - অনুবাদক ও অন্কুর এর মত গুটিকয়েক প্রকল্প বেশি দুর আগাতে পারেনি পৃষ্ঠপোষকতার অভাবে।
এছাড়াও রয়েছে প্রযুক্তিগত চ্যালেঞ্জ - অনুবাদ কিন্তু শুধু শব্দের প্রতিস্থাপন নয় - রয়েছে ব্যাকরণ, বাক্যের গঠন, রুপক, বাগধারা ইত্যাদির প্রভাব। যেমন ধরুন দক্ষিণ এশীয় ভাষাগুলোতে বাক্যগুলো (subject-object-verb * আমি-ভাত-খাই) নিয়মে গঠিত হয় যেখানে ইংরেজীতে বাক্য গঠিত হয় (subject-verb-object * I eat rice) এই নিয়মে। এছাড়াও পর্যাপ্ত উন্মুক্ত কন্টেন্টের অভাব একটি বড় কারন ছিল। বিষয়টা ব্যাখ্যা করি। একটি মেশিন ট্রান্সলেশন টুলস তিনটি নিয়ম মেনে কাজ করতে পারে:
ক) রুলস বেইজড (ব্যাকরণের নিয়ম আর অভিধান)
খ) স্ট্যাটিস্টিকাল (দ্বিভাষী ট্রান্সলেশন মেমোরি বা করপাস নিয়ে কাজ করে) আর
গ) হাইব্রিড (উপরের দুয়ের সংমিশ্রণ)
গুগল প্রথম দিকে রুলস বেইজড প্রক্রিয়ায় অনুবাদ করলেও ২০০৭ সাল থেকে স্ট্যাটিসটিক্যাল মেথড চালু করে। এই প্রক্রিয়ায় বিশালাকার টেক্সট কর্পোরা এর দরকার হয়। এটি কার্যকরী করতে ন্যুনতম ২০ লাখ শব্দ নিয়ে কাজ করতে হয় এবং অনেক কম্পিউটিং শক্তি লাগে। এই প্রক্রিয়ার সুবিধা হল যে এটি অনুবাদকারীকে সুযোগ দেয় বেশ কিছু কাছাকাছি শব্দ থেকে বেছে নিতে।
[img]http://3.bp.blogspot.com/-aeV8jF52kRI/Tai2LKwMrEI/AAAAAAAAATk/2KLnTwuFBkE/s400/image00.png[/img]
এই পদ্ধতিতে আরেকটি সুযোগ আছে - ক্রমাগত অনুবাদের মান বৃদ্ধি করা। গুগল ব্লগ অনুযায়ী আপনি ভুল অনুবাদকে ঠিক করতে পারবেন অনায়াসেই এবং গুগল সেটি মনে রাখবে এবং পরবর্তী বার সঠিক অনুবাদ উপস্থাপন করবে।
কাজেই আমি মনে করি গুগল ট্রান্সলেইটে বাংলা ভাষাভাষীদের জন্যে একটি যুগান্তকারী টুল। এটি এযাবৎকালে পাওয়া যাওয়া একমাত্র টুল অনুবাদক অনলাইনের চেয়ে বহুগুণে সমৃদ্ধ। আর এখন বাংলা ভাষা থেকে বিশ্বের ৬২টি ভাষায় (ভুল হলেও) অনুবাদ সম্ভব - এর শক্তি নিশ্চয়ই অনুমেয়। আসুন ওপেন ট্রান্সলেশন ধারনা আপন করে গুগল ট্রান্সলেট এর ভুলগুলো নিজেরা শুদ্ধ করে দেই ভবিষ্যৎ কল্যাণের জন্যে অথবা গুগল ট্রান্সলেটর টুলকিট ব্যবহার করে গুগলের ট্রান্সলেশন মেমরিকে সমৃদ্ধ করি।
ছবির জন্য কৃতজ্ঞতা: অনুবাদক, ইন্টারনেট ওয়ার্ল্ড স্ট্যাটস, গুগল ট্রান্সলেট।
বিবিধ রেফারেন্স:
* ওপেন ট্রান্সলেশন টুলস ম্যানুয়াল
* গুগল ট্রান্সলেট পাঁচটি উপমহাদেশীয় ভাষা যোগ করেছে
* ওপেন ট্রান্সলেশন দিয়ে বিশ্বে পরিবর্তন আনা
* Development of A Morphological analyser for Bengali
* Bootstrapping of a rule based English-Bangla machine translation system using work done for a sister language - BRAC University Institutional Repository
সচলায়তনে প্রকাশিত
এই সব পরিসংখ্যান একটি কথা বলে - আমরা বিশ্বকে জানি বা দেখি ইংরেজী ভাষীদের দৃষ্টিতে - হবেই না কেন বিশ্বের ৬২.৫৫% সংবাদপত্র/ম্যাগাজিন, ২২% বই, ৪৫% জার্নাল, ৩৫% ছবি ও ভিডিও ইংরেজী ভাষায়। কিন্তু এটি একে অপরকে বোঝার ক্ষেত্রে সমস্যার সৃষ্টি করছে নানা স্টেরিওটাইপ তৈরির মাধ্যমে। আমরা ব্রাজিলের কোন ব্লগারের বক্তব্য জানতে পারব না যদি না কেউ অনুবাদ করে দেয় তার ব্লগ। তেমনি বাংলা ব্লগারের লেখা একজন ব্রাজিলিয় পড়তে পারে না।
বিশ্ব সমাজকে এগিয়ে নিতে গেলে তাই অনুবাদ একটি গুরুত্বপূর্ণ মাধ্যম। অনুবাদের কার্যকরী টুলটি সেক্ষেত্রে একটি জরুরী উদ্ভাবন। কিন্তু বাস্তবিক ক্ষেত্রে মেশিন ট্রান্সলেশন কি পর্যায়ে আছে? এক ক্লিকে অনুবাদের ব্যবস্থাটি এখনও নিখুঁত নয়। তার চেয়ে বড় কথা হল মেশিন সব অনুবাদ করে দেবে এই ধারনাটি কম্পিউটার কবিতা লিখবে এরই সমার্থক।
অনুবাদ একটি শিল্প। একজন অনুবাদকের দুই ভাষা ও সংস্কৃতি সম্পর্কে ধারণা থাকা লাগে, পাঠকদের কথা চিন্তা করতে হয় - তবেই সে সঠিক অর্থ ফুটিয়ে তুলতে পারে। আমাদের অনেকেরই জানা নেই যে অনুবাদ একটি ১৮-২০ বিলিয়ন ডলার ইন্ডাস্ট্রি। বিশ্বাস হচ্ছে না? ছবির সাবটাইটেল একটি বড় অনুবাদের জায়গা। এরপর ধরুন ইউরোপিয়ান ইউনিয়নের অনেক প্রকাশনা নিয়ম অনুযায়ী সদস্য দেশগুলোর ২৩টি ভাষায় অনূদিত হয়। অনেক পেশাদারী অনুবাদের প্রতিষ্ঠান রয়েছে এসব ক্ষেত্রে কর্মরত। তাদের কাজের সুবিধার জন্যে নানা সফট্ওয়্যারের উদ্ভব হয়েছে - যেমন প্রোপাইটরী সিসট্রান, ট্রাডোস ইত্যাদি - বা ওপেন সোর্স - যেমন লিঙ্গোটেক, লুসি সফটওয়্যার, আপেরিটিয়াম ইত্যাদি। এইসব সফট্ওয়্যারের মূল মন্ত্র হচ্ছে একই বাক্যের অনুবাদ যাতে দুইবার না করতে হয়। সেজন্যে তারা সাহায্য নেয় ট্রান্সলেশন মেমোরির। মেশিন অনুবাদে যেই ভাষায় সবচেয়ে বেশী কন্টেন্ট পাওয়া যায় সেই ভাষায় অনুবাদ সবচেয়ে বোধগম্যভাবে হয়। কিন্তু এইসব ট্রান্সলেশন মেমোরি বিনামূল্যের নয় - বাজারে বিক্রি হয়। তবে যেই সফ্টওয়্যার ব্যবহার করা হোক মানুষ কর্তৃক মান নিয়ন্ত্রণই সফল বাণিজ্যিক অনুবাদের চাবিকাঠী।
অনুবাদকে তার ব্যয়বহুল ইন্ডাস্ট্রির কবল থেকে মুক্ত করে সার্বজনীন করার লক্ষ্যে ওপেন ট্রান্সলেশন ধারনার উদ্ভব ঘটে। এখানে ক্রাউড সোর্সিং এবং স্বেচ্ছাসেবী অনুবাদের মাধ্যমে মেশিন ট্রান্সলেশন টুলস ব্যবহার করা হয়। গুগলের ট্রান্সলেটর টুলকিট এমন একটি ওপেন ট্রান্সলেশন টুল যেখানে স্বেচ্ছাসেবীরা নিত্য নতুন অনুবাদ সৃষ্টি করে চলেছে এবং সবার জন্যে উন্মুক্ত ট্রান্সলেশন মেমোরি রিপোজিটরি তৈরি করছে।
টেড তাদের ভিডিও অনুবাদের জন্যে অর্ধ মিলিয়ন ডলার খরচ করেছে। তাদের পেশাদারী সংস্থা দিয়ে করা কিছু বাংলা অনুবাদ দেখে যারপরনাই বিরক্ত হয়েছিলাম এবং তাদের একজনকে বলেছিলাম গ্লোবাল ভয়েসেস বাংলা সংস্করণে স্বেচ্ছাসেবীদের দ্বারা এর থেকে অনেক উঁচু মানের কাজ হয়। তাদের সমস্যা ছিল কাজটি বুঝে নিয়েছিল অবাঙ্গালী কেউ - তাই যা ইচ্ছা বুঝিয়ে দিয়েছিল অনুবাদ সংস্থা। টেড এর পরে কমিউনিটি বেইজড ওপেন ট্রান্সলেশন মডেল চালু করে যা সাফল্য পায়।
বাংলা বা তামিলের মত বহু ব্যবহৃত ভাষার জন্যে কার্যকরী মেশিন ট্রান্সলেশন টুলস এতদিন তৈরি না হওয়ার পেছনে রয়েছে পর্যাপ্ত উদ্যোগ ও অর্থের অভাব - অনুবাদক ও অন্কুর এর মত গুটিকয়েক প্রকল্প বেশি দুর আগাতে পারেনি পৃষ্ঠপোষকতার অভাবে।
এছাড়াও রয়েছে প্রযুক্তিগত চ্যালেঞ্জ - অনুবাদ কিন্তু শুধু শব্দের প্রতিস্থাপন নয় - রয়েছে ব্যাকরণ, বাক্যের গঠন, রুপক, বাগধারা ইত্যাদির প্রভাব। যেমন ধরুন দক্ষিণ এশীয় ভাষাগুলোতে বাক্যগুলো (subject-object-verb * আমি-ভাত-খাই) নিয়মে গঠিত হয় যেখানে ইংরেজীতে বাক্য গঠিত হয় (subject-verb-object * I eat rice) এই নিয়মে। এছাড়াও পর্যাপ্ত উন্মুক্ত কন্টেন্টের অভাব একটি বড় কারন ছিল। বিষয়টা ব্যাখ্যা করি। একটি মেশিন ট্রান্সলেশন টুলস তিনটি নিয়ম মেনে কাজ করতে পারে:
ক) রুলস বেইজড (ব্যাকরণের নিয়ম আর অভিধান)
খ) স্ট্যাটিস্টিকাল (দ্বিভাষী ট্রান্সলেশন মেমোরি বা করপাস নিয়ে কাজ করে) আর
গ) হাইব্রিড (উপরের দুয়ের সংমিশ্রণ)
গুগল প্রথম দিকে রুলস বেইজড প্রক্রিয়ায় অনুবাদ করলেও ২০০৭ সাল থেকে স্ট্যাটিসটিক্যাল মেথড চালু করে। এই প্রক্রিয়ায় বিশালাকার টেক্সট কর্পোরা এর দরকার হয়। এটি কার্যকরী করতে ন্যুনতম ২০ লাখ শব্দ নিয়ে কাজ করতে হয় এবং অনেক কম্পিউটিং শক্তি লাগে। এই প্রক্রিয়ার সুবিধা হল যে এটি অনুবাদকারীকে সুযোগ দেয় বেশ কিছু কাছাকাছি শব্দ থেকে বেছে নিতে।
[img]http://3.bp.blogspot.com/-aeV8jF52kRI/Tai2LKwMrEI/AAAAAAAAATk/2KLnTwuFBkE/s400/image00.png[/img]
এই পদ্ধতিতে আরেকটি সুযোগ আছে - ক্রমাগত অনুবাদের মান বৃদ্ধি করা। গুগল ব্লগ অনুযায়ী আপনি ভুল অনুবাদকে ঠিক করতে পারবেন অনায়াসেই এবং গুগল সেটি মনে রাখবে এবং পরবর্তী বার সঠিক অনুবাদ উপস্থাপন করবে।
কাজেই আমি মনে করি গুগল ট্রান্সলেইটে বাংলা ভাষাভাষীদের জন্যে একটি যুগান্তকারী টুল। এটি এযাবৎকালে পাওয়া যাওয়া একমাত্র টুল অনুবাদক অনলাইনের চেয়ে বহুগুণে সমৃদ্ধ। আর এখন বাংলা ভাষা থেকে বিশ্বের ৬২টি ভাষায় (ভুল হলেও) অনুবাদ সম্ভব - এর শক্তি নিশ্চয়ই অনুমেয়। আসুন ওপেন ট্রান্সলেশন ধারনা আপন করে গুগল ট্রান্সলেট এর ভুলগুলো নিজেরা শুদ্ধ করে দেই ভবিষ্যৎ কল্যাণের জন্যে অথবা গুগল ট্রান্সলেটর টুলকিট ব্যবহার করে গুগলের ট্রান্সলেশন মেমরিকে সমৃদ্ধ করি।
ছবির জন্য কৃতজ্ঞতা: অনুবাদক, ইন্টারনেট ওয়ার্ল্ড স্ট্যাটস, গুগল ট্রান্সলেট।
বিবিধ রেফারেন্স:
* ওপেন ট্রান্সলেশন টুলস ম্যানুয়াল
* গুগল ট্রান্সলেট পাঁচটি উপমহাদেশীয় ভাষা যোগ করেছে
* ওপেন ট্রান্সলেশন দিয়ে বিশ্বে পরিবর্তন আনা
* Development of A Morphological analyser for Bengali
* Bootstrapping of a rule based English-Bangla machine translation system using work done for a sister language - BRAC University Institutional Repository
সচলায়তনে প্রকাশিত