চ্যাটজিপিটি কী এবং কীভাবে কাজ করে

207
0

চ্যাটজিপিটি, বর্তমানকালের সবচেয়ে আলোচিত বিষয়গুলোর মধ্যে একটি। চ্যাটজিপিটিকে ঘিরে রয়েছে নানা জল্পনা-কল্পনা। একদিকে যেমন রয়েছে চ্যাটজিপিটি ব্যবহার করে দৈনন্দিন কাজগুলো আরো সহজে করার সুযোগ, সেই সাথে এই জনপ্রিয় আর্টিফিসিয়াল ইন্টিলিজেন্সির আবির্ভাবে তৈরি হয়েছে নানাবিধ দুশ্চিন্তা।

প্লেজিয়ারিজম, কপিরাইট লঙ্ঘন, কর্মী ছাটাই, ভুল তথ্য সংগ্রহ করা, এমন কিছু সীমাবদ্ধতা তৈরি হচ্ছে এআই ব্যবহারের ফলে। তবে এসকল সুবিধা অসুবিধার বাইরে আরেকটি প্রশ্ন হয়তো আমাদের অনেকেরই মনে জেগেছে। প্রশ্নটি হলো চ্যাটজিপিটির পিছনে ওপেন এ আই নামক প্রতিষ্ঠানের যে আর্টিফিশিয়াল ইন্টিলিজেন্স রয়েছে তা কীভাবে কাজ করছে?

অথবা চ্যাটজিপিটি কীভাবে ইউজারের সাথে চ্যাট করতে পারে? কীভাবে একে কোনো প্রশ্ন করলে মুহূর্তের মধ্যে তার উত্তর খুঁজে দেয়। কিংবা অনেক সময় ভুল উত্তরই বা দেয় কেন? এসব প্রশ্নের উত্তর নিয়েই আজকের আলোচনা।

চ্যাটজিপিটি, Photo by Hatice Baran

নামের মাধ্যমেই বোঝা যাচ্ছে, এটি চ্যাট এর মাধ্যমে কাজ করে। জিপিটি(GPT) দ্বারা বোঝায় Generative Pre- trained Transformer। সুতরাং, চ্যাটজিপিটি পূর্ববর্তী ট্রেনিং এর উপর ভিত্তি করে চ্যাট বা প্রম্পটের উত্তর দেওয়ার মাধ্যমে ব্যবহারকারীর সাথে বিভিন্ন বিষয়ে তথ্য আদান প্রদান করে থাকে। 

‘চ্যাটবট’ শব্দটির সাথে হয়তো ইতিমধ্যেই আমরা অনেকেই পরিচিত। চ্যাটজিপিটি প্রকৃতপক্ষে একটি চ্যাটবট, তবে এটি খুবই উন্নত চ্যাটবট। জিপিটি ল্যাংগুয়েজ মডেল ব্যবহারের মাধ্যমে এটি ব্যবহারকারীর বিভিন্ন প্রশ্নের উত্তর দিয়ে থাকে, বিভিন্ন কপি লেখা, ই-মেইল লেখা কিংবা ব্যবহারকারীর সাথে কথোপকথন চালিয়ে যেতে পারে। 

এছাড়াও, বিভিন্ন প্রোগ্রামিং ভাষায় কোড ব্যাখ্যা করতে পারে, সাধারণ ভাষাকে কোডে রূপান্তর করতে পারে। আর এসব কিছুই চ্যাটজিপিটি করে থাকে মানুষের মুখের ভাষার উপর ভিত্তি করে।  

চ্যাটজিপিটি বর্তমানে ‘জিপিটি-৩’ মডেলের উপর ভিত্তি করে কাজ করছে। জিপিটি-৩ হলো ‘ন্যাচারাল ল্যাঙ্গুয়েজ প্রজেক্ট’ এর তিন নাম্বার মডেল। জিপিটি নামক প্রযুক্তিটি পূর্বের থেকেই ট্রেনিং প্রাপ্ত। এই লার্জ স্কেল ল্যাঙ্গুয়েজ মডেলটি ইন্টারনেটের বিস্তৃত জাল থেকে তথ্য-উপাত্তের রেফারেন্স ব্যবহার করে জিপিটি-৩ এর কাঠামোর সাহায্যে কার্যক্রম পরিচালনা করে থাকে। 

চ্যাটজিপিটি-৩ বর্তমানে সকলের জন্য উন্মুক্ত থাকলেও চ্যাটজিপিটি-৩.৫ কেবল প্রিমিয়াম সাবস্ক্রাইবারগণ ব্যবহার করতে পারছেন। (প্রিমিয়াম) ডেটা কালেকশন, টোকেনাইজেশন, লার্জ স্কেল ডেটা, আনসুপারভাইজড লার্নিং প্রভৃতির মাধ্যমে চ্যাটজিপিটির প্রি-ট্রেনিং সম্পন্ন হয়। প্রি- ট্রেনিং সম্পন্ন হওয়ার পর ফাইন টিউনিং করার মাধ্যমে চ্যাটজিপিটি ব্যবহারের জন্য প্রস্তুত হয়। 

চ্যাট বা প্রম্পট ব্যবহারের মধ্যমে চ্যাটজিপিটি কাজ করে Photo by Jonathan Kemper on Unsplash

ডেটা কালেকশন

ডেটা কালেকশন চ্যাটজিপিটির মতো এআই মডেলগুলোর জন্য খুবই গুরুত্বপূর্ণ। মডেলটি বিভিন্ন উৎস থেকে ডেটা সংগ্রহ করে থাকে। এতে মডেলটি ডেটাকে বিভিন্ন আঙ্গিকে ব্যাখ্যা করতে পারে। মডেলটি নানা ধরনের বই, আর্টিকেল, ওয়েবসাইট থেকে তথ্য সংগ্রহ করে থাকে। অনেক জায়গা থেকে তথ্য সংগ্রহের ফলে চ্যাটজিপিটি পুরো বিশ্ব এবং বিশ্বের বিভিন্ন ভাষা সম্পর্কে বৈচিত্র‍্যময় ধারণা রাখতে সক্ষম।  

চ্যাটজিপিটি কেবল ডেটা সংগ্রহই করে না বরং তা ক্লিনিং এবং ফিল্টারিং এর মাধ্যমে ডেটাকে নয়েজমুক্ত করে, ডেটা থেকে অপ্রয়োজনীয় অংশ বাদ দেয়। ডেটা ক্লিনিং বলতে মূলত এইচটিএমএল ট্যাগ রিমুভ করা, বিরাম চিহ্নের যথাযথ ব্যবহার, সঠিক বানান ব্যবহার, বাক্যের গাঠনিক কোনো ভুল সংশোধন ইত্যাদি বোঝায়। 

ডেটা ক্লিনিং এর মাধ্যমে চ্যাটজিপিটি ডেটার  ব্যবহার উপযোগিতা বৃদ্ধি করে এবং তাকে অধিক গ্রহনীয় করে তোলে। এছাড়াও, ডেটা ক্লিনিং এর মাধ্যমে তথ্যের পক্ষপাতিত্ব দূরীকরণসহ, বিপদজনক ও ভুল তথ্য উপস্থাপন করা সম্ভব হয়। 

ডেটা কালেকশন Photo by Markus Spiske on Unsplash

টোকেনাইজেশন

টোকেনাইজেশন এনএলপি (NLP) বা ন্যাচারাল ল্যাঙ্গুয়েজ মডেলগুলোতে বহুল ব্যবহৃত একটি প্রক্রিয়া বা মেথড। এই প্রক্রিয়ায় একটি অর্থবহ বাক্যকে কতগুলো ক্ষুদ্র ক্ষুদ্র এককে ভাগ করা হয়। এই প্রত্যেকটি ভাগ টোকেন নামে পরিচিত। বিভাজনের উপর ভিত্তি করে টোকেন নানা প্রকার হতে পারে৷ যেমন- শব্দ, উপশব্দ, ক্যারেক্টার ইত্যাদি।

টোকেনাইজেশনের ফলে শব্দ বিস্তৃতি কমিয়ে আনা যায়। এতে করে এআই এর গণনা করার দক্ষতা এবং মেমোরি ব্যবহার করার দক্ষতা বৃদ্ধি পায়। তাছাড়াও, টোকেনাইজেশনের ফলে এআই যেহেতু কমান্ডকে টোকেনে ভাগ করে নেয় ফলে তা সম্পূর্ন কমান্ডের বদলে কেবল নির্দিষ্ট টোকেনের উপর ফোকাস করতে পারে। 

টোকেন কেবল অর্থপূর্ণ শব্দগুলোকে প্রক্রিয়াকরণ করে থাকে ফলে এটি সহজেই শব্দ ও বাক্যের মধ্যকার সম্পর্ক অনুধাবন করতে পারে। টোকেনাইজেশন প্রক্রিয়া ব্যবহারের ফলে এআই বহু ভাষায় এর কার্যক্রম পরিচালনা করতে সক্ষম। 

লার্জ স্কেল ডেটা

ইতিমধ্যেই আমরা দেখেছি চ্যাটজিপিটি একটি প্রি-ট্রেইন্ড ল্যাঙ্গুয়েজ মডেল অনুযায়ী কাজ করে। এই ট্রেনিং এর জন্য প্রয়োজন হয়েছে একটি লার্জ স্কেল ডেটা। বিলিয়ন বিলিয়ন বাক্যের সমন্বয়ে এই লার্জ স্কেল ডেটা গঠিত হয়েছে। এই লার্জ স্কেল ডেটা সংরক্ষণ এর জন্য যেমন প্রয়োজন হয়েছে বিশাল স্টোরেজ তেমনি প্রয়োজন হয়েছে এর রক্ষণাবেক্ষনের জন্য সিকিউরিটি সিস্টেম। উল্লেখ্য ওপেন এআই ব্যবহারকারীর তথ্য এবং গোপণীয়তা রক্ষায় কঠোর প্রাইভেসি পলিসি। 

লার্জ স্কেল ডাটা ম্যানেজমেন্টের একটি চিত্র। Image Source: keylogic.com

আনসুপারভাইজড লার্নিং

চ্যাটজিপিটির ট্রেনিং এর পিছনে আনসুপারভাইজড লার্নিং এর ভূমিকা রয়েছে। আনসুপারভাইজড লার্নিং হলো এক ধরনের ট্রেনিং যাতে মডেল কোনো নির্দিষ্ট কাঠামোবদ্ধ লার্নিং এর আওতায় ট্রেনিংপ্রাপ্ত হয় না। বরং, আনলেবেলড ডেটার আওতায় ট্রেনিংপ্রাপ্ত হয়। এরূপ ট্রেনিং এর ফলে চ্যাটজিপিটি ভাষাগত দক্ষতা অর্জন এবং প্রাসঙ্গিক উত্তর প্রদানের সক্ষমতা প্রদান করেছে। 

আনসুপারভাইজড লার্নিং প্রক্রিয়ায় এআই মডেল কিছু প্যাটার্ন বা কাঠামো অনুযায়ী ডেটা প্রক্রিয়া করে থাকে৷ আনসুপারভাইজড লার্নিং প্রক্রিয়ায় চ্যাটজিপিটি আনলেবেলড ডেটা যেমন- বইপত্র, আর্টিকেল, ওয়েবসাইট প্রভৃতি বিস্তৃত উৎস হতে ডেটা বা তথ্য আহরণ করে থাকে। কোনো ধরনের লেবেলিং ব্যতীত চ্যাটজিপিটি এসব উৎসসমূহের তথ্য উপস্থাপনের নির্দিষ্ট প্যাটার্ন, প্রাসঙ্গিকতা পর্যবেক্ষণ করার মাধ্যমে তথ্য সংগ্রহ করে থাকে। 

আনসুপারভাইজড লার্নিং চ্যাটজিপিটির উত্তর প্রদানের ক্ষমতাকে আরো উপযোগিতা প্রদান করেছে। যেহেতু, চ্যাটজিপিটি কোনো লেবেলড বা নির্দেশনা অনুযায়ী তথ্য সরবরাহ করেনা তাই ওপেন এন্ডেড প্রম্পট কিংবা অস্পষ্ট প্রম্পটের জন্য রেস্পন্স জেনারেট করতে অসুবিধা হয় না। ফলে এটি এমন রেসপন্সও প্রস্তুত করতে পারে যার জন্য মডেলটি পুর্বে কোনো ট্রেনিং পায়নি।  

প্রি-ট্রেনিং

প্রি-ট্রেনিং পর্যায়ে চ্যাটজিপিটির মূল ট্রেনিং সম্পন্ন হয়। বিস্তৃত আনলেবেলড ডেটা থেকে এআই মডেলটি তথ্য সরবরাহ করে। এই পর্যায়ে চ্যাটজিপিটি ভাষাগত মডেল সম্বন্ধে ধারণা লাভ করে, যা একে একটি বাক্যের পরবর্তী শব্দ সম্পর্কে অনুমান করতে সাহায্য করে৷ এই ধাপে এআই মডেলটি ভাষাগত দক্ষতা, ব্যাকরণগত দক্ষতা এবং প্রাসঙ্গিক উত্তর প্রদানের দক্ষতা অর্জন করে৷  

চ্যাটজিপিটির প্রি-ট্রেইনিং মডিউল। Image Source: LinkedIn.com

ফাইন টিউনিং

প্রি-ট্রেইনিং শেষে মডেলটিকে নির্ধারিত কাজের জন্য প্রস্তুত করে তোলা হয় ফাইন টিউনিং এর মাধ্যমে। চ্যাটজিপিটির অন্যতম বৈশিষ্ট্য, কথোপকথোন এর ভঙ্গিতে ব্যবহারকারীর সাথে যোগাযোগ করার পিছনে এই ফাইন টিউনিং এর গুরুত্বপূর্ণ ভূমিকা রয়েছে। 

এআই সমাজকে ইতিবাচকভাবে রূপান্তর করার জন্য অসাধারণ সম্ভাবনা রাখে। এর অভ্যন্তরীণ কাজগুলি বোঝার মাধ্যমে, এর প্রয়োগগুলিকে স্বীকৃতি দিয়ে এবং দায়িত্বশীল বিকাশকে আলিঙ্গন করে, আমরা অগ্রগতির একটি হাতিয়ার হিসাবে এর শক্তিকে কাজে লাগাতে পারি।

 

 

 

Feature Image: tsvcap.com 
References:

01. How Does Chatgpt Work.
02. What is Chatgpt and Why Does it Matter? 
03. How ChatGPT Creates Humanlik Conversational Dialogue.
04. How Chatgpt Works the Models Behind the Bot.