এআই চ্যাটবটের স্বাস্থ্য পরামর্শে বিপজ্জনক ভুল: গবেষণায় উদ্বেগজনক ফলাফল

এআই চ্যাটবটের স্বাস্থ্য পরামর্শ: গবেষণায় উদ্বেগজনক ভুলের চিত্র

হঠাৎ করে আপনি জানতে পারলেন, আপনার ক্যানসার হয়েছে প্রাথমিক পর্যায়ে। ডাক্তারের কাছে যাওয়ার আগে আপনি একটি এআই চ্যাটবটকে জিজ্ঞেস করলেন, কোন ক্লিনিকগুলো ক্যানসারের সফল চিকিৎসা করতে পারে? কয়েক সেকেন্ডের মধ্যেই চ্যাটবটটি সুন্দরভাবে সাজানো উত্তর দিল সূত্রসহ। মনে হবে কোনো অভিজ্ঞ ডাক্তার এটি লিখেছেন। কিন্তু সমস্যা হলো, এর ভেতরের কিছু দাবির কোনো ভিত্তি নেই, সূত্রগুলোরও নেই কোনো অস্তিত্ব। চ্যাটবটটি একবারও আপনাকে বলেনি, আপনার করা প্রশ্নটাই হয়তো ভুল ছিল।

গবেষণায় ভয়াবহ ফলাফল

এটি কোনো কাল্পনিক ঘটনা নয়। সাতজন গবেষকের একটি দল বিশ্বের সবচেয়ে জনপ্রিয় পাঁচটি চ্যাটবটকে স্বাস্থ্যবিষয়ক প্রশ্নের মাধ্যমে পরীক্ষা করে ঠিক এমনটাই দেখতে পেয়েছেন। তাঁদের এই গবেষণার ফলাফল প্রকাশিত হয়েছে বিএমজে ওপেন জার্নালে। গবেষকেরা চ্যাটজিপিটি, জেমিনি, গ্রোক, মেটা এআই এবং ডিপসিক—এই পাঁচটি চ্যাটবটকে ক্যানসার, টিকা, স্টেম সেল, পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে ৫০টি করে স্বাস্থ্য ও চিকিৎসাবিষয়ক প্রশ্ন করেছিলেন।

প্রতিটি উত্তর দুজন বিশেষজ্ঞ আলাদাভাবে যাচাই করেন। তাঁরা দেখেন, চ্যাটবটগুলোর দেওয়া উত্তরের প্রায় ২০ শতাংশই ভুল, অর্ধেক উত্তরে অনেক সমস্যা আছে এবং ৩০ শতাংশ উত্তরে সমস্যা ছিল সামান্য। কোনো চ্যাটবটই পুরোপুরি সঠিক সূত্রের তালিকা দিতে পারেনি। আর ২৫০টি প্রশ্নের মধ্যে তারা মাত্র দুটিতে উত্তর দিতে সরাসরি অস্বীকৃতি জানিয়েছে।

Pickt নিবন্ধের পরে ব্যানার — পারিবারিক চিত্রসহ সহযোগী শপিং লিস্ট অ্যাপ

—

Pickt প্রশস্ত ব্যানার — টেলিগ্রামের জন্য সহযোগী শপিং লিস্ট অ্যাপ

কোন চ্যাটবট কতটা খারাপ?

সব মিলিয়ে পাঁচটি চ্যাটবটের পারফরম্যান্স প্রায় একই রকম ছিল। এর মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল। অবশ্য বিষয়ের ওপর ভিত্তি করে এদের পারফরম্যান্স আলাদা ছিল। টিকা এবং ক্যানসারের মতো বিষয়গুলোতে চ্যাটবটগুলো তুলনামূলক ভালো করেছে। তারপরও এসব ক্ষেত্রে তাদের দেওয়া প্রায় চার ভাগের এক ভাগ উত্তর ছিল সমস্যাযুক্ত।

সবচেয়ে বেশি হোঁচট খেয়েছে পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে করা প্রশ্নগুলোতে। কারণ ইন্টারনেটে এসব বিষয়ে অনেক বিভ্রান্তিকর ও সাংঘর্ষিক তথ্য রয়েছে এবং নিখুঁত প্রমাণের অভাব রয়েছে। গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল। অন্যদিকে, হ্যাঁ বা না উত্তরের ক্ষেত্রে ভুলের হার ছিল মাত্র ৭ শতাংশ।

বানোয়াট সূত্রের বিপদ

গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ। ২৫ বারের চেষ্টায় কোনো চ্যাটবটই একবারও পুরোপুরি নির্ভুল সূত্রের তালিকা দিতে পারেনি। চ্যাটবটগুলো লেখকের নাম ভুল দিয়েছে, কাজ করে না এমন লিংক দিয়েছে, এমনকি পুরোপুরি বানোয়াট গবেষণাপত্রের নাম দিয়েছে। বাস্তবে এমন কোনো গবেষণাপত্র কোনো দিন প্রকাশিতই হয়নি।

কৃত্রিম বুদ্ধিমত্তার এই ভুল উত্তর দেওয়া খুব বিপজ্জনক। কারণ সূত্র দেখলে সেগুলোকে প্রমাণ হিসেবে মনে হয়। সুন্দর করে সাজানো সূত্রের তালিকা দেখলে সাধারণ পাঠকদের সেই তথ্যের ওপর সন্দেহ করার কোনো কারণই থাকে না।

চ্যাটবট কেন ভুল উত্তর দেয়?

চ্যাটবটগুলো চিকিৎসাবিষয়ক উত্তর ভুল দেওয়ার পেছনে একটি সহজ কারণ আছে। এআই ভাষার মডেলগুলো নিজেরা কিছুই জানে না। তারা শুধু তাদের প্রশিক্ষণ ডেটা এবং প্রসঙ্গের ওপর ভিত্তি করে হিসাব কষে বের করে, এরপর কোন শব্দটি বসার সম্ভাবনা সবচেয়ে বেশি। তারা কোনো প্রমাণ বিচার করে না বা ভালো-মন্দের পার্থক্যও বোঝে না। তাদের প্রশিক্ষণের উপাদানের মধ্যে যেমন বিজ্ঞানীদের দ্বারা যাচাই করা গবেষণাপত্র থাকে, তেমনি রেডিটের আলোচনা, ওয়েলনেস ব্লগ এবং সোশ্যাল মিডিয়ার নানা তর্ক-বিতর্কও যুক্ত থাকে।

গবেষকেরা চ্যাটবটগুলোকে কোনো সাধারণ বা নিরপেক্ষ প্রশ্ন করেননি। তাঁরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়। এটি এআইয়ের দুর্বলতা পরীক্ষার একটি সাধারণ কৌশল। এর মানে হলো, আপনি যদি সাধারণভাবে প্রশ্ন করেন, তবে হয়তো এত বেশি ভুল উত্তর পাবেন না। গবেষণায় চ্যাটবটগুলোর ফ্রি সংস্করণ ব্যবহার করা হয়েছিল, যা ২০২৫ সালের ফেব্রুয়ারিতে পাওয়া যেত। এদের পেইড বা নতুন সংস্করণগুলো হয়তো এর চেয়ে ভালো ফলাফল দিতে পারে।

অন্যান্য গবেষণার সমর্থন

এই প্রবন্ধের ফলাফলগুলো কোনো বিচ্ছিন্ন ঘটনা নয়; বরং এটি এমন অনেক গবেষণার অংশ, যা একই ধরনের চিত্র তুলে ধরছে। ২০২৬ সালের ফেব্রুয়ারিতে নেচার মেডিসিন জার্নালে প্রকাশিত একটি গবেষণায় অবাক করার মতো একটি তথ্য পাওয়া যায়। দেখা যায়, চ্যাটবটগুলো নিজে থেকে প্রায় ৯৫ শতাংশ সময় সঠিক চিকিৎসাবিষয়ক উত্তর দিতে পারে। কিন্তু সাধারণ মানুষ যখন একই চ্যাটবট ব্যবহার করেন, তখন তাঁরা ৩৫ শতাংশেরও কম সময় সঠিক উত্তর পান। সহজ কথায়, সমস্যা শুধু চ্যাটবট সঠিক উত্তর দিচ্ছে কি না তা নয়, বরং সাধারণ ব্যবহারকারীরা সেই উত্তর বুঝতে এবং সঠিকভাবে ব্যবহার করতে পারছেন কি না, সেটাই আসল বিষয়।

জামা নেটওয়ার্ক ওপেন নামে পিয়ার-রিভিউড এবং ওপেন-অ্যাক্সেস মেডিকেল জার্নালে প্রকাশিত সম্প্রতি আরেকটি গবেষণায় ২১টি শীর্ষস্থানীয় এআই মডেল পরীক্ষা করা হয়। গবেষকেরা তাদের সম্ভাব্য রোগ নির্ণয় করতে বলেছিলেন। যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়। কিন্তু গবেষকেরা যখন ডাক্তারি পরীক্ষা এবং ল্যাবের ফলাফলগুলো তাদের দেন, তখন তাদের নির্ভুলতা ৯০ শতাংশের ওপরে চলে যায়।

গুরুত্বপূর্ণ সতর্কতা

এই চ্যাটবটগুলো কোথাও হারিয়ে যাচ্ছে না, তাদের হারিয়ে যাওয়া উচিতও নয়। তারা জটিল বিষয়গুলোকে সহজে সারসংক্ষেপ করতে পারে, ডাক্তারের কাছে যাওয়ার আগে প্রশ্ন প্রস্তুত করতে সাহায্য করতে পারে এবং গবেষণার শুরুর ধাপ হিসেবেও কাজ করতে পারে। কিন্তু এই গবেষণাটি স্পষ্টভাবে প্রমাণ করে, চ্যাটবটগুলোকে কখনোই একক বা স্বয়ংসম্পূর্ণ চিকিৎসাবিষয়ক কর্তৃপক্ষ হিসেবে মেনে নেওয়া উচিত নয়।

আপনি যদি চিকিৎসাবিষয়ক পরামর্শের জন্য এই চ্যাটবটগুলো ব্যবহার করেনই, তবে এর দেওয়া যেকোনো স্বাস্থ্যবিষয়ক দাবি যাচাই করে নিন। এর তথ্যসূত্রগুলোকে ধ্রুব সত্য হিসেবে না ধরে যাচাই করার পরামর্শ হিসেবে নিন।