এআই চ্যাটবটের স্বাস্থ্য পরামর্শ: গবেষণায় উদ্বেগজনক ভুলের চিত্র
হঠাৎ করে আপনি জানতে পারলেন, আপনার ক্যানসার হয়েছে প্রাথমিক পর্যায়ে। ডাক্তারের কাছে যাওয়ার আগে আপনি একটি এআই চ্যাটবটকে জিজ্ঞেস করলেন, কোন ক্লিনিকগুলো ক্যানসারের সফল চিকিৎসা করতে পারে? কয়েক সেকেন্ডের মধ্যেই চ্যাটবটটি সুন্দরভাবে সাজানো উত্তর দিল সূত্রসহ। মনে হবে কোনো অভিজ্ঞ ডাক্তার এটি লিখেছেন। কিন্তু সমস্যা হলো, এর ভেতরের কিছু দাবির কোনো ভিত্তি নেই, সূত্রগুলোরও নেই কোনো অস্তিত্ব। চ্যাটবটটি একবারও আপনাকে বলেনি, আপনার করা প্রশ্নটাই হয়তো ভুল ছিল।
গবেষণায় ভয়াবহ ফলাফল
এটি কোনো কাল্পনিক ঘটনা নয়। সাতজন গবেষকের একটি দল বিশ্বের সবচেয়ে জনপ্রিয় পাঁচটি চ্যাটবটকে স্বাস্থ্যবিষয়ক প্রশ্নের মাধ্যমে পরীক্ষা করে ঠিক এমনটাই দেখতে পেয়েছেন। তাঁদের এই গবেষণার ফলাফল প্রকাশিত হয়েছে বিএমজে ওপেন জার্নালে। গবেষকেরা চ্যাটজিপিটি, জেমিনি, গ্রোক, মেটা এআই এবং ডিপসিক—এই পাঁচটি চ্যাটবটকে ক্যানসার, টিকা, স্টেম সেল, পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে ৫০টি করে স্বাস্থ্য ও চিকিৎসাবিষয়ক প্রশ্ন করেছিলেন।
প্রতিটি উত্তর দুজন বিশেষজ্ঞ আলাদাভাবে যাচাই করেন। তাঁরা দেখেন, চ্যাটবটগুলোর দেওয়া উত্তরের প্রায় ২০ শতাংশই ভুল, অর্ধেক উত্তরে অনেক সমস্যা আছে এবং ৩০ শতাংশ উত্তরে সমস্যা ছিল সামান্য। কোনো চ্যাটবটই পুরোপুরি সঠিক সূত্রের তালিকা দিতে পারেনি। আর ২৫০টি প্রশ্নের মধ্যে তারা মাত্র দুটিতে উত্তর দিতে সরাসরি অস্বীকৃতি জানিয়েছে।
কোন চ্যাটবট কতটা খারাপ?
সব মিলিয়ে পাঁচটি চ্যাটবটের পারফরম্যান্স প্রায় একই রকম ছিল। এর মধ্যে সবচেয়ে খারাপ করেছে গ্রোক। এর চ্যাটবটের ৫৮ শতাংশ উত্তরই ছিল সমস্যাযুক্ত। এরপর চ্যাটজিপিটির ৫২ শতাংশ এবং মেটা এআইয়ের ৫০ শতাংশ উত্তরে সমস্যা ছিল। অবশ্য বিষয়ের ওপর ভিত্তি করে এদের পারফরম্যান্স আলাদা ছিল। টিকা এবং ক্যানসারের মতো বিষয়গুলোতে চ্যাটবটগুলো তুলনামূলক ভালো করেছে। তারপরও এসব ক্ষেত্রে তাদের দেওয়া প্রায় চার ভাগের এক ভাগ উত্তর ছিল সমস্যাযুক্ত।
সবচেয়ে বেশি হোঁচট খেয়েছে পুষ্টি এবং খেলাধুলার পারফরম্যান্স নিয়ে করা প্রশ্নগুলোতে। কারণ ইন্টারনেটে এসব বিষয়ে অনেক বিভ্রান্তিকর ও সাংঘর্ষিক তথ্য রয়েছে এবং নিখুঁত প্রমাণের অভাব রয়েছে। গবেষকেরা যখন চ্যাটবটগুলোকে এমন প্রশ্ন করেন যেগুলোর উত্তর বিস্তারিতভাবে দিতে হয়, তখন পরিস্থিতি সবচেয়ে খারাপ হয়। এ ধরনের প্রশ্নের ৩২ শতাংশ উত্তরই ছিল ভুল। অন্যদিকে, হ্যাঁ বা না উত্তরের ক্ষেত্রে ভুলের হার ছিল মাত্র ৭ শতাংশ।
বানোয়াট সূত্রের বিপদ
গবেষকেরা যখন প্রতিটি চ্যাটবটের কাছে দশটি বৈজ্ঞানিক সূত্র জানতে চান, তখন তাদের দেওয়া তথ্যের সম্পূর্ণতার গড় ছিল মাত্র ৪০ শতাংশ। ২৫ বারের চেষ্টায় কোনো চ্যাটবটই একবারও পুরোপুরি নির্ভুল সূত্রের তালিকা দিতে পারেনি। চ্যাটবটগুলো লেখকের নাম ভুল দিয়েছে, কাজ করে না এমন লিংক দিয়েছে, এমনকি পুরোপুরি বানোয়াট গবেষণাপত্রের নাম দিয়েছে। বাস্তবে এমন কোনো গবেষণাপত্র কোনো দিন প্রকাশিতই হয়নি।
কৃত্রিম বুদ্ধিমত্তার এই ভুল উত্তর দেওয়া খুব বিপজ্জনক। কারণ সূত্র দেখলে সেগুলোকে প্রমাণ হিসেবে মনে হয়। সুন্দর করে সাজানো সূত্রের তালিকা দেখলে সাধারণ পাঠকদের সেই তথ্যের ওপর সন্দেহ করার কোনো কারণই থাকে না।
চ্যাটবট কেন ভুল উত্তর দেয়?
চ্যাটবটগুলো চিকিৎসাবিষয়ক উত্তর ভুল দেওয়ার পেছনে একটি সহজ কারণ আছে। এআই ভাষার মডেলগুলো নিজেরা কিছুই জানে না। তারা শুধু তাদের প্রশিক্ষণ ডেটা এবং প্রসঙ্গের ওপর ভিত্তি করে হিসাব কষে বের করে, এরপর কোন শব্দটি বসার সম্ভাবনা সবচেয়ে বেশি। তারা কোনো প্রমাণ বিচার করে না বা ভালো-মন্দের পার্থক্যও বোঝে না। তাদের প্রশিক্ষণের উপাদানের মধ্যে যেমন বিজ্ঞানীদের দ্বারা যাচাই করা গবেষণাপত্র থাকে, তেমনি রেডিটের আলোচনা, ওয়েলনেস ব্লগ এবং সোশ্যাল মিডিয়ার নানা তর্ক-বিতর্কও যুক্ত থাকে।
গবেষকেরা চ্যাটবটগুলোকে কোনো সাধারণ বা নিরপেক্ষ প্রশ্ন করেননি। তাঁরা ইচ্ছে করেই এমনভাবে প্রশ্নগুলো সাজিয়েছিলেন, যেন চ্যাটবটগুলো বিভ্রান্তিকর উত্তর দিতে বাধ্য হয়। এআই নিরাপত্তার গবেষণায় একে রেড টিমিং বলা হয়। এটি এআইয়ের দুর্বলতা পরীক্ষার একটি সাধারণ কৌশল। এর মানে হলো, আপনি যদি সাধারণভাবে প্রশ্ন করেন, তবে হয়তো এত বেশি ভুল উত্তর পাবেন না। গবেষণায় চ্যাটবটগুলোর ফ্রি সংস্করণ ব্যবহার করা হয়েছিল, যা ২০২৫ সালের ফেব্রুয়ারিতে পাওয়া যেত। এদের পেইড বা নতুন সংস্করণগুলো হয়তো এর চেয়ে ভালো ফলাফল দিতে পারে।
অন্যান্য গবেষণার সমর্থন
এই প্রবন্ধের ফলাফলগুলো কোনো বিচ্ছিন্ন ঘটনা নয়; বরং এটি এমন অনেক গবেষণার অংশ, যা একই ধরনের চিত্র তুলে ধরছে। ২০২৬ সালের ফেব্রুয়ারিতে নেচার মেডিসিন জার্নালে প্রকাশিত একটি গবেষণায় অবাক করার মতো একটি তথ্য পাওয়া যায়। দেখা যায়, চ্যাটবটগুলো নিজে থেকে প্রায় ৯৫ শতাংশ সময় সঠিক চিকিৎসাবিষয়ক উত্তর দিতে পারে। কিন্তু সাধারণ মানুষ যখন একই চ্যাটবট ব্যবহার করেন, তখন তাঁরা ৩৫ শতাংশেরও কম সময় সঠিক উত্তর পান। সহজ কথায়, সমস্যা শুধু চ্যাটবট সঠিক উত্তর দিচ্ছে কি না তা নয়, বরং সাধারণ ব্যবহারকারীরা সেই উত্তর বুঝতে এবং সঠিকভাবে ব্যবহার করতে পারছেন কি না, সেটাই আসল বিষয়।
জামা নেটওয়ার্ক ওপেন নামে পিয়ার-রিভিউড এবং ওপেন-অ্যাক্সেস মেডিকেল জার্নালে প্রকাশিত সম্প্রতি আরেকটি গবেষণায় ২১টি শীর্ষস্থানীয় এআই মডেল পরীক্ষা করা হয়। গবেষকেরা তাদের সম্ভাব্য রোগ নির্ণয় করতে বলেছিলেন। যখন মডেলগুলোকে শুধু রোগীর বয়স, লিঙ্গ এবং উপসর্গের মতো প্রাথমিক তথ্য দেওয়া হয়, তখন তারা ৮০ শতাংশেরও বেশি সময় সঠিক রোগটি চিহ্নিত করতে ব্যর্থ হয়। কিন্তু গবেষকেরা যখন ডাক্তারি পরীক্ষা এবং ল্যাবের ফলাফলগুলো তাদের দেন, তখন তাদের নির্ভুলতা ৯০ শতাংশের ওপরে চলে যায়।
গুরুত্বপূর্ণ সতর্কতা
এই চ্যাটবটগুলো কোথাও হারিয়ে যাচ্ছে না, তাদের হারিয়ে যাওয়া উচিতও নয়। তারা জটিল বিষয়গুলোকে সহজে সারসংক্ষেপ করতে পারে, ডাক্তারের কাছে যাওয়ার আগে প্রশ্ন প্রস্তুত করতে সাহায্য করতে পারে এবং গবেষণার শুরুর ধাপ হিসেবেও কাজ করতে পারে। কিন্তু এই গবেষণাটি স্পষ্টভাবে প্রমাণ করে, চ্যাটবটগুলোকে কখনোই একক বা স্বয়ংসম্পূর্ণ চিকিৎসাবিষয়ক কর্তৃপক্ষ হিসেবে মেনে নেওয়া উচিত নয়।
আপনি যদি চিকিৎসাবিষয়ক পরামর্শের জন্য এই চ্যাটবটগুলো ব্যবহার করেনই, তবে এর দেওয়া যেকোনো স্বাস্থ্যবিষয়ক দাবি যাচাই করে নিন। এর তথ্যসূত্রগুলোকে ধ্রুব সত্য হিসেবে না ধরে যাচাই করার পরামর্শ হিসেবে নিন।



