5. ডেটার ধরনসমূহ (Data Types)
আমরা প্রায়ই দোকানে গিয়ে বলি, "পাচ কেজি ডাল দেন"। আবার হুটহাট করে বন্ধুকে জিজ্ঞাসা করি, "দোস্ত, কয়টা বাজে?" । আবার টিচাররা বকা দেবার সময় বলেন, "মিথ্যা বলবেনা খবরদার!" ।
আমি এতক্ষন যা বললাম সবই হচ্ছে বিভিন্নরকম ডেটার উদাহরণ। এরকম আমরা আমাদের জীবনের প্রতিটি মুহুর্তে ডেটার ব্যাবহার করেই চলেছি। এর আগের অধ্যায়ে জেনেছি যে ভেরিয়েবল ব্যাবহার করা হয় বিভিন্ন ভ্যালু বা ডেটা স্টোর করে রাখার জন্যে। আজকে আমরা এইসব ভ্যালু বা ডেটার ধরন নিয়ে কথা বলবো। যেমনঃ উপরের উদাহরণে "পাচ" কেজি ডাল কথাটার মধ্যে একটা সংখ্যা আছে। বন্ধু যখন বলে "এখন সাড়ে তিনটা বাজে" এখানেও একটা ডেটা আছে। উপরোক্ত টিচারের কথায় "মিথ্যা" শব্দটিও একটি ডাটা। আমাদের চারপাশের এই হরেক রকম ডেটা নিয়ে কাজ করার জন্যে আমরা এগুলোকে কয়েকটা সুবিধামত ক্যাটাগরীতে ভাগ করে নিয়েছি। যেমনঃ পূর্ন সংখ্যা, সময়, দশমিক সংখ্যা ইত্যাদি। এই ভাগ গুলোকেই বলা হয় ডেটা টাইপস। R প্রোগ্রামিং ভাষায়ও এরকম কয়েকটি ক্যাটাগরি আছে। আমরা এখন সেগুলো দেখবো। তার আগে আমাদের জানা উচিৎ কোনো ডেটার ধরন কিভাবে চেক করতে হয়।
> x<- 61
> class(x)
[1] "numeric"
> y<- "tuhin"
> class(y)
[1] "character"কোনো ভ্যারিয়েবলে কি টাইপের ডেটা আছে তা জানার জন্যে আমরা class() ফাংশন ব্যাবহার করি। যেমন আমাদের এখানে x হচ্ছে নিউমেরিক টাইপ এবং y হচ্ছে ক্যারেকটার টাইপ। এই ক্যারেকটার টাইপকেই স্ট্রিং বলা হয়। ডেটার ধরন বুঝার জন্যে আরো কয়েকটি নিয়ম আছে যেমনঃ
> typeof(y)
[1] "character"এখানে y ভেরিয়েবলে আমি রেখেছিলাম "tuhin" যেটি কিনা একটি ক্যারেকটার টাইপের ডেটা। যা আমরা একটু আগেই দেখলাম class() ফাংশন দিয়ে। এখন typeof(y) লিখে এন্টার প্রেস করেও আমরা একই আউটপুট পাচ্ছি। যদিও typeof() ব্যাবহার করে আমরা আরেকটু ভালো ডিটেইলস আউটপুট পাই। সেটা এই ক্যারেকটার ভ্যারিয়েবলে বোঝা না গেলেও সংখ্যার বেলায় ঠিকই বোঝা যায়। যেমনঃ
> x<- 61
> typeof(x)
[1] "double"আউটপুট এসেছে "double" এটি নিশ্চয় তোমাদের পরিচিত নয়। এই ডাবল কথার অর্থ হচ্ছে সংখ্যাটির পরে দশমিকের পরে ছয়ঘর পর্যন্ত আছে। কিন্তু আমরা তো এখানে কোনো দশমিকই দেইনি, তাহলে এমন হবে কেন? এই প্রশ্ন তোমরা করতেই পারো। তার উত্তরটা হচ্ছে, কোনো কোনো কম্পিউটারে R সমস্ত সঙ্গখ্যাগুলোকে ডাবল বা দশমিক হিসেবে বিবেচনা করে নেয় নিজে থেকেই, যদিনা আমরা তাকে কোনো টাইপ না বলে দেই। তোমার কম্পিউটার হয়তো এটাকে নিজে থেকেই পূর্ণ সঙ্গখ্যা বা integer হিসেবে বিবেচনা করতে পারে। এগুলা নির্ভর করে কম্পিউটার আর্কিটেকচারের উপর। সেসব আমাদের মাথাব্যাথার বিষয় নয়। এখন আমি আমার কম্পিউতারকে বলেই দিবো যে, এই সংখ্যাটি দশমিক নয়, এটি একটি পূর্ণ সঙ্গখ্যা। এই কাজটি করতে পারি এভাবে,
> x<- as.integer(61)
> typeof(x)
[1] "integer"as.integer() ফাংশন দিয়ে আমরা ডাবল ডেটা টাইপকে ইন্টিজার বানিয়ে ফেললাম। এভাবে চাইলেই যেকোনো টাইপে কনভার্ট করা যায় as.character(), as.double(), as.numeric() ইত্যাদি ফাংশন ব্যাবহার করে আমরা সহজেই এক টাইপ থেকে অন্য টাইপে যেতে পারি। তোমরা নিজেরা ট্রাই করে দেখতে পারো।
এছারাও আমরা আরেকভাবে ডেটা টাইপ চেক করতে পারি,
> is.integer(x)
[1] TRUEআউটপুট এসেছে TRUE যার অর্থ হচ্ছে এই ভেরিয়েবলটি ইন্টিজার টাইপের। যদি অন্যভাবে ট্রাই করি? তাহলে কি হবে?
> is.character(x)
[1] FALSEএবারে আউটপুট এসেছে FALSE যার অর্থ হলো এই ডেটা টি ক্যারেক্টার টাইপের না। আশাকরি বুঝাতে পেরেছি। এবারে দেখে নেয়া যাক R এ কি কি টাইপ আছে।
> x<- TRUE
> class(x)
[1] "logical"TRUE এবং FALSE এই দুই টাইপকে বলা হয় লজিক্যাল বা বুলিয়ান টাইপ। এই ট্রু আর ফলস ছাড়া এর অন্যকোনো ভ্যালু নেই।
> x<- 23.5
> class(x)
[1] "numeric"10, 12, 134 যত সংখ্যা আছে সবই নিউমেরিক টাইপের ডেটা হিসেবে বিবেচিত হবে।
> x<- as.integer(23.5)
> class(x)
[1] "integer"যদি সেই সংখ্যাগুলো পূর্ণসংখ্যা হয় তাহলে তাকে আমরা বলবো ইন্টিজার। যেমন এখন আমি 23.5 কে ইন্টিজার বানিয়ে দিয়েছি, তারমানে দশমিকের পরের অংশ বাদ পরে গেছে। বিশ্বাস না হলে x লিখে এন্টার প্রেস করেই দেখো।
> x<- 5+6i
> class(x)
[1] "complex"জটিল সংখ্যা নিয়ে কাজ করার জন্যে complex টাইপ ব্যাবহার করা হয়। সমস্ত জটিল সংখ্যা এই টাইপের অন্তর্ভুক্ত হবে।
> x<- "How are you?"
> class(x)
[1] "character"অক্ষর, চিহ্ন, সংখ্যা, এসব মিলিয়েই তৈরি হয় ক্যারেক্টার টাইপ ডেটা। কিন্তু শর্ত হলো এগুলো একটা " " কোটেশনের ভেতর থাকতে হবে। কোটেশনের ভিতর যাই ই থাকুক না কেন, তাই ই ক্যারেক্টার হয়ে যাবে। আই রিপিট, যাই ই থাকুক না কেন।
> x<- charToRaw("Hello")
> x
[1] 48 65 6c 6c 6f
> class(x)
[1] "raw"এখন আমরা যদি এই অক্ষরগুলোকে আমরা হেক্সাডেসিমেল এ কনভার্ট করে নিই তাহলে সেটাকে Raw টাইপ বলা হবে। আমরা এখানে "Hello" কথাটিকে হেক্সাডেসিমে এ কনভার্ট করেছি charToRaw() ফাংশনের সাহায্যে। তারপর সেটার টাইপ চেক করে দেখলাম। দ্যাটস ইট! আশাকরি বুঝাতে পেরেছি।
এগুলো হচ্ছে বহুল ব্যাবহৃত ডেটা টাইপ। এর বাইরে আর কোনো টাইপের ব্যাবহার নেই বললেই চলে। তবে Date and times কে আলাদা টাইপ হিসেবে বিবেচনা করা যায়। এবং ডেট এন্ড টাইম নিয়ে কাজ করার জন্যে বিশেষ ফাংশন রয়েছে। তাই আমরা ডেট এন্ড টাইমকে এখানে আলোচনা না করে, আলাদাভাবে আলোচনা করবো।
Last updated
Was this helpful?
