Data Science Career

ডেটা সায়েন্স- আপনার উপযুক্ত জব কোনটি?

ডেটা সায়েন্স- আপনার উপযুক্ত জব কোনটি– এটি আজকের লেখার বিষয়। এটি খুবই গুরুত্বপূর্ণ একটি টপিক। কেননা জব মার্কেটে নামার আগেই জানতে হবে কোন ধরনের জবের সাথে আপনার স্কিলসেট মেলে এবং কোন ধরনের জবের ফাংশন কী।

হার্ভার্ড বিজনেস রিভিউ ২০১২ সনে লিখেছিল একবিংশ শতাব্দীর সেক্সিয়েস্ট জব হলো ডেটা সায়েন্স। এর সত্যতা প্রমাণের দরকার নেই; চাকরি বাজারে তাকালেই এর সত্যতা মেলে। আগের লেখায় বলেছিলাম ডেটা সায়েন্স এখন হট টপিক। তেমনি হট এর চাকুরির বাজার। আর বাজারের চাহিদা মেটাতে আমেরিকা এবং কানাডার অনেক বিশ্ববিদ্যালয়ে সম্প্রতি ডেটা সায়েন্স প্রোগ্রাম চালু করেছে। ধারণা করা যায় এই অনেকদিন অব্যাহত থাকবে যতদিন না বাজারে ডেটা সায়েন্টিস্টদের চাহিদার সাথে যোগানের সমন্বয় হয়।

বাংলাদেশে এখনো সেভাবে ডেটা সায়েন্স-এর প্রচার কিংবা ডেটা সায়েন্টিস্টদের প্রয়োজনীয়তা অনুভূত হয়নি। তবে অন্যান্য দেশের মতো বাংলাদেশেও ব্যাপকভাবে ডেটা ভিত্তিক সিদ্ধান্তগ্রহণের কাজ দ্রুত শুরু হয়ে যাবে। এখন একটু একটু করে ঢেউ বাংলাদেশে এসে লাগছে। আমার ধারণা আগামী ১ থেকে ২ বছরের মধ্যেই এই ঢেউ সুনামির রূপ ধারণ করবে। যার মানে হলো আমেরিকার মতো বাংলাদেশেও ডেটা ব্যবহার করে ব্যবসায়িক সিদ্ধান্তগ্রহণ করা শুরু হবে। আর তখনই ডেটা সায়েন্স জব মার্কেটে দক্ষ ডেটা সায়েন্টিস্ট ও এনালিস্টদের শুন্যতা অনুভূত হবে।

বিদেশে বিশেষ করে আমেরিকাতে গত এক বছরে ডেটা সায়েন্স ফিল্ডে চাকুরির বাজার ব্যাপক প্রসার লাভ করেছে। যার ফলে এই ফিল্ডের সাথে যে-কোনভাবে সম্পর্কযুক্ত সবাই এই মার্কেটে ঢুকতে চাইছে। ফলে প্রতিযোগিতা বাড়ছে তবে এখনো দক্ষ জনবলের অভাব রয়ে গিয়েছে। ফলে যত বেশী জবের সুযোগ আছে তত বেশী প্রার্থী পাওয়া যাচ্ছে না। কিছুদিন আগেও চাকুরি প্রার্থী এবং চাকুরি দাতা কেউই ঠিকমতো জানতো না ডেটা সায়েন্স এবং ডেটা সায়েন্টিস্টদের আসলে কোথায় কাজে লাগানো হবে। কিংবা কী ধরনের দক্ষতা সম্পন্ন লোকদের হায়ার করতে হবে। সে পরিস্থিতি এখনও খুব একটা পরিবর্তিত হয়েছে তা বলা যাবে না তবে আগের চেয়ে পরিশোধিত হয়েছে এবং চাকুরিদাতারা এখন ডেটা সায়েন্টিস্টদের কাজের পরিধি এবং কাজের ধরণ আগের চেয়ে ভালো বুঝতে পারছে এবং সে মোতাবেক দক্ষ ব্যক্তিদের হায়ার করছে। বলা যায় আগামী দিনে কাজের পরিধিগুলো আরো সুনির্দিষ্ট হবে এবং চাকুরি প্রার্থীরা জব মার্কেটে তাদের জায়গা খুঁজে পাবে।

পরিসংখ্যানবিদরা কীভাবে এই বাজারে নিজেদের উপযোগী জব খুঁজবে?

নতুন প্রজন্মের পরিসংখ্যানবিদ বা অন্য কোয়ান্টিটেটিভ ডিসিপ্লিনের গ্রাজুয়েটরা এই বাজারে প্রবেশের জন্য উদগ্রীব। কিন্তু তাদের বেশীরভাগই ডেটা সায়েন্সে প্রাতিষ্ঠানিকভাবে প্রশিক্ষিত নয়। যে কারণে চাকুরীর বাজারে গিয়ে তারা বুঝতে পারছে না কোন পদের জন্য আবেদন করবে কিংবা কোন পদের সাথে তাদের দক্ষতা সামঞ্জস্যপূর্ণ।

কিন্তু তাদের বেশীরভাগই ডেটা সায়েন্সে প্রাতিষ্ঠানিকভাবে প্রশিক্ষিত নয়। যে কারণে চাকুরীর বাজারে গিয়ে তারা বুঝতে পারছে না কোন পদের জন্য তারা আবেদন করবে কিংবা কোন পদের সাথে তাদের দক্ষতা সামঞ্জস্যপূর্ণ।

জব ডেসক্রিপশনের সাথে প্রার্থীর অভিজ্ঞতা ও দক্ষতার মিল না হলে একদিকে যেমন চাকুরী প্রাপ্তিতে দেরী হবে অন্যদিকে চাকুরী কোনভাবে পেয়ে গেলেও কর্মক্ষেত্রে গিয়ে সেই মিসম্যাচ প্রকাশিত হবে। এটা প্রার্থী এবং কোম্পানী — দুয়ের জন্যই ব্যয়বহুল।

ডেটা সায়েন্সে চাকুরীর বাজারে যা চাওয়া হচ্ছে

এটি অনস্বীকার্য যে সংশ্লিষ্ট সবাই এই ফিল্ডে কাজ করতে চাইছে এবং আরো অনেকেই উঁকি মেরে দেখছে যে ডেটা সায়েন্টিস্টরা আসলে কী ধরনের কাজ করে। আমি এখানে এটা হাই-লেভেল ওভারভিউ দিচ্ছি যাতে ডেটা সায়েন্স ফিল্ডে কাজের প্রবাহচিত্রটি বোঝা যায়। প্রথমেই দেখে নেয়া যাক ডেটা সায়েন্টিস্ট পদের জবে কী ধরনের অভিজ্ঞতা চাওয়া হয়।

জেনারেল ইলেক্ট্রিক তাদের ক্যালিফোর্নিয়া বেইজে ডেটা সায়েন্টিস্ট চাইছে। সেখানে যা যা চাওয়া হচ্ছে তার সারসংক্ষেপ

Data Scientist at GE

  • Gather and analyze data, devise innovative data science solutions and build prototypes
  • Enable development of high-performance algorithms for solutions in scalable, product-ready code
  • Guide data science teams to develop, verify, and validate analytics leveraging the latest data science techniques
  • Contribute to the exploration and creation of new scientific understanding
  • Initiate and propose unique and promising modeling projects, develop new and innovative algorithms and technologies, pursuing patents where appropriate
  • Stay current on published state-of-the-art algorithms and competing technologies
  • Maintain world-class academic credentials through publications, presentations, external collaborations and service to the research community
  • Participate in academic conferences and publish research papers
  • Communicate methods, findings, and hypotheses with stakeholders.

এরপর দেখা যাক ক্লিভল্যান্ড ক্লিনিকে ডেটা সায়েন্টিস্টদের জন্য কী কী চাওয়া হচ্ছে —

Data Scientist at Cleveland Clinic

  • Generates routine reports and ad hoc reports on patient, prospects, conversion, ROI and CM for campaigns of all marketing channels, including paid media (Paid search, Banner Ads), earned media (PR), owned media (website , mobile apps) shared media (social media) through various systems such as SAS, SQL, SPSS or R or Python.
  • Performs basic data analysis to include data validation, investigation, and trending analysis.
  • Assists Data Scientist II and III with transforming data into actionable insights and useful information by conducting analysis pertaining to patient profiling, segmentation, path analysis, cluster analysis and cohort analysis to support decision making.
  • Assists with testing hypotheses.
  • Builds basic predictive models, market mix models, attribution models and other statistical models as needed by using modeling tools.
  • Utilizes process enhancement opportunities to improve the efficiency of data pulling, reporting, programming, etc.
  • Works with DBA/Developer on standardizing and improving data pulling, cleansing and loading processes.
  • Assists in communicating and presenting business issues and analytical findings to marketing team and clients.
  • Installs and maintains analytic program(s). Updates existing analytics software as necessary.
  • Identifies technical issues and manages resolution for analytics programs.

আপনি উপরের উদাহরণগুলোতে পুরো জব ডেসক্রিপশন নাও পড়ে থাকেন শুধু আন্ডারলাইন করা অংশুটুকু পড়লেও বুঝতে পারবেন কী ধরনের দক্ষতা এরা চাইছে। পরিসংখ্যানের ছাত্র হয়ে থাকলে এর অধিকাংশই আপনার জানাশোনার মধ্যে হবে। শুধু ডেটাবেইজ, বিগডেটা আর্কিটেকচার, হাডুপ, এইচবেইজ, মাহাউট, এসব আপনার কাছে নতুন লাগবে।

আপনি উপরের উদাহরণগুলোতে পুরো জব ডেসক্রিপশন নাও পড়ে থাকেন শুধু আন্ডারলাইন করা অংশুটুকু পড়লেও বুঝতে পারবেন কী ধরনের দক্ষতা এরা চাইছে। পরিসংখ্যানের ছাত্র হয়ে থাকলে এর অধিকাংশই আপনার জানাশোনার মধ্যে হবে।

ডেটা সায়েন্স ফিল্ডে কাজের প্রবাহচিত্র

এবারে প্রবাহচিত্রটি তুলে ধরছি যাতে করে সবাই সহজে বুঝতে পারেন। পোস্টের একদম শুরুতে আমি একটি প্রবাহচিত্র দিয়েছি। সেটিকেই বাংলায় করে দিলাম যাতে পাঠক আকৃষ্টবোধ করেন।

ডেটা সায়েন্স এর জব মূলত ইটিএল (ETL – Extract, Transform, Load) এবং এনালিটিক্স — এই দুই ধাপে সীমাবদ্ধ। আরেকটি ধাপ চিন্তা করা যেতে পারে যেটিকে আমি তথ্য সংগ্রহ ধাপ বলেছি। এগুলো সংক্ষেপে ব্যাখ্যা করছি।

সোর্সিং

প্রথম ধাপটি সাধারণত ডেটা সাইন্টিস্টদের কাছে উহ্য থাকে। যেটিকে আমরা সোর্স বলতে পারি। সোর্স পর্যায়ে আসলে তথ্য সংগ্রহ করা হয়। কোন একটি ইন্ডাস্ট্রির কথা চিন্তা করুন। তারা কোন না কোন ভাবে তথ্য সংগ্রহ করছে। এসব সিস্টেমে ফ্রন্টএন্ডে ইউজার ফ্রেন্ডলি ইন্টারফেসের মাধ্যমে তথ্য ইনপুট করা হয়। যেটি কোন এক ডেটাবেইজে গিয়ে জমা হয়। মোটা দাগে এই অংশটি সফটওয়্যার ডেভলপারদের কাজ। তারা ইউজার ইন্টারফেইস ডিজাইন থেকে শুরু করে বেসিক ডেটা স্টোরেজ সলুশন তৈরী করে। এই ধাপে সাধারণত কোন এনালিটিক কাজ করা হয়না। হয়তো বেসিক ডেটা সামারি টাইপের কিছু করা হয়ে থাকে। সেটা নির্ভর করে সফটওয়্যারে সেরকম সুবিধাদি আছে কিনা তার উপর।

ইটিএল

দ্বিতীয় ধাপটি অনেক বড়। এটিকে জব ডেসক্রিপশনে বলবে ETL। এই ধাপটিকে আইটি ধাপও বলা যায় কেননা পরিসংখ্যানবিদরা সাধারণত এই ধাপে কাজ করেনা বা তারা এখন পর্যন্ত ততটা অবগত নয়। তবে পরিস্থিতি বদলাচ্ছে। এখন সবাইকেই সবকিছু সম্পর্কে মোটামুটি ধারণা রাখতে হচ্ছে।

সহজ কথায় বলতে গেলে এই ধাপে ITর লোকজন নানা সোর্স সিস্টেম থেকে ডেটাকে এনালিস্টদের কাছে পৌঁছানোর জন্য যা করা দরকার সেগুলো সম্পন্ন করে। এই ধাপে যে কাজ গুলো করা হয় সেগুলোকে সংক্ষেপে ETL বা extract, transform, load বলে। এখানে বিভিন্ন সোর্স সিস্টেমের র ডেটাকে এক্সট্রাক্ট করে, সেগুলোকে প্রয়োজন মতো একটার সাথে একটা জুড়ে দিয়ে (merging/linking/joining), পরিশোধন, পরিবর্তন, পরিবর্ধন করে ডেটা ওয়্যারহাউজে এনে জমা করে। ডেটা ওয়্যারহাইজ হলো অনেক বড় ডেটা স্টোরেজ যেখান থেকে প্রয়োজনীয় ডেটা সহজে কোয়েরি করা যায়। বলা যায় ডেটা ওয়্যারহাউজ হলো সব ডেটাবেজের ডেটাবেজ।

ইটিএল -এর সহজ পাঠ

আমি জানি বাইরে থেকে এই প্রসেসটি সহজে বোঝা সহজ নয়। তাই বাংলাভাষীরা বুঝতে পারবে এমন একটি উদাহরণের মাধ্যমে বোঝানোর চেষ্টা করবো।

ইটিএল প্রসেসটিকে তুলনা করা যায় জমি থেকে ফসল তুলে খাবার টেবিলে পৌঁছানোর আগ পর্যন্ত যা করা হয় তার সাথে। ফসলের জমি থেকে নানা ধরনের ফসল (ধান, আলু, গম) তুলে এনে, গাড়িতে বা অন্য কোনভাবে বহন করে মধ্যবর্তী কোন স্থানে এনে পরিস্কার করে বিভিন্ন শস্য আলাদা করে হোলসেল মার্কেটে বা স্টোরেজে পাঠানো। সেখান থেকে গ্রাহক পর্যায়ে পৌঁছানোর জন্য কাঁচা ফসল বিক্রয় কেন্দ্রে পাঠানো হবে। এই ধাপটিই ইটিএল। অর্থাৎ

  • এক্সট্র্যাক্ট- জমি থেকে নানা শস্য তুলে আনা (সব ধরনের সোর্স থেকে ডেটা সংগ্রহ করা)
  • ট্রান্সফরম – শস্যগুলোকে বাছাই করা, আলাদা আলাদা করে শস্যের ধরন অনুযায়ি বস্তায় ভরা (ডেটা ক্লিনিং, মার্জিং)
  • লোড – গ্রহকের কাছে পৌঁছানোর জন্য বাজারে পাঠানোর উপযোগি করা (ডেটা ওয়্যারহাউজিং)

কোন ব্যক্তি যেমন নিজে বীজ বুনে জমিতে লাগিয়ে, চাষ করে, ফসল ফলিয়ে সেই ফসল পরিচর্যা করে তারপর টেবিলে বসে খাওয়ার জন্য যা যা করা দরকার তার সবগুলো নিজে করে না, বরং প্রত্যেকটি ধাপে দক্ষতা অনুযায়ি ব্যক্তিবর্গ তাদের অংশটুকু সম্পন্ন করে বলেই ভোক্তাদের টেবিলে খাবার পৌঁছে যায়।

এনালিটিক্স/ইনসাইট

তৃতীয় ধাপটি হলো এনালিটিক ধাপ — যেখানে ডেটা থেকে ইনসাইট বের করে সেটা ব্যবসায়িক সিদ্ধান্ত গ্রহণে কাজে লাগানো হবে। এই ধাপটিকে তুলনা করা যায় বাজার থেকে (জমি থেকে নয়) চাল, ডাল, লবণ, মরিচ, সবজি, গোশত কিনে এনে সেগুলো প্রসেস করে খাবার তৈরী করার সাথে। ডেটা সাইন্টিস্ট, পরিসংখ্যানবিদ, এবং কোয়ান্টিটেটিভ ডিসিপ্লিনের লোকজন এখানে কাজ করে।

আপনি কোথায় ফিট করেন?

প্রশ্ন হলো আপনি এই প্রবাহচিত্রের কোথায় ফিট করেন।

প্রথম ধাপটি বাদ দিলে দ্বিতীয় ও তৃতীয় ধাপের কোনটি আপনার জন্য সুবিধাজনক সেটি নির্ভর করবে আপনি কোনটির জন্য বেশী দক্ষ। আপনি যদি ডেটাবেইজ প্রফেশনাল হন তাহলে ETL আপনার জন্য ভালো হতে পারে। এই ধাপের প্রফেশনালদের অনেক সময় ডেটা ইঞ্জিনিয়ার (Data Engineer or Data Scientist – Big Data Architect) বলা হয়।

আপনি যদি পরিসংখ্যানবিদ বা অন্য কোয়ান্টিটেটিভ ডিসিপ্লিনের ছাত্র/ছাত্রী হল তাহলে আপনার জন্য শেষ ধাপটি সুইটেবল হবে।

আপনার যদি কোনটির অভিজ্ঞতাই না থাকে তাহলেও পরিশ্রমের মাধ্যমে যেকোনটিতে কাজ করার জন্য নিজেকে প্রস্তত করতে পারবেন। সাফল্য নির্ভর করবে আপনার আগ্রহ ও কতটা পরিশ্রম করতে পারেন তার উপর।

(শেষ)

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *