കൊറിയയിൽ നടക്കുന്ന 24 മത് ഡാറ്റ ബേസ് എൻജിനീയറിങ് ആൻഡ് ആപ്ലിക്കേഷൻ സിമ്പോസിയത്തിലേക്ക് ഇവർക്ക് ക്ഷണവും ലഭിച്ചിട്ടുണ്ട്.
കാലിക്കറ്റ് യൂണിവേഴ്സിറ്റിയും ബ്രിട്ടനിലെ ക്വീൻ യൂണിവേഴ്സിറ്റിയും ചേർന്നുള്ള ഈ സംരംഭത്തിൽ
- ഡോ. ദീപക് പദമനാഭൻ(Assistant Professor Of Computer Science, Queen's University Belfast, UK),
- ഡോ. ലജീഷ് V L (Faculty, Department Of Computer Science & Director, Calicut University Computer Centre, ),
- അനൂപ് (FellowDoctoral Student, Department Of Computer Science, University Of Calicut).
എന്നിവരാണ് ഉള്ളത്. ഇവരുമായി ശ്രീഹരി തറയിൽ നടത്തിയ സംഭാഷണത്തിൽ നിന്നും..
- ആരോഗ്യരംഗത്തെ വ്യാജ വാർത്തകളെ പ്രതിരോധിക്കുന്നതിലാണ് നിങ്ങളുടെ പഠനങ്ങൾ ഇപ്പോൾ ശ്രദ്ധിക്കപ്പെടുന്നത്. കോവിഡ് സാഹചര്യത്തിലാണോ ഈ പഠനം ആരംഭിച്ചത്.. ?
ഏകദേശം രണ്ട് വർഷത്തോളമായി ഈ പഠനങ്ങൾ ആരംഭിച്ചിട്ട്.ഡോ. ദീപക് ഈ മേഖലയിൽ ഐ.ഐ.ടി അടക്കമുള്ള സ്ഥാപനങ്ങളിൽ അനുഭവങ്ങൾ പങ്കുവെക്കുന്ന അധ്യാപകനാണ്.കാലിക്കറ്റ് യൂണിവേഴ്സിറ്റി ക്യാമ്പസ്സിൽ നടന്ന സെമിനാറിന്റെ ഭാഗമായി ഞങ്ങൾ ഒരുമിച്ചു ചേർന്നു.
നമ്മുടെ രാജ്യത്തെ യൂണിവേഴ്സിറ്റികളെ രാജ്യത്തിന് പുറത്തുള്ള പ്രമുഖ യൂണിവേഴ്സിറ്റികളുമായി ഏകോപിപ്പിച്ചു ഗവേഷണങ്ങൾ നടത്തുന്ന പദ്ധതി നിലവിലുണ്ട്. എന്നാൽ പുറത്തുള്ള യൂണിവേഴ്സിറ്റികളിൽ നമ്മുടെ ആൾക്കാർ ധാരാളമുണ്ട്. അവരെ നമ്മുടെ പഠനങ്ങളുടെ ഭാഗമാക്കുക എന്ന അർത്ഥത്തിൽ ഇതൊരു വിദേശ സഹായത്തോട് കൂടിയ സാമൂഹിക പ്രതിബദ്ധതയുള്ള ഒരു പഠനമാണ്. BREAK THE FAKE എന്ന പേരാണ് ഈ പ്രോജക്ടിന് നൽകിയിട്ടുള്ളത്.
Emotional Labeling എന്ന സങ്കേതമാണ് ഞങ്ങൾ ഈ പഠനങ്ങൾക്കായി സ്വീകരിക്കുന്നത്.
- എന്താണ് Emotional labeling.. എങ്ങനെയാണ് ഇത് നടപ്പിൽ വരുത്തുന്നത്.. ?
നമ്മുടെ സാമൂഹിക മാധ്യമങ്ങൾ ഒന്ന് നോക്കുക.ഉദാഹരണത്തിന് ഫേസ്ബുക്. ധാരാളം തിരുത്തലുകൾക്ക് വിധേയമായ വാർത്തകളാണ് ഫേസ്ബുക്കിൽ നമ്മുടെ മുന്നിലേക്ക് എത്തുന്നത്. ഫേസ്ബുക്ക് ആവട്ടെ ഇത്തരം വാർത്തകളെ തടയുന്നുമില്ല. പ്രധാനമായും ഫേസ്ബുക്കിന്റെ സാമ്പത്തിക താത്പര്യങ്ങളാണ് ഇതിന് പിന്നിൽ. ഉപഭോക്താക്കൾ എത്ര സമയം ഈ പ്ലാറ്റുഫോമുകളിൽ ചിലവഴിക്കുന്നുവോ അത്രത്തോളം ഗുണകരമാണ് സാമൂഹിക മാധ്യമങ്ങൾക്ക്.അതുകൊണ്ട് തന്നെ സുഖപ്രദമായ വ്യാജവാർത്തകൾ അവർ തടയുകയില്ല.
എന്നാൽ ഇത്തരം വ്യാജവാർത്തകളോടുള്ള പെരുമാറ്റത്തിൽ രൂപപ്പെടുന്ന വികാരങ്ങളെ പഠിക്കുകയാണ് ഞങ്ങൾ ചെയ്യുന്നത്. ഈ വികാരങ്ങൾക്ക് ഓരോ പ്രത്യേക വിഭാഗങ്ങളുണ്ട്.
ഉദാഹരണത്തിന് ന്യൂനപക്ഷങ്ങൾക്കെതിരെ രൂപപ്പെടുന്ന ഒരു വ്യാജ വാർത്ത സൃഷ്ടിക്കുന്ന വികാരമായിരിക്കില്ല മറ്റൊരു വിഷയത്തിലെ വ്യാജ വാർത്ത സൃഷ്ടിക്കുന്നത്. നമ്മൾ ഇത്തരം വികാരങ്ങളെ വിഭാഗങ്ങളായി തിരിക്കുന്നു. പേരുകൾ അഥവാ ലേബലുകൾ നൽകുന്നു.
ഈ ലേബലുകൾ ഉപയോഗിച്ചാണ് നമ്മൾ വ്യാജവാർത്തകളെ പ്രതിരോധിക്കുന്നത്.
- എങ്ങനെയാണ് ആരോഗ്യ മേഖലയിലെ വ്യാജ വാർത്തകൾ എന്ന വിഷയത്തിലേക്ക് എത്തിച്ചേരുന്നത്..
വർഷങ്ങൾക്ക് മുൻപ് സിനിമ നടൻ ജിഷ്ണു രാഘവൻ തന്റെ മരണത്തിനു മാസങ്ങൾ മാത്രം ശേഷിക്കെ ഫേസ്ബുക്കിൽ പങ്കുവെച്ച ഒരു പോസ്റ്റ് ഉണ്ട്. ലക്ഷ്മി തരു എന്ന സസ്യം ഉപയോഗിച്ചു കാൻസർ സുഖം ആകും എന്ന പ്രചാരണം കണ്ടിട്ട് ജിഷ്ണു ഉപയോഗിച്ചു നോക്കി. ആ സമയത്ത് മറ്റ് മരുന്നുകൾ കഴിച്ചില്ല. അങ്ങനെ രോഗം കൂടുതൽ വഷളായി മാറി.അങ്ങനെ ആശുപത്രി കിടക്കയിൽ നിന്നും എഴുതിയ ആ പോസ്റ്റ് ആരും ഇങ്ങനെയുള്ള വ്യാജ പ്രചാരണങ്ങളിൽ വീഴരുത് എന്ന ഉള്ളടക്കം ഉള്ളതായിരുന്നു.
വളരെ പ്രധാനപ്പെട്ട ഈ മേഖലയിൽ തന്നെയാണ് ഏറ്റവും കൂടുതൽ വ്യാജ വാർത്തകൾ ഉടലെടുക്കുന്നതും. പലരും ഇത്തരം കെണികളിൽ പെട്ടാൽ സമൂഹത്തിന്റെ വികാരങ്ങളെ ഭയപ്പെട്ട് പുറത്ത് പറയുക പോലുമില്ല.വ്യാജവും വ്യാജമല്ലാത്തതുമായ വാർത്തകളോടുള്ള വികാരങ്ങളെ എങ്ങനെ പ്രകടിപ്പിക്കുന്നു എന്ന് ഞങ്ങൾ പഠിക്കുന്നു.
- എങ്ങനെയാണ് BREAK THE FAKE പഠനം നടക്കുന്നത്..
ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ സഹായത്തോടെ വ്യത്യസ്തമായ വികാരങ്ങളെ ആംപ്ലിഫിക്കേഷൻ (emotional amplification) പ്രവർത്തനത്തിന് വിധേയമാക്കുകയാണ് ചെയ്യുന്നത്. വ്യാജ വാർത്തയോട് പ്രതികരിക്കുന്നതിന്റെ നേരെ വിപരീത വികാരമായിരിക്കും യഥാർത്ഥ വാർത്തയോടുള്ള വികാരം എന്നതാണ് അടിസ്ഥാനം.
1.സാധാ ടെക്സ്റ്റ് ഫോർമാറ്റിൽ ഉള്ള വാക്കുകളിലേക്ക് ആ വാക്കുകൾ സൃഷ്ടിക്കുന്ന വികാരം ചേർക്കുന്നു. (emotional enhancement)
word +emotional label
eg:Cry (normal word)+ sadness (emotional label)
ഇതിന് ഉപയോഗിക്കുന്നത് നാഷണൽ റിസേർച് കൗൺസിൽ ഓഫ് കാനഡയിലെ ഗവേഷകർ സൃഷ്ടിച്ച NRC Lexican എന്ന സാങ്കേതികത്വമാണ്. വികാരം ഉണ്ടാക്കുന്ന വാക്കുകൾ , അതിന്റെ തോത്, അത് സൃഷ്ടിക്കുന്ന വികാരം -ഇതാണ് NRC Lexican.
emotional words +intensity +emotion
ഈ പഠനത്തിനായി നമ്മൾ എടുക്കുന്നത് ദേഷ്യം (anger), ഭയം (fear),സന്തോഷം (joy), സങ്കടം (sadness ) എന്നീ നാല് ഇമോഷണൽ ലേബലുകളെ ആണ്.
ചുരുക്കത്തിൽ വാക്കുകൾക്ക് വികാരങ്ങൾ കൂടെ നൽകുന്നു.
Break The Fake |
2.ഡോക്യുമെന്റ് വെക്റ്റർ ഫോമിലേക്ക് മാറ്റുന്നു (Document Vectorization)
ഏതൊരു മെഷീനിനും, കമ്പ്യൂട്ടറിനും ഈ വാക്കുകളെ (normal word+emotional label) ഒരു ഇന്പുട് (input) ആയി ഉപയോഗിക്കണമെങ്കിൽ അതിനെ നമ്പറുകളുടെ രൂപത്തിലേക്ക് മാറ്റണം.
ഡോക്യുമെന്റ് നെ വെക്റ്റർ ഫോമിലേക്ക് മാറ്റുന്നതിന് ഇന്ന് ലോകത്തു കൂടുതൽ ആൾക്കാരും സ്വീകരിച്ചു പോരുന്ന പ്രവർത്തനം WORD EMBEDDING എന്നതാണ്. n Dimension ൽ ഉള്ള സ്പേസ് ലേക്ക് ഈ ഡോക്യൂമെന്റിനെ നമ്മൾ കൈമാറുന്നു.ഇവിടെ n എന്നത് നമ്പർ ആണ്.അത് എത്ര വേണമെങ്കിലും ആകാം.അതായത് ഒരു വാക്കിനെ അതിന്റെ പശ്ചാത്തലത്തിലേക്ക് കൊണ്ട് വരുന്നു.
eg:
Apple, Banana,Orange - എന്നിവയെ പഴങ്ങൾ (fruits) എന്ന പശ്ചാത്തലത്തിലേക്ക് കൊണ്ടുവരാനാകും.
വെക്റ്റർ ഫോമിലേക്ക് വാക്കുകളെ കൊണ്ടുവരുന്നത് എല്ലാ തരത്തിലുള്ള vector operations(like -Addition, Substraction, Multiplication, Division ) ഉം ചെയ്യാൻ കഴിയും എന്ന് ഉള്ളതുകൊണ്ടാണ്.
3.അൽഗോരിതം ഉപയോഗിച്ച് മെഷീൻ ലേണിങ് നടത്തുന്നു.
പല തരത്തിലുള്ള അൽഗോരിതങ്ങളാണ് ഉപയോഗിക്കുന്നത്.
- 1.Supervised Algorithm
- 2.Un Supervised Algorithm
- 3.Deep Learning Algorithm
ഈ പ്രവർത്തനങ്ങൾക്ക് ശേഷം ഞങ്ങൾ കണ്ടെത്തിയത് വാക്കുകൾക്കൊപ്പം വികാരങ്ങളെ കൂട്ടിച്ചേർത്താൽ വ്യാജ വാർത്തകളെ തിരിച്ചറിയുന്നതിനുള്ള സാധ്യത കൂടും എന്നതാണ്.
- വ്യാജ വാർത്തകളുമായി ബന്ധപ്പെട്ടുള്ള പഠനങ്ങളിൽ ഏറെയും നടക്കുന്നത് ട്വിറ്റെർ നെ അടിസ്ഥാനമാക്കിയാണ്. നിങ്ങളും ട്വിറ്ററിന് ആണോ പ്രാധാന്യം നൽകുന്നത്..
അല്ല.ഞങ്ങൾ പഠനത്തിന്റെ ഭാഗമാക്കുന്നത് ഉള്ളടക്കത്തെ ആണ്. ട്വിറ്റെർ അടിസ്ഥാനമാക്കി പഠിക്കുന്നവർക്കായി ഉള്ളടക്കം, ആരാണ് പോസ്റ്റ് ചെയ്തത്, പോസ്റ്റ് ചെയ്ത സമയം, റീട്വീറ്റ് ചെയ്തവർ, പോസ്റ്റ് ചെയ്ത സ്ഥലം തുടങ്ങി ഉള്ളടക്കത്തിന് പുറത്തുള്ള ഒത്തിരിയേറെ കാര്യങ്ങൾ വ്യാജമാണോ അല്ലയോ എന്ന് തിരിച്ചറിയുവാൻ സഹായിക്കും. അതിൽ ഉള്ള പോരായ്മ എന്താണെന്നു പറഞ്ഞാൽ, ഒരാൾ പുതിയൊരു ആശയം, പുതിയൊരു അക്കൗണ്ടിൽ നിന്നും പറഞ്ഞാൽ അതിന്റെ വ്യാജ സ്വഭാവം മനസ്സിലാക്കാനാവില്ല എന്നതാണ്.
എന്നാൽ നമ്മൾ ഉള്ളടക്കം ആണ് പരിശോധന നടത്തുന്നത്. അതിലെ വാക്കുകൾ സൃഷ്ടിക്കുന്ന വികാരങ്ങളെ ആണ് പഠിക്കുന്നത്.
ഈ പ്രോഡക്റ്റ് നമുക്ക് ഒരു പ്ലഗ്ഗ് ഇൻ പോലെ ബ്രൗസറിൽ ഇൻസ്റ്റാൾ ചെയ്യാൻ ആകും. നമ്മൾ പോകുന്നത് വ്യാജ വാർത്തയിലേക്കാണ് എങ്കിൽ മുകളിൽ ഒരു അലെർട് പോലെ സൂചന നൽകും. വായിക്കുന്നതിൽ നിന്ന് നമ്മളൊരിക്കലും തടയുകയില്ല. അത് ജനാധിപത്യപരമല്ലല്ലോ..
- എന്നാൽ ഇന്നത്തെ കാലത്തു വാക്കുകൾ മാത്രമല്ലല്ലോ, വാക്കുകളേക്കാൾ കൂടുതൽ വീഡിയോകളും ചിത്രങ്ങളും പ്രചരിക്കുന്നില്ലേ.. അവയിലുള്ള വ്യാജന്മാരെ കണ്ടെത്താൻ ഈ കണ്ടെത്തലിനു കഴിയുമോ..
തീർച്ചയായും, കമ്പ്യൂട്ടർ അൽഗോരിതം അത്രത്തോളം വളർന്നു കഴിഞ്ഞിരിക്കുന്നു. ഒ ൻ വിയുടെ 20 കവിതകൾ നൽകിയിട്ട് അദ്ദേഹം എഴുതാൻ സാധ്യതയുള്ള ഒരു കവിത എഴുതി തരൂ എന്ന് പറഞ്ഞാൽ കമ്പ്യൂട്ടർ അത് സുന്ദരമായി ചെയ്യും.. ഒരിക്കലും ജീവിച്ചിട്ടില്ലാത്ത ആളുടെ ചിത്രം അനേകം ചിത്രങ്ങൾ അനലൈസ് ചെയ്തു വരച്ചു തരും. അത് കൊണ്ട് തന്നെ വാക്കുകൾ മാത്രമല്ല മറ്റ് മൾട്ടി മീഡിയ ഫോര്മാറ്റുകളും വ്യാജമെങ്കിൽ കുടുങ്ങും.
- തിരഞ്ഞെടുപ്പുകളുമായി ബന്ധപ്പെട്ടാണ് ഇന്ത്യയിൽ വ്യാജവാർത്തകൾ കൂടുതലായും ഉടലെടുക്കുന്നത്. എന്നാൽ ഇന്ത്യയിൽ എത്രയോ പ്രാദേശിക ഭാഷകൾ ഉണ്ട്. വ്യാജവാർത്തകളിൽ ഭൂരിഭാഗത്തിന്റെയും ഉറവിടം ഈ പ്രാദേശിക ഭാഷകളും ആണ്.എങ്ങനെ നമുക്ക് അവയെ തിരിച്ചറിഞ്ഞു, പ്രതിരോധിക്കാൻ ആകും..
ഈ പഠനത്തിന്റെ ഭാഗമായി ഇംഗ്ലീഷ് ആണ് നമ്മൾ എടുത്തിരിക്കുന്നത്. അതിന് പ്രധാന കാരണം NRC LEXICAL ഇംഗ്ലീഷിൽ മാത്രമാണ് ലഭ്യമായിട്ടുള്ളത് എന്ന് കൊണ്ടാണ്.
മാത്രവുമല്ല മലയാളം അടക്കമുള്ള പ്രാദേശിക ഭാഷകളിൽ നിന്നും നമുക്ക് Digital resources കുറവാണ്. എങ്കിലും speech recognition സംവിധാനം മലയാളത്തിൽ ഉപയോഗിക്കാൻ ശ്രമിക്കുന്നുണ്ട്. അധികം വൈകാതെ നമ്മൾ ഗവേഷണ സംഘം വിപുലീകരിക്കും. അതിന്റെ ഭാഗമായി ഇന്ത്യയിലെ പ്രാദേശിക ഭാഷകളെയും ലോകത്തിലെ മറ്റ് ഭാഷകളെയും നമ്മൾ പഠനത്തിലേക്ക് ചേർക്കും.
- സാമൂഹിക മാധ്യമങ്ങളിലെ ഇമോജികൾ, സ്റ്റിക്കറുകൾ നമുക്ക് വ്യാജ വാർത്തകളെ കണ്ടെത്തുന്നതിന് ഉപയോഗിച്ച് കൂടെ..
അത്തരത്തിലുള്ള പഠനങ്ങൾക്ക് നല്ല സാധ്യത ഉണ്ട്. എന്നാൽ ഡാറ്റ യുടെ ലഭ്യതയാണ് ഗവേഷകർ നേരിടുന്ന വലിയ പ്രശ്നം. ഫേസ്ബുക് ഡാറ്റ നമുക്ക് ഉപയോഗിക്കാനാവില്ല. വാട്സ്ആപ്പ് ആപ്പ് ആകട്ടെ end to end എൻക്രിപ്റ്റഡ് ആണ് താനും. പഠനത്തിന് ഇറങ്ങി തിരിക്കുമ്പോൾ ചെറിയ അളവിലുള്ള ഡാറ്റ മതിയാകില്ല. കുറഞ്ഞത് ഒരു 10 ലക്ഷമെങ്കിലും ഉണ്ടാകണം..
വ്യാജ വാർത്തകളുടെ ലോകമാണ് ഇത്. ആ വാർത്തകളെ ഫലപ്രദമായി കണ്ടെത്താൻ കഴിഞ്ഞാൽ അത് നമ്മുടെ സാങ്കേതിക വിദ്യകൾക്ക് അഭിമാനകരമായ കുതിച്ചു ചാട്ടമാകും.അതിന് ഈ ഗവേഷണ സംഘത്തിന് കഴിയട്ടെ എന്ന ആശംസയോടെ.....