پدیدآورنده: سید سعید مهرداد آیسکمقدمه
تقلبهای صورتهای مالی بهشکل چشمگیری توجه عموم جامعه، رسانهها، سرمایهگذاران، جامعه مالی و قانونگذاران را بهخود جلب کرده و این بهخاطر چندین تقلب مشهوری است که در شرکتهای بزرگی از قبیل انرون، لوسنت و ورلدکام در طول سالیان گذشته روی داده است. گزارشگری متقلبانه در صورتهای مالی بیشتر از طریق بیشاظهاری داراییها، فروشها و سود و کماظهاری بدهیها، هزینهها و زیانها، انجام میشود (Yue et al., 2007). تقلب، یک دلیل بااهمیت برای شکست بسیاری از شرکتهاست و بهویژه، به بازارهای سرمایه آسیب میرساند؛ چرا که سرمایهگذاران، اعتباردهندگان و تحلیلگران مالی در تصمیمگیریهایشان بر صورتهای مالی در دسترس عموم، متکی هستند و به آنها اعتماد میکنند (Ata & Seyrek, 2009).
استانداردهای حسابرسی، شرکتهای حسابرسی را ملزم به کشف تقلبهای مدیریت میکند. این الزام، نیاز به کشف اثربخش تقلبهای مدیریت را افزایش میدهد. اما، کشف تقلبهای مدیریت با استفاده از رویههای حسابرسی معمول، کاری بس دشوار است. نخست به این دلیل که آگاهی اندکی در رابطه با ویژگیهای تقلب مدیریت وجود دارد؛ دوم اینکه با توجه به فراوانی اندک آن، اغلب حسابرسان تجربه لازم برای کشف آن را ندارند. سرانجام اینکه مدیران عامل، مدیران مالی و حسابداران به عمد تلاش میکنند تا حسابرسان را فریب دهند (Fanning & Cogger, 1998). برای آن دسته از مدیرانی که محدودیتهای یک حسابرسی را میشناسند، رویههای حسابرسی استاندارد ممکن است نابسنده باشد. این محدودیتها نیاز به رویههای تحلیلی اضافی برای کشف اثربخش صورتهای مالی متقلبانه را گوشزد میکند. آمار و روشهای دادهکاوی بهطور موفقیتآمیزی برای کشف فعالیتهایی مانند پولشویی، تقلبهای کارت اعتباری تجارت الکترونیک، تقلبهای ارتباطات از راه دور، تقلبهای بیمهای و نفوذهای رایانهای بهکار رفتهاند. البته، کشف تقلب در صورتهای مالی موضوعی پیچیده و کشف آن نیز مشکل است (Yue et al., 2007). هدف اصلی این مقاله، ارائه مروری بر فرایندهای دادهکاوی بهکاررفته در راستای کشف تقلبهای مالی، بهویژه تقلب در صورتهای مالی است.
تقلب و متقلبان
هیچ تعریف پذیرفتهشده جهانی از تقلب مالی وجود ندارد (Ngai et al., 2010). ونگ و همکاران (Wang et al. 2006) تقلب را اینگونه تعریف کردهاند: “ اقدامی هدفمند برای کسب منفعت مالی غیرمجاز که برخلاف قوانین، قواعد، یا سیاستهاست.” در سالهای اخیر، انواع گوناگون تقلبهای مالی، مانند تقلب کارت اعتباری، تقلب شرکتی و پولشویی، نگرانیهای بسیاری را سبب شده و نظرها را به سوی خود جلب کرده است. نگای و همکاران (Ngai et al., 2010) در یک طبقهبندی کلی، انواع تقلب مالی را در چهار دسته تقسیم کردهاند؛ تقلبهای بانکی، تقلبهای بیمهای، تقلب اوراق بهادار و کالاها، سایر تقلبهای مالی (جدول 1).
در عمل، در شرکتها دو نوع تقلب را میتوان تشخیص داد. نوع نخست عبارت است از سوءاستفاده از داراییها؛ برای مثال بهصورت سرقت، اختلاس، جعل حسابهای هزینهای، استفاده شخصی از داراییهای شرکت و غیره. و نوع دوم، گزارشگری مالی متقلبانه است. گزارشگری مالی متقلبانه مستلزم مخدوش کردن عمدی صورتهای مالی است؛ برای مثال از طریق گزارش فروشهایی که هنوز اتفاق نیفتاده است، گزارش سودی در سال جاری که در حقیقت متعلق به سال بعد است، سرمایهای کردن نادرست هزینهها، یا گزارش هزینهای در سال بعد که باید در سال جاری گزارش میشده است. تقلب صورتهای مالی بهطور معمول از سوی مدیریت یا با رضایت و آگاهی آنها انجام میشود. بنابراین، تقلب صورتهای مالی را میتوان نوعی از تقلب مدیریت دانست که از سوی الیوت و ویلینگهام (Elliott & Willingham, 1980) چنین تعریف شده است: “تقلب هدفمندی که مدیریت مرتکب میشود و از طریق صورتهای مالیِ دارای اطلاعات گمراهکننده بااهمیت، به سرمایهگذاران و اعتباردهندگان آسیب میرساند.”
این مسئولیت حسابرسان است که تعیین کنند گزارشهای مالی تا چه اندازهای مطابق با استانداردهای حسابداری هستند؛ ریسک تقلب در گزارشهای مالی را ارزیابی و وجود تقلب در صورتهای مالی را شناسایی نمایند. از سوی دیگر، کشف تقلب در صورتهای مالی کاری دشوار است که مستلزم اقداماتی بیش از اجرای رویههای استاندارد حسابرسی است. بنابراین، حسابرسان برای تسهیل کار حسابرسی و کمک به کشف اینگونه صورتهای مالی متقلبانه به ابزار و فنون جدیدی نیاز دارند. در این رابطه، ابزار مبتنی بر رایانه میتوانند کمککنندههای مفیدی باشند (Ata & Seyrek, 2009).
دادهکاوی
با ظهور فناوری اطلاعات که گرداوری، نگهداری و پردازش مقدارهای انبوه داده را ممکن و تسهیل میکند، سازمانها اکنون برای استفاده از دادههایی که از فرایندها، مشتریان و محیطشان جمعآوری میکنند، در وضعیت بهتری هستند. اما استخراج معنایی از میان انبوه دادهها و استفاده از آن برای هدفهای سودمند سازمانی، مستلزم استفاده از روشهای پیشرفته، مانند دادهکاوی است (Ata & Seyrek, 2009).
دادهکاوی عبارت است از تحلیل دادهها بهمنظور کشف روابطِ از قبل نامعلومی که اطلاعات مفیدی ارائه میکنند (Hand et al. 2001). بوز و ماهاپاترا (Bose & Mahapatra, 2001) دادهکاوی را فرایند شناسایی الگوهای جالب در پایگاههای داده که میتوان از آنها در تصمیمگیری استفاده کرد، تعریف کردهاند. توربان و همکاران (Turban et al., 2007) دادهکاوی را فرایندی تعریف کردهاند که برای استخراج و شناسایی اطلاعات مفید و در پی آن کسب دانش از پایگاههای بزرگ داده، از روشهای آماری، ریاضی، هوش مصنوعی و یادگیری ماشینی استفاده میکند. فرالی و همکاران (Frawley et al., 1992) اظهار میدارند که هدف دادهکاوی، کسب اطلاعات مفید و غیرصریح از دادههای ذخیرهشده در انبارههای بزرگ است. کار دادهکاوی، کسب آگاهیهایی از دادههاست که از نظر آماری اتکاپذیر و کاربردی، اما از پیش ناشناختهاند. این دادهها باید در دسترس، مربوط و کافی باشند. همچنین، مسئله دادهکاوی باید حتماً بهخوبی تعریف شده باشد (Phua et al., 2005).
دادهکاوی در صنایع مختلفی مانند بهداشت و درمان، مالی، خردهفروشی، ارتباطات راه دور، و غیره برای حل مسئلهةا و بهبود جوانب مختلف کسبوکار مورد استفاده قرار گرفته است. فوا و همکاران (Phua et al., 2005) یاداوری میکنند که کشف تقلب به یکی از جاافتادهترین کاربردهای دادهکاوی چه در صنعت و چه در دولت تبدیل شده است. هر چند بستههای نرمافزاری تجاری مختلفی با محیط تعاملی آسان برای کاربران، در حال حاضر در دسترس هستند که انجام کارهای پیچیده دادهکاوی را بهظاهر آسان میکنند؛ اما باید در نظر داشت که دادهکاوی فرایندی چندگامی است که طی آن دخالتها و تفسیرهای دقیق انسانی لازماند. بهطور خلاصه، دادهکاوی شامل پیمودن گامهای بنیادینی است که باید با دقت برداشته شوند تا نتایج معنیداری از تحلیلهای انجامشده بهدست آید. گام نخست در کار دادهکاوی، تعریف واضح مسئله است. سپس دادهها گرداوری و برای مدلسازی آماده میشوند. این گام بسیار زمانبر است و اساساً شامل تصفیه و دستکاری دادههاست. سپس، یک مدل دادهکاوی که برای مسئله مورد بررسی، مناسبتر از بقیه بهنظر میرسد، انتخاب میشود و مورد استفاده قرار میگیرد. در این مرحله، عموماً دادهها به دو مجموعه آموزش و آزمون (تایید) تقسیم میشوند. دادههای آموزش برای استخراج قواعد و روابط و برازش مدل، استفاده میشوند، در حالی که دادههای تایید (آزمون) برای این استفاده میشوند که تعیین شود قواعد ایجادشده در یک مجموعه متفاوت از دادهها، به چه کیفیتی عمل میکنند. بر مبنای نتایج اجرای مدل، عملکرد مدل ارزیابی میشود؛ در نتیجه یا اصلاح میگردد یا برای حل مسئله بهکار گرفته میشود (Ata & Seyrek, 2009).
وظایف دادهکاوی
نگای و همکاران کاربرد روشهای دادهکاوی برای کشف تقلبهای مالی را مورد بررسی قرار دادند. آنان 49 مقاله چاپشده در مجلات معتبر را بررسی کردند و مشخص شد که در مجموعه تحقیقهای مورد بررسی، از شش طبقه از وظایف/کاربردهای دادهکاوی برای کشف تقلبهای مالی استفاده شده است. این موارد عبارتند از طبقهبندی، رگرسیون، خوشهبندی، پیشبینی، کشف دادههای پرت و تصویرسازی. هر یک از این شش طبقه، با مجموعهای از رویکردهای الگوریتمی حمایت میشود که بهدنبال استخراج ارتباطهایی مربوط از دادهها هستند (Turban et al., 2007). این رویکردها در نوع مسائلی که قادر به حل آنها هستند، با یکدیگر تفاوت دارند. این طبقات بهشرح زیرند.
طبقهبندی2
طبقهبندی مدلی را میسازد و از آن برای پیشبینی عنوان طبقات اشیای ناشناخته استفاده میکند تا بین اشیای متعلق به طبقات مختلف، تمایز ایجاد کند. این عنوانهای طبقاتی از قبل تعریف شدهاند، ولی متمایز و مرتب نشدهاند (Han & Kamber, 2006). ژانگ و ژو (Zhang & Zhou, 2004) اظهار میدارند که طبقهبندی و پیشبینی عبارت است از فرایند شناسایی مجموعهای از ویژگیها و مدلهای مشترک که طبقات یا مفاهیم دادهها را توصیف و متمایز میکنند. روشهای معمول طبقهبندی عبارتند از شبکههای عصبی3، شبکههای بیز ساده4، درختان تصمیم5، و ماشینهای بُردار پشتیبان6. اینگونه وظایف طبقهبندی در کشف تقلبهای کارت اعتباری، بیمه سلامت و بیمه خودرو و تقلبهای شرکتی و دیگر انواع تقلب، استفاده میشوند. طبقهبندی یکی از رایجترین مدلهای یادگیری در کاربرد دادهکاوی برای کشف تقلبهای مالی است (Ngai et al., 2010). طبقهبندی یک فرایند دو مرحلهای است. در گام اول، با استفاده از یک نمونه آموزشی، یک مدل آموزش داده میشود. این نمونه در تعدادی ردیف (گروهکها7)و ستون (صفات) سازماندهی میشود. یکی از صفات، یعنی صفت عنوان طبقه، حاوی مقادیری است که نشاندهنده طبقه از پیش تعریفشدهای است که هر ردیف به آن تعلق دارد. این گام بهعنوان یادگیری نظارتشده نیز معروف است. در گام دوم، در مدل تلاش میشود اشیایی که به نمونه آموزشی تعلق ندارند، طبقهبندی شوند و یک نمونه آزمون (تایید) تشکیل دهند (Kerkaus et al., 2007).
خوشهبندی8
از خوشهبندی برای تقسیم اشیا به گروهها/خوشههایی که از نظر مفهومی معنیدار هستند، استفاده میشود؛ بهطوری که اشیای یک گروه با یکدیگر مشابه، و در عین حال، بسیار متفاوت از اشیای دیگر گروهها باشند. خوشهبندی با عنوان بخشبندی و تقطیع دادهها نیز شناخته میشود و بهعنوان یک گونه از طبقهبندی نظارتنشده به حساب میآید. بنابرنظر یوئه و همکاران (Yue et al., 2007)، تحلیل خوشهبندی مرتبط است با مسئله تجزیه یا تقطیع یک مجموعه داده (معمولاً چندمتغیره) به چندین گروه، بهطوری که نقاط در داخل یک گروه مشابه با یکدیگر و تا حد ممکن متفاوت از نقاط در دیگر گروهها هستند. همچنین، ژانگ و ژو اظهار میدارند که هر خوشه مجموعهای از اشیای داده است که در همان خوشه مشابه یکدیگرند، اما متفاوت از اشیا در دیگر خوشهها هستند. رایجترین روشهای خوشهبندی عبارتند از نزدیکترین همسایه کا 9، روش بیز ساده، و روشهای نقشه خودانتظام10 (Ngai et al., 2010).
پیشبینی11
پیشبینی، مقدارهای عددی و پیوسته آینده را بر مبنای الگوهایی از یک مجموعه داده براورد میکند. هان و کَمبر (Han & Kamber, 2006) تاکید کردهاند که برای پیشبینی، صفتی که پیشبینی آن انجام میشود باید پیوسته باشد و نه کیفی (طبقهای). این صفت را میتوان صفت مورد پیشبینی نامید. شبکههای عصبی و مدل لجستیک12، رایجترین روشهای مورد استفاده برای پیشبینی هستند (Ngai et al., 2010).
کشف نقاط پرت13
از کشف نقاط پرت برای اندازهگیری فاصله بین اشیای داده بهمنظور کشف اشیایی که بهشکلی متفاوت از ناهمگون با بقیه مجموعه دادهها هستند، استفاده میشود. دادههایی که بهنظر میرسد ویژگیهایی متفاوت از بقیه جمعیت دارند، دادههای پرت14 نامیده میشوند. مسئله کشف داده پرت/متناقض، یکی از بنیادیترین مباحث در دادهکاوی است. یک روش رایج مورد استفاده در کشف داده پرت، الگوریتم یادگیری تنزیلشونده15 است (Yamanishi et al., 2004).
رگرسیون
رگرسیون یک روش آماری است که برای کشف رابطه بین یک یا چند متغیر مستقل و یک متغیر وابسته (که یک مقدار پیوسته است) استفاده میشود (Han & Kamber, 2006). در بسیاری از مطالعات تجربی، از رگرسیون لجستیک بهعنوان یک معیار سنجش، استفاده میشود. رگرسیون بهطور معمول عبارت است از استفاده از روشهایی ریاضی مانند رگرسیون لجستیک و رگرسیون خطی و از آن برای کشف تقلبهای کارت اعتباری، تقلبهای بیمهای و تقلبهای گزارشگری شرکتها استفاده میشود (Ngai et al., 2010).
تصویرسازی16
تصویرسازی اشاره دارد به ارائه دادهها بهشکلی که بهسادگی درکپذیر باشد و اشاره دارد به روشی که ویژگیهای دادههای پیچیده را به الگوهای واضحی تبدیل میکند و به کاربران اجازه میدهد که الگوها یا روابط پیچیده کشفشده در فرایند دادهکاوی را ببینند (Turban et al., 2007). محققان، از تواناییهای کشف الگو در سیستم بینایی انسان استفاده کرده و مجموعهای از ابزار و برنامهها را ساختهاند که بهشکل انعطافپذیری، دادهها را با استفاده از رنگ، موقعیت، اندازه و دیگر ویژگیهای بصری، کدبندی میکنند. بهترین کاربرد تصویرسازی برای آشکار کردن الگوهای پیچیده از طریق ارائه واضح دادهها یا توابع بوده است (Ngai et al., 2010).
روشهای دادهکاوی مورد استفاده در تحقیقات کشف تقلبهای مالی
برای طبقات/وظایف مختلف دادهکاوی یادشده در بالا، روشهای بسیاری ایجاد شدهاند که از علوم مختلفی مانند هوش مصنوعی، الگوشناسی17، یادگیری ماشینی18 و آمار برگرفته شدهاند. در تحقیقات مختلف، 26 روش دادهکاوی در کشف تقلبهای مالی بهکار رفتهاند (Ngai et al., 2010). شکل 1، در یک تقسیمبندی کلی، طبقات تقلب مالی و 6 گروه کاربرد دادهکاوی مورد استفاده برای کشف این تقلبها را نشان میدهد.
در جدول 2، میتوان انواع مختلف روشهای دادهکاوی مورد استفاده برای کشف تقلبهای شرکتی (شامل تقلب در صورتهای مالی) را مشاهده کرد. پرکاربردترین روشهای مورد استفاده برای کشف تقلبهای مالی عبارتند از مدلهای رگرسیون لجستیک (رایجترین)، شبکههای عصبی، شبکه استنباط بیزین19 و درختان تصمیم که همه آنها راهحلهای بااهمیتی برای مشکلات ذاتی در کشف و طبقهبندی دادههای متقلبانه ارائه میکنند (Ngai et al., 2010). این 4 روش، همگی در گروه «طبقهبندی» قرار میگیرند که در ادامه بهشکل مشروحتری مورد بحث قرار گرفتهاند.
مدل رگرسیون
در ادبیات پژوهشهای دادهکاوی برای کشف تقلب، رگرسیون رایجترین روش مورد استفاده است. مدلهای رگرسیون استفادهشده عبارتند از لوجیت (Logit)، لجستیک- گام به گام، روش کمک تصمیم چندمتغیره و بتا 2 تعمیمیافته نمایی (Yue et al. 2007) (EGB2). مدل رگرسیون لجستیک، رایجترین مدل مورد استفاده است. مدل لجستیک، یک مدل خطی تعمیمیافته25 است که برای رگرسیون دوگانهای استفاده میشود که در آن متغیرهای پیشبینیکننده میتوانند کمی یا کیفی باشند. این مدل اساساً برای حل مسائل مطرح در تقلب بیمه خودرو و تقلبهای شرکتی استفاده میشود (Ngai et al., 2010).
ایده پشتوانه رگرسیون این است که با استفاده از نسبتهای مالی شرکتها، مدلی بهدست آید تا مشخص شود کدام نسبتها با صورتهای مالی متقلبانه مرتبطند. با شمول مجموعه داده صورتهای متقلبانه و صورتهای مالی غیرمتقلبانه، میتوان فهمید که کدام عوامل بهشکل معنیداری بر شرکتهای دارای صورتهای مالی متقلبانه اثر میگذارند و سپس میتوان بر این اساس معادله را صورتبندی کرد. مدل، بر مبنای نسبتهای صورتهای مالی که در مرحله آموزش بهعنوان نشانگرهای تقلب مستند شدهاند، شرکتها را به گروههای متقلبانه و غیرمتقلبانه طبقهبندی خواهد کرد (Yue et al. 2007).
شبکههای عصبی مصنوعی
شبکه عصبی روشی است که با استفاده از مجموعهای از گرههای بههممرتبط، از کارکرد مغز انسان تقلید میکند. این روش مبتنی است بر مدلهای رایانهای از نورونهای زیستی. یک شبکه عصبی چندلایه دربرگیرنده تعداد زیادی واحد (نورون) بههممرتبط در الگویی از ارتباطات است (Phua et al., 2005). این روش به شکل گستردهای در طبقهبندی و خوشهبندی استفاده شده است و پس از رگرسیون، پرکاربردترین روش دادهکاوی مورد استفاده در کشف تقلبهای مالی است (Yue et al., 2007). نخست، شبکه با استفاده از مجموعهای از دادههای زوجی برای ترسیم ورودیها و خروجیها آموزش داده میشود. سپس وزن ارتباطات بین نورونها تثبیت میشود و شبکه برای تعیین طبقهبندیهای مجموعهای جدید از دادهها مورد استفاده قرار میگیرد (Phua et al., 2005). مزایای این روش از این قرارند؛ نخست اینکه این روش انطباقپذیر است. دوم اینکه این روش، مدلهای دارای پایایی26 ایجاد میکند و سوم اینکه اگر وزنهای آموزشی تغییر کنند، فرایند طبقهبندی را نیز میتوان اصلاح کرد. شبکههای عصبی بیشتر برای تقلبهای کارت اعتباری، بیمه خودرو و تقلبهای شرکتی به کار میروند (Ngai et al., 2010). چن و دو (Chen & Du, 2009) با استفاده از شبکههای عصبی مصنوعی، 68 شرکت فعال در بورس تایوان را مورد مطالعه قرار دادند. آنان با استفاده از دادههای مالی و غیرمالی، یک مدل بحران مالی تدوین کردند. نتایج مطالعه آنان نشان میدهد که شبکههای عصبی مصنوعی بهتر از روشهای سنتی آماری، بحران مالی را پیشبینی میکنند.
شبکه استنباط بیزین
شبکه استنباط بیزین نشاندهنده مجموعهای از متغیرهای تصادفی و استقلال مشروط آنها با استفاده از یک نمودار غیرچرخهای هدایتشده27 است که در آن گرهها نشاندهنده متغیرهای تصادفیاند و استقلال مشروط بین متغیرها را تعیین میکنند (Kerkaus et al., 2007). شبکه استنباط بیزین، اغلب در کشف تقلب کارت اعتباری، بیمه خودرو، و تقلبهای شرکتی مورد استفاده قرار میگیرد (Ngai et al., 2010).
درختان تصمیم
درختان تصمیم، ابزار پشتیبان تصمیمِ پیشبینیکنندهای هستند که تصویری از مشاهدات برای پیامدهای ممکن را ایجاد میکنند (Han & Kamber, 2006). درختان تصمیم، درختانی هستند که موضوعها را بر اساس مقادیر صفتها طبقهبندی میکنند. برگها نماد پیشبینیها هستند، هر گره در یک درخت تصمیم نماینده یک صفت در یک موضوع مورد طبقهبندی است و هر شاخه نماینده مقداری است که یک گره میتواند اختیار کند و در واقع اشتراک ویژگیها را نشان میدهد (Phua et al., 2005). میتوان از طریق الگوریتمهای مبتنی بر یادگیری ماشینی از قبیل کارت28 (CART)،آی دی تری29 (ID3) و الگوریتم سی 4/5 30(C 4.5)، این درختان را کاشت. درختان تصمیم بهطور معمول در تقلب کارت اعتباری، بیمه خودرو و تقلبهای شرکتی استفاده میشوند (Ngai et al., 2010).
کرکاس و همکاران (Kerkaus et al., 2007)، در مطالعه خود همزمان سه روش را بهکار بردند که عبارت بودند از شبکه عصبی، درخت تصمیم و بیزین. مطالعه آنان سودمندی این مدلها را در شناسایی صورتهای مالی متقلبانه بررسی و مقایسه میکند. بُردار ورودی31، از نسبتهای مالیِ استخراجشده از صورتهای مالی تشکیل شده است. این سه مدل از جهت عملکردشان مقایسه شدهاند. نمونه آنان از 76 شرکت تولیدی یونانی تشکیل شده بود که 38 شرکت بهعنوان متقلب و 38 شرکت بهعنوان غیرمتقلب طبقهبندی شدند. معیار طبقهبندی بهعنوان متقلب، بهطور عمده گزارشهای حسابرسان و مقامات مالیاتی بوده است. ابراز تردیدهای جدی از سوی حسابرسان نسبت به درستی حسابها، گزارش مقامات مالیاتی نسبت به تلاش شرکت برای فرار مالیاتی با انجام دستکاریهای بااهمیت در صورتهای مالی، قرار گرفتن در فهرست شرکتهای تحت نظارت در بورس آتن، تعلیق معاملات سهام شرکت به دلایل مرتبط با دستکاری دادههای مالی شرکت و وجود پروندههایی در دادگاه مرتبط با موضوع صورتهای مالی متقلبانه، از مواردی هستند که بهعنوان نشانههای تقلب یک شرکت در نظر گرفته شدهاند. کرکاس و همکاران (2007) گزارش کردهاند که پس از آموزش مدلها، در مرحله آزمون تقسیم نمونه، مدل درخت تصمیم با 96/2 درصد دقت، مدل شبکه عصبی با 100درصد دقت و مدل شبکه استنباط بیزین با 94/7 درصد دقت توانستهاند شرکتهای متقلب را از شرکتهای غیر متقلب بازشناسی کنند.
یک چارچوب کلی برای الگوریتمهای دادهکاوی
هر چند الگوریتمهای دادهکاوی بسیاری برای کشف تقلب مورد استفاده قرار گرفتهاند، اما کاربرد آنها، همچنان از الگوی سنتی دادهکاوی- انتخاب ویژگی، نمایندگی32، گرداوری و مدیریت دادهها، پیشپردازش، دادهکاوی، پسپردازش و ارزیابی عملکرد- پیروی میکند. یوئه و همکاران (2007)، ویژگیهای فنون دادهکاوی مورد استفاده برای هدفِ خاصِ کشف تقلبهای مالی را در یک چارچوب کلی خلاصه کردهاند (شکل 2).
برمبنای توزیع دادهها، الگوریتمهای کشف تقلبهای مالی را نخست میتوان به دو گروه عمده تقسیم کرد؛ دادههای گرداوریشده از شرکتهای متقلب و غیرمتقلب و همچنین، دادههای حسابرسی. در پژوهشهای گذشته، تمرکز بیشتر بر تلاش برای کشف تقلب در مجموعهای از دادههای متقلبانه و غیرمتقلبانه بوده است (Yue et al., 2007).
راه آینده و چالشهای پیشرو
نگای و همکاران (2010) اظهار میدارند که یک دلیل برای محدود بودن تعداد مقالههای مرتبط با موضوع کشف تقلبهای مالی (49 تا بین سالهای 1997 تا 2008)، سختی بهدست آوردن دادههای تحقیق مناسب است. مشکل آن است که پیش از هر کاری، و برای شروع آموزش مدل، باید مجموعهای از صورتهای مالی را به دو گروه متقلب و غیرمتقلب تقسیم کرد. چالش شناسایی صورتهای مالی متقلبانه، موانع بسیاری در سر راه تحقیقات کشف تقلب مالی قرار میدهد. هر چند روشهای دادهکاوی ذکرشده در بالا عموماً نشان دادهاند که در کشف تقلب صورتهای مالی اثربخش بودهاند، اما کاربرد آنها برای کشف تقلب در صورتهای مالی، معایب و محدودیتهای کاربردی بسیاری داشته است. در پس عمده روشهای دادهکاوی موجود برای کشف تقلب در صورتهای مالی، دامنه کاربرد خاص و محدودیتهای ویژهای وجود دارند (Zhou & Kapoor, 2011). برای مثال، هر چند که این روشها بهخوبی برای مدلسازیِ پیشبینیکننده توسعه یافتهاند، اما آنها برای ارزیابی اثر بهخوبی توسعه پیدا نکردهاند. بهطور مشخص، هنوز برای برخی از روشهای دادهکاوی آمارههای آزمونی ساخته نشده است که با آن بتوان به ارزیابی اثرهای متغیرهای مستقل بر متغیرهای وابسته پرداخت (Zhou & Kapoor, 2011).
یک نکته دیگر که باید به آن توجه شود، این است که اغلب روشهای دادهکاوی نقاط پرت را بهعنوان استثنا یا اختلال33 کنار میگذارند؛ در حالی که در کشف تقلب، رویدادهای نادر میتوانند جالبتر از رویدادهای معمول و مکرر باشند. بنابراین، تحلیل نقاط پرت برای کشف الگوهای متقلبانه باید بیش از پیش مورد توجه قرار گیرد. البته نبود تحقیقاتی در مورد کاربرد روشهای کشف دادههای پرت برای کشف تقلبهای مالی ممکن است بهخاطر سختی کشف دادههای پرت باشد. در واقع، کشف دادههای پرت وظیفه پیچیدهای است که بیشباهت به جُستن سوزن در انبار کاه نیست. برخلاف دیگر روشهای دادهکاوی، روشهای کشف داده پرت متمرکز بر یافتن الگوهای نادر مرتبط با اشیای داده، بسیار اندکند (Zhang & Zhou, 2004؛ Ngai et al., 2010). همچنین، روشهای تصویرسازی نیز توانی درخور توجه در شناسایی و ارائه بیقاعدگیها در دادهها دارند. این ویژگی میتواند شناسایی و کمّیسازی طرحهای تقلب را بسیار آسانتر کند (Ngai et al., 2010).
سخن آخر اینکه در زمان کنونی، تقلبهای مالی همواره در حال تغییر شکل و تکامل هستند؛ پس سازوکارهای ماشینی کشف تقلب نیز باید با استفاده از آگاهیهای تخصصی در دسترس، اثربخشی و کارایی خود را بهطور مستمر افزایش دهند. همانگونه که ژو و کاپور (Zhou & Kapoor, 2011) بهخوبی تذکر میدهند، کشف تقلب مالی با استفاده از روشهای کشف فعلی، بهطور روزافزون مشکل میشود. یک مدیرعامل آگاه به همه مسائل که اراده کرده است جرمی مرتکب شود، منابع کافی برای دور زدن سیستم را بهراحتی در اختیار دارد و قادر است که هر نوع سازوکار کشفی را خنثی کند. ژو و کاپور (2011) روشهای کشف تقلب مالی مبتنی بردادهکاوی (مانند رگرسیون، درخت تصمیم، شبکههای عصبی، و شبکههای بیزین) را مورد بررسی قرار دادهاند. آنان بهویژه، اثربخشی و محدودیتهای این روشهای دادهکاوی را در هنگام پدید آمدن شگردهای جدید تقلب صورتهای مالی که خود را با این روشهای کشف انطباق دادهاند، به نقد کشیدهاند. نویسندگان سپس یک روش نوین را پیشنهاد میکنند؛ یک برنامه کشف فعال که پیش از متقلبان بالقوه تکامل مییابد. توانمند کردن یک سیستم کشف هوشمند برای پیشبینی، پیش از اینکه هر گونه تقلب ناشناختهای در آینده اتفاق افتد، این توان را بهوجود میآورد که انواع جدید تقلبهای صورتهای مالی بهطور اثربخش کشف گردند. البته چنانکه این دو نویسنده خود اذعان میدارند، تحقیقهای بیشتری در آینده نیاز است تا برنامه کشف فعالی طراحی شود که هم اثربخش و هم کارا باشد.
نتیجهگیری
در سالهای اخیر، انواع گوناگون تقلبهای مالی مانند تقلب کارت اعتباری، تقلب شرکتی و پولشویی، نگرانیهای بسیاری را سبب شده و توجه زیادی را بهسوی خود جلب کرده است. البته حوزه کشف تقلب مالی نیز تحولهای چشمگیری را شاهد بوده است. بهطور مشخص، دادهکاوی نظرها را به شکل گستردهای به خود جلب کرده و محبوبیت فزایندهای در جهان مالی بهدست آورده است. کاربردهای موفقیتآمیزی از دادهکاوی گزارش شده است و تحقیقات نشان دادهاند که دادهکاوی در میزان کاربرد و اثربخشی گسترش یافته است. سازمانهای حرفهای حسابداری نیز دادهکاوی را بهعنوان یک فناوری مهم برای سده جدید شناختهاند (Zhou & Kapoor, 2011). روشهای اصلی مورد استفاده برای کشف تقلبهای مالی عبارتند از مدلهای رگرسیون لجستیک، شبکههای عصبی، شبکه استنباط بیزین و درختان تصمیم که همه آنها راهحلهای بااهمیتی را برای مشکلات ذاتی در کشف و طبقهبندی دادههای متقلبانه ارائه میکنند. یکی از انواع تقلب مالی، تقلبهای مدیریت است. تقلب هدفمند انجامشده از سوی مدیریت از طریق ارائه صورتهای مالی گمراهکننده، به سرمایهگذاران و اعتباردهندگان آسیب میرساند. در طول فرایند حسابرسی، حسابرسان باید امکان تقلب مدیریت را براورد کنند. حرفه حسابرسی، با چالشِ شمار فزاینده موارد تقلب مدیریت روبهرو است. روشهای دادهکاوی که ادعا میشود تواناییهای پیشرفتهای در طبقهبندی و پیشبینی دارند، میتوانند کار حسابرسان را در انجام وظیفه کشف تقلب مدیریت آسان سازند (Kerkaus et al., 2007).
کاربرد روشهای دادهکاوی بر رویِ نسبتهای مالی استخراجشده از صورتهای مالی شرکتها و نیز دیگر اطلاعات در دسترس، میتواند به حسابرسان در کشف تقلب کمک کند؛ بهطوری که آنان میتوانند از نتایج این تحلیلها بهعنوان یک علامت اولیه هشداردهنده نسبت به وقوع احتمالی تقلب صورتهای مالی استفاده کنند. کشف نشانگرهای تقلب در صورتهای مالی، اثری بااهمیت بر تعیین تقلب صورتهای مالی دارد.
بهرغم موفقیتهای اولیه این سیستمها و الگوریتمهای کشف ماشینیِ پیشگام در کشف صورتهای مالی متقلبانه، نرخ کشف موفقیتآمیز بهشکل مستمری در طول سالهای اخیر کاهش یافته است. بهعلاوه، در دورانی که مرتکبان تقلب صورتهای مالی، راههایی برای دور زدن برنامههای کشف ماشینی یافتهاند، نیازی فوری برای سازوکاری وجود دارد که قادر به یادگیری و استفاده از آگاهیهای عمومی هر صنعت برای تسهیل روشهای دادهکاوی باشد. همچنین، انواع تقلب و الگوهای تقلب در صنایع مختلف در طول زمان تغییر کرده است. درک اینکه طرحهای تقلب چگونه متحول شدهاند، مهم است. همچنین، پیشبینی جهت تغییر این تقلبها با هر وسیله ممکن و بهروز نگاه داشتن روشهای ماشینی کشف تقلب، اهمیت دارد. پژوهش در این راستا، ممکن است نتایج بااهمیتی داشته باشد که برای تدوین فرایندهای تجاری قویتر و نیز سازوکارهای کشف تقلب انطباقپذیر برای مدیریت/پیشگیری/کشف خطر تقلب، سودمند باشند.
پانوشتها:
Data Mining Tasks-1 Classification-2 Neural Networks-3 The Naïve Bayes Networks-4 Decision Trees-5 Support Vector Machine-6 Tuples-7 Clustering-8 The K-nearest Neighbor-9 Self-organizing Map Techniques-10 Prediction-11 Logistic Models-12 Outlier Detection-13 Outliers-14 Discounting Learning Algorithm-15 Visualization-16 Pattern Recognition-17 Machine Learning-18 The Bayesian Belief Network-19 (MCDA) Multi Criteria Decision Aid-20 UTilite’s Additives DIScriminants-21 Evolutionary Algorithms-22 Repeated Incremental Pruning to produce Error Reduction-23 Stacking Variant Methodology-24 Generalized Linear Model-25 Robust Models-26 (DAG) Directed Acyclic Graph-27 (CART) Classification and Regression Trees-28 (ID3) Iterative Dichotomizer3-29 30- الگوریتم سی 4/5 برای تهیه درخت تصمیم بهکار میرود Input Vector-31 Data Representation-32 Noise-33 منابع: Ata A., Ibrahim H. Seyrek, the Use of Data Mining Techniques in Detecting Fraudulent Financial Statements: An Application on Manufacturing Firms, Suleyman Demirel University, The Journal of Faculty of Economics and Administrative Sciences, Vol. 14(2), 2009, pp. 157-170 Bose I., R.K. Mahapatra, Business Data Mining — a Machine Learning Perspective ,Information Management, Vol. 39, 2001, pp. 211–225 Chen W.S. and Y.K. Du, Using Neural Networks and Data Mining Techniques for The Financial Distress Prediction Model, Expert Systems with Applications, Vol. 36, 2009, pp.4075–4086 Elliott R.K., and J.J. Willingham, Management Fraud: Detection and Deterrence, Petro celli Books, NewYork, 1980, p.4 Fanning K. and K. Cogger, Neural Network Detection of Management Fraud Using Published Financial Data, International Journal of Intelligent Systems in Accounting, Finance & Management, Vol. 7, 1998, pp. 21-24 Frawley W.J., G. Piatetsky-Shapiro, C.J. Matheus, Knowledge Discovery in Databases: An Overview, AI Magazine, Vol. 13, 1992, pp. 57–70 Hand D., H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, Cambridge, MA; 2001, p.1 Han J., M. Kamber, Data Mining: Concepts and Techniques (Second ed), Morgan Kaufmann Publishers, 2006, pp. 285–464 Kerkaus E., C. Spathis, Y. Manolopoulos, Data Mining Techniques for the Detection of Fraudulent Financial Statements, Expert Systems with Applications, Vol.32, 2007, pp. 995–1003 Ngai E.W.T., Yong Hu, Y.H. Wong, Yijun Chen, Xin Sun, The Application of Data Mining Techniques in Financial Fraud Detection: A Classification Framework and an Academic Review of literature; Decision Support Systems, vol. 50(3), 2010, pp. 559-569 Phua C., V. Lee, K. Smith, R. Gayler, A Comprehensive Survey of Data Mining-based Fraud Detection research, Clayton School of Information Technology, Monash University, 2005 Turban E., J.E. Aronson, T.P. Liang, R. Sharda, Decision Support and Business Intelligence Systems, Eighth ed, Pearson Education, 2007 Wang J., Y. Liao, T. Tsai, G. Hung, Technology-based Financial Frauds in Taiwan: Issue and Approaches, IEEE Conference on: Systems, Man and Cyberspace, 2006, pp. 1120–1124 Yamanishi K., J. Takeuchi, G. Williams and P. Milne, On-Line Unsupervised Outlier Detection Using Finite Mixtures with Discounting Learning Algorithms, Data Mining and Knowledge Discovery, Vol. 8, 2004, pp. 275–300 Yue D., X. Wu, Y. Wang, Y. Li and C. Chu, A Review of Data Mining-based Financial Fraud Detection Research, International Conference on Wireless Communications, Networking and Mobile Computing, 2007, pp. 5519–5522 Zhang D. and L. Zhou, Discovering Golden Nuggets: Data Mining in Financial Application, IEEE Transactions on Systems, Man and Cybernetics, Vol. 34(4), 2004, pp.513-522 Zhou W., G. Kapoor, Detecting Evolutionary Financial Statement Fraud, Decision Support Systems, Vol. 50(3), 2011, pp. 570-576
علاقه مندی ها (Bookmarks)