کاوش داده‌ها برای کشف تقلب

**h.jabbari** · 15th December 2012 04:27 PM

پدیدآورنده: سید سعید مهرداد آیسک

مقدمه
تقلبهای صورتهای مالی به‌شکل چشمگیری توجه عموم جامعه، رسانه‌ها، سرمایه‌گذاران، جامعه مالی و قانونگذاران را به‌خود جلب کرده و این به‌خاطر چندین تقلب مشهوری است که در شرکتهای بزرگی از قبیل انرون، لوسنت و ورلدکام در طول سالیان گذشته روی داده است. گزارشگری متقلبانه در ‌صورتهای مالی بیشتر از طریق بیش‌اظهاری داراییها، فروشها و سود و کم‌اظهاری بدهیها، هزینه‌ها و زیانها، انجام می‌شود (Yue et al., 2007). تقلب، یک دلیل بااهمیت برای شکست بسیاری از شرکتهاست و به‌ویژه، به بازارهای سرمایه آسیب می‌رساند؛ چرا که سرمایه‌گذاران، اعتباردهندگان و تحلیلگران مالی در تصمیم‌گیری‌هایشان بر ‌صورتهای مالی در دسترس عموم، متکی هستند و به آنها اعتماد می‌کنند (Ata & Seyrek, 2009).
استانداردهای حسابرسی، شرکتهای حسابرسی را ملزم به کشف تقلبهای مدیریت می‌کند. این الزام، نیاز به کشف اثربخش تقلبهای مدیریت را افزایش می‌دهد. اما، کشف تقلبهای مدیریت با استفاده از رویه‌های حسابرسی معمول، کاری بس دشوار است. نخست به این دلیل که آگاهی اندکی در رابطه با ویژگیهای تقلب مدیریت وجود دارد؛ دوم اینکه با توجه به فراوانی اندک آن، اغلب حسابرسان تجربه لازم برای کشف آن را ندارند. سرانجام اینکه مدیران عامل، مدیران مالی و حسابداران به عمد تلاش می‌کنند تا حسابرسان را فریب دهند (Fanning & Cogger, 1998). برای آن دسته از مدیرانی که محدودیتهای یک حسابرسی را می‌شناسند، رویه‌های حسابرسی استاندارد ممکن است نابسنده باشد. این محدودیت‌ها نیاز به رویه‌های تحلیلی اضافی برای کشف اثربخش ‌صورتهای مالی متقلبانه را گوشزد می‌کند. آمار و روشهای داده‌کاوی به‌طور موفقیت‌آمیزی برای کشف فعالیتهایی مانند پولشویی، تقلبهای کارت اعتباری تجارت الکترونیک، تقلبهای ارتباطات از راه دور، تقلبهای بیمه‌ای و نفوذهای رایانه‌ای به‌کار رفته‌اند. البته، کشف تقلب در ‌صورتهای مالی موضوعی پیچیده و کشف آن نیز مشکل است (Yue et al., 2007). هدف اصلی این مقاله، ارائه مروری بر فرایندهای داده‌کاوی به‌کاررفته در راستای کشف تقلبهای مالی، به‌ویژه تقلب در ‌صورتهای مالی است.

تقلب و متقلبان
هیچ تعریف پذیرفته‌شده‌ جهانی‌ از تقلب مالی وجود ندارد (Ngai et al., 2010). ونگ و همکاران (Wang et al. 2006) تقلب را این‌گونه تعریف کرده‌اند: “ اقدامی هدفمند برای کسب منفعت مالی غیرمجاز که برخلاف قوانین، قواعد، یا سیاست‌هاست.” در سالهای اخیر، انواع گوناگون تقلبهای مالی، مانند تقلب کارت اعتباری، تقلب شرکتی و پولشویی، نگرانی‌های بسیاری را سبب شده و نظرها را به سوی خود جلب کرده است. نگای و همکاران (Ngai et al., 2010) در یک طبقه‌بندی کلی، انواع تقلب مالی را در چهار دسته تقسیم کرده‌اند؛ تقلبهای بانکی، تقلبهای بیمه‌ای، تقلب اوراق بهادار و کالاها، سایر تقلبهای مالی (جدول 1).
در عمل، در شرکتها دو نوع تقلب را می‌توان تشخیص داد. نوع نخست عبارت است از سوءاستفاده از داراییها؛ برای مثال به‌صورت سرقت، اختلاس، جعل حسابهای هزینه‌ای، استفاده شخصی از داراییهای شرکت و غیره. و نوع دوم، گزارشگری مالی متقلبانه است. گزارشگری مالی متقلبانه مستلزم مخدوش کردن عمدی ‌صورتهای مالی است؛ برای مثال از طریق گزارش فروشهایی که هنوز اتفاق نیفتاده است، گزارش سودی در سال جاری که در حقیقت متعلق به سال بعد است، سرمایه‌ای کردن نادرست هزینه‌ها، یا گزارش هزینه‌ای در سال بعد که باید در سال جاری گزارش می‌شده است. تقلب ‌صورتهای مالی به‌طور معمول از سوی مدیریت یا با رضایت و آگاهی آنها انجام می‌شود. بنابراین، تقلب ‌صورتهای مالی را می‌توان نوعی از تقلب مدیریت دانست که از سوی الیوت و ویلینگهام (Elliott & Willingham, 1980) چنین تعریف شده است: “تقلب هدفمندی که مدیریت مرتکب می‌شود و از طریق صورتهای مالیِ دارای اطلاعات گمراه‌کننده‌ بااهمیت، به سرمایه‌گذاران و اعتباردهندگان آسیب می‌رساند.”
این مسئولیت حسابرسان است که تعیین کنند گزارشهای مالی تا چه اندازه‌ای مطابق با استانداردهای حسابداری هستند؛ ریسک تقلب در گزارشهای مالی را ارزیابی و وجود تقلب در ‌صورتهای مالی را شناسایی نمایند. از سوی دیگر، کشف تقلب در ‌صورتهای مالی کاری دشوار است که مستلزم اقداماتی بیش از اجرای رویه‌های استاندارد حسابرسی است. بنابراین، حسابرسان برای تسهیل کار حسابرسی و کمک به کشف این‌گونه ‌صورتهای مالی متقلبانه به ابزار و فنون جدیدی نیاز دارند. در این رابطه، ابزار مبتنی بر رایانه می‌توانند کمک‌کننده‌های مفیدی باشند (Ata & Seyrek, 2009).
داده‌کاوی
با ظهور فناوری اطلاعات که گرداوری، نگهداری و پردازش مقدارهای انبوه داده را ممکن و تسهیل می‌کند، سازمانها اکنون برای استفاده‌ از داده‌هایی که از فرایندها، مشتریان و محیطشان جمع‌آوری می‌کنند، در وضعیت بهتری هستند. اما استخراج معنایی از میان انبوه داده‌ها و استفاده از آن برای هدفهای سودمند سازمانی، مستلزم استفاده از روشهای پیشرفته، مانند داده‌کاوی است (Ata & Seyrek, 2009).
داده‌کاوی عبارت است از تحلیل داده‌ها به‌منظور کشف روابطِ از قبل نامعلومی که اطلاعات مفیدی ارائه می‌کنند (Hand et al. 2001). بوز و ماهاپاترا (Bose & Mahapatra, 2001) داده‌کاوی را فرایند شناسایی الگوهای جالب در پایگاه‌های داده که می‌توان از آنها در تصمیم‌گیری استفاده کرد، تعریف کرده‌اند. توربان و همکاران (Turban et al., 2007) داده‌کاوی را فرایندی تعریف کرده‌اند که برای استخراج و شناسایی اطلاعات مفید و در پی آن کسب دانش از پایگاه‌های بزرگ داده، از روشهای آماری، ریاضی، هوش مصنوعی و یادگیری ماشینی استفاده می‌کند. فرالی و همکاران (Frawley et al., 1992) اظهار می‌دارند که هدف داده‌کاوی، کسب اطلاعات مفید و غیرصریح از داده‌های ذخیره‌شده در انباره‌های بزرگ است. کار داده‌کاوی، کسب آگاهی‌هایی از داده‌هاست که از نظر آماری اتکاپذیر و کاربردی، اما از پیش ناشناخته‌اند. این داده‌ها باید در دسترس، مربوط و کافی باشند. همچنین، مسئله داده‌کاوی باید حتماً به‌خوبی تعریف شده باشد (Phua et al., 2005).
داده‌کاوی در صنایع مختلفی مانند بهداشت و درمان، مالی، خرده‌فروشی، ارتباطات راه دور، و غیره برای حل مسئله‌ةا و بهبود جوانب مختلف کسب‌وکار مورد استفاده قرار گرفته است. فوا و همکاران (Phua et al., 2005) یاداوری می‌کنند که کشف تقلب به یکی از جاافتاده‌ترین کاربردهای داده‌کاوی چه در صنعت و چه در دولت تبدیل شده است. هر چند بسته‌های نرم‌افزاری تجاری مختلفی با محیط تعاملی آسان برای کاربران، در حال حاضر در دسترس هستند که انجام کارهای پیچیده داده‌کاوی را به‌ظاهر آسان می‌کنند؛ اما باید در نظر داشت که داده‌کاوی فرایندی چندگامی است که طی آن دخالتها و تفسیرهای دقیق انسانی لازم‌اند. به‌طور خلاصه، داده‌کاوی شامل پیمودن گام‌های بنیادینی است که باید با دقت برداشته شوند تا نتایج معنیداری از تحلیل‌های انجام‌شده به‌دست آید. گام نخست در کار داده‌کاوی، تعریف واضح مسئله است. سپس داده‌ها گرداوری و برای مدلسازی آماده می‌شوند. این گام بسیار زمان‌بر است و اساساً شامل تصفیه و دستکاری داده‌هاست. سپس، یک مدل داده‌کاوی که برای مسئله مورد بررسی، مناسب‌تر از بقیه به‌نظر می‌رسد، انتخاب می‌شود و مورد استفاده قرار می‌گیرد. در این مرحله، عموماً داده‌ها به دو مجموعه‌ آموزش و آزمون (تایید) تقسیم می‌شوند. داده‌های آموزش برای استخراج قواعد و روابط و برازش مدل، استفاده می‌شوند، در حالی که داده‌های تایید (آزمون) برای این استفاده می‌شوند که تعیین شود قواعد ایجادشده در یک مجموعه‌ متفاوت از داده‌ها، به چه کیفیتی عمل می‌‌کنند. بر مبنای نتایج اجرای مدل، عملکرد مدل ارزیابی می‌شود؛ در نتیجه یا اصلاح می‌گردد یا برای حل مسئله به‌کار گرفته می‌شود (Ata & Seyrek, 2009).
وظایف داده‌کاوی
نگای و همکاران کاربرد روشهای داده‌کاوی برای کشف تقلبهای مالی را مورد بررسی قرار دادند. آنان 49 مقاله چاپ‌شده در مجلات معتبر را بررسی کردند و مشخص شد که در مجموعه‌ تحقیقهای مورد بررسی، از شش طبقه از وظایف/کاربردهای داده‌کاوی برای کشف تقلبهای مالی استفاده شده است. این موارد عبارتند از طبقه‌بندی، رگرسیون، خوشه‌بندی، پیش‌بینی، کشف داده‌های پرت و تصویرسازی. هر یک از این شش طبقه، با مجموعه‌ای از رویکردهای الگوریتمی حمایت می‌شود که به‌دنبال استخراج ارتباطهایی مربوط از داده‌ها هستند (Turban et al., 2007). این رویکردها در نوع مسائلی که قادر به حل آنها هستند، با یکدیگر تفاوت دارند. این طبقات به‌شرح زیرند.
طبقه‌بندی2
طبقه‌بندی مدلی را می‌سازد و از آن برای پیش‌بینی عنوان طبقات اشیای ناشناخته استفاده می‌کند تا بین اشیای متعلق به طبقات مختلف، تمایز ایجاد کند. این عنوانهای طبقاتی از قبل تعریف شده‌اند، ولی متمایز و مرتب نشده‌اند (Han & Kamber, 2006). ژانگ و ژو (Zhang & Zhou, 2004) اظهار می‌دارند که طبقه‌بندی و پیش‌بینی عبارت است از فرایند شناسایی مجموعه‌ای از ویژگیها و مدلهای مشترک که طبقات یا مفاهیم داده‌ها را توصیف و متمایز می‌کنند. روشهای معمول طبقه‌بندی عبارتند از شبکه‌های عصبی3، شبکه‌های بیز ساده4، درختان تصمیم5، و ماشینهای بُردار پشتیبان6. اینگونه وظایف طبقه‌بندی در کشف تقلبهای کارت اعتباری، بیمه سلامت و بیمه‌ خودرو و تقلبهای شرکتی و دیگر انواع تقلب، استفاده می‌شوند. طبقه‌بندی یکی از رایج‌ترین مدلهای یادگیری در کاربرد داده‌کاوی برای کشف تقلبهای مالی است (Ngai et al., 2010). طبقه‌بندی یک فرایند دو مرحله‌ای است. در گام اول، با استفاده از یک نمونه آموزشی، یک مدل آموزش داده می‌شود. این نمونه در تعدادی ردیف (گروهک‌ها7)و ستون‌ (صفات) سازمان‌دهی می‌شود. یکی از صفات، یعنی صفت عنوان طبقه، حاوی مقادیری است که نشان‌دهنده طبقه‌ از پیش تعریف‌شده‌ای است که هر ردیف به آن تعلق دارد. این گام به‌عنوان یادگیری نظارت‌شده نیز معروف است. در گام دوم، در مدل تلاش می‌شود اشیایی که به نمونه‌ آموزشی تعلق ندارند، طبقه‌بندی شوند و یک نمونه آزمون (تایید) تشکیل دهند (Kerkaus et al., 2007).

خوشه‌بندی8
از خوشه‌بندی برای تقسیم اشیا به گروهها/خوشه‌ها‌یی که از نظر مفهومی معنیدار هستند، استفاده می‌شود؛ به‌طوری که اشیای یک گروه با یکدیگر مشابه، و در عین حال، بسیار متفاوت از اشیای دیگر گروه‌ها باشند. خوشه‌بندی با عنوان بخش‌بندی و تقطیع داده‌ها نیز شناخته می‌شود و به‌عنوان یک‌ گونه از طبقه‌بندی نظارت‌نشده به حساب می‌آید. بنابرنظر یوئه و همکاران (Yue et al., 2007)، تحلیل خوشه‌بندی مرتبط است با مسئله تجزیه یا تقطیع یک مجموعه‌ داده (معمولاً چندمتغیره) به چندین گروه، به‌طوری که نقاط در داخل یک گروه مشابه با یکدیگر و تا حد ممکن متفاوت از نقاط در دیگر گروه‌ها هستند. همچنین، ژانگ و ژو اظهار می‌دارند که هر خوشه مجموعه‌ای از اشیای داده است که در همان خوشه مشابه یکدیگرند، اما متفاوت از اشیا در دیگر خوشه‌ها هستند. رایجترین روشهای خوشه‌بندی عبارتند از نزدیک‌ترین همسایه کا 9، روش بیز ساده، و روشهای نقشه‌ خودانتظام10 (Ngai et al., 2010).
پیش‌بینی11
پیش‌بینی، مقدارهای عددی و پیوسته آینده را بر مبنای الگوهایی از یک مجموعه داده براورد می‌کند. هان و کَمبر (Han & Kamber, 2006) تاکید کرده‌اند که برای پیش‌بینی، صفتی که پیش‌بینی آن انجام می‌شود باید پیوسته باشد و نه کیفی (طبقه‌ای). این صفت را می‌توان صفت مورد پیش‌بینی نامید. شبکه‌های عصبی و مدل لجستیک12، رایجترین روشهای مورد استفاده برای پیش‌بینی هستند (Ngai et al., 2010).
کشف نقاط پرت13
از کشف نقاط پرت برای اندازه‌گیری فاصله بین اشیای داده به‌منظور کشف اشیایی که به‌شکلی متفاوت از ناهمگون با بقیه مجموعه داده‌ها هستند، استفاده می‌شود. داده‌هایی که به‌نظر می‌رسد ویژگیهایی متفاوت از بقیه جمعیت دارند، داده‌های پرت14 نامیده می‌شوند. مسئله کشف داده‌ پرت/متناقض، یکی از بنیادی‌ترین مباحث در داده‌کاوی است. یک روش رایج مورد استفاده در کشف داده‌ پرت، الگوریتم یادگیری تنزیل‌شونده15 است (Yamanishi et al., 2004).
رگرسیون
رگرسیون یک روش آماری است که برای کشف رابطه بین یک یا چند متغیر مستقل و یک متغیر وابسته (که یک مقدار پیوسته است) استفاده می‌شود (Han & Kamber, 2006). در بسیاری از مطالعات تجربی، از رگرسیون لجستیک به‌عنوان یک معیار سنجش، استفاده می‌شود. رگرسیون به‌طور معمول عبارت است از استفاده از روشهایی ریاضی‌ مانند رگرسیون لجستیک و رگرسیون خطی و از آن برای کشف تقلبهای کارت اعتباری، تقلبهای بیمه‌ای و تقلبهای گزارشگری شرکتها استفاده می‌شود (Ngai et al., 2010).
تصویرسازی16
تصویرسازی اشاره دارد به ارائه داده‌ها به‌شکلی که به‌سادگی درک‌پذیر باشد و اشاره دارد به روشی که ویژگیهای داده‌های پیچیده را به الگوهای واضحی تبدیل می‌کند و به کاربران اجازه می‌دهد که الگوها یا روابط پیچیده‌ کشف‌شده در فرایند داده‌کاوی را ببینند (Turban et al., 2007). محققان، از تواناییهای کشف الگو در سیستم بینایی انسان استفاده کرده و مجموعه‌ای از ابزار و برنامه‌ها را ساخته‌اند که به‌شکل انعطاف‌پذیری، داده‌ها را با استفاده از رنگ، موقعیت، اندازه و دیگر ویژگیهای بصری، کدبندی می‌کنند. بهترین کاربرد تصویرسازی برای آشکار کردن الگوهای پیچیده از طریق ارائه واضح داده‌ها یا توابع بوده است (Ngai et al., 2010).
روشهای داده‌کاوی مورد استفاده در تحقیقات کشف تقلبهای مالی
برای طبقات/وظایف مختلف داده‌کاوی یادشده در بالا، روشهای بسیاری ایجاد شده‌اند که از علوم مختلفی مانند هوش مصنوعی، الگوشناسی17، یادگیری ماشینی18 و آمار برگرفته شده‌اند. در تحقیقات مختلف، 26 روش داده‌کاوی در کشف تقلبهای مالی به‌کار رفته‌اند (Ngai et al., 2010). شکل 1، در یک تقسیمبندی کلی، طبقات تقلب مالی و 6 گروه کاربرد داده‌کاوی مورد استفاده برای کشف این تقلبها را نشان می‌دهد.
در جدول 2، می‌توان انواع مختلف روشهای داده‌کاوی مورد استفاده برای کشف تقلبهای شرکتی (شامل تقلب در ‌صورتهای مالی) را مشاهده کرد. پرکاربردترین روشهای مورد استفاده برای کشف تقلبهای مالی عبارتند از مدلهای رگرسیون لجستیک (رایجترین)، شبکه‌های عصبی، شبکه‌ استنباط بیزین19 و درختان تصمیم که همه آنها راه‌حل‌های بااهمیتی برای مشکلات ذاتی در کشف و طبقه‌بندی داده‌های متقلبانه ارائه می‌کنند (Ngai et al., 2010). این 4 روش، همگی در گروه «طبقه‌بندی» قرار می‌گیرند که در ادامه به‌شکل مشروحتری مورد بحث قرار گرفته‌اند.

مدل رگرسیون
در ادبیات پژوهشهای داده‌کاوی برای کشف تقلب، رگرسیون رایجترین روش مورد استفاده است. مدلهای رگرسیون استفاده‌شده عبارتند از لوجیت (Logit)، لجستیک- گام به گام، روش کمک تصمیم چندمتغیره و بتا 2 تعمیم‌یافته نمایی (Yue et al. 2007) (EGB2). مدل رگرسیون لجستیک، رایجترین مدل مورد استفاده است. مدل لجستیک، یک مدل خطی تعمیم‌یافته25 است که برای رگرسیون دوگانه‌ای استفاده می‌شود که در آن متغیرهای پیش‌بینی‌کننده می‌توانند کمی یا کیفی باشند. این مدل اساساً برای حل مسائل مطرح در تقلب بیمه‌ خودرو و تقلبهای شرکتی استفاده می‌شود (Ngai et al., 2010).
ایده‌ پشتوانه رگرسیون این است که با استفاده از نسبتهای مالی شرکتها، مدلی به‌دست آید تا مشخص شود کدام نسبتها با ‌صورتهای مالی متقلبانه مرتبطند. با شمول مجموعه‌ داده‌ صورتهای متقلبانه و ‌صورتهای مالی غیرمتقلبانه، می‌توان فهمید که کدام عوامل به‌شکل معنیداری بر شرکتهای دارای ‌صورتهای مالی متقلبانه اثر می‌گذارند و سپس می‌توان بر این اساس معادله را صورت‌بندی کرد. مدل، بر مبنای نسبتهای ‌صورتهای مالی که در مرحله‌ آموزش به‌عنوان نشانگرهای تقلب مستند شده‌اند، شرکتها را به گروه‌های متقلبانه و غیرمتقلبانه طبقه‌بندی خواهد کرد (Yue et al. 2007).

شبکه‌های عصبی مصنوعی
شبکه‌ عصبی روشی است که با استفاده از مجموعه‌ای از گره‌های به‌هم‌مرتبط، از کارکرد مغز انسان تقلید می‌کند. این روش مبتنی است بر مدلهای رایانه‌ای از نورونهای زیستی. یک شبکه‌ عصبی چندلایه دربرگیرنده تعداد زیادی واحد (نورون) به‌هم‌مرتبط در الگویی از ارتباطات است (Phua et al., 2005). این روش به شکل گسترده‌ای در طبقه‌بندی و خوشه‌بندی استفاده شده است و پس از رگرسیون، پرکاربردترین روش داده‌کاوی مورد استفاده در کشف تقلبهای مالی است (Yue et al., 2007). نخست، شبکه با استفاده از مجموعه‌ای از داده‌های زوجی برای ترسیم ورودیها و خروجیها آموزش داده می‌شود. سپس وزن ارتباطات بین نورون‌ها تثبیت می‌شود و شبکه برای تعیین طبقه‌بندی‌های مجموعه‌ای جدید از داده‌ها مورد استفاده قرار می‌گیرد (Phua et al., 2005). مزایای این روش از این قرارند؛ نخست اینکه این روش انطباق‌پذیر است. دوم اینکه این روش، مدلهای دارای پایایی26 ایجاد می‌کند و سوم اینکه اگر وزنهای آموزشی تغییر کنند، فرایند طبقه‌بندی را نیز می‌توان اصلاح کرد. شبکه‌های عصبی بیشتر برای تقلبهای کارت اعتباری، بیمه خودرو و تقلبهای شرکتی به کار می‌روند (Ngai et al., 2010). چن و دو (Chen & Du, 2009) با استفاده از شبکه‌های عصبی مصنوعی، 68 شرکت فعال در بورس تایوان را مورد مطالعه قرار دادند. آنان با استفاده از داده‌های مالی و غیرمالی، یک مدل بحران مالی تدوین کردند. نتایج مطالعه‌ آنان نشان می‌دهد که شبکه‌های عصبی مصنوعی بهتر از روشهای سنتی آماری، بحران مالی را پیش‌بینی می‌کنند.
شبکه‌ استنباط بیزین
شبکه‌ استنباط بیزین نشاندهنده‌ مجموعه‌ای از متغیرهای تصادفی و استقلال مشروط آنها با استفاده از یک نمودار غیرچرخه‌ای هدایت‌شده27 است که در آن گره‌ها نشاندهنده متغیرهای تصادفی‌اند و استقلال مشروط بین متغیرها را تعیین می‌کنند (Kerkaus et al., 2007). شبکه استنباط بیزین، اغلب در کشف تقلب کارت اعتباری، بیمه خودرو، و تقلبهای شرکتی مورد استفاده قرار می‌گیرد (Ngai et al., 2010).
درختان تصمیم
درختان تصمیم، ابزار پشتیبان تصمیمِ پیش‌بینی‌کننده‌ای هستند که تصویری از مشاهدات برای پیامدهای ممکن را ایجاد می‌کنند (Han & Kamber, 2006). درختان تصمیم، درختانی هستند که موضوعها را بر اساس مقادیر صفتها طبقه‌بندی می‌کنند. برگ‌ها نماد پیش‌بینی‌ها هستند، هر گره در یک درخت تصمیم نماینده یک صفت در یک موضوع مورد طبقه‌بندی است و هر شاخه نماینده مقداری است که یک گره می‌تواند اختیار کند و در واقع اشتراک ویژگیها را نشان می‌دهد (Phua et al., 2005). می‌توان از طریق الگوریتم‌های مبتنی بر یادگیری ماشینی از قبیل کارت28 (CART)،آی دی تری29 (ID3) و الگوریتم سی 4/5 30(C 4.5)، این درختان را کاشت. درختان تصمیم به‌طور معمول در تقلب کارت اعتباری، بیمه‌ خودرو و تقلبهای شرکتی استفاده می‌شوند (Ngai et al., 2010).
کرکاس و همکاران (Kerkaus et al., 2007)، در مطالعه‌ خود همزمان سه روش را به‌کار بردند که عبارت بودند از شبکه عصبی، درخت تصمیم و بیزین. مطالعه آنان سودمندی این مدلها را در شناسایی ‌صورتهای مالی متقلبانه بررسی و مقایسه می‌کند. بُردار ورودی31، از نسبتهای مالیِ استخراج‌شده از ‌صورتهای مالی تشکیل شده است. این سه مدل از جهت عملکردشان مقایسه شده‌اند. نمونه‌ آنان از 76 شرکت تولیدی یونانی تشکیل شده بود که 38 شرکت به‌عنوان متقلب و 38 شرکت به‌عنوان غیرمتقلب طبقه‌بندی شدند. معیار طبقه‌بندی به‌عنوان متقلب، به‌طور عمده گزارشهای حسابرسان و مقامات مالیاتی بوده است. ابراز تردیدهای جدی از سوی حسابرسان نسبت به درستی حسابها، گزارش مقامات مالیاتی نسبت به تلاش شرکت برای فرار مالیاتی با انجام دستکاری‌های بااهمیت در ‌صورتهای مالی، قرار گرفتن در فهرست شرکتهای تحت نظارت در بورس آتن، تعلیق معاملات سهام شرکت به دلایل مرتبط با دستکاری داده‌های مالی شرکت و وجود پرونده‌هایی در دادگاه مرتبط با موضوع ‌صورتهای مالی متقلبانه، از مواردی هستند که به‌عنوان نشانه‌های تقلب یک شرکت در نظر گرفته شده‌اند. کرکاس و همکاران (2007) گزارش کرده‌اند که پس از آموزش مدلها، در مرحله‌ آزمون تقسیم نمونه، مدل درخت تصمیم با 96/2 درصد دقت، مدل شبکه‌ عصبی با 100درصد دقت و مدل شبکه‌ استنباط بیزین با 94/7 درصد دقت توانسته‌اند شرکتهای متقلب را از شرکتهای غیر متقلب بازشناسی کنند.
یک چارچوب کلی برای الگوریتمهای داده‌کاوی
هر چند الگوریتمهای داده‌کاوی بسیاری برای کشف تقلب مورد استفاده قرار گرفته‌اند، اما کاربرد آنها، همچنان از الگوی سنتی داده‌کاوی- انتخاب ویژگی، نمایندگی32، گرداوری و مدیریت داده‌ها، پیش‌پردازش، داده‌کاوی، پس‌پردازش و ارزیابی عملکرد- پیروی می‌کند. یوئه و همکاران (2007)، ویژگیهای فنون داده‌کاوی مورد استفاده برای هدفِ خاصِ کشف تقلبهای مالی را در یک چارچوب کلی خلاصه کرده‌اند (شکل 2).
برمبنای توزیع داده‌ها، الگوریتم‌های کشف تقلبهای مالی را نخست می‌توان به دو گروه عمده تقسیم کرد؛ داده‌های گرداوری‌شده از شرکتهای متقلب و غیرمتقلب و همچنین، داده‌های حسابرسی. در پژوهشهای گذشته، تمرکز بیشتر بر تلاش برای کشف تقلب در مجموعه‌ای از داده‌های متقلبانه و غیرمتقلبانه بوده است (Yue et al., 2007).

راه آینده و چالشهای پیش‌رو
نگای و همکاران (2010) اظهار می‌دارند که یک دلیل برای محدود بودن تعداد مقاله‌های مرتبط با موضوع کشف تقلبهای مالی (49 تا بین سالهای 1997 تا 2008)، سختی به‌دست آوردن داده‌های تحقیق مناسب است. مشکل آن است که پیش از هر کاری، و برای شروع آموزش مدل، باید مجموعه‌ای از صورت‌های مالی را به دو گروه متقلب و غیرمتقلب تقسیم کرد. چالش شناسایی ‌صورتهای مالی متقلبانه، موانع بسیاری در سر راه تحقیقات کشف تقلب مالی قرار می‌دهد. هر چند روشهای داده‌کاوی ذکرشده در بالا عموماً نشان داده‌اند که در کشف تقلب ‌صورتهای مالی اثربخش بوده‌اند، اما کاربرد آنها برای کشف تقلب در ‌صورتهای مالی، معایب و محدودیتهای کاربردی بسیاری داشته است. در پس عمده‌ روشهای داده‌کاوی موجود برای کشف تقلب در ‌صورتهای مالی، دامنه‌ کاربرد خاص و محدودیت‌های ویژه‌ای وجود دارند (Zhou & Kapoor, 2011). برای مثال، هر چند که این روشها به‌خوبی برای مدل‌سازیِ پیش‌بینی‌کننده توسعه یافته‌اند، اما آنها برای ارزیابی اثر به‌خوبی توسعه پیدا نکرده‌اند. به‌طور مشخص، هنوز برای برخی از روشهای داده‌کاوی آماره‌های آزمونی ساخته نشده است که با آن بتوان به ارزیابی اثرهای متغیرهای مستقل بر متغیرهای وابسته پرداخت (Zhou & Kapoor, 2011).
یک نکته دیگر که باید به آن توجه شود، این است که اغلب روشهای داده‌کاوی نقاط پرت را به‌عنوان استثنا یا اختلال33 کنار می‌گذارند؛ در حالی که در کشف تقلب، رویدادهای نادر می‌توانند جالبتر از رویدادهای معمول و مکرر باشند. بنابراین، تحلیل نقاط پرت برای کشف الگوهای متقلبانه باید بیش از پیش مورد توجه قرار گیرد. البته نبود تحقیقاتی در مورد کاربرد روشهای کشف داده‌‌های پرت برای کشف تقلبهای مالی ممکن است به‌خاطر سختی کشف داده‌های پرت باشد. در واقع، کشف داده‌های‌ پرت وظیفه‌ پیچیده‌ای است که بی‌شباهت به جُستن سوزن در انبار کاه نیست. برخلاف دیگر روشهای داده‌کاوی، روشهای کشف داده‌ پرت متمرکز بر یافتن الگوهای نادر مرتبط با اشیای داده، بسیار اندکند (Zhang & Zhou, 2004؛ Ngai et al., 2010). همچنین، روشهای تصویرسازی نیز توانی درخور توجه در شناسایی و ارائه بی‌قاعدگی‌ها در داده‌ها دارند. این ویژگی می‌تواند شناسایی و کمّی‌سازی طرحهای تقلب را بسیار آسانتر کند (Ngai et al., 2010).
سخن آخر اینکه در زمان‌ کنونی، تقلبهای مالی همواره در حال تغییر شکل و تکامل هستند؛ پس سازوکارهای ماشینی کشف تقلب نیز باید با استفاده از آگاهی‌های تخصصی در دسترس، اثربخشی و کارایی خود را به‌طور مستمر افزایش دهند. همان‌گونه که ژو و کاپور (Zhou & Kapoor, 2011) به‌خوبی تذکر می‌دهند، کشف تقلب مالی با استفاده از روشهای کشف فعلی، به‌طور روزافزون مشکل می‌شود. یک مدیرعامل آگاه به همه مسائل که اراده کرده است جرمی مرتکب شود، منابع کافی برای دور زدن سیستم را به‌راحتی در اختیار دارد و قادر است که هر نوع سازوکار کشفی را خنثی کند. ژو و کاپور (2011) روشهای کشف تقلب مالی مبتنی برداده‌کاوی (مانند رگرسیون، درخت تصمیم، شبکه‌های عصبی، و شبکه‌های بیزین) را مورد بررسی قرار داده‌اند. آنان به‌ویژه، اثربخشی و محدودیتهای این روشهای داده‌کاوی را در هنگام پدید آمدن شگردهای جدید تقلب ‌صورتهای مالی که خود را با این روشهای کشف انطباق داده‌اند، به نقد کشیده‌اند. نویسندگان سپس یک روش نوین را پیشنهاد می‌کنند؛ یک برنامه کشف فعال که پیش از متقلبان بالقوه تکامل می‌یابد. توانمند کردن یک سیستم کشف هوشمند برای پیش‌بینی، پیش از اینکه هر گونه تقلب ناشناخته‌ای در آینده اتفاق افتد، این توان را به‌وجود می‌آورد که انواع جدید تقلبهای ‌صورتهای مالی به‌طور اثربخش کشف گردند. البته چنانکه این دو نویسنده خود اذعان می‌دارند، تحقیقهای بیشتری در آینده نیاز است تا برنامه کشف فعالی طراحی شود که هم اثربخش و هم کارا باشد.
نتیجه‌گیری
در سالهای اخیر، انواع گوناگون تقلبهای مالی مانند تقلب کارت اعتباری، تقلب شرکتی و پولشویی، نگرانی‌های بسیاری را سبب شده و توجه زیادی را به‌سوی خود جلب کرده است. البته حوزه کشف تقلب مالی نیز تحولهای چشمگیری را شاهد بوده است. به‌طور مشخص، داده‌کاوی نظرها را به شکل گسترده‌ای به خود جلب کرده و محبوبیت فزاینده‌ای در جهان مالی به‌دست آورده است. کاربردهای موفقیت‌آمیزی از داده‌کاوی گزارش شده‌ است و تحقیقات نشان داده‌اند که داده‌کاوی در میزان کاربرد و اثربخشی گسترش یافته است. سازمانهای حرفه‌ای حسابداری نیز داده‌کاوی را به‌عنوان یک فناوری مهم برای سده‌ جدید شناخته‌اند (Zhou & Kapoor, 2011). روشهای اصلی مورد استفاده برای کشف تقلبهای مالی عبارتند از مدلهای رگرسیون لجستیک، شبکه‌های عصبی، شبکه‌ استنباط بیزین و درختان تصمیم که همه آنها راه‌حل‌های بااهمیتی را برای مشکلات ذاتی در کشف و طبقه‌بندی داده‌های متقلبانه ارائه می‌کنند. یکی از انواع تقلب مالی، تقلبهای مدیریت است. تقلب هدفمند انجام‌شده از سوی مدیریت از طریق ارائه ‌صورتهای مالی گمراه‌کننده، به سرمایه‌گذاران و اعتباردهندگان آسیب می‌رساند. در طول فرایند حسابرسی، حسابرسان باید امکان تقلب مدیریت را براورد کنند. حرفه حسابرسی، با چالشِ شمار فزاینده موارد تقلب مدیریت روبه‌رو است. روشهای داده‌کاوی که ادعا می‌شود تواناییهای پیشرفته‌ای در طبقه‌بندی و پیش‌بینی دارند، می‌توانند کار حسابرسان را در انجام وظیفه کشف تقلب مدیریت آسان سازند (Kerkaus et al., 2007).
کاربرد روشهای داده‌کاوی بر رویِ نسبتهای مالی استخراج‌شده از ‌صورتهای مالی شرکتها و نیز دیگر اطلاعات در دسترس، می‌تواند به حسابرسان در کشف تقلب کمک کند؛ به‌طوری که آنان می‌توانند از نتایج این تحلیلها به‌عنوان یک علامت اولیه هشداردهنده نسبت به وقوع احتمالی تقلب ‌صورتهای مالی استفاده کنند. کشف نشانگرهای تقلب در ‌صورتهای مالی، اثری بااهمیت بر تعیین تقلب ‌صورتهای مالی دارد.
به‌رغم موفقیت‌های اولیه این سیستمها و الگوریتمهای کشف ماشینیِ پیشگام در کشف ‌صورتهای مالی متقلبانه، نرخ کشف موفقیت‌آمیز به‌شکل مستمری در طول سالهای اخیر کاهش یافته است. به‌علاوه، در دورانی که مرتکبان تقلب ‌صورتهای مالی، راههایی برای دور زدن برنامه‌های کشف ماشینی یافته‌اند، نیازی فوری برای سازوکاری وجود دارد که قادر به یادگیری و استفاده از آگاهی‌های عمومی هر صنعت برای تسهیل روشهای داده‌کاوی باشد. همچنین، انواع تقلب و الگوهای تقلب در صنایع مختلف در طول زمان تغییر کرده است. درک اینکه طرحهای تقلب چگونه متحول شده‌اند، مهم است. همچنین، پیش‌بینی جهت تغییر این تقلبها با هر وسیله ممکن و به‌روز نگاه‌ داشتن روشهای ماشینی کشف تقلب، اهمیت دارد. پژوهش در این راستا، ممکن است نتایج بااهمیتی داشته باشد که برای تدوین فرایندهای تجاری قویتر و نیز سازوکارهای کشف تقلب انطباق‌پذیر برای مدیریت/پیشگیری/کشف خطر تقلب، سودمند باشند.

پانوشتها:

	Data Mining Tasks	-1
	Classification	-2
	Neural Networks	-3
	The Naïve Bayes Networks	-4
	Decision Trees	-5
	Support Vector Machine	-6
	Tuples	-7
	Clustering	-8
	The K-nearest Neighbor	-9
	Self-organizing Map Techniques	-10
	Prediction	-11
	Logistic Models	-12
	Outlier Detection	-13
	Outliers	-14
	Discounting Learning Algorithm	-15
	Visualization	-16
	Pattern Recognition	-17
	Machine Learning	-18
	The Bayesian Belief Network	-19
(MCDA)	Multi Criteria Decision Aid	-20
	UTilite’s Additives DIScriminants	-21
	Evolutionary Algorithms	-22
	Repeated Incremental Pruning to produce Error Reduction	-23
	Stacking Variant Methodology	-24
	Generalized Linear Model	-25
	Robust Models	-26
(DAG)	Directed Acyclic Graph	-27
(CART)	Classification and Regression Trees	-28
(ID3)	Iterative Dichotomizer3	-29
30- الگوریتم سی 4/5 برای تهیه درخت تصمیم به‌کار می‌رود
	Input Vector	-31
	Data Representation	-32
	Noise	-33

منابع:
Ata A., Ibrahim H. Seyrek, the Use of Data Mining Techniques in Detecting Fraudulent Financial Statements: An Application on Manufacturing Firms, Suleyman Demirel University, The Journal of Faculty of Economics and Administrative Sciences, Vol. 14(2), 2009, pp. 157-170
Bose I., R.K. Mahapatra, Business Data Mining — a Machine Learning Perspective ,Information Management, Vol. 39, 2001, pp. 211–225
Chen W.S. and Y.K. Du, Using Neural Networks and Data Mining Techniques for The Financial Distress Prediction Model, Expert Systems with Applications, Vol. 36, 2009, pp.4075–4086
Elliott R.K., and J.J. Willingham, Management Fraud: Detection and Deterrence, Petro celli Books, NewYork, 1980, p.4
Fanning K. and K. Cogger, Neural Network Detection of Management Fraud Using Published Financial Data, International Journal of Intelligent Systems in Accounting, Finance & Management, Vol. 7, 1998, pp. 21-24
Frawley W.J., G. Piatetsky-Shapiro, C.J. Matheus, Knowledge Discovery in Databases: An Overview, AI Magazine, Vol. 13, 1992, pp. 57–70
Hand D., H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, Cambridge, MA; 2001, p.1
Han J., M. Kamber, Data Mining: Concepts and Techniques (Second ed), Morgan Kaufmann Publishers, 2006, pp. 285–464
Kerkaus E., C. Spathis, Y. Manolopoulos, Data Mining Techniques for the Detection of Fraudulent Financial Statements, Expert Systems with Applications, Vol.32, 2007, pp. 995–1003
Ngai E.W.T., Yong Hu, Y.H. Wong, Yijun Chen, Xin Sun, The Application of Data Mining Techniques in Financial Fraud Detection: A Classification Framework and an Academic Review of literature; Decision Support Systems, vol. 50(3), 2010, pp. 559-569
Phua C., V. Lee, K. Smith, R. Gayler, A Comprehensive Survey of Data Mining-based Fraud Detection research, Clayton School of Information Technology, Monash University, 2005
Turban E., J.E. Aronson, T.P. Liang, R. Sharda, Decision Support and Business Intelligence Systems, Eighth ed, Pearson Education, 2007
Wang J., Y. Liao, T. Tsai, G. Hung, Technology-based Financial Frauds in Taiwan: Issue and Approaches, IEEE Conference on: Systems, Man and Cyberspace, 2006, pp. 1120–1124
Yamanishi K., J. Takeuchi, G. Williams and P. Milne, On-Line Unsupervised Outlier Detection Using Finite Mixtures with Discounting Learning Algorithms, Data Mining and Knowledge Discovery, Vol. 8, 2004, pp. 275–300
Yue D., X. Wu, Y. Wang, Y. Li and C. Chu, A Review of Data Mining-based Financial Fraud Detection Research, International Conference on Wireless Communications, Networking and Mobile Computing, 2007, pp. 5519–5522
Zhang D. and L. Zhou, Discovering Golden Nuggets: Data Mining in Financial Application, IEEE Transactions on Systems, Man and Cybernetics, Vol. 34(4), 2004, pp.513-522
Zhou W., G. Kapoor, Detecting Evolutionary Financial Statement Fraud, Decision Support Systems, Vol. 50(3), 2011, pp. 570-576

موضوع: کاوش داده‌ها برای کشف تقلب

ابزارهای موضوع

نحوه نمایش موضوع

کاوش داده‌ها برای کشف تقلب

اطلاعات موضوع

کاربرانی که در حال مشاهده این موضوع هستند

کلمات کلیدی این موضوع

علاقه مندی ها (Bookmarks)

علاقه مندی ها (Bookmarks)

مجوز های ارسال و ویرایش