<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="research-article" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Economics and Mathematical Methods</journal-id><journal-title-group><journal-title xml:lang="en">Economics and Mathematical Methods</journal-title><trans-title-group xml:lang="ru"><trans-title>Экономика и математические методы</trans-title></trans-title-group></journal-title-group><issn publication-format="print">0424-7388</issn><issn publication-format="electronic">3034-6177</issn><publisher><publisher-name xml:lang="en">The Russian Academy of Sciences</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">682158</article-id><article-id pub-id-type="doi">10.31857/S0424738825010039</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>Theoretical and methodological problems</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Теоретические и методологические проблемы</subject></subj-group><subj-group subj-group-type="article-type"><subject>Research Article</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Common mistakes in using machine learning when forecasting events and a new approach based on models of the event formation mechanisms</article-title><trans-title-group xml:lang="ru"><trans-title>Распространенные ошибки использования машинного обучения при прогнозировании событий и новый подход на основе моделей механизмов образования событий</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Korablev</surname><given-names>Yu. A.</given-names></name><name xml:lang="ru"><surname>Кораблев</surname><given-names>Ю. А.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><email>yura-korablyov@yandex.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Sudakov</surname><given-names>V. A.</given-names></name><name xml:lang="ru"><surname>Судаков</surname><given-names>В. А.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><email>sudakov@ws-dss.com</email><xref ref-type="aff" rid="aff2"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">Financial University under the Government of the Russian Federation</institution></aff><aff><institution xml:lang="ru">Финансовый университет при Правительстве Российской Федерации (Финуниверситет)</institution></aff></aff-alternatives><aff-alternatives id="aff2"><aff><institution xml:lang="en">Keldysh Institute of Applied Mathematics of Russian Academy of Sciences (KIAM RAS)</institution></aff><aff><institution xml:lang="ru">Федеральный исследовательский центр «Институт прикладной математики им. М. В. Келдыша» РАН</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2025-04-16" publication-format="electronic"><day>16</day><month>04</month><year>2025</year></pub-date><volume>61</volume><issue>1</issue><fpage>25</fpage><lpage>37</lpage><history><date date-type="received" iso-8601-date="2025-06-03"><day>03</day><month>06</month><year>2025</year></date></history><permissions><copyright-statement xml:lang="en">Copyright ©; 2025, Russian Academy of Sciences</copyright-statement><copyright-statement xml:lang="ru">Copyright ©; 2025, Российская академия наук</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="en">Russian Academy of Sciences</copyright-holder><copyright-holder xml:lang="ru">Российская академия наук</copyright-holder></permissions><self-uri xlink:href="https://journals.eco-vector.com/0424-7388/article/view/682158">https://journals.eco-vector.com/0424-7388/article/view/682158</self-uri><abstract xml:lang="en"><p>The main mistakes made by researchers when predicting events using models based on machine learning are discussed. Such errors are: loss of events themselves, due to the construction of abstract features; models are trained on customers rather than events from customers; construction of artificial features; incorrect validation and erroneous model quality metrics; and static parameters are used. An analysis of the mistakes made in one example from Kaggle is provided. The area under the ROC curve for this example is very high — 0.88, but this quality metric is calculated incorrectly. After correcting all errors, the correct metric turned out to be 0.599. A different approach to analyzing and predicting events is presented, which differs significantly from classical machine learning methods. The method is based on consideration of individual mechanisms of event formation for each client. Mechanism models are being built. Using mathematical methods, the parameters of the models of these event formation mechanisms are restored. Parameters are extrapolated to the future. The forecast of a future event is obtained as a result of the functioning of the mechanism model with established parameter values. The model quality metric, the area under the ROC curve, turned out to be 0.615, which is slightly higher than in the Kaggle example, based on machine learning. Thereby, it is shown that the proposed approach is competitive to advanced machine learning techniques.</p></abstract><trans-abstract xml:lang="ru"><p>Обсуждаются распространенные ошибки, допускаемые исследователями при прогнозировании событий с помощью моделей на основе машинного обучения. Такими ошибками являются: потеря самих событий, вследствие конструирования абстрактных признаков; обучение моделей происходит по клиентам, а не по событиям от клиентов; конструирование искусственных признаков; неправильная валидация и ошибочные метрики качества модели; используются статичные параметры. Приведен разбор совершенных ошибок одного примера с Kaggle. Площадь под ROC-кривой у такого примера очень высокая — 0,88. Однако эта метрика качества рассчитана некорректно. После исправления всех ошибок корректная метрика оказалась 0,599. Представлен иной подход к анализу и прогнозированию событий, который значительно отличается от классических методов машинного обучения. Метод основан на рассмотрении индивидуальных механизмов образования событий для каждого клиента. Строятся модели таких механизмов. Математическими методами восстанавливаются параметры моделей этих механизмов образования событий. Параметры экстраполируются на будущее. Прогноз будущего события получается в результате функционирования модели механизма с установленными значениями параметров. Метрика качества модели, площадь под кривой ROC, составила 0,615, что немного больше, чем в рассматриваемом примере с Kaggle, основанном на машинном обучении. Тем самым показано, что предложенный подход является конкурентным для передовых методов машинного обучения.</p></trans-abstract><kwd-group xml:lang="en"><kwd>event analysis</kwd><kwd>event forecast</kwd><kwd>machine learning</kwd><kwd>model errors</kwd><kwd>mechanism of event formation</kwd><kwd>parameter recovery</kwd><kwd>spline collocation</kwd><kwd>smoothing spline</kwd><kwd>monotonic spline</kwd><kwd>forecast quality</kwd><kwd>validation</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>анализ событий</kwd><kwd>прогноз событий</kwd><kwd>машинное обучение</kwd><kwd>ошибки моделей</kwd><kwd>механизм образования событий</kwd><kwd>восстановление параметров</kwd><kwd>сплайновая коллокация</kwd><kwd>сглаживающий сплайн</kwd><kwd>монотонный сплайн</kwd><kwd>качество прогноза</kwd><kwd>валидация</kwd></kwd-group><funding-group/></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><mixed-citation>Ехлаков Р. С., Судаков В. А. (2022). Прогнозирование стоимости котировок при помощи LSTM и GRU сетей // Препринты ИПМ им. М. В. Келдыша. № 17. 13 с. DOI: 10.20948/prepr-2022-17 [Ekhlakov R. S., Sudakov V. A. (2022). Forecasting the cost of quotes using LSTM &amp; GRU networks. Preprints of IAM after M. V. Keldysh, 17. 13 p. (in Russian).]</mixed-citation></ref><ref id="B2"><label>2.</label><mixed-citation>Кораблев Ю. А. (2022). Об одном алгоритме восстановления функции по разным функционалам для прогнозирования редких событий в экономике // Финансы: теория и практика. № 3 (26). С. 196–225. DOI: 10.26794/2587-5671-2022-26-3-196-225 [Korablev Yu.A. (2022). An algorithm for restoring a function from different functionals for predicting rare events in the economy. Finance: Theory and Practice, 3 (26), 196–225 (in Russian).]</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>Кораблев Ю. А. (2023). Емкостный метод анализа и прогнозирования редких событий в экономике: монография. М.: РУСАЙНС. 296 с. ISBN: 978-5-466-04159 [Korablev Yu.A. (2023). Capacity method of analysis and forecasting of rare events in the economy. Moscow: RUSCIENS. 256 p. (in Russian).]</mixed-citation></ref><ref id="B4"><label>4.</label><mixed-citation>Craven P., Wahba G. (1978). Smoothing noisy data with spline functions — estimating the correct degree of smoothing by the method of generalized cross-validation. Numerische Mathematik, 31 (4), 377–403. DOI: 10.1007/BF01404567</mixed-citation></ref><ref id="B5"><label>5.</label><mixed-citation>Friedman J. (1999). Greedy function approximation: A gradient boosting machine. Technical Report. Deptartment of Statistics. Stanford University.</mixed-citation></ref><ref id="B6"><label>6.</label><mixed-citation>Friedman J. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 5 (29), 1189–1232. DOI: 10.1214/aos/1013203451</mixed-citation></ref><ref id="B7"><label>7.</label><mixed-citation>Golub G. H., Heath M., Wahba G. (1979). Generalized cross-validation as a method for choosing a good ridge parameter. Technometrics, 21 (2), 215–223. DOI: 10.1080/00401706.1979.10489751</mixed-citation></ref><ref id="B8"><label>8.</label><mixed-citation>Hansen P. C. (1992). Analysis of discrete ill-posed problems by means of the L-curve. SIAM Review, 34 (4), 561–580. DOI: 10.1137/1034115</mixed-citation></ref><ref id="B9"><label>9.</label><mixed-citation>Hansen P. C. (2001). The L-curve and its use in the numerical treatment of inverse problems. In: P. Johnston (ed.). Computational inverse problems in electrocardiology. Advances in Computational Bioengineering. Southampton: WIT Press.</mixed-citation></ref><ref id="B10"><label>10.</label><mixed-citation>Korablev Yu.A. (2022). Restoration of function by integrals with cubic integral smoothing spline in R. ACM Transactions on Mathematical Software, 48 (2), 1–17. DOI: 10.1145/3519384 ISSN: 0098-3500</mixed-citation></ref><ref id="B11"><label>11.</label><mixed-citation>Nagesh S. C. (2022). Predict customers probable purchase. Kaggle. Available at: https://www.kaggle.com/code/nageshsingh/predict-customers-probable-purchase</mixed-citation></ref><ref id="B12"><label>12.</label><mixed-citation>Nelder J. A., Mead R. (1965). A simplex method for function minimization. The Computer Journal, 4 (7), 308–313. DOI: 10.1093/comjnl/7.4.308</mixed-citation></ref><ref id="B13"><label>13.</label><mixed-citation>Quinn B. G., Fernandes J. M. (1991). A fast efficient technique for the estimation of frequency. Biometrika, 3 (78), 489–497.</mixed-citation></ref><ref id="B14"><label>14.</label><mixed-citation>Quinn B. G., Hannan E. J. (2001). The estimation and tracking of frequency. Cambridge: Cambridge University Press. 278 p.</mixed-citation></ref></ref-list></back></article>
