سهام جدید NewseventSsentiment (SNES) 1. 0: مجموعه داده سری زمانی برای اخبار مشترک و تجزیه و تحلیل داده های بازار سهام

ساخت وبلاگ

avatar

TL ؛ DR-ما یک مجموعه داده سری زمانی را برای شرکت های S& P 500 منتشر می کنیم که به داده های بازار-مانند قیمت سهام و حجم تجارت-با رویدادهای خبری و احساسات تقسیم شده از رسانه های مالی جهان با استفاده از NLP می پیوندند.

می توانید SNES v1. 0 را از اینجا مشاهده و بارگیری کنید.

معرفی

عناوین خبری و بازارها به روش های بی شماری تعامل دارند: از تفسیر تحلیلگر پیش بینی شده که بر احساسات اطراف سهام در بین معامله گران تأثیر می گذارد ، گرفته تا پوشش های بعدی از رویدادهای قابل توجه مانند انتشار محصول جدید یا گسترش کارخانه ، مدتهاست که اخبار شناخته شده استداده ها منبع غنی از اطلاعات است که می تواند به طور قابل توجهی در مدل سازی بهتر و درک بازارهای مالی و پویایی بازار نقش داشته باشد. با توجه به ماهیت مبتنی بر زمان وقایع بازار و داده های خبری ، تجزیه و تحلیل سری زمانی خود را به تجزیه و تحلیل چنین داده هایی قرض داده است.

داده های بازار مانند قیمت ها و حجم تجارت این روزها کالایی نسبتاً در دسترس است. این به لطف اکوسیستم بالغ از ارائه دهندگان داده ها و پردازنده های داده است که طی 10 تا 15 سال گذشته در فضای خدمات مالی توسعه یافته است.

داده های خبری از طرف دیگر ، به دست آوردن و مهمتر از همه برای مهار سخت تر است. بسیاری از فروشندگانی که داده های بازار را ارائه می دهند نیز فید خبری و عناوین خبری را ارائه می دهند. با این حال ، به منظور تقطیر داده های سری زمانی با کیفیت بالا از مقالات خبری که منعکس کننده وقایع و احساسات هستند ، پزشکان باید مدل های NLP با کیفیت بالا را توسعه داده و به کار گیرند ، که با توجه به سطح تخصص دامنه ، مهارت های فنی و داده های آموزش می تواند ماه ها یا سالها طول بکشد. ضروری.

اکنون ما در حال انتشار سهام جدید سهام (SNES) 1. 0 هستیم-یک مجموعه داده بزرگ متشکل از داده های روزانه و داده های سری زمانی خبری برای شرکت های S& P 500 در طی یک دوره 21 ماه (اکتبر 2020 تا ژوئیه 2022). علاوه بر احساسات خبری ، SNES رویدادهای زیر را که از اخبار در رابطه با هر شرکت استخراج شده است ، پوشش می دهد:

  • محصولات جدید
  • اخراج
  • نظرات تحلیلگر
  • سهام
  • سود سهام
  • درآمد شرکتی
  • ادغام و کسب
  • دهانه ها
  • محصول به یاد می آورد
  • عوارض جانبی
  • تغییر پرسنل
  • شایعات سهام

ما کد و روش تهیه این مجموعه داده را در پایین این مقاله به اشتراک می گذاریم.

بارگیری سهام جدید NewseventSentiment (SNES)

می توانید مجموعه داده را از Kaggle مشاهده و بارگیری کنید.

کاوش در مجموعه داده

SNES از دو پرونده تشکیل شده است:

1. SP500WIKI. CSV/SP500WIKI. PARQUET: لیست شرکت های S& P 500 از ژوئیه 2022 و ابرداده های مختلف در قالب جدولی.

2. data. csv/data. parquet: مجموعه داده اصلی حاوی قیمت سهام ، حجم تجارت ، رویدادهای خبری و احساسات خبری برای شرکت های S& P 500 در دوره اکتبر 2020-ژوئیه 2022.

در زیر ما چند تصویری را برای کمک به شما در درک بهتر از مجموعه داده SNES درج کرده ایم:

1. عکس فوری از 20 شرکت انتخاب شده به طور تصادفی و ویژگی های زیر: قیمت سهام ، حجم تجارت ، حجم اخبار ، اخبار منفی ، حوادث جانبی ، محصولات جدید و درآمد شرکت ها. توجه داشته باشید که منظم در رویدادهای درآمد شرکت (بیشتر ستون سمت راست) که مطابق با شهود است.

2. انواع رویداد و حجم توسط بخش صنعت GICS

3. انواع رویداد و حجم توسط زیر صنعت GICS

4- انواع رویداد و حجم برای 20 شرکت فناوری به طور تصادفی انتخاب شده

5. رویدادها به مرور زمان برای مایکروسافت (توجه داشته باشید که به طور منظم درآمد شرکت هایی که با شهود مطابقت دارد)

6. احساسات به مرور زمان برای مایکروسافت

7. قیمت سهام و حجم تجارت به مرور زمان برای مایکروسافت

8. داده های بازار و اخبار به مرور زمان برای مایکروسافت

روش شناسی جمع آوری داده ها

ما لیست شرکت های S& P 500 را از ویکی پدیا به منظور بازیابی لیست فعلی شرکت های S& P 500 و ویژگی هایی از قبیل صنعت GICS و زیر صنایع. ما از API SPARQL Wikidata برای بازیابی شناسه Wikidata برای هر شرکت در S& P 500 استفاده می کنیم. ما از بسته YFInance Python برای بازیابی قیمت سهام و حجم تجارت استفاده می کنیم. سرانجام ما از API خبری Aylien برای بازیابی داده های سری زمانی خبری برای هر دسته رویداد و مقادیر احساساتی مورد علاقه خود استفاده می کنیم.

می توانید کد مورد استفاده برای بازیابی SNE ها را در اینجا مشاهده کنید.

Alien News API را به صورت رایگان با ثبت نام در یک جلسه آزمایشی 14 روزه در اینجا امتحان کنید.

گزینه های باینری...
ما را در سایت گزینه های باینری دنبال می کنید

برچسب : نویسنده : سحر زکریا بازدید : 33 تاريخ : شنبه 21 مرداد 1402 ساعت: 12:54