api
استفاده از داده های رسانه اجتماعی توییتر در پایتون – مقدمه
مقدمه ای بر استفاده از داده های رسانه اجتماعی توییتر در پایتون
به اولین درس در مقدمه استفاده از داده های رسانه اجتماعی توییتر در ماژول پایتون خوش آمدید. از داده های رسانه های اجتماعی می توان برای پرداختن به بسیاری از مسائل و چالش های اجتماعی و زیست محیطی استفاده کرد. یاد بگیرید چگونه از داده های رسانه اجتماعی توییتر همراه با تکنیک های اساسی پردازش طبیعی زبان برای درک بهتر اثرات اجتماعی و ادراک اختلالات طبیعی و رویدادهای دیگر استفاده کنید.
داده های رسانه های اجتماعی در علوم
داده های رسانه های اجتماعی به طور معمول اطلاعات ایجاد شده و سازمان یافته توسط کاربران مجزا و جمع آوری شده توسط پلتفرم های عمومی را توصیف میکند. این پلتفرم های عمومی شامل شبکه های رسانه های اجتماعی مانند توییتر، فیس بوک، اسنپ چت و اینستاگرام و همچنین داده های منبع جمیعت از جمله “Yelp” و “Zillow” و غیره را در بر دارد.
داده های رسانه های اجتماعی می تواند منبع قدرتمندی از اطلاعات باشد با توجه به اینکه می تواند چشم اندازی نزدیک به زمان واقعی در هر دو فرآیند اجتماعی مانند سیاست، رویداد های روز جاری و فرآیند های طبیعی از جمله رویداد های آب و هوایی (گردباد، بارش باران، برف)، اختلالات (سیل و دیگر بلا های طبیعی)، و موارد دیگر ارائه دهد.
- متن غیر استاندارد: از آنجا که داده های رسانه های اجتماعی اغلب ترکیبی از متن، گرافیک و ویدئو هستند، پاکسازی داده قابل توجهی در این امر درگیر است. اغلب، شما نیاز به یافتن اطلاعات در مورد موضوعی در قالب متن غیر استاندارد دارید؛ برخی از کلمات ممکن است با حروف بزرگ نوشته شوند، ممکن است از اختصارات استفاده شود، علائم نگارشی و حتی ایموجی ها (شکلک ها) همگی باید هنگام کار با متن در نظر گرفته شوند.
- متن کاوی: متن کاوی فرآیند بررسی بخش هایی از متن برای انجام تحلیل کمی است. بیرون کشیدن اطلاعات مفید از بخش هایی از متن غیر استاندارد، علم خود را دارد.
- غیر استاندارد بودن یا فقدان اطلاعات موقعیت های جغرافیایی ثابت: همه رسانه های اجتماعی از نظر مکانی (جغرافیایی) واقع نشده اند. بنابراین تشخیص اینکه داده ها از کجا می آیند اغلب دشوار است. گاهی ممکن است برخی از اطلاعات مکان جغرافیایی را در قالب های متن غیر استاندارد داشته باشید؛ به عنوان مثال کلرادو (Colorado) ممکن است در اشکال: CO یا Co یا Colorado یا COLORADO یا Boulder, Colorado باشد.
- حجم داده بزرگ: در نمونه هایی که در این کلاس استفاده خواهید کرد، فقط با تعداد کمی توییت ( 18000 حداکثر عددی است که می توانید در یک زمان از توییتر درخواست کنید). با این حال، در واقعیت، جمع آوری توییت ها می تواند منجر به میلیاردها رکورد شود که باید آنها را طبقه بندی کنید. این می تواند یک چالش بزرگ داده ای باشد.
- محدودیت های API یا رابط برنامه نویسی نرم افزار: اگر بتوانید همه موارد بالا را طبقه بندی کنید، گاهی اوقات ممکن است با چالش جمع آوری داده رو برو شوید. اکثر API ها به کاربران اجازه دانلود همه چیز را نمی دهند. در مورد توییتر، دسترسی شما محدود به داده های تاریخی 6-9 روز اخیر و 18000 توییت در هر تماس API و همچنین تا 100 درخواست در هر ساعت و در هر حساب می باشد. این بدان معنی است که شما باید به طور استراتژیک در مورد داده هایی که نیاز دارید و کاری که برای بدست آوردن آن باید انجام دهید فکر کنید. این ممکن است به معنای فکر کردن قبل از شروع تلاش برای جمع آوری یک جریان داده باشد؛ برای مثال زمانی که یک رویداد خاص (مثلاً انتخابات یا یک رویداد سیل) شروع می شود.
توییتر
این هفته، استفاده از توییتر را به عنوان منبعی از اطلاعات برای درک بهتر اثرات آّب و هوا و رویداد های نا آرام بر مردم بررسی خواهیم کرد.
توییتر یک سرویس خبری آنلاین و شبکه اجتماعی است که کاربران در آن پست به اشتراک می گذارند و توسط پیام ها یا “توییت ها”، که به 140 کاراکتر محدود شده است، ارتباط برقرار میکنند. کاربران ثبت نام شده می توانند توییت ارسال کنند، ولی کسانی که ثبت نشده هستند فقط می توانند آنها را بخوانند. – منبع: ویکی پدیا
بسیاری از مردم از توییتر برای بحث در مورد موضوعات مرتبط استفاده می کنند. این موضوعات ممکن است به هر چیزی که مورد علاقه کسانی که در توییتر پست می کنند مرتبط باشد و ممکن است شامل: علوم، علم داده، محاسبات، ورزش، سیاست، آب و هوا، اخبار، رسانه ها و موارد دیگر باشد.
چرا از توییتر استفاده کنیم؟
دلایل زیادی وجود دارد که چرا از توییتر به عنوان منبعی برای اطلاعات مرتبط با نا آرامی ها استفاده می شود از جمله:
- داده ها از منابع مختلط: هرکسی می تواند از توییتر استفاده کند و بنابراین منابع اطلاعاتی می تواند شامل رسانه ها، افراد، مقامات رسمی و غیره باشد. منابع اطلاعاتی مختلط اطلاعات جامع تری از چشم انداز تأثیر های یک رویداد خاص و اقدامات انجام شده برای مقابله با آن رویداد ارائه دهد.
- محتوای تعبیه شده: توییتر به کاربران اجازه می دهد تا تصاویر، فیلم ها و موارد دیگر را برای ثبت عناصر مختلف یک اختلال هم از نظر بصری و هم از نظر کمی تعبیه کنند.
- پوشش فوری: توییتر به کاربران اجازه می دهد تا بی وقفه و مستقیماً هم زمان با رویداد جاری ارتباط برقرار کنند. بنابراین، گزارش ها در مورد اتفاق هایی که طی یک رویداد جاری می افتند، میتواند باعث آشکار شدن حادثه شوند.
ساختار یک توییت:
اجزای مختلفی از یک توییت وجود دارد که می توانید از آنها برای استخراج اطلاعات استفاده کنید:
نام کاربری: به این ترتیب هر کاربر مجزا شناسایی می شود.
برچسب زمانی: زمانی که توییت ارسال شده است.
متن توییت: بدنه توییت – باید 140 کاراکتر کمتر باشد!
هشتگ: همیشه با نماد “#” آغاز میشود. هشتگ اغلب یک رویداد خاص را توصیف میکند یا میتواند مربوط به موضوع خاصی باشد. با این روش کاربران میتوانند با یک گروه خاص در توییتر ارتباط برقرار کنند – برای مثال افرادی که در کنفرانس #agu2016 یا #rstats شرکت میکنند.
پیوند ها (Links): پیوند ها میتوانند در یک توییت تعبیه شوند. پیوند ها راهی هستند که کاربران اطلاعات را توسط آن ها به اشتراک می گذارند.
رسانه های تعبیه شده: توییتها میتوانند حاوی تصاویر و ویدیوها باشند. محبوب ترین توییت ها اغلب حاوی تصاویر هستند.
پاسخ ها (Replies): هنگامی که فردی یک توییت پست می کند، کاربر دیگری می تواند مستقیماً به آن کاربر پاسخ دهد – شبیه متن یک پیام به استثنای اینکه پیام برای عموم قابل مشاهده است.
بازنشر توییت های دیگران (Retweet): یک retweet زمانی اتفاق می افتد که کسی یک توییت را با دنبال کننده های خود به اشتراک می گذارد.
مورد علاقه ها (Favorites): شما میتوانید با “Like” کردن ( به عبارتی دیگر افزودن به لیست علاقه مندی ها) یک توییت، آن را در تاریخچه محتوایی که دوست دارید در حساب خود نگه دارید.
عرض جغرافیایی/ طول جغرافیایی: حدود ۱٪ از کل توییت ها حاوی اطلاعات مختصات هستند.
نام های کاربری توییتر
حسابهای توییتر با نامهای کاربری منحصر به فرد سازماندهی میشوند. هنگامی که برای یک حساب کاربری ثبت نام می کنید، یک نام کاربری ایجاد میکنید که از طریق آن جامعه توییتر شما را می بیند. سپس فردی میتواند با استفاده از ترکیب “@username” توییتی را در توییتر به شما ارسال کند.
هشتگ ها: دادههای توییتر یا توییت ها به طور آزادانه حول هشتگها سازمان دهی میشوند. برای سازماندهی توییت ها می توان از هشتگ ها بر اساس موضوع، رویداد یا حتی برند استفاده کرد. برخی از هشتگ های محبوب که اغلب مورد استفاده و شناخته هستند؛ از جمله:
علوم: علوم مرتبط با همه زمینه ها
پایتون: هشتگ محبوب برای بحث های مربوط به زبان برنامه نویسی پایتون
علم داده: برای موضوع های مرتبط با علم داده
هر کسی می تواند یک هشتگ ایجاد کند، بنابراین گاهی اوقات هشتگ ها تکامل می یابند.
به عنوان مثال، سیل بزرگی در کلرادو در سال 2013 رخ داد که شهر بولدر را تحت تأثیر قرار داد، برخی از مردم هشتگ “#BoulderFlood” را استفاده کردند. علی رغم این، هشتگ های دیگری نیز در این مدت برای ایجاد مجموعه ای از داده هایی از توییت ها که چالش سیل را توصیف میکنند مورد استفاده قرار گرفتند!
دسترسی به توییت ها توسط Twitter REST API
توییتر یک API دارد که به ما امکان می دهد به توییت های همه دسترسی داشته باشیم. این API محدودیت های خاصی دارد؛ از جمله:
- شما فقط می توانید به توییت های 6-9 روز گذشته دسترسی داشته باشید: این بدان معنی است که لازم است از قبل فکر کنید اگر می خواهید برای یک رویداد خاص توییت جمع آوری کنید.
- شما فقط می توانید 18000 توییت را در یک تماس درخواست کنید: شما می توانید توییت ها را توسط پروتکل های جاری پیدا و جمع آوری کنید، با این حال محدودیت هایی برای مقدار جمع آوری داده ها وجود دارد!
دسترسی به داده های توییتر در پایتون
خوشبختانه برای ما، چندین بسته پایتون وجود دارد که می توان از آنها برای جمع آوری توییت ها از Twitter API.
این بسته شامل:
Python – twitter
tweepy
چندین بسته پایتون دیگر به مانند بسته های موجود برای زبان های برنامه نویسی دیگر برای دسترسی به توییتر API در اسناد توسعه دهنده توییتر توصیه میشود. در این دوره، شما به طور عمده با “tweepy” کار میکنید.
متن کاوی و پاک سازی در پایتون
بسته های متعددی برای مواجه با پردازش زبان طبیعی یا غیراستاندارد، بلوک های بزرگ متن در پایتون وجود دارد. بسته های “nltk” یا “re” به طور متداول استفاده می شوند.
دیدگاهتان را بنویسید