【Python×データ分析】TwitterデータをMongoDBに保存できるようにする

こんにちは。最近は、SNSデータをもっと自由に分析できるようになりたいなぁということで関連した記事をよく書いていますが、今回もそのシリーズになります！

前回書いたTwitterデータの分析記事でご紹介した方法の発展形として、今回は、TwitterAPIで取得したデータをデータベースに逐次保存していけるような仕組みを作ってみようと思います。

テキストデータの管理に相性が良いMongoDBをローカルに構築した状態でPythonコードを書いていきます。

Contents

前提となるステップ

まず、PythonでTwitterデータを取得できるようになっていること。

【自然言語処理】PythonとTwitter APIでデータ分析

そして、ローカルにMongoDBがインストールされていること。

MacOS/WindowsでMongoDBをインストールして使えるようにするまで

TweetデータをMongoDBに保存する方法

参考にした記事

今回、以下の記事を参考にさせていただきました。

スタバのTwitterデータをpythonで大量に取得し、データ分析を試みるその１

「停電」に関するツイートをpythonで収集して、WordCloudで可視化してみた

PythonからMongoDBにアクセスするためのドライバをインストール

はじめに、PythonからMongoDBを操作するためのドライバをインストールしておきます。

conda install -c anaconda pymongo

ツイートを取得してMongoDBに保存するコード

以下が、コードになります。

何度もコードを実行することを想定して、2回目以降同じコードを実行した場合には、MongoDBに入っているツイートデータの最大IDを取得してきて、それよりも最新のデータのみを取得して保存するようにしました。

import pymongo
from pymongo import MongoClient
from collections import defaultdict

connect = MongoClient('localhost', 27017)
db = connect.tweetDB #データベース名
tweetdata = db.MachineLearning #ツイートデータを格納するコレクション(テーブル)名

def getTwitterData_DB(key_word, repeat):
    url = "https://api.twitter.com/1.1/search/tweets.json"
    params ={'q': key_word, 'count':'100','lang':'ja', 'result_type':'recent'}
    tweets = []
    mid = -1
    break_flag = 0
    
    ## MongoDBに保存されている最新のIDを取得（差分のみを取得）
    if tweetdata.count() == 0:
        max_id = -1
        print("a")
    else:
        max_id = tweetdata.aggregate([{'$sort': {'id': -1 }}, {'$limit': 1}]).next()["id"]
        print(max_id)
        
    for i in range(repeat):
        params['max_id'] = mid
        params['since_id'] = max_id
        res = twitter.get(url, params = params)
        if res.status_code == 200:
            sub_tweets = json.loads(res.text)['statuses']
            limit = res.headers['x-rate-limit-remaining'] if 'x-rate-limit-remaining' in res.headers else 0
#            print("API残接続可能回数：%s" % len(limit))            
            tweet_ids = []
            for tweet in sub_tweets:
                tweet_ids.append(int(tweet['id']))
                tweets.append(tweet)
                
                ## Mongo DBに保存
                tweetdata.insert(tweet)
                
            if len(tweet_ids) > 0:
                min_tweet_id = min(tweet_ids)
                mid = min_tweet_id - 1
            else:
                break_flag = 1
                break;
                
            ## 終了判定
            if break_flag == 1:
                break;
                
        else:
            print("Failed: %d" % res.status_code)
            break_flag = 1
            
    ## MongoDBに登録したツイートデータの日付更新
    for d in tweetdata.find():
        tweetdata.update({'_id' : d['_id']}, {'$set' : {'created_at_localized' : str_to_date_jp(d['created_at'])}})
    
    print("ツイート取得数：%s" % len(tweets))
        
    return tweets

# 文字列を日本時間2タイムゾーンを合わせた日付型で返す
def str_to_date_jp(str_date):
    dts = datetime.datetime.strptime(str_date,'%a %b %d %H:%M:%S +0000 %Y').replace(tzinfo=datetime.timezone.utc)
    dts = dts.astimezone(pytz.timezone('Asia/Tokyo'))
    return str(dts)

直近のpymongoバージョンでは、上のpymongoのいくつかの構文が廃止されて使えなくなっているようです。（insert、update、countなど）

insert() はinsert_many([]) or insert_one()、count()はcount_documents({})、update()はupdate_many or update_oneに変わっているので適宜変更ください。

“機械学習”を含むツイートを最大18000件(一度に取得できるツイート数のAPI側の制限)取得しにいきます。

tweets = getTwitterData_DB("機械学習", 180)

MongoDBに登録されたデータの確認

上記のコードを実行することでMongoDBにツイートが登録されたはずです。MongoDB CompassからDBの状態を確認してみます。

Pythonコード上で事前に指定しておいたデータベース名とコレクション名でデータが登録されていることが確認できました！

MongoDBからデータを抽出する方法

MongoDBに継続的にデータを貯められるようになったところで、最後に保存したデータを抽出してデータ分析に使える形にしようと思います。

これは簡単で以下のコードでDataFrame化してやれば良いです。下記は全件抽出時のコードなので、条件指定があればfind()の中に条件文を記載します。

df_tweet = pd.DataFrame(tweetdata.find())

以上、今回はMongoDBを使う仕組みの構築を行いました。

この仕組みを使った実際のテーマを定めたデータ分析はまた別の記事でご紹介できればと思います。

本日も最後までご覧いただきありがとうございました。参考になった！という方は下のいいねボタンを押していただけると励みになります！

おしまい

【Python×データ分析】TwitterデータをMongoDBに保存できるようにする

前提となるステップ

TweetデータをMongoDBに保存する方法

PythonからMongoDBにアクセスするためのドライバをインストール

ツイートを取得してMongoDBに保存するコード

MongoDBに登録されたデータの確認

MongoDBからデータを抽出する方法

関連

コメントを残す

Profile

Categories

yutaro013_scenery

Trending Posts

【2023年度最新版】Azure Administrator Associate資格 (AZ-104)を3日で取得した話。勉強方法は？取ってよかった？

【詳解】クライアント証明書認証を実装しながら理解する – 前編：概要～証明書作成編

【VSCodeで開発】コミットしようとしたら「Git の ‘user.name’ と ‘user.email’ を構成していることを確認してください」エラーが発生する

【自然言語処理】PythonとTwitter APIでデータ分析

【2023年最新版】Microsoft Cybersecurity Architect Expert資格 (SC-100)を1週間で取得した話。勉強方法は？取ってよかった？

【2023年最新版】Azure Solution Architect Expert資格 (AZ-305)を1週間で取得した話。勉強方法は？取ってよかった？

超便利＆簡単！VS Codeの設定を複数PC間で同期する

【機械学習】Scikit-Learnで交差検証(Cross-Validation)を一瞬で実装する【Python】

AzureのSAS（共有アクセス署名）を分かりやすく解説する

Azure Developer Associate資格(AZ-204)を10日間で取得した話。勉強方法は？取ってよかった？

Microsoft Power Platform Fundamental資格 (PL-900)を取得した話。勉強方法は？取ってよかった？

【Python×自然言語処理】テキストデータを極性辞書で感情分析してみる

【2023年最新版】Azureの認定資格を1ヶ月で全部とる。資格一覧と対策方法・体験記まとめ

Azure Data Fundamentals資格 (DP-900)を2日で取得した話。勉強方法は？取ってよかった？

【データ分析】MacOSで複数のPython/Anacondaバージョンを使い分ける方法【pyenv】

【機械学習】決定木モデルの変数重要度をわかりやすく解説する

CPU使用率とCPU時間について分かりやすく解説する

機械学習における転移学習とファインチューニング

Azure AI Fundamentals (AI-900)を2日で取得した話。勉強方法は？取ってよかった？

3日間集中勉強でAWSソリューションアーキテクトアソシエイト資格試験(SAA-C02)に合格した話

アーカイブ