Word_tokenize ट्विटर डेटा - पायथन, पायथन-3.x, nltk

मैं एक साधारण शब्द आवृत्ति उद्देश्य के लिए केवल अंग्रेजी शब्दों को टेक्स्ट फ़ाइल से बाहर निकालने की कोशिश कर रहा हूं। मैं सूची में अन्य तारों को कैसे फ़िल्टर कर सकता हूं?

from nltk.tokenize import word_tokenize
words = word_tokenize(message.replace("n"," "))

print(words)

इस तरह के आउटपुट देना:

["Amazon", "b", "maji_opai", "am\xcd\x9ca\xcd\x89zon\xe2\x80\xa6", "\xcb\x99\xea\x92\xb3\xe2\x80\x8b\xcb\x99", "Amazon", "b"RT", "WorkingGIrl", "For", "people", "love", "REAL", "paperbacks", "THE", "PARIS", "EFFECT", "10", "right", "https", "//", "https", "Amazon", "b"RT", "AbsentiaSeries", "ABSENTIA", "IS", "HERE", "\xf0\x9f\x91\x81", "\xf0\x9f\x91\x81", "\xf0\x9f\x91\x81", "\xf0\x9f\x91\x81", "\xf0\x9f\x91\x81", "US", "UK", "Australia", "Germany", "Ireland", "Italy", "Netherlands", "go", "https", "Amazon", "b"RT",

उत्तर:

जवाब के लिए 0 № 1

यदि आपके पास उन शब्दों की एक विशिष्ट सूची है जो आप ढूंढ रहे हैं, तो आप एक साधारण सूची समझ का उपयोग कर सकते हैं, जो इस तरह दिखेगा:

words = word_tokenize(message.replace("n"," "))
word_list = ["amazon", "b"]
filtered_words = [x for x in words if x in word_list]

यदि आप अक्सर पाइथन का उपयोग कर रहे हैं तो आपको सूची समझ में जाना चाहिए, यह बहुत कुछ आ जाएगा

सूची समझ कैसे काम करती है इसका स्पष्टीकरण?

http://www.pythonforbeginners.com/basics/list-comprehensions-in-python


जवाब के लिए 0 № 2

इसमें हाथ से तैयार किए गए ट्वीट टॉकेनाइज़र हैं nltk:

>>> from nltk.tokenize import TweetTokenizer
>>> tt = TweetTokenizer()
>>> tweet = "Thanks to the historic TAX CUTS that I signed into law, your paychecks are going way UP, your taxes are going way DOWN, and America is once again OPEN FOR BUSINESS! #FakeNews"
>>> tt.tokenize(tweet)
["Thanks", "to", "the", "historic", "TAX", "CUTS", "that", "I", "signed", "into", "law", ",", "your", "paychecks", "are", "going", "way", "UP", ",", "your", "taxes", "are", "going", "way", "DOWN", ",", "and", "America", "is", "once", "again", "OPEN", "FOR", "BUSINESS", "!", "#FakeNews"]

संबंधित सवाल
सबसे लोकप्रिय