آموزش متن کاوی – بخش اول
مقدمه ای به اهمیت متن و متن کاوی
سازمان دهی دانش و متن کاوی، در بازیابی دقیق اطلاعات کاربرد بسیاری دارند. از این رو، متن کاوی می تواند کارکردهای بسیاری در بهبود سازمان دهی دانش داشته باشد. اگرچه متن کاوی، به ویژه در بخش یادگیری ماشینی و به دست آوردن اسناد و نمونه های آموزشی، نیازمند نظام های اصطلاح نامه، طبقه بندی، فهرست نویسی و نمایه سازی است، سازمان دهی برای تسریع کار خود، نیازمند فنون متن کاوی و نتیجه کارهای آن خواهد بود تا هم سرعت کار خویش را افزایش دهد و هم هزینه هایش را بکاهد. در این نوشتار، به کارکردهای متن کاوی در حوزه سازمان دهی دانش پرداخته خواهد شد.
ساختار اولیه متن
1️⃣ جملات یا رشته های ورودی ( در واقع جملات از یکسری کلمات تشکیل شده است)
پیدا کردن کلمات با ویژگی های خاص
1️⃣ اگر بخواهیم کلماتی که بیش از سه حرف داشته باشند رو، کلمات طولانی بنامیم. با استفاده از حلقه for و تابع len میتوانیم این کلمات رو از جمله فوق استخراج کنیم.
>>> [w for w in text2 if len(w)>3]
[‘Ethics’, ‘built’, ‘right’, ‘into’, ‘ideals’, ‘objectives’, ‘United’, ‘Nations.’]
▪️ همانطور که در نتیجه مشاهده میکنید تمام کلمات بیش از سه حرف هستند
2️⃣ معمولا در زبان انگلیسی حرف اول اسامی و یا اولین کلمه موجود در جمله با حروف بزرگ نوشته می شود. حالا اگر بخواهیم این کلمات را از جمله استخراج کنیم؛ تابع ()istitle در پایتون اینکار رو برامون انجام میده.
>>> [w for w in text2 if w.istitle()]
[‘Ethics’, ‘United’, ‘Nations.’]
▪️ تمام کلماتی که با کارکتر بزرگ شروع میگردند را نمایش داد.
3️⃣ در پایتون اگر بخواهیم کلماتی که به یک کارکتر خاص ختم می شوند رو نمایش بدهیم کافیه از تابع ()endswith استفاده کنیم. داخل پرانتز کارکتری که میخواهیم بهش ختم بشه رو وارد میکنیم. مثال زیر رو ببینید.
>>> [w for w in text2 if w.endswith(‘s’)]
[‘Ethics’, ‘ideals’, ‘objectives’]
▪️ نمایش تمام کلماتی که به s ختم می شوند
دیدگاهتان را بنویسید