[파이썬] 신문기사의 글을 불러와서 가장 많은 빈도수의 단어를 추출하는 기능

최대 1 분 소요

#01 Wordcounter.py – 신문기사의 글을 불러와서 가장 많은 빈도수의 단어를 추출하는 기능

import collections
#디렉토리 이름을 주면, 그 디렉토리에 포함된 모든 파일명의 리스트를 얻어옵니다
def search(filelist, dirname):
	filenames = os.listdir(dirname)
	for filename in filenames:
		full_filename = os.path.join(dirname, filename)
		filelist.append(full_filename)

filelist = [] #모든 파일의 리스트

#Counter를 생성ct = collections.Counter()

search(filelist,"data")
for name in filelist:
	f = open(name, 'r')
	lines = f.readlines()
	for line in lines:
		data_t = line.strip('\n').replace("'","").replace('"','').split(" ")
		if len(data_t[0]) == 0 : continue #첫번째 리스트 엘리먼트의 길이가 0이면 노이즈로 간주하고 제거
		ct.update(data_t)
	f.close()
	
ct.most_common(20)
 
---
결과
[('임상', 36),
('코로나19', 25),
('회장은', 20),
('서', 17),
('항체치료제', 13),
('치료제', 13),
('말했다.', 12),
('치료제를', 10),
('수', 9),
('밝혔다.', 9),
('항체', 9),
('있는', 8),
('▶', 8),
('생산에', 8),
('한', 7),
('개발', 7),
('대상으로', 7),
('등', 7),
('서정진', 6),
('셀트리온이', 6)]

태그: ,

카테고리:

업데이트: