gensim.models.Word2Vec()参数详解

model=gensim.models.Word2Vec(
	sentences=None, #分词语料
	
	corpus_file=None, 
	
	size=100, #size是神经网络层数,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。
	
	alpha=0.025, #学习率
	
	window=5, #句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)
	
	min_count=5,#min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。
	
    max_vocab_size=None, #max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
    
    sample=1e-3, #sample表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3,
    
    seed=1, #seed:用于随机数发生器。与初始化词向量有关。
    
    workers=3, #workers是线程数,此参数只有在安装了Cpython后才有效,否则只能使用单核
    
    min_alpha=0.0001,#随着训练的进行,学习率线性下降到min_alpha。
    
    sg=0, #sg=1是skip—gram算法,对低频词敏感,默认sg=0为CBOW算法
    
    hs=0, #hs=1表示层级softmax将会被使用,默认hs=0且negative不为0,则负采样将会被选择使用。
    
    negative=5, #negative: 如果>0,则会采用negativesamping,用于设置多少个noise words
    
    ns_exponent=0.75, #负采样分布指数。1.0样本值与频率成正比,0.0样本所有单词均等,负值更多地采样低频词。
    
    cbow_mean=1, #cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defaut)则采用均值。只有使用CBOW的时候才起作用。
    
    hashfxn=hash, #哈希函数用于随机初始化权重,以提高训练的可重复性。
    
    iter=5, #迭代次数
    
    null_word=0,
    
    trim_rule=None, #trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)
    
    sorted_vocab=1, #如果为1(defaut),则在分配word index 的时候会先对单词基于频率降序排序。
    
    batch_words=MAX_WORDS_IN_BATCH, #batch_words:每一批的传递给线程的单词的数量,默认为10000
    
    compute_loss=False, #如果为True,则计算并存储可使用get_latest_training_loss()检索的损失值。
    
    callbacks=(),#在训练中特定阶段执行回调序列。
    
    max_final_vocab=None#自动选择匹配的min_count将词汇限制为目标词汇大小。
    )

猜你喜欢

转载自blog.csdn.net/UZDW_/article/details/114374822