## Cosine distance between sparse matrices

0 ### проблема

русский

Я пытаюсь понять, как использовать <код> csr_matrix API вместе с его <код> cosine функционал, и я работаю в <код> dimension mismatch ,

У меня есть следующие два (3,3) матрицы:

` <код> a = scipy.sparse.csr_matrix(np.reshape(np.arange(9), (3,3))) b = scipy.sparse.csr_matrix(np.reshape(np.arange(9)*2+5, (3,3)))   `

И я хочу вычислить косинный сходство (или расстояние в косинуре) из <Код> a и <код> b a-la <код> cosine(a, b) .

Если я распечатаю размеры <код> a, b i get:

` <код> (<1x3 sparse matrix of type '<class 'numpy.int64'>'     with 2 stored elements in Compressed Sparse Row format>,  <1x3 sparse matrix of type '<class 'numpy.int64'>'     with 3 stored elements in Compressed Sparse Row format>)   `

Так что их размерные матчи. Но пытаясь <код> cosine(a, b) приводит к результатам <код> cosine0 . Любые идеи почему?

I'm trying to understand how to use the `csr_matrix` API along with its `cosine` functionality, and I'm running into `dimension mismatch` issues.

I have the following two (3,3) matrices:

``a = scipy.sparse.csr_matrix(np.reshape(np.arange(9), (3,3))) b = scipy.sparse.csr_matrix(np.reshape(np.arange(9)*2+5, (3,3))) ``

And I want to compute the cosine similarity (or cosine distance) from `a` and `b` a-la `cosine(a, b)`.

If I print out the dimensions of `a, b` I get:

``(<1x3 sparse matrix of type '<class 'numpy.int64'>'     with 2 stored elements in Compressed Sparse Row format>,  <1x3 sparse matrix of type '<class 'numpy.int64'>'     with 3 stored elements in Compressed Sparse Row format>) ``

So their dimension matches. But trying `cosine(a, b)` results in `ValueError: dimension mismatch`. Any ideas why?

Так что проблема в том, что numpy.dot () не знает о редких матрицах, на каждый здесь: http://docs.cscipy.org/doc/scipy/Reence/sparse.html

Когда я бегу

` <код> >>> scipy.spatial.distance.cosine(a, b) Traceback (most recent call last):   File "<stdin>", line 1, in <module>   File "/usr/lib64/python2.6/site-packages/scipy/spatial/distance.py", line 303, in cosine     return (1.0 - (np.dot(u, v.T) /    File "/usr/lib64/python2.6/site-packages/scipy/sparse/base.py", line 287, in __mul__     raise ValueError('dimension mismatch') ValueError: dimension mismatch   `

Ошибка находится в NP.dot (), которая не понимает объект CSR_Matrix, который был передан как аргумент. Это может быть исправлено:

` <код> >>> scipy.spatial.distance.cosine(a.toarray(), b.toarray()) array([[ 0.10197349]])   `

Очевидно, не тот ответ, который вы искали, преобразовавшись в плотный массив, вы потеряете преимущества производительности, но, по крайней мере, это то, что вызывает вашу проблему.

So the problem is that numpy.dot() is not aware of sparse matrices, per here: http://docs.scipy.org/doc/scipy/reference/sparse.html

When I run

``>>> scipy.spatial.distance.cosine(a, b) Traceback (most recent call last):   File "<stdin>", line 1, in <module>   File "/usr/lib64/python2.6/site-packages/scipy/spatial/distance.py", line 303, in cosine     return (1.0 - (np.dot(u, v.T) /    File "/usr/lib64/python2.6/site-packages/scipy/sparse/base.py", line 287, in __mul__     raise ValueError('dimension mismatch') ValueError: dimension mismatch ``

The error is in np.dot(), which doesn't understand the csr_matrix object that has been passed as an argument. This can be fixed by:

``>>> scipy.spatial.distance.cosine(a.toarray(), b.toarray()) array([[ 0.10197349]]) ``

Obviously not the answer you were looking for, by converting to a dense array you lose the performance advantages, but at least that is what is causing your problem.

